Delen via


Aangepaste Spark-pools maken in Microsoft Fabric

In dit artikel leest u hoe u aangepaste Apache Spark-pools maakt in Microsoft Fabric voor uw analyseworkloads. Met Apache Spark-pools kunt u op maat gemaakte rekenomgevingen maken op basis van uw vereisten, zodat u optimale prestaties en resourcegebruik krijgt.

Geef het minimum en maximum aantal knooppunten op voor automatisch schalen. Het systeem krijgt en verwijdert knooppunten naarmate de computationele behoeften van uw taak veranderen, zodat het schalen efficiënt is en de prestaties verbeteren. Spark-pools passen het aantal uitvoerders automatisch aan, dus u hoeft ze niet handmatig in te stellen. Het systeem wijzigt het aantal uitvoerders op basis van de behoeften van gegevensvolume en taakverwerking, zodat u zich kunt richten op uw workloads in plaats van het afstemmen van prestaties en het beheer van middelen.

Aanbeveling

Wanneer u Spark-pools configureert, wordt de knooppuntgrootte bepaald door capaciteitseenheden (CU) die de rekencapaciteit vertegenwoordigen die aan elk knooppunt is toegewezen. Zie de sectie Opties voor knooppuntgrootten in deze handleiding voor meer informatie over knooppuntgrootten en CU.

Vereiste voorwaarden

Als u een aangepaste Spark-pool wilt maken, moet u beheerderstoegang tot de werkruimte hebben. De capaciteitsbeheerder schakelt de optie Aangepaste werkruimtegroepen in de sectie Spark Compute van instellingen voor capaciteitsbeheerder in. Zie Spark Compute-instellingen voor Fabriccapaciteiten voor meer informatie.

Aangepaste Spark-pools maken

De Spark-pool maken of beheren die is gekoppeld aan uw werkruimte:

  1. Ga naar uw werkruimte en selecteer werkruimte-instellingen.

  2. Selecteer de optie Data Engineering/Science om het menu uit te vouwen en selecteer vervolgens Spark-instellingen.

    schermopname van de detailweergave van Spark-instellingen.

  3. Selecteer de optie Nieuwe pool. Geef uw Spark-pool een naam op het scherm Pool maken. Kies ook de Node-familieen selecteer een Knooppuntgrootte uit de beschikbare grootten (Klein, Gemiddeld, Grote, X-Groteen XX-Groot-) op basis van de rekenvereisten voor uw workloads.

    Schermopname met opties voor het maken van aangepaste pools.

  4. U kunt de minimale knooppuntconfiguratie voor uw aangepaste pools instellen op 1. Omdat Fabric Spark een herstelbare beschikbaarheid biedt voor clusters met één knooppunt, hoeft u zich geen zorgen te maken over taakfouten, verlies van sessie tijdens storingen of over het betalen van rekenkracht voor kleinere Spark-taken.

  5. U kunt automatische schaalaanpassing voor uw aangepaste Spark-pools in- of uitschakelen. Wanneer automatisch schalen is ingeschakeld, verkrijgt de pool dynamisch nieuwe knooppunten tot de maximale knooppuntlimiet die door de gebruiker is opgegeven en wordt deze vervolgens buiten gebruik gesteld nadat de taak is uitgevoerd. Deze functie zorgt voor betere prestaties door resources aan te passen op basis van de taakvereisten. U kunt de grootte van de knooppunten instellen, die binnen de capaciteitseenheden passen die zijn aangeschaft als onderdeel van de Fabric-capaciteits-SKU.

    Schermopname met opties voor het maken van aangepaste pools voor automatisch schalen en dynamische toewijzing.

  6. U kunt het aantal uitvoerders aanpassen met behulp van een schuifregelaar. Elke uitvoerder is een Spark-proces waarmee taken worden uitgevoerd en gegevens in het geheugen worden opgeslagen. Het verhogen van uitvoerders kan parallellisme verbeteren, maar verhoogt ook de grootte en opstarttijd van het cluster. U kunt er ook voor kiezen om dynamische uitvoerdertoewijzing in te schakelen voor uw Spark-pool, waarmee automatisch het optimale aantal uitvoerders binnen de door de gebruiker opgegeven maximumgrens wordt bepaald. Met deze functie wordt het aantal uitvoerders aangepast op basis van het gegevensvolume, wat resulteert in verbeterde prestaties en resourcegebruik.

Deze aangepaste pools hebben een standaard autopauseperiode van 2 minuten. Zodra de duur van de automatische pauze is bereikt, verloopt de sessie en worden de clusters vrijgegeven. Er worden kosten in rekening gebracht op basis van het aantal knooppunten en de duur waarvoor de aangepaste Spark-pools worden gebruikt.

Opties voor knooppuntgrootte

Wanneer u een aangepaste Spark-pool instelt, kiest u uit de volgende knooppuntgrootten:

Grootte van knooppunt Capaciteitseenheden (CU) Geheugen (Gigabyte) Beschrijving
Klein 4 32 Voor lichtgewicht ontwikkel- en testtaken.
Gemiddeld 8 64 Voor algemene workloads en typische operaties.
Groot 16 128 Voor geheugenintensieve taken of grote gegevensverwerkingstaken.
X-groot 32 256 Voor de meest veeleisende Spark-workloads die belangrijke resources nodig hebben.

Notitie

Een capaciteitseenheid (CU) in Microsoft Fabric Spark-pools vertegenwoordigt de rekencapaciteit die aan elk knooppunt is toegewezen, niet het werkelijke verbruik. Capaciteitseenheden verschillen van VCore (Virtual Core), die wordt gebruikt in Azure-resources op basis van SQL. CU is de standaardterm voor Spark-pools in Fabric, terwijl VCore gebruikelijker is voor SQL-pools. Wanneer u de grootte van knooppunten wijzigt, gebruikt u CU om de toegewezen capaciteit voor uw Spark-workloads te bepalen.