Een Spark-cluster maken

Voltooid

U kunt een of meer clusters maken in uw Azure Databricks-werkruimte met behulp van de gebruikersinterface van de Azure Databricks-werkruimte.

Schermopname van de interface Cluster maken in de gebruikersinterface van de Azure Databricks-werkruimte.

Wanneer u het cluster maakt, kunt u configuratie-instellingen opgeven, waaronder:

  • Een naam voor het cluster.
  • Een clustermodus, die kan zijn:
    • Standaard: geschikt voor workloads van één gebruiker waarvoor meerdere werkknooppunten zijn vereist.
    • Hoge gelijktijdigheid: geschikt voor workloads waarbij meerdere gebruikers het cluster gelijktijdig gebruiken.
    • Eén knooppunt: geschikt voor kleine workloads of tests, waarbij slechts één werkknooppunt is vereist.
  • De versie van de Databricks Runtime die in het cluster moet worden gebruikt; waarmee de versie van Spark en afzonderlijke onderdelen, zoals Python, Scala en andere onderdelen, worden geïnstalleerd.
  • Het type virtuele machine (VM) dat wordt gebruikt voor de werkknooppunten in het cluster.
  • Het minimum- en maximum aantal werkknooppunten in het cluster.
  • Het type VM dat wordt gebruikt voor het stuurprogrammaknooppunt in het cluster.
  • Of het cluster ondersteuning biedt voor automatisch schalen om het formaat van het cluster dynamisch te wijzigen.
  • Hoe lang het cluster inactief kan blijven voordat het automatisch wordt afgesloten.

Hoe Azure clusterbronnen beheert

Wanneer u een Azure Databricks-werkruimte maakt, wordt een Databricks-apparaat geïmplementeerd als een Azure-resource in uw abonnement. Wanneer u een cluster in de werkruimte maakt, geeft u de typen en grootten op van de virtuele machines (VM's) die moeten worden gebruikt voor zowel het stuurprogramma als de werkrolknooppunten, en enkele andere configuratieopties, maar Azure Databricks beheert alle andere aspecten van het cluster.

Het Databricks-apparaat wordt in Azure geïmplementeerd als een beheerde resourcegroep binnen uw abonnement. Deze resourcegroep bevat de stuurprogramma- en werkrol-VM's voor uw clusters, samen met andere vereiste resources, waaronder een virtueel netwerk, een beveiligingsgroep en een opslagaccount. Alle metagegevens voor uw cluster, zoals geplande taken, worden opgeslagen in een Azure Database met geo-replicatie voor fouttolerantie.

Azure Databricks is onderverdeeld in twee hoofdvlakken: het besturingsvlak, dat bestaat uit back-endservices (bijvoorbeeld de webgebruikersinterface) die worden beheerd door Microsoft en het rekenvlak, waar uw gegevensworkloads worden uitgevoerd. Er zijn twee varianten van rekenkracht: klassieke berekening, die gebruikmaakt van uw eigen Azure-abonnement en virtueel netwerk (isolatie binnen uw abonnement) en serverloze rekenkracht, die wordt uitgevoerd in de beheerde omgeving van Databricks, maar nog steeds in dezelfde Azure-regio als uw werkruimte, met netwerk- en beveiligingscontroles om te isoleren tussen klanten. Elke werkruimte heeft een opslagaccount in uw abonnement met systeemgegevens (notebooks, logboeken, taakmetagegevens), het gedistribueerde bestandssysteem (DBFS) en catalogusassets (als u Unity Catalog hebt ingeschakeld), met extra besturingselementen voor netwerken, firewalling en toegang om beveiliging en de juiste isolatie te garanderen.

Diagram van Azure Databricks-architectuur.

Notitie

U kunt uw cluster ook koppelen aan een groep niet-actieve knooppunten om de opstarttijd van het cluster te verminderen. Zie Pools in de documentatie van Azure Databricks voor meer informatie.