Delen via


Quickstart: Een Door Azure beheerd Apache Spark-cluster implementeren met Azure Databricks

Azure Managed Instance voor Apache Cassandra biedt geautomatiseerde implementatie- en schaalbewerkingen voor beheerde opensource Apache Cassandra-datacenters. Deze functie versnelt hybride scenario's en helpt bij het verminderen van doorlopend onderhoud.

In deze quickstart ziet u hoe u Azure Portal gebruikt om een volledig beheerd Apache Spark-cluster te maken in het virtuele Azure-netwerk van uw Azure Managed Instance voor Apache Cassandra-cluster. U maakt het Spark-cluster in Azure Databricks. Later kunt u notebooks maken of koppelen aan het cluster, gegevens uit verschillende gegevensbronnen lezen en inzichten analyseren.

U kunt ook meer informatie vinden met gedetailleerde instructies over Het implementeren van Azure Databricks in uw virtuele Azure-netwerk (virtuele netwerkinjectie).

Vereisten

Als u geen Azure-abonnement hebt, maakt u een gratis account voordat u begint.

Een Azure Databricks-cluster maken

Volg deze stappen om een Azure Databricks-cluster te maken in een virtueel netwerk met azure Managed Instance voor Apache Cassandra:

  1. Meld u aan bij het Azure-portaal.

  2. Zoek Resourcegroepen in het linkerdeelvenster. Ga naar uw resourcegroep die het virtuele netwerk bevat waarin uw beheerde exemplaar is geïmplementeerd.

  3. Open de resource van het virtuele netwerk en noteer de adresruimte.

    Schermopname van waar u de adresruimte van uw virtuele netwerk kunt ophalen.

  4. Selecteer in de resourcegroep Toevoegen en zoeken naar Azure Databricks in het zoekveld.

    Schermopname van een zoekopdracht naar Azure Databricks.

  5. Selecteer Maken om een Azure Databricks-account te maken.

    Schermopname van azure Databricks-aanbieding met Create geselecteerd.

  6. Voer de volgende waarden in:

    • Werkruimtenaam: Geef een naam op voor uw Azure Databricks-werkruimte.
    • Regio: Zorg ervoor dat u dezelfde regio selecteert als uw virtuele netwerk.
    • Prijscategorie: Selecteer Standaard, Premium of Proefversie. Zie de pagina met prijzen van Azure Databricks voor meer informatie over deze lagen.

    Schermopname van een dialoogvenster waarin u de naam, regio en prijscategorie van de werkruimte voor het Azure Databricks-account kunt invoeren.

  7. Selecteer het tabblad Netwerken en voer de volgende gegevens in:

    • Azure Databricks-werkruimte implementeren in uw virtuele netwerk (VNet): Selecteer Ja.
    • Virtueel netwerk: Kies in de vervolgkeuzelijst het virtuele netwerk waar uw beheerde exemplaar bestaat.
    • Naam van openbaar subnet: voer een naam in voor het openbare subnet.
    • CIDR-bereik van openbaar subnet: voer een IP-bereik in voor het openbare subnet.
    • Private Subnet Name: Voer een naam in voor het privésubnet.
    • CIDR-bereik voor privésubnet: voer een IP-bereik in voor het privésubnet.

    Om bereikconflicten te voorkomen, moet u ervoor zorgen dat u hogere bereiken selecteert. Gebruik zo nodig een visual subnet calculator om de bereiken te verdelen.

    Schermopname van de Visual Subnet Calculator met twee gemarkeerde identieke netwerkadressen.

    In de volgende schermopname ziet u voorbeelddetails in het netwerkvenster.

    Schermopname van de opgegeven openbare en persoonlijke subnetnamen.

  8. Selecteer Beoordelen en maken en selecteer vervolgens Maken om de werkruimte te implementeren.

  9. Open de werkruimte nadat deze is gemaakt.

  10. U wordt omgeleid naar de Azure Databricks-portal. Selecteer in de portal Nieuw cluster.

  11. Accepteer in het deelvenster Nieuw cluster de standaardwaarden voor alle andere velden dan de volgende velden:

    • Clusternaam: Voer een naam in voor het cluster.
    • Databricks Runtime-versie: u wordt aangeraden Azure Databricks Runtime versie 7.5 of hoger te selecteren voor ondersteuning voor Spark 3.x.

    Schermopname van het dialoogvenster Nieuw cluster met een Runtime-versie van Azure Databricks geselecteerd.

  12. Vouw Geavanceerde opties uit en voeg de volgende configuratie toe. Zorg ervoor dat u de IP-adressen en referenties van het knooppunt vervangt.

    spark.cassandra.connection.host <node1 IP>,<node 2 IP>, <node IP>
    spark.cassandra.auth.password cassandra
    spark.cassandra.connection.port 9042
    spark.cassandra.auth.username cassandra
    spark.cassandra.connection.ssl.enabled true
    
  13. Voeg de Apache Spark Cassandra Connector-bibliotheek toe aan uw cluster om verbinding te maken met zowel systeemeigen als Azure Cosmos DB Cassandra-eindpunten. In uw cluster selecteer Bibliotheken>Nieuwe installeren>Maven, en voeg vervolgens com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.0.0 toe in het veld Maven-coördinaten.

    Schermopname van het zoeken naar Maven-pakketten in Azure Databricks.

  14. Selecteer Installeren.

Resources opschonen

Als u dit beheerde exemplaarcluster niet meer gaat gebruiken, volgt u deze stappen om het te verwijderen:

  1. Selecteer Resourcegroepen in het linkermenu van de Azure-portal.
  2. Kies in de lijst de resourcegroep die u voor deze quickstart hebt gemaakt.
  3. Selecteer Resourcegroep verwijderen in het deelvenster Overzicht van de resourcegroep.
  4. Voer in het volgende deelvenster de naam in van de resourcegroep die u wilt verwijderen en selecteer vervolgens Verwijderen.

Volgende stap

In deze quickstart hebt u geleerd hoe u een volledig beheerd Apache Spark-cluster maakt in het virtuele netwerk van uw Azure Managed Instance voor Apache Cassandra-cluster. Hierna leert u hoe u de cluster- en datacenterbronnen beheert.