Externe pakketten gebruiken met Jupyter Notebooks in Apache Spark-clusters in HDInsight

2025-04-01

Leer hoe je een Jupyter Notebook configureert in een Apache Spark-cluster op HDInsight om externe, door de gemeenschap bijgedragen Apache Maven-pakketten te gebruiken die niet standaard in het cluster inbegrepen zijn.

U kunt in de Maven-opslagplaats zoeken naar de volledige lijst met beschikbare pakketten. U kunt ook een lijst met beschikbare pakketten ophalen uit andere bronnen. Er is bijvoorbeeld een volledige lijst met door de community bijgedragen pakketten beschikbaar op Spark-pakketten.

In dit artikel leert u hoe u het spark-CSV-pakket gebruikt met de Jupyter Notebook.

Vereisten

Een Apache Spark-cluster in HDInsight. Zie Apache Spark-clusters maken in Azure HDInsight voor instructies.
Ervaring met het gebruik van Jupyter Notebooks met Spark op HDInsight. Zie Gegevens laden en query's uitvoeren met Apache Spark op HDInsight voor meer informatie.
Het URI-schema voor de primaire opslag voor uw clusters. Dit is wasb:// voor Azure Storage, abfs:// voor Azure Data Lake Storage Gen2. Als beveiligde overdracht is ingeschakeld voor Azure Storage of Data Lake Storage Gen2, zou de URI respectievelijk wasbs:// of abfss:// zijn. Zie ook veilige overdracht.

Externe pakketten gebruiken met Jupyter Notebooks

Navigeer naar https://CLUSTERNAME.azurehdinsight.net/jupyter, waar CLUSTERNAME de naam van uw Spark-cluster is.
Maak een nieuwe notebook. Selecteer Nieuw en vervolgens Spark.
Er wordt een nieuwe notebook gemaakt en geopend met de naam Untitled.pynb. Selecteer de naam van het notitieblok bovenaan en voer een simpele, herkenbare naam in.

Je gebruikt de %%configure magic om het notebook te configureren voor het gebruik van een extern pakket. Zorg ervoor dat u de magie in de %%configure eerste codecel aanroept in notebooks die gebruikmaken van externe pakketten. Dit zorgt ervoor dat de kernel is geconfigureerd voor het gebruik van het pakket voordat de sessie wordt gestart.

Belangrijk

Als u vergeet de kernel in de eerste cel te configureren, kunt u de %%configure met de -f parameter gebruiken, maar daardoor wordt de sessie opnieuw opgestart en zal alle voortgang verloren gaan.

HDInsight-versie	Opdracht
Voor HDInsight 3.5 en HDInsight 3.6	`%%configure` `{ "conf": {"spark.jars.packages": "com.databricks:spark-csv_2.11:1.5.0" }}`
Voor HDInsight 3.3 en HDInsight 3.4	`%%configure` `{ "packages":["com.databricks:spark-csv_2.10:1.4.0"] }`

In het bovenstaande fragment worden de maven-coördinaten voor het externe pakket in Maven Central Repository verwacht. In dit fragment com.databricks:spark-csv_2.11:1.5.0 is de maven-coördinaat voor spark-csv-pakket . U maakt als volgt de coördinaten voor een pakket.

a. Zoek het pakket in de Maven-opslagplaats. Voor dit artikel gebruiken we spark-csv.

b. Verzamel in de opslagplaats de waarden voor GroupId, ArtifactId en Version. Zorg ervoor dat de waarden die u verzamelt overeenkomen met uw cluster. In dit geval gebruiken we een Scala 2.11- en Spark 1.5.0-pakket, maar mogelijk moet u verschillende versies selecteren voor de juiste Scala- of Spark-versie in uw cluster. U vindt de Scala-versie op uw cluster door uit te voeren scala.util.Properties.versionString op de Spark Jupyter-kernel of op Spark submit. U vindt de Spark-versie op uw cluster door uit te voeren sc.version op Jupyter Notebooks.

c. Voeg de drie waarden samen, gescheiden door een dubbele punt (:).
```
com.databricks:spark-csv_2.11:1.5.0
```

Voer de codecel uit met de %%configure magie. Hiermee configureert u de onderliggende Livy-sessie voor het gebruik van het pakket dat u hebt opgegeven. In de volgende cellen in het notebook kunt u nu het pakket gebruiken, zoals hieronder wordt weergegeven.

val df = spark.read.format("com.databricks.spark.csv").
option("header", "true").
option("inferSchema", "true").
load("wasb:///HdiSamples/HdiSamples/SensorSampleData/hvac/HVAC.csv")

Voor HDInsight 3.4 en lager moet u het volgende codefragment gebruiken.

val df = sqlContext.read.format("com.databricks.spark.csv").
option("header", "true").
option("inferSchema", "true").
load("wasb:///HdiSamples/HdiSamples/SensorSampleData/hvac/HVAC.csv")

Vervolgens kunt u de fragmenten uitvoeren, zoals hieronder wordt weergegeven, om de gegevens te bekijken uit het dataframe dat u in de vorige stap hebt gemaakt.
```
df.show()

df.select("Time").count()
```

Delen via

Externe pakketten gebruiken met Jupyter Notebooks in Apache Spark-clusters in HDInsight

Vereisten

Externe pakketten gebruiken met Jupyter Notebooks

Zie ook

Scenario's

Toepassingen maken en uitvoeren

Tools en uitbreidingen

Resources beheren

Feedback

Aanvullende resources