Dela via


Översikt över Apache Spark

Apache Spark är teknik som driver beräkningskluster och SQL-lager i Azure Databricks.

Den här sidan innehåller en översikt över dokumentationen i det här avsnittet.

Get started

Kom igång med Apache Spark på Databricks.

Ämne Description
Apache Spark på Azure Databricks Få svar på vanliga frågor om Apache Spark på Azure Databricks.
Självstudie: Läsa in och transformera data med Apache Spark DataFrames Följ en stegvis guide för att arbeta med Spark DataFrames i Python, R eller Scala för datainläsning och transformering.
Grunderna i PySpark Lär dig grunderna i att använda PySpark genom att gå igenom enkla exempel.

Ytterligare resurser

Utforska andra Spark-funktioner och dokumentation.

Ämne Description
Ange Spark-konfigurationsegenskaper på Azure Databricks Ställ in Spark-konfigurationsegenskaper för att anpassa inställningarna i beräkningsmiljön och optimera prestanda.
Strukturerad direktuppspelning Läs en översikt över Structured Streaming, en bearbetningsmotor i nära realtid.
Diagnostisera problem med kostnader och prestanda med hjälp av Spark-användargränssnittet Lär dig hur du använder Spark-användargränssnittet för prestandajustering, felsökning och kostnadsoptimering av Spark-jobb.
Använda Apache Spark MLlib på Azure Databricks Distribuerad maskininlärning med Spark MLlib och integrering med populära ML-ramverk.

Spark-API:er

Arbeta med Spark med det programmeringsspråk du föredrar.

Ämne Description
Referens för Apache Spark-API:er API-referensöversikt för Apache Spark, inklusive länkar till referens för Spark SQL-, DataFrames- och RDD-åtgärder över språk som stöds.
PySpark Använd Python med Spark, inklusive grunderna i PySpark, anpassade datakällor och Python-specifika optimeringar.
Pandas API på Spark Utnyttja välbekant Pandas-syntax med skalbarheten för Spark för distribuerad databearbetning.
R för Spark Arbeta med R och Spark med SparkR och sparklyr för statistisk databehandling och dataanalys.
Scala för Spark Skapa högpresterande Spark-program med Scala med inbyggda Spark-API:er och typsäkerhet.