Referens för Apache Spark-API:er

2025-01-23

Azure Databricks bygger på Apache Spark, en enhetlig analysmotor för stordata och maskininlärning. Mer information finns i Översikt över Apache Spark.

Apache Spark har DataFrame-API:er för användning på stora datauppsättningar, som omfattar över 100 operatorer, på flera språk.

PySpark-API:er för Python-utvecklare. Se Självstudie: Läsa in och transformera data med Apache Spark DataFrames. Viktiga klasser är:
- SparkSession – startpunkten för att programmera Spark med datauppsättningen och DataFrame-API:et.
- DataFrame – en distribuerad samling data grupperade i namngivna kolumner. Se DataFrames och DataFrame-baserad MLlib.
(Inaktuell) SparkR-API:er för R-utvecklare. Viktiga klasser är:
- SparkSession – SparkSession är startpunkten i SparkR. Se Startpunkt: SparkSession.
- SparkDataFrame – en distribuerad samling data grupperade i namngivna kolumner. Se Datauppsättningar och DataFrames, Skapa dataramar och Skapa SparkDataFrames.
Scala-API:er för Scala-utvecklare. Viktiga klasser är:
- SparkSession – startpunkten för att programmera Spark med datauppsättningen och DataFrame-API:et. Se Startpunkt: SparkSession.
- Datauppsättning – En starkt typbaserad samling domänspecifika objekt som kan transformeras parallellt med hjälp av funktionella åtgärder eller relationsåtgärder. Var och Dataset en har också en otypad vy som kallas dataram, som är en Dataset rad. Se Datauppsättningar och DataFrames, Skapa datauppsättningar, Skapa dataramar och DataFrame-funktioner.
Java-API:er för Java-utvecklare. Viktiga klasser är:
- SparkSession – startpunkten för att programmera Spark med datauppsättningen och DataFrame-API:et. Se Startpunkt: SparkSession.
- Datauppsättning – En starkt typbaserad samling domänspecifika objekt som kan transformeras parallellt med hjälp av funktionella åtgärder eller relationsåtgärder. Var och Dataset en har också en otypad vy som kallas dataram, som är en Dataset rad. Se Datauppsättningar och DataFrames, Skapa datauppsättningar, Skapa dataramar och DataFrame-funktioner.

Information om hur du använder Apache Spark-API:er i Azure Databricks finns i:

PySpark på Azure Databricks
Azure Databricks för R-utvecklare
Azure Databricks för Scala-utvecklare
För Java kan du köra Java-kod som ett JAR-jobb.

Feedback

Var den här sidan till hjälp?

Dela via

Referens för Apache Spark-API:er

Feedback

Ytterligare resurser