Anteckning
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Azure Databricks bygger på Apache Spark, en enhetlig analysmotor för stordata och maskininlärning. Mer information finns i Översikt över Apache Spark.
Apache Spark har DataFrame-API:er för användning på stora datauppsättningar, som omfattar över 100 operatorer, på flera språk.
-
PySpark-API:er för Python-utvecklare. Se Självstudie: Läsa in och transformera data med Apache Spark DataFrames. Viktiga klasser är:
- SparkSession – startpunkten för att programmera Spark med datauppsättningen och DataFrame-API:et.
- DataFrame – en distribuerad samling data grupperade i namngivna kolumner. Se DataFrames och DataFrame-baserad MLlib.
- (Inaktuell) SparkR-API:er för R-utvecklare. Viktiga klasser är:
- SparkSession – SparkSession är startpunkten i SparkR. Se Startpunkt: SparkSession.
- SparkDataFrame – en distribuerad samling data grupperade i namngivna kolumner. Se Datauppsättningar och DataFrames, Skapa dataramar och Skapa SparkDataFrames.
-
Scala-API:er för Scala-utvecklare. Viktiga klasser är:
- SparkSession – startpunkten för att programmera Spark med datauppsättningen och DataFrame-API:et. Se Startpunkt: SparkSession.
-
Datauppsättning – En starkt typbaserad samling domänspecifika objekt som kan transformeras parallellt med hjälp av funktionella åtgärder eller relationsåtgärder. Var och
Dataseten har också en otypad vy som kallas dataram, som är enDatasetrad. Se Datauppsättningar och DataFrames, Skapa datauppsättningar, Skapa dataramar och DataFrame-funktioner.
-
Java-API:er för Java-utvecklare. Viktiga klasser är:
- SparkSession – startpunkten för att programmera Spark med datauppsättningen och DataFrame-API:et. Se Startpunkt: SparkSession.
-
Datauppsättning – En starkt typbaserad samling domänspecifika objekt som kan transformeras parallellt med hjälp av funktionella åtgärder eller relationsåtgärder. Var och
Dataseten har också en otypad vy som kallas dataram, som är enDatasetrad. Se Datauppsättningar och DataFrames, Skapa datauppsättningar, Skapa dataramar och DataFrame-funktioner.
Information om hur du använder Apache Spark-API:er i Azure Databricks finns i:
- PySpark på Azure Databricks
- Azure Databricks för R-utvecklare
- Azure Databricks för Scala-utvecklare
- För Java kan du köra Java-kod som ett JAR-jobb.