Apache Spark på Azure Databricks

2025-09-18

Apache Spark är kärnan i Azure Databricks Data Intelligence Platform och är tekniken som driver beräkningskluster och SQL-lager. Azure Databricks är en optimerad plattform för Apache Spark som ger en effektiv och enkel plattform för att köra Apache Spark-arbetsbelastningar.

Vad är relationen mellan Apache Spark och Azure Databricks?

Databricks-företaget grundades av de ursprungliga skaparna av Apache Spark. Som ett programvaruprojekt med öppen källkod har Apache Spark committers hos många toppföretag, inklusive Databricks.

Databricks fortsätter att utveckla och släppa funktioner till Apache Spark. Databricks Runtime, som driver Azure Databricks, innehåller ytterligare optimeringar och egna funktioner som bygger på och utökar Apache Spark, inklusive Photon, ett optimerat körningslager som kan användas tillsammans med Spark. Databricks Photon är utformat för att fungera med och förbättra prestanda för Apache Spark-arbetsbelastningar. Photon förbättrar Sparks prestanda genom att vektorisera frågor och andra åtgärder, vilket möjliggör snabbare körning av SQL- och DataFrame API-åtgärder.

Hur är Databricks optimerat för Apache Spark?

I Apache Spark definieras alla åtgärder som antingen transformeringar eller åtgärder.

Transformeringar: lägg till viss bearbetningslogik i planen. Exempel är läsning av data, kopplingar, sammansättningar och typgjutning.
Åtgärder: utlösa bearbetningslogik för att utvärdera och mata ut ett resultat. Exempel är skrivningar, visning eller förhandsgranskning av resultat, manuell cachelagring eller att få antalet rader.

Apache Spark använder en modell för lat körning , vilket innebär att ingen av logiken som definieras av en samling åtgärder utvärderas förrän en åtgärd utlöses. För att undvika onödig utvärdering av logik använder du bara åtgärder för att spara resultat tillbaka till en måltabell.

Eftersom åtgärder representerar en flaskhals för bearbetning för att optimera logiken har Azure Databricks lagt till flera optimeringar utöver de som redan finns i Apache Spark för att säkerställa optimal logikkörning. Dessa optimeringar beaktar alla transformeringar som utlöses av en viss åtgärd samtidigt och hittar den optimala planen baserat på den fysiska layouten för data. Om du cachelagrar data manuellt eller returnerar förhandsgranskningsresultat i produktionspipelines kan dessa optimeringar avbrytas och leda till ökade kostnader och svarstider.

Hur fungerar Apache Spark på Azure Databricks?

När du distribuerar ett beräkningskluster eller SQL-lager i Azure Databricks konfigureras och distribueras Apache Spark till virtuella datorer. Du behöver inte konfigurera eller initiera en Spark-kontext eller Spark-session eftersom dessa hanteras åt dig av Azure Databricks.

Kan jag använda Azure Databricks utan att använda Apache Spark?

Ja. Azure Databricks stöder en mängd olika arbetsbelastningar och innehåller bibliotek med öppen källkod i Databricks Runtime. Databricks SQL använder Photon under huven, men slutanvändarna kan använda Spark SQL-syntax för att skapa och köra frågor mot databasobjekt med Photon.

Databricks Runtime for Machine Learning är optimerat för ML-arbetsbelastningar och många dataexperter använder primära bibliotek med öppen källkod som TensorFlow och SciKit Learn när de arbetar med Azure Databricks. Du kan använda jobb för att schemalägga godtyckliga arbetsbelastningar mot beräkningsresurser som distribueras och hanteras av Azure Databricks.

Varför ska du använda Apache Spark i Azure Databricks?

Databricks-plattformen ger en säker samarbetsmiljö för att utveckla och distribuera företagslösningar som skalas med din verksamhet. Databricks-anställda omfattar många av världens mest kunniga Apache Spark-underhållare och användare. Företaget utvecklar och släpper kontinuerligt nya optimeringar för att säkerställa att användarna kan komma åt den snabbaste miljön för att köra Apache Spark.

Hur kan jag lära mig mer om att använda Apache Spark i Azure Databricks?

Kom igång med Apache Spark i Azure Databricks genom att gå direkt in! Handledningen om Apache Spark DataFrames fungerar som en guide för hur man läser in och transformerar data i Python, R eller Scala. Se Självstudie: Läsa in och transformera data med Apache Spark DataFrames. Andra guider och länkar till ytterligare information finns i Apache Spark på Azure Databricks.

Mer information om språkstöd för Python, R och Scala i Spark finns i PySpark på Azure Databricks, sparklyr och Azure Databricks för Scala-utvecklare samt i Referens för Apache Spark-API:er.

Feedback

Var den här sidan till hjälp?