Välj en batchbearbetningsteknik i Azure

2025-04-21

Stordatalösningar består ofta av diskreta batchbearbetningsuppgifter som bidrar till den övergripande databehandlingslösningen. Du kan använda batchbearbetning för arbetsbelastningar som inte kräver omedelbar åtkomst till insikter. Batchbearbetning kan komplettera bearbetningskraven i realtid. Du kan också använda batchbearbetning för att balansera komplexitet och minska kostnaderna för din övergripande implementering.

Det grundläggande kravet för batchbearbetningsmotorer är att skala ut beräkningar för att hantera en stor mängd data. Till skillnad från realtidsbearbetning har batchbearbetning fördröjningar, eller tiden mellan datainmatning och databehandling, på minuter eller timmar.

Välj en teknik för batchbearbetning

Microsoft erbjuder flera tjänster som du kan använda för batchbearbetning.

Microsoft Fabric

Microsoft Fabric är en allt-i-ett-analys- och dataplattform för organisationer. Det är ett erbjudande för programvara som en tjänst som förenklar hur du etablerar, hanterar och styr en analyslösning från slutpunkt till slutpunkt. Fabric hanterar dataförflyttning, bearbetning, inmatning, transformering och rapportering. Infrastrukturfunktioner som du använder för batchbearbetning omfattar datateknik, informationslager, lakehouses och Apache Spark-bearbetning. Azure Data Factory i Fabric har också stöd för lakehouses. För att förenkla och påskynda utvecklingen kan du aktivera AI-driven Copilot.

Språk: R, Python, Java, Scala och SQL
Säkerhet: Hanterat virtuellt nätverk och rollbaserad åtkomstkontroll i OneLake (RBAC)
Primär lagring: OneLake, som har genvägar och speglingsalternativ
Spark: En föruttorkad startpool och en anpassad Spark-pool med fördefinierade nodstorlekar

Azure Synapse Analytics

Azure Synapse Analytics är en företagsanalystjänst som samlar både SQL- och Spark-tekniker under en enda konstruktion av en arbetsyta. Azure Synapse Analytics förenklar säkerhet, styrning och hantering. Varje arbetsyta har integrerade datapipelines som du kan använda för att skapa arbetsflöden från slutpunkt till slutpunkt. Du kan också etablera en dedikerad SQL-pool för storskalig analys, en serverlös SQL-slutpunkt som du kan använda för att fråga sjön direkt och en Spark-körning för distribuerad databearbetning.

Språk: Python, Java, Scala och SQL
Säkerhet: Hanterat virtuellt nätverk, rollbaserad åtkomstkontroll i Azure (Azure RBAC) och lagringsåtkomstkontrollistor i Azure Data Lake Storage
Primär lagring: Data Lake Storage och integreras även med andra källor
Spark: Anpassad Spark-konfiguration med fördefinierade nodstorlekar

Azure Databricks

Azure Databricks är en Spark-baserad analysplattform. Den har omfattande och premium Spark-funktioner som bygger på Spark med öppen källkod. Azure Databricks är en Microsoft-tjänst som integreras med resten av Azure-tjänsterna. Den har extra konfigurationer för Spark-klusterdistributioner. Och Unity Catalog hjälper till att förenkla styrningen av Azure Databricks Spark-objekt.

Språk: R, Python, Java, Scala och Spark SQL.
Säkerhet: Användarautentisering med Microsoft Entra-ID.
Primär lagring: Inbyggd integrering med Azure Blob Storage, Data Lake Storage, Azure Synapse Analytics och andra tjänster. Mer information finns i Datakällor.

Andra fördelar är:

Webbaserade notebook-filer för samarbete och datautforskning.
Snabba starttider för kluster, automatisk avslutning och automatisk skalning.
Stöd för GPU-aktiverade kluster.

Kriterier för nyckelval

Tänk på följande frågor om du vill välja din teknik för batchbearbetning:

Vill du ha en hanterad tjänst eller vill du hantera dina egna servrar?
Vill du skapa batchbearbetningslogik deklarativt eller imperativt?
Utför du batchbearbetning i bursts? Om ja kan du överväga alternativ som ger möjlighet att automatiskt avsluta ett kluster eller som har prismodeller för varje batchjobb.
Behöver du fråga relationsdatabaser tillsammans med batchbearbetningen, till exempel för att söka efter referensdata? Om så är fallet kan du överväga alternativ som ger möjlighet att ställa frågor mot externa relationsdatabaser.

Kapacitetsmatris

I följande tabeller sammanfattas viktiga skillnader i funktioner mellan tjänster.

Allmänna funktioner

Kapacitet	Tyg	Azure Synapse Analytics	Azure Databricks
Programvara som en tjänst	Ja¹	Nej	Nej
Hanterad tjänst	Nej	Ja	Ja
Relationsdatalager	Ja	Ja	Ja
Prismodell	Kapacitetsenheter	SQL-buffertpool eller klustertimme	Azure Databricks enhet ² och klustertimme

[1] Tilldelad fabrickapacitet.

[2] En Azure Databricks-enhet är bearbetningskapaciteten per timme.

Övriga funktioner

Kapacitet	Tyg	Azure Synapse Analytics	Azure Databricks
Automatisk skalning	Nej	Nej	Ja
Skalpådelningsgranularitet	Per infrastrukturresurs-SKU	Per kluster eller per SQL-pool	Per kluster
Minnesintern cachelagring av data	Nej	Ja	Ja
Fråga från externa relationsdatabaser	Ja	Nej	Ja
Autentisering	Microsoft Entra-ID	SQL- eller Microsoft Entra-ID	Microsoft Entra-ID
Granskning	Ja	Ja	Ja
Säkerhet på radnivå	Ja	Ja ¹	Ja
Stödjer brandväggar	Ja	Ja	Ja
Dynamisk dataskydd	Ja	Ja	Ja

[1] Endast filterpredikat. Mer information finns i Säkerhet på radnivå.

Deltagare

Den här artikeln underhålls av Microsoft. Det har ursprungligen skrivits av följande medarbetare.

Huvudsakliga författare:

Zoiner Tejada | VD och arkitekt
Pratima Valavala - Sverige | Huvudsaklig lösningsarkitekt

Om du vill se icke-offentliga LinkedIn-profiler loggar du in på LinkedIn.

Nästa steg

Feedback

Var den här sidan till hjälp?