Dela via


Välj en batchbearbetningsteknik i Azure

Stordatalösningar består ofta av diskreta batchbearbetningsuppgifter som bidrar till den övergripande databehandlingslösningen. Du kan använda batchbearbetning för arbetsbelastningar som inte kräver omedelbar åtkomst till insikter. Batchbearbetning kan komplettera bearbetningskraven i realtid. Du kan också använda batchbearbetning för att balansera komplexitet och minska kostnaderna för din övergripande implementering.

Det grundläggande kravet för batchbearbetningsmotorer är att skala ut beräkningar för att hantera en stor mängd data. Till skillnad från realtidsbearbetning har batchbearbetning fördröjningar, eller tiden mellan datainmatning och databehandling, på minuter eller timmar.

Välj en teknik för batchbearbetning

Microsoft erbjuder flera tjänster som du kan använda för batchbearbetning.

Microsoft Fabric

Microsoft Fabric är en allt-i-ett-analys- och dataplattform för organisationer. Det är ett erbjudande för programvara som en tjänst som förenklar hur du etablerar, hanterar och styr en analyslösning från slutpunkt till slutpunkt. Fabric hanterar dataförflyttning, bearbetning, inmatning, transformering och rapportering. Infrastrukturfunktioner som du använder för batchbearbetning omfattar datateknik, informationslager, lakehouses och Apache Spark-bearbetning. Azure Data Factory i Fabric har också stöd för lakehouses. För att förenkla och påskynda utvecklingen kan du aktivera AI-driven Copilot.

  • Språk: R, Python, Java, Scala och SQL

  • Säkerhet: Hanterat virtuellt nätverk och rollbaserad åtkomstkontroll i OneLake (RBAC)

  • Primär lagring: OneLake, som har genvägar och speglingsalternativ

  • Spark: En föruttorkad startpool och en anpassad Spark-pool med fördefinierade nodstorlekar

Azure Synapse Analytics

Azure Synapse Analytics är en företagsanalystjänst som samlar både SQL- och Spark-tekniker under en enda konstruktion av en arbetsyta. Azure Synapse Analytics förenklar säkerhet, styrning och hantering. Varje arbetsyta har integrerade datapipelines som du kan använda för att skapa arbetsflöden från slutpunkt till slutpunkt. Du kan också etablera en dedikerad SQL-pool för storskalig analys, en serverlös SQL-slutpunkt som du kan använda för att fråga sjön direkt och en Spark-körning för distribuerad databearbetning.

  • Språk: Python, Java, Scala och SQL

  • Säkerhet: Hanterat virtuellt nätverk, rollbaserad åtkomstkontroll i Azure (Azure RBAC) och lagringsåtkomstkontrollistor i Azure Data Lake Storage

  • Primär lagring: Data Lake Storage och integreras även med andra källor

  • Spark: Anpassad Spark-konfiguration med fördefinierade nodstorlekar

Azure Databricks

Azure Databricks är en Spark-baserad analysplattform. Den har omfattande och premium Spark-funktioner som bygger på Spark med öppen källkod. Azure Databricks är en Microsoft-tjänst som integreras med resten av Azure-tjänsterna. Den har extra konfigurationer för Spark-klusterdistributioner. Och Unity Catalog hjälper till att förenkla styrningen av Azure Databricks Spark-objekt.

  • Språk: R, Python, Java, Scala och Spark SQL.

  • Säkerhet: Användarautentisering med Microsoft Entra-ID.

  • Primär lagring: Inbyggd integrering med Azure Blob Storage, Data Lake Storage, Azure Synapse Analytics och andra tjänster. Mer information finns i Datakällor.

Andra fördelar är:

Kriterier för nyckelval

Tänk på följande frågor om du vill välja din teknik för batchbearbetning:

  • Vill du ha en hanterad tjänst eller vill du hantera dina egna servrar?

  • Vill du skapa batchbearbetningslogik deklarativt eller imperativt?

  • Utför du batchbearbetning i bursts? Om ja kan du överväga alternativ som ger möjlighet att automatiskt avsluta ett kluster eller som har prismodeller för varje batchjobb.

  • Behöver du fråga relationsdatabaser tillsammans med batchbearbetningen, till exempel för att söka efter referensdata? Om så är fallet kan du överväga alternativ som ger möjlighet att ställa frågor mot externa relationsdatabaser.

Kapacitetsmatris

I följande tabeller sammanfattas viktiga skillnader i funktioner mellan tjänster.

Allmänna funktioner

Kapacitet Tyg Azure Synapse Analytics Azure Databricks
Programvara som en tjänst Ja1 Nej Nej
Hanterad tjänst Nej Ja Ja
Relationsdatalager Ja Ja Ja
Prismodell Kapacitetsenheter SQL-buffertpool eller klustertimme Azure Databricks enhet 2 och klustertimme

[1] Tilldelad fabrickapacitet.

[2] En Azure Databricks-enhet är bearbetningskapaciteten per timme.

Övriga funktioner

Kapacitet Tyg Azure Synapse Analytics Azure Databricks
Automatisk skalning Nej Nej Ja
Skalpådelningsgranularitet Per infrastrukturresurs-SKU Per kluster eller per SQL-pool Per kluster
Minnesintern cachelagring av data Nej Ja Ja
Fråga från externa relationsdatabaser Ja Nej Ja
Autentisering Microsoft Entra-ID SQL- eller Microsoft Entra-ID Microsoft Entra-ID
Granskning Ja Ja Ja
Säkerhet på radnivå Ja Ja 1 Ja
Stödjer brandväggar Ja Ja Ja
Dynamisk dataskydd Ja Ja Ja

[1] Endast filterpredikat. Mer information finns i Säkerhet på radnivå.

Deltagare

Den här artikeln underhålls av Microsoft. Det har ursprungligen skrivits av följande medarbetare.

Huvudsakliga författare:

Om du vill se icke-offentliga LinkedIn-profiler loggar du in på LinkedIn.

Nästa steg