Anteckning
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Stordatalösningar består ofta av diskreta batchbearbetningsuppgifter som bidrar till den övergripande databehandlingslösningen. Du kan använda batchbearbetning för arbetsbelastningar som inte kräver omedelbar åtkomst till insikter. Batchbearbetning kan komplettera bearbetningskraven i realtid. Du kan också använda batchbearbetning för att balansera komplexitet och minska kostnaderna för din övergripande implementering.
Det grundläggande kravet för batchbearbetningsmotorer är att skala ut beräkningar för att hantera en stor mängd data. Till skillnad från realtidsbearbetning har batchbearbetning fördröjningar, eller tiden mellan datainmatning och databehandling, på minuter eller timmar.
Välj en teknik för batchbearbetning
Microsoft erbjuder flera tjänster som du kan använda för batchbearbetning.
Microsoft Fabric
Microsoft Fabric är en allt-i-ett-analys- och dataplattform för organisationer. Det är ett erbjudande för programvara som en tjänst som förenklar hur du etablerar, hanterar och styr en analyslösning från slutpunkt till slutpunkt. Fabric hanterar dataförflyttning, bearbetning, inmatning, transformering och rapportering. Infrastrukturfunktioner som du använder för batchbearbetning omfattar datateknik, informationslager, lakehouses och Apache Spark-bearbetning. Azure Data Factory i Fabric har också stöd för lakehouses. För att förenkla och påskynda utvecklingen kan du aktivera AI-driven Copilot.
- Språk: R, Python, Java, Scala och SQL 
- Säkerhet: Hanterat virtuellt nätverk och rollbaserad åtkomstkontroll i OneLake (RBAC) 
- Primär lagring: OneLake, som har genvägar och speglingsalternativ 
- Spark: En föruttorkad startpool och en anpassad Spark-pool med fördefinierade nodstorlekar 
Azure Synapse Analytics
Azure Synapse Analytics är en företagsanalystjänst som samlar både SQL- och Spark-tekniker under en enda konstruktion av en arbetsyta. Azure Synapse Analytics förenklar säkerhet, styrning och hantering. Varje arbetsyta har integrerade datapipelines som du kan använda för att skapa arbetsflöden från slutpunkt till slutpunkt. Du kan också etablera en dedikerad SQL-pool för storskalig analys, en serverlös SQL-slutpunkt som du kan använda för att fråga sjön direkt och en Spark-körning för distribuerad databearbetning.
- Språk: Python, Java, Scala och SQL 
- Säkerhet: Hanterat virtuellt nätverk, rollbaserad åtkomstkontroll i Azure (Azure RBAC) och lagringsåtkomstkontrollistor i Azure Data Lake Storage 
- Primär lagring: Data Lake Storage och integreras även med andra källor 
- Spark: Anpassad Spark-konfiguration med fördefinierade nodstorlekar 
Azure Databricks
Azure Databricks är en Spark-baserad analysplattform. Den har omfattande och premium Spark-funktioner som bygger på Spark med öppen källkod. Azure Databricks är en Microsoft-tjänst som integreras med resten av Azure-tjänsterna. Den har extra konfigurationer för Spark-klusterdistributioner. Och Unity Catalog hjälper till att förenkla styrningen av Azure Databricks Spark-objekt.
- Språk: R, Python, Java, Scala och Spark SQL. 
- Säkerhet: Användarautentisering med Microsoft Entra-ID. 
- Primär lagring: Inbyggd integrering med Azure Blob Storage, Data Lake Storage, Azure Synapse Analytics och andra tjänster. Mer information finns i Datakällor. 
Andra fördelar är:
- Webbaserade notebook-filer för samarbete och datautforskning. 
- Snabba starttider för kluster, automatisk avslutning och automatisk skalning. 
- Stöd för GPU-aktiverade kluster. 
Kriterier för nyckelval
Tänk på följande frågor om du vill välja din teknik för batchbearbetning:
- Vill du ha en hanterad tjänst eller vill du hantera dina egna servrar? 
- Vill du skapa batchbearbetningslogik deklarativt eller imperativt? 
- Utför du batchbearbetning i bursts? Om ja kan du överväga alternativ som ger möjlighet att automatiskt avsluta ett kluster eller som har prismodeller för varje batchjobb. 
- Behöver du fråga relationsdatabaser tillsammans med batchbearbetningen, till exempel för att söka efter referensdata? Om så är fallet kan du överväga alternativ som ger möjlighet att ställa frågor mot externa relationsdatabaser. 
Kapacitetsmatris
I följande tabeller sammanfattas viktiga skillnader i funktioner mellan tjänster.
Allmänna funktioner
| Kapacitet | Tyg | Azure Synapse Analytics | Azure Databricks | 
|---|---|---|---|
| Programvara som en tjänst | Ja1 | Nej | Nej | 
| Hanterad tjänst | Nej | Ja | Ja | 
| Relationsdatalager | Ja | Ja | Ja | 
| Prismodell | Kapacitetsenheter | SQL-buffertpool eller klustertimme | Azure Databricks enhet 2 och klustertimme | 
[1] Tilldelad fabrickapacitet.
[2] En Azure Databricks-enhet är bearbetningskapaciteten per timme.
Övriga funktioner
| Kapacitet | Tyg | Azure Synapse Analytics | Azure Databricks | 
|---|---|---|---|
| Automatisk skalning | Nej | Nej | Ja | 
| Skalpådelningsgranularitet | Per infrastrukturresurs-SKU | Per kluster eller per SQL-pool | Per kluster | 
| Minnesintern cachelagring av data | Nej | Ja | Ja | 
| Fråga från externa relationsdatabaser | Ja | Nej | Ja | 
| Autentisering | Microsoft Entra-ID | SQL- eller Microsoft Entra-ID | Microsoft Entra-ID | 
| Granskning | Ja | Ja | Ja | 
| Säkerhet på radnivå | Ja | Ja 1 | Ja | 
| Stödjer brandväggar | Ja | Ja | Ja | 
| Dynamisk dataskydd | Ja | Ja | Ja | 
[1] Endast filterpredikat. Mer information finns i Säkerhet på radnivå.
Deltagare
Den här artikeln underhålls av Microsoft. Det har ursprungligen skrivits av följande medarbetare.
Huvudsakliga författare:
- Zoiner Tejada | VD och arkitekt
- Pratima Valavala - Sverige | Huvudsaklig lösningsarkitekt
Om du vill se icke-offentliga LinkedIn-profiler loggar du in på LinkedIn.
Nästa steg
- Vad är Fabric?
- Beslutsguide för nätverksstruktur
- Utbildning: Introduktion till Azure Synapse Analytics
- Vad är Azure HDInsight?
- Vad är Azure Databricks?