Koncept för strukturerad direktuppspelning

2025-05-09

Den här artikeln innehåller en introduktion till strukturerad direktuppspelning i Azure Databricks.

Vad är strukturerad direktuppspelning?

Apache Spark Structured Streaming är en motor för bearbetning nära realtid som erbjuder feltolerans från början till slut med garantier om bearbetning exakt en gång med hjälp av de välbekanta Spark-API:erna. Med strukturerad direktuppspelning kan du uttrycka beräkningen av strömmande data på samma sätt som du uttrycker en batchberäkning på statiska data. Structured Streaming-motorn utför beräkningen inkrementellt och uppdaterar kontinuerligt resultatet när strömmande data anländer.

Läsa från en dataström

Du kan använda Structured Streaming för att inkrementellt mata in data från datakällor som stöds. Vanliga datakällor omfattar följande:

Datafiler i molnobjektlagring. Se Vad är Auto Loader?.
Meddelandebussar och köer. Se Standardanslutningar i Lakeflow Connect.
Delta Lake. Se Delta-tabellströmning av läsningar och skrivningar.

Varje datakälla innehåller ett antal alternativ för att ange hur du läser in batchar med data. Under läsarkonfigurationen kan du behöva konfigurera alternativ för att göra följande:

Ange datakällan eller formatet (till exempel filtyp, avgränsare och schema).
Konfigurera åtkomst till källsystem (till exempel portinställningar och autentiseringsuppgifter).
Ange var du ska börja i en ström (till exempel Kafka-offsets eller att läsa alla befintliga filer).
Styr hur mycket data som bearbetas i varje batch (till exempel maximala förskjutningar, filer eller byte per batch). Se Konfigurera batchstorlek för strukturerad direktuppspelning på Azure Databricks.

Skriva till en datamottagare

En datamottagare är målet för en strömmande skrivoperation. Vanliga mottagare som används i strömningsarbetsbelastningar i Azure Databricks är följande:

Delta Lake
Meddelandebussar och köer
Nyckelvärdesdatabaser

Precis som med datakällor ger de flesta datamottagare ett antal alternativ för att styra hur data skrivs till målsystemet. Under skrivarkonfigurationen anger du följande alternativ:

Utdataläge (lägg till som standard). Se Välj ett utdataläge för Structured Streaming.
En kontrollpunktsplats (krävs för varje skrivare). Se Kontrollpunkter för strukturerad strömning.
Utlösarintervall. Se Konfigurera utlösarintervall för strukturerad direktuppspelning.
Alternativ som anger datamottagaren eller formatet (till exempel filtyp, avgränsare och schema).
Alternativ som konfigurerar åtkomst till målsystem (till exempel portinställningar och autentiseringsuppgifter).

Feedback

Var den här sidan till hjälp?