Anteckning
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
GÄLLER FÖR:
Azure Data Factory
Azure Synapse Analytics
Tips
Prova Data Factory i Microsoft Fabric, en allt-i-ett-analyslösning för företag. Microsoft Fabric omfattar allt från dataflytt till datavetenskap, realtidsanalys, business intelligence och rapportering. Lär dig hur du startar en ny utvärderingsversion kostnadsfritt!
Den här artikeln beskriver CDC (Change Data Capture) i Azure Data Factory.
Mer information finns i Översikt över Azure Data Factory eller Översikt över Azure Synapse.
Översikt
När du utför dataintegrering och ETL-processer i molnet kan dina jobb fungera bättre och vara effektivare när du bara läser källdata som har ändrats sedan den senaste gången pipelinen kördes, i stället för att alltid köra frågor mot en hel datauppsättning på varje körning. ADF erbjuder flera olika sätt för dig att enkelt hämta deltadata från den senaste körningen.
Ändra Data Capture-hanteringsresurs
Det enklaste och snabbaste sättet att komma igång i datafabriken med CDC är via resursen Change Data Capture på fabriksnivå. Från huvuddesignern för pipeline väljer du Nytt under Fabriksresurser för att skapa en ny ändringsdatainsamling. CDC-fabriksresursen ger en genomgång av konfigurationen där du kan välja dina källor och mål, tillämpa valfria transformeringar och sedan välja start för att påbörja datainsamlingen. Med resursen från CDC behöver du inte utforma pipelines eller aktiviteter för dataflöden. Du debiteras bara för fyra kärnor av Allmän användning dataflöden när dina data bearbetas. Du kan ange en önskad latenstid, som ADF använder för att vakna och leta efter ändrade data. Det är endast vid den första kontrollen som du blir fakturerad. CDC-resursen på den översta nivån är också ADF-metoden för att köra dina processer kontinuerligt. Pipelines i ADF är endast för batchprocesser, men CDC-resursen kan köras kontinuerligt.
Intern ändringsdatainsamling i mappning av dataflöde
ADF-mappningsdataflöde kan automatiskt identifiera och extrahera ändrade data, inklusive infogade, uppdaterade och borttagna rader från källdatabaserna. Inga tidsstämpel- eller ID-kolumner krävs för att identifiera ändringarna eftersom den använder den inbyggda datainsamlingstekniken för ändringar i databaserna. Genom att länka en källtransformering och en referens för mottagartransformering till en databasdatauppsättning i ett mappningsdataflöde kan du se att ändringarna i källdatabasen tillämpas automatiskt på måldatabasen, så att du enkelt kan synkronisera data mellan två tabeller. Du kan också lägga till eventuella transformeringar däremellan för att bearbeta deltadata enligt affärslogik. När du definierar mål för mottagardata kan du ange åtgärder för att infoga, uppdatera, upsert och ta bort i mottagaren utan att behöva ändra radomvandlingen eftersom ADF automatiskt kan identifiera radskaparna.
Stödda anslutningar
- SAP CDC
- Azure SQL Database
- SQL Server
- Hanterad Azure SQL-instans
- Azure Cosmos DB (SQL API)
- Azure Cosmos DB-analysarkiv
- Snöflinga
Automatisk inkrementell extrahering i mappning av dataflöde
De nyligen uppdaterade raderna eller uppdaterade filerna kan identifieras automatiskt och extraheras av ADF-mappningsdataflödet från källarkiven. När du vill hämta deltadata från databaserna krävs den inkrementella kolumnen för att identifiera ändringarna. När du bara vill läsa in nya filer eller uppdaterade filer från ett lagringslager fungerar ADF-mappningsdataflödet genom filernas senaste ändringstid.
Stödda anslutningar
- Azure Blob Storage
- ADLS Gen2
- ADLS Gen1
- Azure SQL Database
- SQL Server
- Hanterad Azure SQL-instans
- Azure Database for MySQL
- Azure-databas för PostgreSQL
- Gemensam datamodell
Extrahering av kundhanterade deltadata i pipeline
Du kan alltid skapa en egen pipeline för extrahering av deltadata för alla datalager som stöds av ADF, inklusive att använda uppslagsaktivitet för att hämta vattenstämpelvärdet som lagras i en extern kontrolltabell, kopiera aktivitet eller mappa dataflödesaktivitet för att fråga deltadata mot tidsstämpeln eller ID-kolumnen och SP-aktiviteten för att skriva tillbaka det nya vattenstämpelvärdet till den externa kontrolltabellen för nästa körning. När du bara vill läsa in nya filer från ett lagringsutrymme kan du antingen ta bort filer varje gång efter att de har flyttats till målplatsen, eller använda tidsindelade mappar, filnamn, eller tidpunkten för senaste ändring för att identifiera de nya filerna.
Metodtips
Ändra datainsamling från databaser
- Intern datainsamling rekommenderas alltid som det enklaste sättet för dig att hämta ändringsdata. Det medför också mycket mindre belastning på källdatabasen när ADF extraherar ändringsdata för vidare bearbetning.
- Om dina databaslager inte ingår i ADF-anslutningslistan med inbyggt stöd för insamling av ändringsdata rekommenderar vi att du kontrollerar alternativet för automatisk inkrementell extrahering där du bara behöver mata in inkrementell kolumn för att samla in ändringarna. ADF kommer att ta hand om resten, inklusive att skapa en dynamisk fråga för deltainläsning och hantera kontrollpunkten vid varje aktivitetskörning.
- Extrahering av kundhanterade deltadata i pipeline omfattar alla databaser som stöds av ADF och ger dig flexibiliteten att styra allt själv.
Ändra filupptagning från filbaserade lagringsenheter
- När du vill läsa in data från Azure Blob Storage, Azure Data Lake Storage Gen2 eller Azure Data Lake Storage Gen1, ger mappning av dataflödet möjlighet att endast hämta nya eller uppdaterade filer genom att enkelt välja. Det är det enklaste och rekommenderade sättet för dig att uppnå deltabelastning från dessa filbaserade lagringsplatser i mappning av dataflöde.
- Du kan få fler metodtips.
Kontrollpunkt
När du aktiverar alternativen för inbyggd ändringsdatafångst eller automatisk inkrementell extrahering i ADF-mappningsdataflödet hjälper ADF dig att hantera kontrollpunkten för att säkerställa att varje aktivitet som körs automatiskt endast läser källdata som har ändrats sedan den senaste gången pipeline-körningen. Som standard är kontrollpunkten kopplad till din pipeline och ditt aktivitetsnamn. Om du ändrar pipelinens namn eller aktivitetsnamn återställs kontrollpunkten, vilket leder till att du börjar från början eller hämtar ändringar från och med nu i nästa körning. Om du vill ändra pipelinenamnet eller aktivitetsnamnet men ändå behålla kontrollpunkten för att hämta ändrade data från den senaste körningen automatiskt använder du din egen kontrollpunktsnyckel i dataflödesaktiviteten för att uppnå detta. Namngivningsregeln för din egen kontrollpunktsnyckel är samma som länkade tjänster, datauppsättningar, pipelines och dataflöden.
När du felsöker pipelinen fungerar den här funktionen på samma sätt. Kontrollpunkten återställs när du uppdaterar webbläsaren under felsökningskörningen. När du är nöjd med pipelineresultatet från felsökningskörningen kan du publicera och utlösa pipelinen. När du första gången utlöser den publicerade pipelinen startas den automatiskt om från början eller hämtar ändringar från och med nu.
I övervakningsavsnittet har du alltid chansen att köra en pipeline igen. När du gör det registreras alltid ändrade data från den tidigare kontrollpunkten för den valda pipelinekörningen.
Handledningar
Följande är guiderna för att starta ändringsdataregistrering i Azure Data Factory och Azure Synapse Analytics.
- SAP CDC-handledning i ADF
- Kopiera data inkrementellt från ett källdatalager till ett måldatalager, handledningar
Mallar
Följande är mallarna för att använda ändringsdatainsamlingen i Azure Data Factory och Azure Synapse Analytics.