Replikera och synkronisera stordatordata till Azure

Azure Data Factory

Azure Databricks

Den här exempelarkitekturen beskriver en implementeringsplan för att replikera och synkronisera data under moderniseringen till Azure. Den beskriver tekniska aspekter som datalager, verktyg och tjänster.

Arkitektur

Ladda ned en Visio-fil med den här arkitekturen.

Arbetsflöde

Följande arbetsflöde motsvarar föregående diagram:

Stordator- och mellanregistersystem uppdaterar lokala programdatabaser med jämna mellanrum. För att upprätthålla konsekvens synkroniserar den här lösningen de senaste data med Azure-databaser. Synkroniseringsprocessen omfattar följande steg.

Azure Data Factory dynamiska pipelines orkestrerar aktiviteter som sträcker sig från extrahering av data till datainläsning. Du kan schemalägga pipelineaktiviteter, starta dem manuellt eller utlösa dem automatiskt.

Pipelines grupperar de aktiviteter som utför uppgifter. För att extrahera data skapar Azure Data Factory dynamiskt en pipeline för varje lokal tabell. Du kan sedan använda en massivt parallell implementering när du replikerar data i Azure. Du kan också konfigurera lösningen så att den uppfyller dina krav:
- Fullständig replikering: Du replikerar hela databasen och gör nödvändiga ändringar av datatyper och fält i Azure-måldatabasen.
- Partiell, delta eller inkrementell replikering: Du använder vattenstämpelkolumner i källtabeller för att synkronisera de uppdaterade raderna med Azure-databaser. Dessa kolumner innehåller antingen en kontinuerligt ökande nyckel eller en tidsstämpel som anger tabellens senaste uppdatering.
Azure Data Factory använder också pipelines för följande transformeringsuppgifter:
- Konvertering av datatyp
- Manipulering av data
- Formatering av data
- Härledning av kolonner
- Utplattade data
- Sortering av data
- Datafiltrering
Lokala databaser som Db2 zOS, Db2 för i och Db2 LUW lagrar programdata.
En lokalt installerad Integration Runtime (IR) tillhandahåller den miljö som Azure Data Factory använder för att köra och skicka aktiviteter.
Azure Data Lake Storage Gen2 och Azure Blob Storage mellanlagrar data. Det här steget krävs ibland för att transformera och sammanfoga data från flera källor.
För förberedelse av data använder Azure Data Factory Azure Databricks, anpassade aktiviteter och pipelinedataflöden för att transformera data snabbt och effektivt.
Azure Data Factory läser in data i följande relationella och icke-relationella Azure-databaser:
- Azure SQL
- Azure-databasen för PostgreSQL
- Azure Cosmos DB
- Azure Data Lake Storage
- Azure-databas för MySQL
SQL Server Integration Services (SSIS) extraherar, transformerar och läser in data.
Den lokala datagatewayen är ett lokalt installerat Windows-klientprogram som fungerar som en brygga mellan dina lokala lokala datakällor och Azure-tjänster.
En datapipeline i Microsoft Fabric är en logisk gruppering av aktiviteter som utför datainmatning från Db2 till Azure Storage och databaser.
Om lösningen kräver replikering i nära realtid kan du använda verktyg som inte kommer från Microsoft.

Komponenter

I det här avsnittet beskrivs andra verktyg som du kan använda under datamodernisering, synkronisering och integrering.

Dataintegrerare

Azure Data Factory är en hybriddataintegreringstjänst. Du kan använda den här fullständigt hanterade, serverlösa lösningen för att skapa, schemalägga och orkestrera ETL-arbetsflöden (extrahering, transformering och inläsning) samt ELT-arbetsflöden (extrahering, inläsning och transformering).
Azure Synapse Analytics är en företagsanalystjänst som påskyndar tiden till insikter i informationslager och stordatasystem. Azure Synapse Analytics kombinerar det bästa av följande tekniker och tjänster:
- SQL-tekniker för informationslagerhantering för företag
- Spark-tekniker för stordata
- Azure Data Explorer för logg- och tidsserieanalys
- Azure Pipelines för dataintegrering och ETL- och ELT-arbetsflöden
- Djup integrering med andra Azure-tjänster, till exempel Power BI, Azure Cosmos DB och Azure Machine Learning
SSIS är en plattform för att skapa lösningar för dataintegrering och omvandling på företagsnivå. Du kan använda SSIS för att hantera, replikera, rensa och utvinna data.
Azure Databricks är en plattform för dataanalys. Den baseras på Apache Spark-systemet för distribuerad bearbetning med öppen källkod och är optimerat för Azure-molnplattformen. I ett analysarbetsflöde läser Azure Databricks data från flera källor och använder Spark för att ge insikter.

Datalagring

Azure SQL Database är en del av Azure SQL-familjen och är byggd för molnet. Den här tjänsten ger fördelarna med en fullständigt hanterad och vintergrön plattform som en tjänst (PaaS). SQL Database tillhandahåller även AI-drivna, automatiserade funktioner som optimerar prestanda och hållbarhet. Lagringsalternativ för serverlös beräkning och hyperskala skalar automatiskt resurser på begäran.
Azure SQL Managed Instance är en del av Azure SQL-tjänstportföljen. Den här intelligenta och skalbara molndatabastjänsten kombinerar den bredaste SQL Server motorkompatibiliteten med alla fördelar med en fullständigt hanterad och vintergrön PaaS. Använd SQL Managed Instance för att modernisera befintliga appar i stor skala.
SQL Server på Azure Virtual Machines är ett sätt att lyfta och flytta SQL Server arbetsbelastningar till molnet med fullständig kodkompatibilitet. Som en del av Azure SQL-familjen ger SQL Server på Azure Virtual Machines den kombinerade prestandan, säkerheten och analysen hos SQL Server med flexibiliteten och hybridanslutningen i Azure. Använd SQL Server på Azure Virtual Machines för att migrera befintliga appar eller skapa nya appar. Du kan också komma åt de senaste SQL Server uppdateringarna och versionerna, inklusive SQL Server 2019.
Azure Database for PostgreSQL är en fullständigt hanterad relationsdatabastjänst som baseras på community-versionen av PostgreSQL-databasmotorn med öppen källkod. Använd den här tjänsten för att fokusera på programinnovation i stället för databashantering. Du kan också skala din arbetsbelastning efter behov.
Azure Cosmos DB är en globalt distribuerad databas med flera modeller . Använd Azure Cosmos DB för att säkerställa att dina lösningar elastiskt och oberoende kan skala dataflöde och lagring över valfritt antal geografiska regioner. Den här fullständigt hanterade NoSQL-databastjänsten garanterar ensiffriga svarstider på millisekunder vid den nittionionde percentilen var som helst i världen.
Data Lake Storage är en lagringsplats som innehåller en stor mängd data i sitt ursprungliga rådataformat. Datasjölager är optimerade för skalning till terabyte och petabyte med data. Data kommer vanligtvis från flera, heterogena källor och kan vara strukturerade, halvstrukturerade eller ostrukturerade. Data Lake Storage Gen2 kombinerar Data Lake Storage Gen1-funktioner med Blob Storage. Den här nästa generationens Data Lake-lösning ger filsystemsemantik, säkerhet på filnivå och skalning. Det ger också funktioner för nivåindelad lagring, hög tillgänglighet och haveriberedskap i Blob Storage.
Microsoft Fabric är en företagsklar analysplattform från slutpunkt till slutpunkt. Den förenar dataförflyttning, databearbetning, inmatning, transformering, realtidshändelseroutning och rapportskapande. Den stöder dessa funktioner med hjälp av integrerade tjänster som Fabric Data Engineer, Fabric Data Factory, Fabric Data Science, Fabric Real-Time Intelligence, Fabric Data Warehouse och Fabric Databases.
Azure Database for MySQL är en fullständigt hanterad relationsdatabastjänst som baseras på community-versionen av MySQL-databasmotorn med öppen källkod.

Andra verktyg

Microsoft Service for Distributed Relational Database Architecture (DRDA) är en komponent i Host Integration Server. Microsoft Service för DRDA är en programserver som DRDA Application Requester-klienter (AR) använder. Exempel på DRDA AR-klienter är IBM Db2 för z/OS och Db2 för i5/OS. Dessa klienter använder programservern för att konvertera Db2 SQL-instruktioner och köra dem på SQL Server.
SQL Server Migration Assistant för Db2 automatiserar migreringen från Db2 till Microsofts databastjänster. Det här verktyget körs på en virtuell dator. Den konverterar Db2-databasobjekt till SQL Server databasobjekt och skapar dessa objekt i SQL.

Scenarioinformation

Datatillgänglighet och integritet är viktiga vid modernisering av stordatorer och mellanregister. Datainriktade strategier hjälper till att hålla data intakta och tillgängliga under migreringen till Azure. För att förhindra avbrott under moderniseringen behöver du ibland replikera data snabbt eller hålla lokala data synkroniserade med Azure-databaser.

Mer specifikt omfattar den här lösningen:

Extrahering: Anslut till och extrahera data från en källdatabas.
Omvandling:
- Staging: Lagra tillfälligt data i dess ursprungliga format och förbered dem för transformering.
- Förberedelse: Transformera och manipulera data med hjälp av mappningsregler som uppfyller måldatabaskraven.
Läser in: Infoga data i en måldatabas.

Potentiella användningsfall

Datareplikerings- och synkroniseringsscenarier som kan dra nytta av den här lösningen är:

Kommando Frågeansvar Segregationsarkitekturer som använder Azure för att betjäna alla förfrågningskanaler.
Miljöer som testar lokala program och värdbaserade eller omkonstruerade program parallellt.
Lokala system som har nära kopplade program som kräver fasvis reparation eller modernisering.

Rekommendationer

Du kan tillämpa följande rekommendationer på de flesta scenarier. Följ dessa rekommendationer om du inte har ett visst krav som åsidosätter dem.

När du använder Azure Data Factory för att extrahera data bör du vidta åtgärder för att justera kopieringsaktivitetens prestanda.

Överväganden

Dessa överväganden implementerar grundpelarna i Azure Well-Architected Framework, som är en uppsättning vägledande grundsatser som du kan använda för att förbättra kvaliteten på en arbetsbelastning. Mer information finns i Microsoft Azure Well-Architected Framework.

Tillförlitlighet

Tillförlitlighet hjälper till att säkerställa att ditt program kan uppfylla de åtaganden som du gör gentemot dina kunder. Mer information finns i Checklista för designgranskning för tillförlitlighet.

Infrastrukturhantering, inklusive tillgänglighet, automatiseras i Azure-databaser.
Information om Microsoft-tjänsten för DRDA-redundansskydd finns i Poolning och redundans.
Du kan klustra den lokala datagatewayen och IR för att ge högre tillgänglighetsgarantier.

Säkerhet

Säkerhet ger garantier mot avsiktliga attacker och missbruk av dina värdefulla data och system. Mer information finns i Checklista för designgranskning för säkerhet.

Använd nätverkssäkerhetsgrupper för att begränsa åtkomsten till endast de funktioner som krävs för varje tjänst.
Använd privata slutpunkter för dina PaaS-tjänster. Använd tjänstbrandväggar som är både nåbara och oåtkomliga via Internet för att komplettera säkerheten för dina tjänster.
Använd hanterade identiteter för komponent-till-komponent-dataflöden.
Information om vilka typer av klientanslutningar som Microsoft Service för DRDA stöder finns i Planera och skapa lösningar med hjälp av Microsoft Service för DRDA. Klientanslutningar påverkar typen av transaktioner, poolning, redundans, autentisering och kryptering i nätverket.

Kostnadsoptimering

Kostnadsoptimering fokuserar på sätt att minska onödiga utgifter och förbättra drifteffektiviteten. Mer information finns i Checklista för designgranskning för kostnadsoptimering.

Prismodellerna varierar mellan olika komponenttjänster. Granska prismodellerna för de tillgängliga komponenttjänsterna för att se till att de passar din budget.
Använd Priskalkylatorn för Azure för att beräkna kostnaden för att implementera den här lösningen.

Operativ skicklighet

Operational Excellence omfattar de driftsprocesser som distribuerar ett program och håller det igång i produktion. Mer information finns i Checklista för designgranskning för Operational Excellence.

Infrastrukturhantering, inklusive skalbarhet, automatiseras i Azure-databaser.
Du kan skala ut den lokalt installerade IR: n genom att associera den logiska instansen med flera lokala datorer i aktivt-aktivt läge.

Prestandaeffektivitet

Prestandaeffektivitet syftar på arbetsbelastningens förmåga att skala för att effektivt uppfylla användarnas krav. Mer information finns i Checklista för designgranskning för prestandaeffektivitet.

Överväg Azure ExpressRoute som ett alternativ i hög skala om implementeringen använder betydande bandbredd för inledande replikering eller pågående ändrad datareplikering.
Välj rätt IR-konfiguration för ditt scenario.

Nästa steg

Kontakta Azure Data Engineering – lokal modernisering om du vill ha mer information.
Läs migreringsguiden.

Feedback

Var den här sidan till hjälp?