Framgångsmetod för Synapse-implementering: Utvärdera dataintegreringsdesign

2025-04-03

Kommentar

Den här artikeln är en del av Azure Synapse-framgång genom design-serien av artiklar. För en översikt över serien, se Azure Synapse: Framgångsrik implementering medvetet utformad.

Azure Synapse Analytics innehåller samma dataintegreringsmotor och funktioner som Azure Data Factory (ADF), så att du kan skapa omfattande ETL-pipelines i stor skala utan att lämna Azure Synapse Analytics.

Bilden visar komponenterna i Azure Synapse med komponenten Dataintegration markerad.

Den här artikeln beskriver hur du utvärderar utformningen av dataintegreringskomponenterna för projektet. Mer specifikt hjälper det dig att avgöra om Azure Synapse-pipelines passar bäst för dina dataintegreringskrav. Tid som investeras i att utvärdera designen före lösningsutvecklingen kan bidra till att eliminera oväntade designändringar som kan påverka projektets tidslinje eller kostnad.

Passformsanalys

Du bör utföra en grundlig fit gap-analys av din dataintegreringsstrategi. Om du väljer Azure Synapse-pipelines som dataintegreringsverktyg granskar du följande punkter för att säkerställa att de passar bäst för dina dataintegreringskrav och orkestrering. Även om du väljer olika verktyg för dataintegrering bör du fortfarande granska följande punkter för att verifiera att alla viktiga designpunkter har övervägts och att det valda verktyget stöder dina lösningsbehov. Den här informationen bör ha samlats in under din utvärdering som utfördes tidigare i den här metoden.

Granska dina datakällor och mål (mål):
- Kontrollera att käll- och mållager är stödda datalager.
- Om de inte stöds kontrollerar du om du kan använda de utökningsbara alternativen.
Granska utlösande punkter för din dataintegrering och frekvensen:
- Azure Synapse-pipelines stöder schema, rullande fönster och utlösare för lagringshändelser.
- Verifiera att det minsta upprepningsintervallet och de händelser som stöds för lagring överensstämmer med dina krav.
Översikt över de nödvändiga lägena för dataintegrering:
- Schemalagd, periodisk och utlöst batchbearbetning kan effektivt utformas i Azure Synapse-pipelines.
- Om du vill implementera CDC-funktioner (Change Data Capture) använder du produkter från tredje part eller skapar en anpassad lösning.
- Om du vill stödja realtidsströmning använder du Azure Event Hubs, Azure Event Hubs från Apache Kafka eller Azure IoT Hub.
- Om du vill köra SSIS-paket (Microsoft SQL Server Integration Services) kan du lyfta och flytta SSIS-arbetsbelastningar till molnet.
Granska beräkningsdesignen:
- Behöver den beräkning som krävs för pipelines vara serverlös eller tilldelad?
- Azure Synapse-pipelines stöder båda lägena för integreringskörning (IR): serverlös eller lokalt installerad på en Windows-dator.
- Verifiera portar och brandväggar och proxyinställningar när du använder den lokalt installerade IR:n (etablerad).
Granska säkerhetskrav, nätverks- och brandväggskonfiguration för miljön och jämför dem med konfigurationsdesignen för säkerhet, nätverk och brandvägg:
- Granska hur datakällorna skyddas och nätverkas.
- Granska hur måldatalager skyddas och nätverkas. Azure Synapse-pipelines har olika strategier för dataåtkomst som ger ett säkert sätt att ansluta datalager via privata slutpunkter eller virtuella nätverk.
- Använd Azure Key Vault för att lagra autentiseringsuppgifter när det är tillämpligt.
- Använd ADF för kundhanterad nyckelkryptering (CMK) för autentiseringsuppgifter och lagra dem i den lokala IR:n.
Granska designen för löpande övervakning av alla dataintegreringskomponenter.

Arkitekturöverväganden

När du granskar designen för dataintegrering bör du överväga följande rekommendationer och riktlinjer för att säkerställa att komponenterna för dataintegrering i din lösning ger kontinuerlig driftseffektivitet, prestandaeffektivitet, tillförlitlighet och säkerhet.

Driftsäkerhet

Utvärdera följande punkter för driftskvalitet.

Miljö: När du planerar dina miljöer separerar du dem efter utveckling/test, UAT (user acceptance testing) och produktion. Använd mapporganisationsalternativen för att organisera dina pipelines och datauppsättningar efter affärs-/ETL-jobb för bättre underhåll. Använd anteckningar för att tagga dina pipelines så att du enkelt kan övervaka dem. Skapa återanvändbara pipelines med hjälp av parametrar, iteration och villkorsstyrda aktiviteter.
Övervakning och avisering: Synapse-arbetsytor innehåller Monitor Hub, som har omfattande övervakningsinformation för varje pipelinekörning. Den integreras också med Log Analytics för ytterligare logganalys och aviseringar. Du bör implementera dessa funktioner för att tillhandahålla proaktiva felmeddelanden. Använd även sökvägar vid fel för att implementera anpassad felhantering.
Automatiserad distribution och testning: Azure Synapse-pipelines är inbyggda i Synapse-arbetsytan, så att du kan dra nytta av automatisering och distribution av arbetsytor. Använd ARM-mallar för att minimera manuella aktiviteter när du skapar Synapse-arbetsytor. Integrera även Synapse-arbetsytor med Azure DevOps för att skapa kodversioner och automatisera publicering.

Prestandaeffektivitet

Utvärdera följande punkter för prestandaeffektivitet.

Följ prestandavägledningen och optimeringsfunktionerna när du arbetar med kopieringsaktiviteten.
Välj optimerade kontakter för dataöverföring i stället för generiska kontakter. Du kan till exempel använda PolyBase i stället för massinfogning när du flyttar data från Azure Data Lake Storage Gen2 (ALDS Gen2) till en dedikerad SQL-pool.
När du skapar en ny Azure IR anger du regionplatsen som automatisk lösning eller väljer samma region som datalager.
För lokalt installerad IR väljer du storleken på den virtuella Azure-datorn (VM) baserat på integreringskraven.
Välj en stabil nätverksanslutning, till exempel Azure ExpressRoute, för snabb och konsekvent bandbredd.

Tillförlitlighet

När du kör en pipeline med hjälp av Azure IR är den serverlös och ger därför återhämtning direkt. Det finns inte mycket för kunderna att hantera. Men när en pipeline körs i en lokalt installerad IR rekommenderar vi att du kör den med hjälp av en konfiguration med hög tillgänglighet på virtuella Azure-datorer. Den här konfigurationen säkerställer att integreringspipelines inte bryts även när en virtuell dator kopplas från. Vi rekommenderar också att du använder Azure ExpressRoute för en snabb och tillförlitlig nätverksanslutning mellan lokalt och Azure.

Säkerhet

En säker dataplattform är ett av de viktigaste kraven för varje organisation. Du bör noggrant planera säkerheten för hela plattformen i stället för enskilda komponenter. Här följer några säkerhetsriktlinjer för Azure Synapse-pipelinelösningar.

Skydda dataflytt till molnet med hjälp av privata Azure Synapse-slutpunkter.
Använd Microsoft Entra-hanterade identiteter för autentisering.
Använd rollbaserad åtkomstkontroll i Azure (RBAC) och Synapse RBAC för auktorisering.
Lagra autentiseringsuppgifter, hemligheter och nycklar i Azure Key Vault i stället för i pipelinen. Mer information finns i Använda Azure Key Vault-hemligheter i pipelineaktiviteter.
Anslut till lokala resurser via Azure ExpressRoute eller VPN via privata slutpunkter.
Aktivera alternativen Säker utdata och Säker indata i pipelineaktiviteter när parametrar lagrar hemligheter eller lösenord.

Nästa steg

I nästa artikel i Azure Synapse lyckades med designserien får du lära dig hur du utvärderar din dedikerade SQL-pooldesign för att identifiera problem och verifiera att den uppfyller riktlinjer och krav.

Feedback

Var den här sidan till hjälp?