Anteckning
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
gäller för: SQL Server 2019 (15.x) och senare versioner
Den 28 februari 2025 drogs SQL Server 2019 Big Data Clusters tillbaka. Mer information finns i blogginlägget om tillkännagivandet.
Ändringar i PolyBase-stöd i SQL Server
Relaterat till avvecklingen av SQL Server 2019 Big Data Clusters är några funktioner som rör skalningsfrågor.
Funktionen PolyBase-funktionen för utskalningsgrupper i Microsoft SQL Server har dragits tillbaka. Skalbara gruppfunktioner tas bort från produkten i SQL Server 2022 (16.x). Marknadsversioner av SQL Server 2019, SQL Server 2017 och SQL Server 2016 fortsätter att stödja funktionerna till slutet av dessa produkter. PolyBase-datavirtualisering stöds fortfarande fullt ut som en uppskalningsfunktion i SQL Server.
Cloudera (CDP) och Hortonworks (HDP) Hadoop externa datakällor dras också tillbaka för alla marknadsversioner av SQL Server och ingår inte i SQL Server 2022. Stöd för externa datakällor är begränsat till produktversioner i mainstream-support av respektive leverantör. Du rekommenderas att använda den nya objektlagringsintegrering som är tillgänglig i SQL Server 2022 (16.x).
I SQL Server 2022 (16.x) och senare versioner måste användarna konfigurera sina externa datakällor för att använda nya anslutningsappar när de ansluter till Azure Storage. I följande tabell sammanfattas ändringen:
| Extern datakälla | From | To |
|---|---|---|
| Azure Blob Storage-lagringstjänst | wasb[s] |
abs |
| ADLS Gen 2 | abfs[s] |
adls |
Note
Azure Blob Storage (abs) kräver användning av signatur för delad åtkomst (SAS) för SECRET i databasens begränsade autentiseringsuppgifter. I SQL Server 2019 och tidigare använde anslutningsappen wasb[s] lagringskontonyckel med databasomfångsbegränsade autentiseringsuppgifter vid autentisering till Azure Storage-konto.
Förstå arkitekturen för stordatakluster för alternativ för ersättning och migrering
För att skapa en ersättningslösning för ett lagrings- och bearbetningssystem för stordata är det viktigt att du förstår vad SQL Server 2019 Big Data Clusters tillhandahåller, och dess arkitektur kan hjälpa dig att informera dina val. Arkitekturen för ett stordatakluster var:
Den här arkitekturen tillhandahöll följande funktionsmappning:
| Component | Benefit |
|---|---|
| Kubernetes | Orkestrering med öppen källkod för distribution och hantering av containerbaserade program i stor skala. Tillhandahåller en deklarativ metod för att skapa och kontrollera resiliens, redundans och portabilitet för hela miljön med elastisk skalbarhet. |
| Styrenhet för stordatakluster | Tillhandahåller hantering och säkerhet för klustret. Den innehåller kontrolltjänsten, konfigurationsarkivet och andra tjänster på klusternivå som Kibana, Grafana och Elastic Search. |
| Compute Pool | Tillhandahåller beräkningsresurser till klustret. Den innehåller noder som kör SQL Server på Linux-poddar. Poddarna i beräkningspoolen är indelade i SQL Compute-instanser för specifika bearbetningsuppgifter. Den här komponenten tillhandahåller även datavirtualisering med PolyBase för att fråga externa datakällor utan att flytta eller kopiera data. |
| Data Pool | Tillhandahåller datapersistence för klustret. Datapoolen består av en eller flera poddar som kör SQL Server på Linux. Den används för att mata in data från SQL-frågor eller Spark-jobb. |
| Storage Pool | Lagringspoolen består av lagringspoolpoddar som består av SQL Server i Linux, Spark och HDFS. Alla lagringsnoder i ett stordatakluster är medlemmar i ett HDFS-kluster. |
| App Pool | Möjliggör distribution av program i ett stordatakluster genom att tillhandahålla gränssnitt för att skapa, hantera och köra program. |
Mer information om dessa funktioner finns i Introduktion till SQL Server-stordatakluster.
Alternativ för ersättning av funktioner för stordata och SQL Server
Den driftdatafunktion som underlättas av SQL Server i Big Data Clusters kan ersättas av SQL Server lokalt i en hybridkonfiguration eller med hjälp av Microsoft Azure-plattformen. Microsoft Azure erbjuder ett urval av fullständigt hanterade relationsdatabaser, NoSQL- och minnesinterna databaser, som omfattar proprietära motorer och motorer med öppen källkod, för att passa behoven hos moderna apputvecklare. Infrastrukturhantering – inklusive skalbarhet, tillgänglighet och säkerhet – automatiseras, sparar tid och pengar och gör att du kan fokusera på att skapa program medan Azure-hanterade databaser gör ditt jobb enklare genom att visa prestandainsikter genom inbäddad intelligens, skalning utan gränser och hantering av säkerhetshot. Mer information finns i Azure-databaser.
Nästa beslutspunkt är platserna för beräkning och datalagring för analys. De två arkitekturvalen är molnbaserade distributioner och hybriddistributioner. De flesta analysarbetsbelastningar kan migreras till Microsoft Azure-plattformen. Data "födda i molnet" (har sitt ursprung i molnbaserade program) är främsta kandidater för dessa tekniker, och dataflytttjänster kan migrera storskaliga lokala data på ett säkert och snabbt sätt. Mer information om alternativ för dataflytt finns i Dataöverföringslösningar.
Microsoft Azure har system och certifieringar som möjliggör säker data- och databearbetning i olika verktyg. Mer information om dessa certifieringar finns i Säkerhetscenter.
Note
Microsoft Azure-plattformen ger en mycket hög säkerhetsnivå, flera certifieringar för olika branscher och respekterar datasuveränitet för myndighetskrav. Microsoft Azure har också en dedikerad molnplattform för myndighetsarbetsbelastningar. Enbart säkerhet bör inte vara den primära beslutspunkten för lokala system. Du bör noggrant utvärdera den säkerhetsnivå som tillhandahålls av Microsoft Azure innan du bestämmer dig för att behålla dina stordatalösningar lokalt.
I arkitekturalternativet i molnet finns alla komponenter i Microsoft Azure. Ditt ansvar ligger på de data och den kod som du skapar för lagring och bearbetning av dina arbetsbelastningar. Dessa alternativ beskrivs mer detaljerat i den här artikeln.
- Det här alternativet fungerar bäst för en mängd olika komponenter för lagring och bearbetning av data, och när du vill fokusera på data och bearbetningskonstruktioner i stället för infrastruktur.
I hybridarkitekturalternativen behålls vissa komponenter lokalt och andra placeras i en molnleverantör. Anslutningen mellan de två är utformad för bästa placering av bearbetning över data.
- Det här alternativet fungerar bäst när du har en betydande investering i lokala tekniker och arkitekturer, men du vill använda erbjudandena från Microsoft Azure, eller när du antingen har bearbetnings- och programmål som finns lokalt eller för en världsomspännande publik.
Mer information om hur du skapar skalbara arkitekturer finns i Skapa ett skalbart system för massiva data.
In-cloud
Azure SQL med Synapse
Du kan ersätta funktionerna i SQL Server Big Data Clusters med hjälp av ett eller flera Azure SQL-databasalternativ för driftdata och Microsoft Azure Synapse för dina analysarbetsbelastningar.
Microsoft Azure Synapse är en företagsanalystjänst som påskyndar tiden till insikter i informationslager och stordatasystem med hjälp av distribuerad bearbetning och datakonstruktioner. Azure Synapse sammanför SQL-tekniker som används i företagets datalager, Spark-tekniker som används för stordata, Pipelines för dataintegrering och ETL/ELT samt djupintegrering med andra Azure-tjänster som Power BI, Cosmos DB och Azure Machine Learning.
Använd Microsoft Azure Synapse som ersättning för SQL Server 2019 Big Data Clusters när du behöver:
- Använd både serverlösa och dedikerade resursmodeller. För att uppnå förutsägbar prestanda och kostnad, skapa dedikerade SQL-pooler för att reservera beräkningskraft för data som lagras i SQL-tabeller.
- Hantera oplanerade eller "burst"-arbetsbelastningar genom att få åtkomst till en ständigt tillgänglig, serverlös SQL-slutpunkt.
- Använd inbyggda strömningsfunktioner för att landa data från molndatakällor i SQL-tabeller.
- Integrera AI med SQL med hjälp av maskininlärningsmodeller för att poängsätta data med hjälp av funktionen T-SQL PREDICT.
- Använd ML-modeller med SparkML-algoritmer och Azure Machine Learning-integrering för Apache Spark 2.4 som stöds för Linux Foundation Delta Lake.
- Använd en förenklad resursmodell som gör att du inte behöver bekymra dig om att hantera kluster.
- Bearbeta data som kräver snabb start av Spark och aggressiv autoskalning.
- Bearbeta data using.NET för Spark så att du kan återanvända dina C#-kunskaper och befintlig .NET-kod i ett Spark-program.
- Arbeta med tabeller som definierade för filer i datasjön, sömlöst använd av antingen Spark eller Hive.
- Använd SQL med Spark för att direkt utforska och analysera Parquet-, CSV-, TSV- och JSON-filer som lagras i en datasjö.
- Aktivera snabb, skalbar datainläsning mellan SQL- och Spark-databaser.
- Mata in data från över 90 datakällor.
- Aktivera "Kodfri" ETL med dataflödesaktiviteter.
- Dirigera notebook-filer, Spark-jobb, lagrade procedurer, SQL-skript med mera.
- Övervaka resurser, användning och användare i SQL och Spark.
- Använd rollbaserad åtkomstkontroll för att förenkla åtkomsten till analysresurser.
- Skriv SQL- eller Spark-kod och integrera med företagets CI/CD-processer.
Arkitekturen för Microsoft Azure Synapse är följande:
Mer information om Microsoft Azure Synapse finns i Vad är Azure Synapse Analytics?
Azure SQL plus Azure Machine Learning
Du kan ersätta funktionerna i SQL Server Big Data Clusters med hjälp av ett eller flera Azure SQL-databasalternativ för driftdata och Microsoft Azure Machine Learning för dina förutsägande arbetsbelastningar.
Azure Machine Learning är en molnbaserad tjänst som kan användas för alla typer av maskininlärning, från klassisk ML till djupinlärning, övervakad och oövervakad inlärning. Oavsett om du föredrar att skriva Python- eller R-kod med SDK eller arbeta med alternativ utan kod/låg kod i studion kan du skapa, träna och spåra maskininlärnings- och djupinlärningsmodeller på en Azure Machine Learning-arbetsyta. Med Azure Machine Learning kan du börja träna på din lokala dator och sedan skala ut till molnet. Tjänsten interopererar också med populära djupinlärnings- och förstärkningsverktyg med öppen källkod som PyTorch, TensorFlow, scikit-learn och Ray RLlib.
Använd Microsoft Azure Machine Learning som ersättning för SQL Server 2019 Big Data Clusters när du behöver:
- En designerbaserad webbmiljö för Machine Learning: dra-n-släpp-moduler för att skapa dina experiment och sedan distribuera pipelines i en miljö med låg kod.
- Jupyter Notebooks: Använd våra exempelanteckningsböcker eller skapa egna notebook-filer för att använda vårt SDK för Python-exempel för din maskininlärning.
- R-skript eller notebook-filer där du använder SDK för R för att skriva din egen kod eller använda R-modulerna i designern.
- Lösningsacceleratorn många modeller bygger på Azure Machine Learning och gör att du kan träna, använda och hantera hundratals eller till och med tusentals maskininlärningsmodeller.
- Maskininlärningstillägg för Visual Studio Code (förhandsversion) ger dig en komplett utvecklingsmiljö för att skapa och hantera dina maskininlärningsprojekt.
- Azure Machine Learning är ett CLI (Machine Learning Command-Line Interface) och innehåller ett Azure CLI-tillägg som tillhandahåller kommandon för hantering med Azure Machine Learning-resurser från kommandoraden.
- Integrering med ramverk med öppen källkod som PyTorch, TensorFlow och scikit-learn och mycket mer för utbildning, distribution och hantering av maskininlärningsprocessen från slutpunkt till slutpunkt.
- Förstärkningsinlärning med Ray RLlib.
- MLflow för att spåra metrik och distribuera modeller eller Kubeflow för att bygga kompletta arbetsflödeskedjor.
Arkitekturen för en Microsoft Azure Machine Learning-distribution är följande:
Mer information om Microsoft Azure Machine Learning finns i Så här fungerar Azure Machine Learning.
Azure SQL från Databricks
Du kan ersätta funktionerna i SQL Server Big Data Clusters med hjälp av ett eller flera Azure SQL-databasalternativ för driftdata och Microsoft Azure Databricks för dina analysarbetsbelastningar.
Azure Databricks är en dataanalysplattform som är optimerad för Microsoft Azure-molntjänstplattformen. Azure Databricks erbjuder två miljöer för att utveckla dataintensiva program: Azure Databricks SQL Analytics och Azure Databricks Workspace.
Azure Databricks SQL Analytics är en lätthanterad plattform för analytiker som vill köra SQL-frågor på sin datasjö, skapa flera visualiseringstyper för att utforska frågeresultat ur olika perspektiv och skapa och dela instrumentpaneler.
Azure Databricks-arbetsytan tillhandahåller en interaktiv arbetsyta som möjliggör samarbete mellan datatekniker, dataforskare och maskininlärningstekniker. För en stordatapipeline matas data (rådata eller strukturerade) in i Azure via Azure Data Factory i batchar eller strömmas nästan i realtid med Apache Kafka, Event Hubs eller IoT Hub. Dessa data hamnar i en datasjö för långsiktig lagring i Azure Blob Storage eller Azure Data Lake Storage. Som en del av ditt analysarbetsflöde använder du Azure Databricks för att läsa data från flera datakällor och omvandla dem till banbrytande insikter med Spark.
Använd Microsoft Azure Databricks som ersättning för SQL Server 2019 Big Data Clusters när du behöver:
- Fullständigt hanterade Spark-kluster med Spark SQL och DataFrames.
- Direktuppspelning för databearbetning i realtid och analys för analytiska och interaktiva program, integrering med HDFS, Flume och Kafka.
- Åtkomst till MLlib-biblioteket, som består av vanliga inlärningsalgoritmer och verktyg, inklusive klassificering, regression, klustring, samarbetsfiltrering, dimensionsminskning och underliggande optimeringsprimitanter.
- Dokumentation om dina framsteg i notebook-filer i R, Python, Scala eller SQL.
- Visualisering av data i några få steg med hjälp av välbekanta verktyg som Matplotlib, ggplot eller d3.
- Interaktiva instrumentpaneler för att skapa dynamiska rapporter.
- GraphX, för Grafer och grafberäkning för ett brett omfång av användningsfall från kognitiv analys till datautforskning.
- Skapa kluster på några sekunder med dynamiska autoskalningskluster och dela dem mellan team.
- Programmatisk klusteråtkomst med hjälp av REST-API:er.
- Omedelbar åtkomst till de senaste Apache Spark-funktionerna med varje version.
- Ett Spark Core-API: Innehåller stöd för R, SQL, Python, Scala och Java.
- En interaktiv arbetsyta för utforskning och visualisering.
- Fullständigt hanterade SQL-slutpunkter i molnet.
- SQL-frågor som körs på fullständigt hanterade SQL-slutpunkter i storlek enligt frågesvarstid och antal samtidiga användare.
- Integrering med Microsoft Entra ID (tidigare Azure Active Directory).
- Rollbaserad åtkomst för detaljerade användarbehörigheter på anteckningsböcker, kluster, jobb och data.
- Enterprise-grade SLAs.
- Instrumentpaneler för att dela insikter, där visualiseringar och text kombineras för att förmedla insikter från dina sökfrågor.
- Aviseringar hjälper dig att övervaka och integrera och meddela när ett fält som returneras av en fråga uppfyller ett tröskelvärde. Du kan använda aviseringar till att övervaka din verksamhet eller integrera dem med verktyg för att starta arbetsflöden som användarregistrering eller supportbegäranden.
- Företagssäkerhet, inklusive Integrering av Microsoft Entra-ID, rollbaserade kontroller och serviceavtal som skyddar dina data och ditt företag.
- Integrering med Azure-tjänster och Azure-databaser och -butiker, inklusive Synapse Analytics, Cosmos DB, Data Lake Store och Blob Storage.
- Integrering med Power BI och andra BI-verktyg, till exempel Tableau Software.
Arkitekturen för en Microsoft Azure Databricks-distribution är följande:
Mer information om Microsoft Azure Databricks finns i Vad är Databricks Data Science &Engineering?
Hybrid
Tygspeglingsdatabas
Som en lösning för datareplikering är databasspegling i Fabric en lågkostnadslösning med låg svarstid för att sammanföra data från olika system till en enda analysplattform. Du kan kontinuerligt replikera din befintliga dataegendom direkt till Fabrics OneLake, inklusive data från Azure SQL Database, Snowflake och Cosmos DB.
Med den senaste datan i ett frågbart format i OneLake kan du nu använda alla de olika tjänsterna i Fabric, som att köra analyser med Spark, bearbeta notebook-filer, dataengineering, visualisera genom Power BI-rapporter och mer.
Spegling i Plattform ger en enkel upplevelse för att påskynda tidsramen för att få värde från insikter och beslut, samt för att bryta ner datasilor mellan tekniska lösningar, utan behov av att utveckla dyra ETL-processer (Extract, Transform, and Load) för dataöverföring.
Med Mirroring i Fabric behöver du inte pussla ihop olika tjänster från flera leverantörer. I stället kan du njuta av en mycket integrerad produkt från slutpunkt till slutpunkt och lätt att använda som är utformad för att förenkla dina analysbehov och som är byggd för öppenhet och samarbete mellan tekniklösningar som kan läsa Delta Lake-tabellformatet med öppen källkod.
Mer information finns i:
- Microsoft Fabric-speglade databaser
- Övervakning av speglade Databaser i Microsoft Fabric
- Utforska data i din speglade databas med Hjälp av Microsoft Fabric
- Vad är Microsoft Fabric?
- Modellera data i standardmodellen för Power BI-semantik i Microsoft Fabric
- Vad är SQL-analysslutpunkten för en Lakehouse?
- Direct Lake
Använda SQL Server 2022 med Azure Synapse Link för SQL
SQL Server 2022 (16.x) innehåller en ny funktion som möjliggör anslutning mellan SQL Server-tabeller och Microsoft Azure Synapse-plattformen , Azure Synapse Link för SQL. Azure Synapse Link för SQL Server 2022 (16.x) tillhandahåller automatiska ändringsfeeds som samlar in ändringarna i SQL Server och läser in dem i Azure Synapse Analytics. Det ger nästan realtidsanalys och hybridtransaktions- och analysbearbetning med minimal påverkan på driftsystem. När data finns i Synapse kan du kombinera dem med många olika datakällor oavsett storlek, skala eller format och köra kraftfulla analyser över allt med hjälp av ditt val av Azure Machine Learning, Spark eller Power BI. Eftersom de automatiserade ändringsflödena bara push-överför det som är nytt eller annorlunda sker dataöverföringen mycket snabbare och möjliggör nu insikter i nära realtid, med minimal påverkan på källdatabasens prestanda i SQL Server 2022 (16.x).
För din drift och till och med stora delar av dina analysarbetsbelastningar kan SQL Server hantera enorma databasstorlekar – mer information om maximala kapacitetsspecifikationer för SQL Server finns i Beräkningskapacitetsbegränsningar per utgåva av SQL Server. Om du använder flera SQL Server-instanser på separata datorer med partitionerade T-SQL-begäranden kan du skala ut en miljö för program.
Med PolyBase kan SQL Server-instansen köra frågor mot data med T-SQL direkt från SQL Server, Oracle, Teradata, MongoDB och Cosmos DB utan att installera klientanslutningsprogramvaran separat. Du kan också använda den allmänna ODBC-anslutningsappen på en Microsoft Windows-baserad instans för att ansluta till ytterligare leverantörer med hjälp av ODBC-drivrutiner från tredje part. Med PolyBase kan T-SQL-frågor koppla data från externa källor till relationstabeller i en instans av SQL Server. Detta gör att data kan stanna kvar på sin ursprungliga plats och sitt ursprungliga format. Du kan virtualisera externa data via SQL Server-instansen så att de kan efterfrågas på plats som andra tabeller i SQL Server. SQL Server 2022 (16.x) tillåter även ad hoc-frågor och säkerhetskopiering/återställning över Object-Store (med hjälp av S3-API) maskinvaru- eller programvarulagringsalternativ.
Två allmänna referensarkitekturer är att använda SQL Server på en fristående server för strukturerade datafrågor och en separat installation av ett utskalningssystem som inte är relationellt (till exempel Apache Hadoop eller Apache Spark) för lokal länk till Synapse, och det andra alternativet är att använda en uppsättning containrar i ett Kubernetes-kluster med alla komponenter för din lösning.
Microsoft SQL Server i Windows, Apache Spark och objektlagring lokalt
Du kan installera SQL Server i Windows eller Linux och skala upp maskinvaruarkitekturen med hjälp av frågefunktionen SQL Server 2022 (16.x) object-storage och PolyBase-funktionen för att aktivera frågor över alla data i systemet.
Genom att installera och konfigurera en skalbar plattform som Apache Hadoop eller Apache Spark kan du köra frågor mot icke-relationsdata i stor skala. Genom att använda en central uppsättning Object-Storage system som stöder S3-API kan både SQL Server 2022 (16.x) och Spark komma åt samma uppsättning data i alla system.
Du kan också använda Kubernetes containerorkestreringssystem för distributionen. Detta möjliggör en deklarativ arkitektur som kan köras lokalt eller i alla moln som stöder Kubernetes eller Red Hat OpenShift-plattformen. Mer information om hur du distribuerar SQL Server till en Kubernetes-miljö finns i Distribuera ett SQL Server-containerkluster i Azure eller titta på Distribuera SQL Server 2019 i Kubernetes.
Använd SQL Server och Hadoop/Spark lokalt som ersättning för SQL Server 2019 Big Data Clusters när du behöver:
- Behåll hela lösningen lokalt
- Använda dedikerad maskinvara för alla delar av lösningen
- Få åtkomst till relations- och icke-relationsdata från samma arkitektur i båda riktningarna
- Dela en enda uppsättning icke-relationella data mellan SQL Server och det skalbara icke-relationella systemet
Utföra migreringen
När du har valt en plats (In-Cloud eller Hybrid) för migreringen bör du väga stilleståndstiden och kostnadsvektorerna för att avgöra om du kör ett nytt system och flytta data från det tidigare systemet till det nya i realtid (sida vid sida-migrering) eller en säkerhetskopia och återställning, eller en ny start av systemet från befintliga datakällor (migrering på plats).
Nästa beslut är att antingen skriva om de aktuella funktionerna i systemet med hjälp av det nya arkitekturvalet eller flytta så mycket av koden som möjligt till det nya systemet. Även om det tidigare valet kan ta längre tid kan du använda de nya metoderna, begreppen och fördelarna med den nya arkitekturen. I så fall är dataåtkomst och funktionskartor de primära planeringsinsatserna som du bör fokusera på.
Om du planerar att migrera det aktuella systemet med så lite kodändring som möjligt är språkkompatibiliteten ditt primära fokus för planering.
Code migration
Nästa steg är att granska koden som det aktuella systemet använder och vilka ändringar det behöver för att köras mot den nya miljön.
Det finns två primära vektorer för kodmigrering att tänka på:
- Källor och avledningar
- Functionality migration
Källor och avledningar
Den första uppgiften i kodmigreringen är att identifiera de datakällsanslutningsmetoder, strängar eller API:er som koden använder för att komma åt de data som importeras, dess sökväg och dess slutliga mål. Dokumentera dessa källor och skapa en karta till den nya arkitekturens platser.
- Om den aktuella lösningen använder ett pipelinesystem för att flytta data genom systemet mappar du de nya arkitekturkällorna, stegen och mottagare till pipelinens komponenter.
- Om den nya lösningen också ersätter pipelinearkitekturen behandlar du systemet som en ny installation i planeringssyfte, även om du återanvänder maskinvaran eller molnplattformen som ersättning.
Functionality migration
Det mest komplexa arbete som krävs vid en migrering är att referera till, uppdatera eller skapa dokumentationen om funktionerna i det aktuella systemet. Om du planerar en uppgradering på plats och försöker minska mängden kodomskrivning så mycket som möjligt tar det här steget mest tid.
Men en migrering från en tidigare teknik är ofta en optimal tid för att uppdatera dig själv om de senaste tekniska framstegen och dra nytta av de konstruktioner som den tillhandahåller. Ofta kan du få mer säkerhet, prestanda, funktionsalternativ och till och med kostnadsoptimeringar genom en omskrivning av ditt nuvarande system.
I båda fallen har du två primära faktorer som är inblandade i migreringen: koden och språken som det nya systemet stöder och alternativen kring dataflytt. Vanligtvis bör du kunna ändra anslutningssträngar från det aktuella stordataklustret till SQL Server-instansen och Spark-miljön. All information om dataanslutningen och kodövergången bör vara minimal.
Om du planerar en omskrivning av dina aktuella funktioner mappar du de nya biblioteken, paketen och DLL:erna till den arkitektur som du valde för migreringen. Du hittar en lista över vart och ett av de bibliotek, språk och funktioner som varje lösning erbjuder i dokumentationsreferenserna som visas i föregående avsnitt. Kartlägg misstänkta språk eller identifiera språk som inte stöds och planera för att ersätta dem med den valda arkitekturen.
Alternativ för datamigrering
Det finns två vanliga metoder för dataflytt i ett storskaligt analyssystem. Först är att skapa en överlämningsprocess där det ursprungliga systemet fortsätter att bearbeta data och dessa data samlas upp i en mindre uppsättning sammanställd rapportdatakälla. Det nya systemet börjar sedan med nya data och används från migreringsdatumet och framåt.
I vissa fall måste alla data flyttas från det äldre systemet till det nya systemet. I det här fallet kan du montera de ursprungliga filarkiven från SQL Server Big Data Clusters om det nya systemet stöder det och sedan kopiera data bitvis till det nya systemet, eller så kan du skapa en fysisk flytt.
Att migrera dina aktuella data från SQL Server 2019 Big Data Clusters till ett annat system är mycket beroende av två faktorer: platsen för dina aktuella data och målet är lokalt eller till molnet.
Datamigrering på plats
För lokal till lokal migrering kan du migrera SQL Server-data med en strategi för säkerhetskopiering och återställning, eller så kan du konfigurera replikering för att flytta vissa eller alla dina relationsdata. SQL Server Integration Services kan också användas för att kopiera data från SQL Server till en annan plats. Mer information om hur du flyttar data med SSIS finns i SQL Server Integration Services.
För HDFS-data i din aktuella SQL Server Big Data Cluster-miljö är standardmetoden att montera data till ett fristående Spark-kluster och antingen använda object storage-processen för att flytta data så att en SQL Server 2022-instans (16.x) kan komma åt den eller lämna den as-is och fortsätta att bearbeta den med Spark-jobb.
Datamigrering i molnet
För data som finns i molnlagring eller lokalt kan du använda Azure Data Factory, som har över 90 anslutningsappar för en fullständig pipeline för överföring, med schemaläggning, övervakning, aviseringar och andra tjänster. Mer information om Azure Data Factory finns i Vad är Azure Data Factory?
Om du vill flytta stora mängder data på ett säkert och snabbt sätt från din lokala dataegendom till Microsoft Azure kan du använda Azure Import/Export Service. Azure Import/Export-tjänsten används för att på ett säkert sätt importera stora mängder data till Azure Blob Storage och Azure Files genom att skicka diskenheter till ett Azure-datacenter. Du kan också använda den här tjänsten till att överföra data från Azure Blob Storage till diskenheter som sedan levereras till dig lokalt. Data från en eller flera diskenheter kan importeras antingen till Azure Blob Storage eller Azure Files. För extremt stora mängder data kan användning av den här tjänsten vara den snabbaste sökvägen.
Om du vill överföra data med hjälp av diskenheter som tillhandahålls av Microsoft kan du använda Azure Data Box Disk för att importera data till Azure. Mer information finns i Vad är Azure Import/Export-tjänsten?
Mer information om dessa val och de beslut som medföljer dem finns i Använda Azure Data Lake Storage Gen1 för stordatakrav.