Dela via


Översikt över datainmatning i Azure Synapse Data Explorer (förhandsversion)

Viktigt!

Azure Synapse Analytics Data Explorer (förhandsversion) dras tillbaka den 7 oktober 2025. Efter det här datumet tas arbetsbelastningar som körs i Synapse Data Explorer bort och associerade programdata går förlorade. Vi rekommenderar starkt att du migrerar till Eventhouse i Microsoft Fabric.

Microsoft Cloud Migration Factory-programmet (CMF) är utformat för att hjälpa kunder att migrera till Fabric. Programmet erbjuder praktiska tangentbordsresurser utan kostnad för kunden. Dessa resurser tilldelas för en period på 6–8 veckor, med ett fördefinierat och överenskommet omfång. Kundnomineringar accepteras från Microsoft-kontoteamet eller direkt genom att skicka en begäran om hjälp till CMF-teamet.

Datainmatning är den process som används för att läsa in dataposter från en eller flera källor för att importera data till en tabell i Azure Synapse Data Explorer-poolen. När data har matats in blir de tillgängliga för frågor.

Azure Synapse Data Explorer-datahanteringstjänsten, som ansvarar för datainmatning, implementerar följande process:

  • Hämtar data i batchar eller direktuppspelning från en extern källa och läser begäranden från en väntande Azure-kö.
  • Batchdata som flödar till samma databas och tabell är optimerade för dataflöde för inmatning.
  • Initiala data verifieras och formatet konverteras vid behov.
  • Ytterligare datamanipulering, inklusive matchande schema, organisering, indexering, kodning och komprimering av data.
  • Data sparas i lagringen enligt den angivna kvarhållningsprincipen.
  • Inmatade data lagras i motorn, där de är tillgängliga för sökningar.

Dataformat, egenskaper och behörigheter som stöds

  • Dataformat som stöds

  • Inmatningsegenskaper: De egenskaper som påverkar hur data matas in (till exempel taggning, mappning, skapandetid).

  • Behörigheter: För att mata in data kräver processen behörigheter på databasnivå. Andra åtgärder, till exempel fråga, kan kräva behörigheter som databasadministratör, databasanvändare eller tabelladministratör.

Batchbearbetning jämfört med strömmande inmatningar

  • Batch-processad inmatning utför databearbetning och är optimerad för hög datainmatning. Den här metoden är den bästa och mest högpresterande typen av inmatning. Data grupperas beroende på inmatningsegenskaperna. Små batchar med data sammanfogas och optimeras för snabba frågeresultat. Inmatningsbatchprincipen kan ställas in på databaser eller tabeller. Som standard är det maximala batchvärdet 5 minuter, 1 000 objekt eller en total storlek på 1 GB. Datastorleksgränsen för ett kommando för batchinmatning är 4 GB.

  • Strömningsinmatning är pågående datainmatning från en strömmande källa. Direktuppspelningsinmatning möjliggör kort svarstid i realtid för små datauppsättningar per tabell. Data matas in i radlagringsformat och flyttas sedan till kolumnlagringsområden.

Inmatningsmetoder och verktyg

Azure Synapse Data Explorer har stöd för flera inmatningsmetoder, var och en med sina egna målscenarier. Dessa metoder omfattar inmatningsverktyg, anslutningsappar och plugin-program till olika tjänster, hanterade pipelines, programmatisk inmatning med SDK:er och direkt åtkomst till inmatning.

Inmatning med hanterade pipelines

För organisationer som vill ha hantering (begränsning, återförsök, övervakning, aviseringar med mera) utförd av en extern tjänst är det troligtvis mest lämpligt att använda en anslutning. Köad inmatning är lämplig för stora datavolymer. Azure Synapse Data Explorer stöder följande Azure Pipelines:

  • Synapse-pipelines: En fullständigt hanterad dataintegreringstjänst för analysarbetsbelastningar i Synapse-pipelines ansluter till över 90 källor som stöds för att tillhandahålla effektiv och elastisk dataöverföring. Synapse-pipelines förbereder, transformerar och berikar data för att ge insikter som kan övervakas på olika sätt. Den här tjänsten kan användas som en engångslösning, på en periodisk tidslinje eller utlösas av specifika händelser.

Programmatisk inmatning med SDK:er

Azure Synapse Data Explorer tillhandahåller SDK:er som kan användas för fråge- och datainmatning. Programmatisk inmatning är optimerad för att minska inmatningskostnader (KS) genom att minimera lagringstransaktioner under och efter inmatningsprocessen.

Innan du börjar använder du följande steg för att hämta datautforskarens poolslutpunkter för att konfigurera programmatisk inmatning.

  1. I Synapse Studio går du till den vänstra rutan och väljer Hantera>datautforskarens pooler.

  2. Välj den datautforskarepool som du vill använda för att visa dess information.

    Skärmbild av Data Explorer-poolernas skärm, som visar listan över befintliga pooler.

  3. Anteckna slutpunkterna för fråga och datainmatning. Använd frågeslutpunkten som kluster när du konfigurerar anslutningar till datautforskarens pool. När du konfigurerar SDK:er för datainmatning använder du slutpunkten för datainmatning.

    Skärmbild av fönstret Egenskaper för Data Explorers pooler, som visar fråge- och datainmatnings-URI-adresserna.

Tillgängliga SDK:er och projekt med öppen källkod

Arbetsredskap

  • Inmatning med ett klick: Gör att du snabbt kan mata in data genom att skapa och justera tabeller från en mängd olika källtyper. Inmatning med ett klick föreslår automatiskt tabeller och mappningsstrukturer baserat på datakällan i Azure Synapse Data Explorer. Inmatning med ett klick kan användas för engångsinmatning eller för att definiera kontinuerlig inmatning via Event Grid i containern som data matades in till.

Kusto Query Language-inmatningskontrollkommandon

Det finns ett antal metoder med vilka data kan matas in direkt till motorn med KQL-kommandon (Kusto Query Language). Eftersom den här metoden kringgår Data Management-tjänsterna är den endast lämplig för utforskning och prototyper. Använd inte den här metoden i produktions- eller högvolymscenarier.

  • Infogad inmatning: Ett kontrollkommando . infogas skickas till motorn, där data som ska matas in är en del av själva kommandotexten. Den här metoden är avsedd för improviserade teständamål.

  • Importera från fråga: Ett kontrollkommando .set, .append, .set-or-append eller .set-or-replace skickas till motorn, med datan som anges indirekt som resultatet av en fråga eller ett kommando.

  • Hämta från lagring (pull): Ett kontrollkommando .importera i skickas till motorn, med data lagrad i viss extern lagring (till exempel Azure Blob Storage) som är tillgänglig för motorn och pekas ut av kommandot.

Ett exempel på hur du använder inmatningskontrollkommandon finns i Analysera med Datautforskaren.

Intagsprocess

När du har valt den lämpligaste inmatningsmetoden för dina behov gör du följande:

  1. Ange kvarhållningsprincip

    Data som matas in i en tabell i Azure Synapse Data Explorer omfattas av tabellens gällande kvarhållningsprincip. Om den inte anges uttryckligen i en tabell härleds den effektiva kvarhållningsprincipen från databasens kvarhållningsprincip. Aktiv kvarhållning är en funktion av klusterstorlek och dina kvarhållningsriktlinjer. Inmatning av mer data än du har tillgängligt utrymme tvingar den första inmatade datan till kall lagring.

    Kontrollera att databasens kvarhållningsprincip är lämplig för dina behov. Annars åsidosätter du det uttryckligen på tabellnivå. Mer information finns i Kvarhållningsprincip.

  2. Skapa en tabell

    För att kunna mata in data måste en tabell skapas i förväg. Använd något av följande alternativ:

    Anmärkning

    Om en post är ofullständig eller om ett fält inte kan parsas som den datatyp som krävs fylls motsvarande tabellkolumner i med null-värden.

  3. Skapa schemamappning

    Schemamappning hjälper till att binda källdatafält till måltabellkolumner. Med mappning kan du ta data från olika källor till samma tabell, baserat på de definierade attributen. Olika typer av mappningar stöds, både radorienterade (CSV, JSON och AVRO) och kolumnorienterade (Parquet). I de flesta metoder kan mappningar också skapas i förväg i tabellen och refereras från inmatningskommandoparametern.

  4. Ange uppdateringsprincip (valfritt)

    Vissa av dataformatmappningarna (Parquet, JSON och Avro) stöder enkla och användbara inmatningstidstransformeringar. Om scenariot kräver mer komplex bearbetning vid inmatningstillfället använder du uppdateringsprincip, vilket möjliggör enkel bearbetning med hjälp av Kusto Query Language-kommandon. Uppdateringsprincipen kör automatiskt extraheringar och transformeringar på inmatade data i den ursprungliga tabellen och matar in resulterande data i en eller flera måltabeller. Ange din uppdateringsprincip.

Nästa steg