Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Gebruik deze referentiehandleiding en de voorbeeldscenario's om te bepalen of u een kopieeractiviteit, een kopieertaak, een gegevensstroom, een Eventstream of Spark voor uw Microsoft Fabric-workloads nodig hebt.
Kopieeractiviteit, kopieertaak, gegevensstroom, Eventstream en Spark-eigenschappen
| activiteit voor het kopiëren van pijplijnen | Taak kopiëren | Gegevensstroom Gen 2 | Eventstream | Vonk | |
|---|---|---|---|---|---|
| Gebruikssituatie | Data lake- en datawarehouse-migratie, gegevensopname, lichte transformatie |
Gegevensopname, Incrementeel kopiëren Replicatie Migratie van Data Lake en Data Warehouse, lichte transformatie |
Gegevensopname, gegevenstransformatie, gegevensverwerking gegevensprofilering |
opname van gebeurtenisgegevens, gebeurtenisgegevenstransformatie |
Gegevensopname, gegevenstransformatie, gegevensverwerking gegevensprofilering |
| Primaire ontwikkelaarspersona | Data-ingenieur gegevensintegrator |
Bedrijfsanalist, Gegevensintegrator, Data-ingenieur |
Data-ingenieur gegevensintegrator, bedrijfsanalist |
Data-ingenieur data scientist gegevensontwikkelaar |
Gegevensintegrator, data-ingenieur |
| primaire vaardighedenset voor ontwikkelaars | ETL, SQL JSON |
ETL, SQL JSON |
ETL, M, SQL |
SQL, JSON, berichten | Spark (Scala, Python, Spark SQL, R) |
| code geschreven | Geen code, lage code |
Geen code, lage code |
Geen code, lage code |
Geen code, lage code |
Code |
| gegevensvolume | Laag tot hoog | Laag tot hoog | Laag tot hoog | Gemiddeld tot hoog | Laag tot hoog |
| Ontwikkelinterface | Tovenaar canvas |
Tovenaar canvas |
Power Query | Doek | Notitieboek Spark-taakdefinitie |
| bronnen | 50+ connectoren | 50+ connectoren | 150+ aansluitingen | Database die CDC ondersteunt (Change Data Capture), Kafka, Messaging Systems die ondersteuning bieden voor het publiceren en abonneren van patroon, gebeurtenisstromen | Honderden Spark-bibliotheken |
| bestemmingen | 40+ connectoren | 40+ connectoren | Lakehouse, Azure SQL-database, Azure Data Explorer, Azure Synapse Analytics |
Eventhouse, Lakehouse, Activator Alert, Derived Stream, Custom Endpoint | Honderden Spark-bibliotheken |
| complexiteit van transformatie | Laag: lichtgewicht - typeconversie, kolomtoewijzing, bestanden samenvoegen/splitsen, hiërarchie afvlakken |
Laag: lichtgewicht - typeconversie, kolomtoewijzing, bestanden samenvoegen/splitsen, hiërarchie afvlakken |
Laag tot hoog: Meer dan 300 transformatiefuncties |
Laag: lichtgewicht |
Laag tot hoog: ondersteuning voor systeemeigen Spark- en opensource-bibliotheken |
Scenariën
Bekijk de volgende scenario's voor hulp bij het kiezen hoe u met uw gegevens in Fabric wilt werken.
Scenario 1
Leo, een data engineer, moet een grote hoeveelheid gegevens opnemen uit externe systemen, zowel on-premises als in de cloud. Deze externe systemen omvatten databases, bestandssystemen en API's. Leo wil geen code schrijven en onderhouden voor elke connector- of gegevensverplaatsingsbewerking. Hij wil de beste praktijken voor medaillonlagen volgen, met brons, zilver en goud. Leo heeft geen ervaring met Spark, dus hij geeft de voorkeur aan de gebruikersinterface voor slepen en neerzetten, met minimale codering. En hij wil ook de gegevens volgens een schema verwerken.
De eerste stap is het ophalen van de onbewerkte gegevens in het bronslaag lakehouse van Azure-gegevensbronnen en verschillende bronnen van derden (zoals Snowflake Web, REST, AWS S3, GCS, enzovoort). Hij wil een geconsolideerd lakehouse, zodat alle gegevens uit verschillende LOB-, on-premises en cloudbronnen zich op één plaats bevinden. Leo beoordeelt de opties en selecteert pijplijnkopieactiviteit als de juiste keuze voor zijn onbewerkte binaire kopie. Dit patroon is van toepassing op zowel historische als incrementele gegevensvernieuwing. Met een kopieeractie kan Leo Gold-gegevens in een datawarehouse laden zonder code, als dat nodig is. Pijplijnen bieden grootschalige gegevensinvoer waarmee gegevens op petabyteschaal kunnen worden verplaatst. Kopieeractiviteit is de beste keuze voor low-code en no-code om petabytes aan gegevens te verplaatsen naar data lakehouses en datawarehouses vanuit verschillende soorten bronnen, zowel ad-hoc als volgens een schema.
Scenario 2
Mary is een data engineer met uitgebreide kennis van de rapportagevereisten voor meerdere LOB-analyse. Een upstream-team heeft een oplossing geïmplementeerd om historische en incrementele gegevens van meerdere LOB's te migreren naar een common lakehouse. Mary is belast met het opschonen van de gegevens, het toepassen van bedrijfslogica en het laden ervan in meerdere bestemmingen (zoals Azure SQL DB, ADX en een lakehouse) ter voorbereiding op hun respectieve rapportageteams.
Mary is een ervaren Power Query-gebruiker en het gegevensvolume bevindt zich in het lage tot middelgrote bereik om de gewenste prestaties te bereiken. Gegevensstromen bieden interfaces zonder code of weinig code voor het opnemen van gegevens uit honderden gegevensbronnen. Met gegevensstromen kunt u gegevens transformeren met behulp van meer dan 300 opties voor gegevenstransformatie en de resultaten naar meerdere bestemmingen schrijven met een gebruiksvriendelijke, zeer visuele gebruikersinterface. Mary beoordeelt de opties en besluit dat het zinvol is om Dataflow Gen 2 te gebruiken als voorkeurstransformatieoptie.
Scenario 3
Prashant, een gegevensintegrator met diepgaande expertise in bedrijfsprocessen en systemen. Een upstream-team heeft gebeurtenisgegevens van zakelijke toepassingen beschikbaar gemaakt als berichten die kunnen worden gebruikt via downstreamsystemen. Prashant is toegewezen om gebeurtenisgegevens van zakelijke toepassingen te integreren in Microsoft Fabric voor realtime beslissingsondersteuning.
Gezien het gemiddelde tot hoge gegevensvolume en de voorkeur van de organisatie voor oplossingen zonder code, zoekt Prashant een manier om gebeurtenissen naadloos door te sturen wanneer ze plaatsvinden zonder extractieschema's te beheren. Om aan deze behoefte te voldoen, kiest hij Eventstreams in Microsoft Fabric. Eventstreams in de Real-Time Intelligence-ervaring maken realtime gegevensopname, transformatie en routering naar verschillende bestemmingen mogelijk, allemaal zonder code te schrijven.
Scenario 4
Adam is een data engineer die werkt voor een groot retailbedrijf dat gebruikmaakt van een lakehouse om de klantgegevens op te slaan en te analyseren. Als onderdeel van zijn werk is Adam verantwoordelijk voor het bouwen en onderhouden van de pijplijnen die gegevens extraheren, transformeren en laden in het lakehouse. Een van de zakelijke vereisten van het bedrijf is het uitvoeren van analyse van klanten om inzicht te krijgen in de ervaringen van hun klanten en hun services te verbeteren.
Adam besluit de beste optie is om Spark- te gebruiken om de logica voor extraheren en transformatie te bouwen. Spark biedt een gedistribueerd computingplatform dat grote hoeveelheden gegevens parallel kan verwerken. Hij schrijft een Spark-toepassing met Behulp van Python of Scala, die gestructureerde, semi-gestructureerde en ongestructureerde gegevens uit OneLake leest voor beoordelingen en feedback van klanten. De toepassing schoont, transformeert en schrijft gegevens naar Delta-tabellen in het lakehouse. De gegevens kunnen vervolgens worden gebruikt voor downstreamanalyse.
Scenario 5
Rajesh, een data engineer, wordt belast met het opnemen van incrementele gegevens van een on-premises SQL Server in een Azure SQL Database. Het on-premises SQL Server-exemplaar van Rajesh heeft Change Data Capture (CDC) al ingeschakeld voor sleuteltabellen.
Rajesh is op zoek naar een eenvoudige, low-code, wizardgestuurde oplossing waarmee hij kan werken die hem in staat stelt om:
- Meerdere interne bron-tabellen met CDC ingeschakeld selecteren
- Een eerste volledige lading uitvoeren
- Automatisch overschakelen naar incrementele gegevensladingen op basis van CDC
- Gegevensverversing plannen voor terugkerende updates
Hij wil voorkomen dat hij aangepaste code schrijft of complexe orkestraties beheert. Idealiter wil hij een "5x5 wizard" waar hij de installatie in slechts een paar klikken kan uitvoeren.
Rajesh kiest de functie Copy job in Microsoft Fabric. Met ondersteuning voor on-premises gateways maakt hij veilig verbinding met zijn SQL Server, selecteert hij de gewenste tabellen en configureert hij de stroom om naar de azure SQL-doeldatabase te komen.
De kopieertaak biedt een naadloze en schaalbare gegevensverplaatsingservaring, die voldoet aan Rajeshs vereisten zonder dat complexe pijplijnen hoeven te worden onderhouden.