Dela via


Självstudie: Transformera data med hjälp av mappning av dataflöden

GÄLLER FÖR: Azure Data Factory Azure Synapse Analytics

Tips

Prova Data Factory i Microsoft Fabric, en allt-i-ett-analyslösning för företag. Microsoft Fabric omfattar allt från dataflytt till datavetenskap, realtidsanalys, business intelligence och rapportering. Lär dig hur du startar en ny utvärderingsversion kostnadsfritt!

I den här självstudien använder du Användargränssnittet för Azure Data Factory (UX) för att skapa en pipeline som kopierar och transformerar data från en Azure Data Lake Storage (ADLS) Gen2-källa till en ADLS Gen2-mottagare med hjälp av mappningsdataflödet. Konfigurationsmönstret i den här handledningen kan utökas när man transformerar data med hjälp av dataflödeskartläggning.

Handledningen är avsedd för att mappa dataflöden övergripande. Dataflöden är tillgängliga både i Azure Data Factory och Synapse Pipelines. Om du är ny på dataflöden i Azure Synapse Pipelines, följ Dataflöde med Azure Synapse Pipelines.

I den här självstudien gör du följande:

  • Skapa en datafabrik.
  • Skapa en pipeline med en dataflödesaktivitet.
  • Skapa ett mappningsdataflöde med fyra transformeringar.
  • Kör en test av pipelinen.
  • Övervaka en data-flödesaktivitet

Förutsättningar

  • Azure-prenumeration. Om du inte har en Azure-prenumeration skapar du ett kostnadsfritt Azure-konto innan du börjar.
  • Azure Data Lake Storage Gen2-konto. Du använder ADLS-lagring som källdatalager och mottagardatalager. Om du inte har något lagringskonto kan du läsa Skapa ett Azure Storage-konto för steg för att skapa ett.
  • Ladda ned MoviesDB.csv här. Om du vill hämta filen från GitHub kopierar du innehållet till valfri textredigerare för att spara lokalt som en .csv fil. Ladda upp filen till ditt lagringskonto i en container med namnet "sample-data".

Skapa en datafabrik

I det här steget skapar du en datafabrik och öppnar Data Factory UX för att skapa en pipeline i datafabriken.

  1. Öppna Microsoft Edge eller Google Chrome. Data Factory-användargränssnittet stöds för närvarande endast i Microsoft Edge- och Google Chrome-webbläsare.

  2. Välj Skapa en resurs>Analys>Datafabrik på menyn längst upp:

    Val av Data Factory i

  3. På sidan Ny datafabrik går du till Namn och anger ADFTutorialDataFactory.

    Namnet på Azure-datafabriken måste vara globalt unikt. Om du får ett felmeddelande gällande namnvärdet, ange ett annat namn för datafabriken. (till exempel dittnamnADFTutorialDataFactory). Namngivningsregler för Data Factory-artefakter finns i Namngivningsregler för Data Factory.

    Nytt felmeddelande i datafabriken för dubblettnamn.

  4. Välj den Azure-prenumeration där du vill skapa datafabriken.

  5. Utför något av följande steg för Resursgrupp:

    1. Välj Använd befintlig och välj en befintlig resursgrupp i listrutan.

    2. Välj Skapa ny och ange namnet på en resursgrupp.

    Mer information om resursgrupper finns i Använda resursgrupper för att hantera dina Azure-resurser.

  6. Under Version väljer du V2.

  7. Under Region väljer du en plats för datafabriken. Endast platser som stöds visas i listrutan. Datalager (till exempel Azure Storage och SQL Database) och beräkningar (till exempel Azure HDInsight) som används av datafabriken kan finnas i andra regioner.

  8. Välj Granska + Skapa och välj sedan Skapa.

  9. När skapandet är klart visas meddelandet i Meddelandecenter. Välj Gå till resurs för att gå till sidan Datafabrik.

  10. Välj Starta studio för att starta Data Factory-studion på en separat flik.

Skapa en pipeline med en Data Flow Aktivitet

I det här steget skapar du en pipeline som innehåller en dataflödesaktivitet.

  1. På startsidan för Azure Data Factory väljer du Orchestrate.

    Skärmbild som visar startsidan för Azure Data Factory.

  2. Nu är ett fönster öppet för en ny pipeline. På fliken Allmänt för pipelineegenskaperna anger du TransformMovies som Namn på pipelinen.

  3. I fönstret Aktiviteter expanderar du dragspelet Flytta och transformera . Dra och släpp Data Flow-aktiviteten från panelen till pipeline-kanvasen.

    Skärmbild som visar pipelinearbetsytan där du kan släppa dataflödesaktiviteten.

  4. Ge dataflödesaktiviteten namnet DataFlow1.

  5. I det övre fältet på pipelinearbetsytan drar du skjutreglaget för dataflödesfelsökning på. Felsökningsläget möjliggör interaktiv testning av omvandlingslogik mot ett Live Spark-kluster. Dataflöde kluster tar 5–7 minuter att värma upp och användarna rekommenderas att aktivera felsökning först om de planerar att utföra Dataflöde utveckling. Mer information finns i Felsökningsläge.

    Skärmbild som visar växeln för att aktivera dataflödesfelsökningen.

Skapa transformeringslogik på dataflödesarbetsytan

I det här steget skapar du ett dataflöde som tar moviesDB.csv i ADLS-lagring och aggregerar det genomsnittliga omdömet för komedier från 1910 till 2000. Sedan skriver du tillbaka den här filen till ADLS-lagringen.

  1. I panelen nedanför arbetsytan går du till Inställningar för dataflödesaktiviteten och väljer Ny, som finns bredvid dataflödesfältet. Då öppnas dataflödesarbetsytan.

    Skärmbild som visar hur du öppnar dataflödesredigeraren från pipelineredigeraren.

  2. I fönstret Egenskaper under Allmänt namnger du dataflödet: TransformMovies.

  3. I dataflödesarbetsytan lägger du till en källa genom att välja rutan Lägg till källa .

    Skärmbild som visar rutan Lägg till källa.

  4. Ge källan namnet MoviesDB. Välj Ny för att skapa en ny källdatauppsättning.

    Skärmbild som visar var du väljer Ny när du har namn på källan.

  5. Välj Azure Data Lake Storage Gen2. Välj Fortsätt.

    Skärmbild som visar var Azure Data Lake Storage Gen2-rutan finns.

  6. Välj AvgränsadText. Välj Fortsätt.

    Skärmbild som visar panelen Avgränsadtext.

  7. Ge datauppsättningen namnet MoviesDB. I listrutan länkad tjänst väljer du Ny.

    Skärmbild som visar listrutan Länkad tjänst.

  8. På skärmen för att skapa länkad tjänst namnger du den länkade ADLS gen2-tjänsten ADLSGen2 och anger din autentiseringsmetod. Ange sedan dina autentiseringsuppgifter för anslutningen. I den här handledningen använder vi kontonyckeln för att ansluta till vårt lagringskonto. Du kan välja Testa anslutning för att kontrollera att dina autentiseringsuppgifter har angetts korrekt. Välj Skapa när du är klar.

    Skärmbild av fönstret för att skapa en ny länkad tjänst för Azure Data Lake Storage.

  9. När du är tillbaka på skärmen för att skapa datauppsättningen anger du var filen finns under fältet Filsökväg . I den här självstudien finns filen moviesDB.csv i containerexempeldata. Eftersom filen har rubriker markerar du Första raden som rubrik. Välj Från anslutning/arkiv för att importera rubrikschemat direkt från filen i lagringen. Välj OK när du är klar.

    Skärmbild av fönstret för att skapa en datauppsättning.

  10. Om felsökningsklustret har startat går du till fliken Förhandsgranskning av data i källomvandlingen och väljer Uppdatera för att få en ögonblicksbild av data. Du kan använda förhandsversionen av data för att kontrollera att omvandlingen är korrekt konfigurerad.

    Skärmbild som visar var du kan förhandsgranska dina data för att verifiera att omvandlingen är korrekt konfigurerad.

  11. Bredvid källnoden på dataflödesarbetsytan väljer du plusikonen för att lägga till en ny transformering. Den första omvandlingen som du lägger till är ett filter.

    Skärmbild av dataflödesarbetsytan.

  12. Ge filtertransformeringen namnet FilterYears. Markera uttrycksrutan bredvid Filtrera på och sedan Öppna uttrycksverktyget. Här anger du filtreringsvillkoret.

    Skärmbild som visar rutan Filtrera på uttryck.

  13. Med dataflödesuttrycksverktyget kan du interaktivt skapa uttryck som ska användas i olika transformeringar. Uttryck kan innehålla inbyggda funktioner, kolumner från indataschemat och användardefinierade parametrar. Mer information om hur du skapar uttryck finns i Data Flow-uttrycksverktyget.

    I den här självstudien vill du filtrera filmer av genrekomik som kom ut mellan åren 1910 och 2000. Eftersom år för närvarande är en sträng måste du konvertera den till ett heltal med hjälp av toInteger() funktionen. Använd operatorerna större än eller lika med (>=) och mindre än eller lika med (<=) för att jämföra med läsårsvärdena 1910 och 2000. Kombinera dessa uttryck med operatorn och (&&). Uttrycket kommer ut som:

    toInteger(year) >= 1910 && toInteger(year) <= 2000

    Om du vill ta reda på vilka filmer som är komedier kan du använda rlike() funktionen för att hitta mönstret "Comedy" i kolumngenren. Förenade uttrycket rlike med årsjämförelse för att få:

    toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

    Om du har ett felsökningskluster aktivt kan du verifiera logiken genom att välja Uppdatera för att se uttrycksutdata jämfört med de indata som används. Det finns mer än ett rätt svar på hur du kan åstadkomma den här logiken med hjälp av dataflödesuttrycksspråket.

    Skärmbild av filteruttrycksverktyget.

    Välj Spara och Slutför när du är klar med uttrycket.

  14. Hämta en dataförhandsgranskning för att kontrollera att filtret fungerar korrekt.

    Skärmbild som visar den dataförhandsgranskning som du hämtade.

  15. Nästa transformering som du lägger till är en aggregeringstransformering under Schemamodifierare.

    Skärmbild som visar modifieraren för aggregerat schema.

  16. Ge din aggregerade omvandling namnet AggregateComedyRatings. På fliken Gruppera efter väljer du år i listrutan för att gruppera aggregeringarna efter året då filmen kom ut.

    Skärmbild som visar alternativet År på fliken Gruppera efter under Aggregerade inställningar.

  17. Gå till fliken Aggregeringar. I den vänstra textrutan namnger du aggregerad kolumn AverageComedyRating. Välj den högra uttrycksrutan för att ange samlingsuttrycket via uttrycksverktyget.

    Skärmbild som visar alternativet år på fliken Aggregeringar under Aggregerade inställningar.

  18. Om du vill få medelvärdet av kolumnklassificering använder du aggregeringsfunktionenavg(). Eftersom Klassificering är en sträng och avg() tar in numeriska indata måste vi konvertera värdet till ett tal via toInteger() funktionen. Det här är ett uttryck som ser ut så här:

    avg(toInteger(Rating))

    Välj Spara och Slutför när du är klar.

    Skärmbild som visar det sparade uttrycket.

  19. Gå till fliken Dataförhandsgranskning för att visa transformeringsutdata. Observera att endast två kolumner finns där, year och AverageComedyRating.

    Skärmbild som visar den aggregerade förhandsversionen.

  20. Sedan vill du lägga till en Sink-transformering under Mål.

    Skärmavbild som visar var du lägger till en sink-transformering under Destination.

  21. Namnge din diskho Sink. Välj Ny för att skapa din mottagningsdatauppsättning.

    Skärmbild som visar var du kan namnge din mottagare och skapa en ny datauppsättning för mottagare.

  22. Välj Azure Data Lake Storage Gen2. Välj Fortsätt.

    Skärmbild som visar den Azure Data Lake Storage Gen2-panel som du kan välja.

  23. Välj AvgränsadText. Välj Fortsätt.

    Skärmbild av fönstret för att välja en datamängdstyp.

  24. Ge mottagarens datauppsättning namnet MoviesSink. För länkad tjänst väljer du den länkade ADLS gen2-tjänst som du skapade i steg 6. Ange en utdatamapp att skriva dina data till. I den här handledningen skriver vi till mappen "output" i containern "sample-data". Mappen behöver inte finnas i förväg och kan skapas dynamiskt. Ange Första raden som rubrik som true och välj Ingen för importschema. Välj Slutför.

    Skärmbild av sidan för att skapa datasänka med i den första raden som rubrik vald.

Nu har du skapat dataflödet. Du är redo att köra den i pipelinen.

Att köra och övervaka dataflöde

Du kan felsöka en pipeline innan du publicerar den. I det här steget ska du utlösa en felsökningskörning av dataflödespipelinen. Dataförhandsgranskning skriver inte data, men en felsökningskörning skriver data till ditt datadestinationsmål.

  1. Gå till pipeline-kanvasen. Välj Felsök för att utlösa en felsökningskörning.

    Skärmbild som visar pipelinearbetsytan med Felsökning markerat.

  2. Pipelinefelsökning av aktiviteter för Dataflöden använder det aktiva felsökningsklustret, men det tar ändå minst en minut att initiera. Du kan spåra förloppet via fliken Utdata . När körningen är klar hovrar du över körningen och väljer glasögonikonen för att öppna övervakningsfönstret.

    Skärmbild av den slutförda pipelinestatusen med utdataåtgärderna markerade.

  3. I övervakningsfönstret väljer du knappen Steg för att se antalet rader och den tid som spenderas i varje transformeringssteg.

    Skärmbild som visar övervakningsfönstret med knappen Faser markerad.

    Skärmbild av övervakningsfönstret där du kan se antalet rader och den tid som spenderas i varje transformeringssteg.

  4. Välj en transformering för att få detaljerad information om kolumnerna och partitioneringen av data.

    Skärmbild av övervakningsomvandlingsfönster.

Om du har följt den här självstudien korrekt bör du ha skrivit 83 rader och 2 kolumner i din mottagarmapp. Du kan kontrollera att data är korrekta genom att kontrollera bloblagringen.

Pipelinen i den här självstudien kör ett dataflöde som aggregerar den genomsnittliga klassificeringen av komedier från 1910 till 2000 och skriver data till ADLS. Du har lärt dig att:

  • Skapa en datafabrik.
  • Skapa en pipeline med en dataflödesaktivitet.
  • Skapa ett mappningsdataflöde med fyra transformeringar.
  • Kör en test av pipelinen.
  • Övervaka en data-flödesaktivitet

Läs mer om språket för dataflödesuttryck.