Dela via


Dataflöde Gen2 med CI/CD- och Git-integrering

Dataflow Gen2 stöder kontinuerlig integrering/kontinuerlig distribution (CI/CD) och Git-integrering. Du kan skapa, redigera och hantera dataflöden på en Git-lagringsplats som är ansluten till din Infrastruktur-arbetsyta. Använd distributionspipelines för att automatisera flytt av dataflöden mellan arbetsytor. Den här artikeln beskriver hur du använder dessa funktioner i Fabric Data Factory.

Features

Dataflöde Gen2 med CI/CD- och Git-integrering erbjuder en rad funktioner för att effektivisera arbetsflödet. Här är vad du kan göra med dessa funktioner:

  • Integrera Git med Dataflow Gen2.
  • Automatisera distributionen av dataflöden mellan arbetsytor med hjälp av distributionspipelines.
  • Uppdatera och redigera inställningarna för Dataflow Gen2 med Fabric-verktyg.
  • Skapa Dataflöde Gen2 direkt i en arbetsytemapp.
  • Använd offentliga API:er (förhandsversion) för att hantera Dataflow Gen2 med CI/CD och Git-integrering.

Förutsättningar

Innan du börjar kontrollerar du att du:

Skapa ett Dataflöde Gen2 med CI/CD och Git-integrering

Genom att skapa en Dataflow Gen2 med CI/CD- och Git-integrering kan du hantera dina dataflöden effektivt på en ansluten Git-lagringsplats. Följ dessa steg för att komma igång:

  1. På Fabric-arbetsyta väljer du Skapa nytt objekt och sedan Dataflöde Gen2.

    Skärmbild av fönstret Nytt objekt med Dataflöde Gen2-objektet framhävt.

  2. Namnge ditt dataflöde, aktivera Git-integrering och välj Skapa.

    Skärmbild av fönstret New Dataflow Gen2 med dataflödesnamnuppsättningen och Git-integrering framhävd och markerad.

    Dataflödet öppnas på redigeringsarbetsytan, där du kan börja skapa ditt dataflöde.

  3. När du är klar väljer du Spara och kör.

  4. Efter publiceringen visar dataflödet statusen "uncommitted".

    Skärmbild av det sparade Dataflow Gen2 med statusen som obekräftad.

  5. Om du vill checka in dataflödet till Git väljer du källkontrollikonen i det övre högra hörnet.

    Skärmbild av knappen Källkontroll.

  6. Välj de ändringar som ska checkas in och välj sedan Checka in.

    Skärmbild av fönstret Källkontroll med dataflödet valt och knappen Commit framhävd.

Din Dataflow Gen2 med CI/CD och Git-integrering är klar. Metodtips finns i självstudiekursen Scenario 2 – Utveckla med hjälp av en annan arbetsyta .

Uppdatera ett Dataflöde Gen2

Genom att uppdatera ett Dataflöde Gen2 ser du till att dina data är up-to-date. Du kan uppdatera manuellt eller konfigurera ett schema för att automatisera processen.

Uppdatera nu

  1. I arbetsytan Fabric väljer du ellipsen bredvid dataflödet.

  2. Välj Uppdatera nu.

    Skärmbild av listrutan Fler alternativ med alternativen Uppdatera nu framhävd.

Schemalägga en uppdatering

  1. I arbetsytan Fabric väljer du ellipsen bredvid dataflödet.

  2. Välj Schema.

    Skärmbild av listrutan Fler alternativ med alternativet Schema framhävt.

  3. På schemasidan anger du uppdateringsfrekvens, starttid och sluttid. Tillämpa ändringar.

    Skärmbild av dataflödets inställningsskärm med fliken Schema markerad och knappen Uppdatera framhävd.

  4. Om du vill uppdatera direkt väljer du Uppdatera.

Visa uppdateringshistorik och inställningar

Genom att förstå uppdateringshistoriken och hanteringen av inställningar kan du övervaka och kontrollera dataflödet Gen2. Så här kan du komma åt de här alternativen.

Om du vill visa uppdateringshistoriken väljer du fliken Senaste körningar i den nedrullningsbara menyn eller går till övervakningshubben och väljer dataflödet.

Få åtkomst till dataflödesinställningarna genom att välja ellipsen bredvid dataflödet och välja Inställningar.

Spara ersätter publicering

Spara-åtgärden i Dataflow Gen2 med CI/CD och Git-integrering publicerar automatiskt ändringar, vilket förenklar arbetsflödet.

Om du sparar ett Dataflöde Gen2 publiceras ändringar automatiskt. Om du vill ignorera ändringar väljer du Ignorera ändringar när du stänger redigeraren.

Validering

När du sparar kontrollerar systemet om dataflödet är giltigt. Annars visas ett fel i arbetsytevyn. Valideringen kör en "nollradsutvärdering" som kontrollerar frågescheman utan att returnera rader. Om en frågas schema inte kan fastställas inom 10 minuter misslyckas utvärderingen. Om verifieringen misslyckas använder systemet den senast sparade versionen för uppdateringar.

Just-in-time-publicering

Just-in-time-publicering säkerställer att dina ändringar är tillgängliga när det behövs. I det här avsnittet beskrivs hur systemet hanterar publicering under uppdateringar och andra åtgärder.

Dataflow Gen2 använder en automatiserad "just-in-time"-publiceringsmodell. När du sparar ett dataflöde är ändringar omedelbart tillgängliga för nästa uppdatering eller körning. Om du synkroniserar ändringar från Git eller använder distributionspipelines sparas det uppdaterade dataflödet på din arbetsyta. Nästa uppdatering försöker publicera den senaste sparade versionen. Om publiceringen misslyckas visas felet i uppdateringshistoriken.

I vissa fall publicerar serverdelen automatiskt om dataflöden under uppdateringar för att säkerställa kompatibilitet med uppdateringar.

API:er är också tillgängliga för att uppdatera ett dataflöde utan publicering eller för att manuellt utlösa publicering.

Begränsningar och kända problem

Även om Dataflow Gen2 med CI/CD- och Git-integrering är kraftfullt finns det vissa begränsningar och kända problem att känna till. Här är vad du behöver veta.

  • När du tar bort den senaste Dataflow Gen2 med CI/CD- och Git-stöd blir mellanlagringsobjekten synliga på arbetsytan och är säkra att tas bort av användaren.
  • Arbetsytevyn visar inte följande: Kontinuerlig uppdateringsindikator, senaste uppdatering, nästa uppdatering och felindikator för uppdatering.
  • När ditt dataflöde inte uppdateras har vi inte stöd för att automatiskt skicka ett meddelande om fel. Som en lösning kan du utnyttja orkestreringsfunktionerna i pipelines.
  • När du byter till en annan arbetsyta kan en Dataflow Gen2-uppdatering misslyckas med meddelandet att staging lakehouse inte kunde hittas. När detta inträffar skapar du ett nytt Dataflow Gen2 med CI/CD- och Git-stöd i arbetsytan för att utlösa skapandet av en staging lakehouse. Därefter bör alla andra dataflöden på arbetsytan börja fungera igen.
  • När du synkroniserar ändringar från GIT till arbetsytan eller använder distributionspipelines måste du öppna det nya eller uppdaterade dataflödet och spara ändringarna manuellt med redigeraren. Detta utlöser en publiceringsåtgärd i bakgrunden så att ändringarna kan användas under uppdateringen av ditt dataflöde. Du kan också använda API-anropet för dataflödespublicering på begäran för att automatisera publiceringsåtgärden.
  • Power Automate-anslutningsappen för dataflöden fungerar inte med nya Dataflow Gen2 med CI/CD- och Git-stöd.