Dela via


Utveckla och felsöka ETL-pipelines med Lakeflow Pipelines-redigeraren

Viktigt!

Den här funktionen finns som allmänt tillgänglig förhandsversion.

Den här artikeln beskriver hur du använder Lakeflow Pipelines-redigeraren för att utveckla och felsöka ETL-pipelines (extrahera, transformera och läsa in) i Lakeflows deklarativa pipelines.

Anmärkning

Lakeflow Pipelines-redigeraren är aktiverad som standard. Du kan inaktivera den eller återaktivera den om den har inaktiverats. Se Aktivera Lakeflow Pipelines-redigeraren och uppdaterad övervakning.

Vad är Lakeflow Pipelines-redigeraren?

Lakeflow Pipelines Editor är en IDE utformad för att utveckla Lakeflow Deklarativa Pipelines. Den kombinerar alla pipelineutvecklingsuppgifter på en enda yta med stöd för kod-första arbetsflöden, mappbaserad kodorganisation, selektiv körning, dataförhandsgranskningar och pipelinediagram. Den är integrerad med Azure Databricks-plattformen och möjliggör även versionskontroll, kodgranskningar och schemalagda körningar.

Översikt över användargränssnittet för Lakeflow Pipelines-redigeraren

Följande bild visar Lakeflow Pipelines-redigeraren:

Lakeflow Deklarativa Rörledningar Lakeflow Rörledningsredigerare

Bilden visar följande funktioner:

  1. Pipeline-ressursbläddrare: Skapa, ta bort, byt namn på och organisera pipeline-resurser. Innehåller även genvägar till pipelinekonfiguration.
  2. Kodredigerare med flera filer med flikar: Arbeta med flera kodfiler som är associerade med en pipeline.
  3. Pipelinespecifikt verktygsfält: Innehåller konfigurationsalternativ för pipeline och körningsåtgärder på pipelinenivå.
  4. Interaktivt riktat acykliskt diagram (DAG): Få en översikt över dina tabeller, öppna dataförhandsgranskningens nedre stapel och utför andra tabellrelaterade åtgärder.
  5. Förhandsversion av data: Granska data för dina strömmande tabeller och materialiserade vyer.
  6. Insikter om körning på tabellnivå: Hämta körningsinsikter för alla tabeller eller en enda tabell i en pipeline. Insikterna syftar på den senaste pipelinekörningen.
  7. Problempanel: Den här funktionen sammanfattar fel i alla filer i pipelinen och du kan navigera till platsen där felet inträffade i en specifik fil. Den kompletterar felindikatorer som har kodats.
  8. Selektiv körning: Kodredigeraren har funktioner för stegvis utveckling, till exempel möjligheten att uppdatera tabeller endast i den aktuella filen med hjälp av åtgärden Kör fil eller en enda tabell.
  9. Standardstruktur för pipelinemappar: Nya pipelines innehåller en fördefinierad mappstruktur och exempelkod som du kan använda som utgångspunkt för din pipeline.
  10. Förenklad skapande av pipeline: Ange ett namn, en katalog och ett schema där tabeller ska skapas som standard och en pipeline skapas med standardinställningarna. Du kan senare justera Inställningar från verktygsfältet för pipelineredigeraren.

Skapa en ny ETL-pipeline

Följ dessa steg för att skapa en ny ETL-pipeline med Lakeflow Pipelines-redigeraren:

  1. Längst upp i sidofältet klickar du på plusikonen.Ny och välj sedan Pipeline-ikonen.ETL-pipeline.

  2. Längst upp kan du ge din pipeline ett unikt namn.

  3. Precis under namnet kan du se den standardkatalog och det schema som har valts åt dig. Ändra dessa för att ge din pipeline olika standardvärden.

    Standardkatalogen och standardschemat är därifrån dataset läses eller skrivs när du inte anger en katalog eller ett schema i din kod. Mer information finns i Databasobjekt i Azure Databricks .

  4. Välj önskat alternativ för att skapa en pipeline genom att välja något av följande alternativ:

    • Börja med exempelkod i SQL för att skapa en ny pipeline- och mappstruktur, inklusive exempelkod i SQL.
    • Börja med exempelkod i Python för att skapa en ny pipeline- och mappstruktur, inklusive exempelkod i Python.
    • Börja med en enda transformering för att skapa en ny pipeline och mappstruktur med en ny tom kodfil.
    • Lägg till befintliga tillgångar för att skapa en pipeline som du kan associera med exisitng-kodfiler på din arbetsyta.

    Du kan ha både SQL- och Python-källkodsfiler i ETL-pipelinen. När du skapar en ny pipeline och väljer ett språk för exempelkoden är språket endast för exempelkoden som ingår i pipelinen som standard.

  5. När du gör ditt val omdirigeras du till den nyligen skapade pipelinen.

    ETL-pipelinen skapas med följande standardinställningar:

    Du kan justera de här inställningarna från pipelinens verktygsfält.

Du kan också skapa en ETL-pipeline från arbetsytans webbläsare:

  1. Klicka på Arbetsyta på den vänstra panelen.
  2. Välj valfri mapp, inklusive Git-mappar.
  3. Klicka på Skapa i det övre högra hörnet och klicka på ETL-pipeline.

Du kan också skapa en ETL-pipeline från sidan jobb och pipelines:

  1. På arbetsytan klickar du på Arbetsflöden-ikonen.Jobb och pipelines i sidofältet.
  2. Under Ny klickar du på ETL-pipeline.

Öppna en befintlig ETL-pipeline

Det finns flera sätt att öppna en befintlig ETL-pipeline i Lakeflow Pipelines-redigeraren:

  • Öppna alla källfiler som är associerade med pipelinen:

    1. Klicka på Arbetsyta på sidopanelen.
    2. Navigera till en mapp med källkodsfiler för din pipeline.
    3. Klicka på källkodsfilen för att öppna pipelinen i redigeraren.
  • Öppna en nyligen redigerad pipeline:

    • Från redigeraren kan du navigera till andra pipelines som du nyligen har redigerat genom att klicka på namnet på pipelinen överst i tillgångsläsaren och välja en annan pipeline från listan med senaste data som visas.
    • Utanför redigeraren öppnar du en pipeline eller en fil som konfigurerats som källkod för en pipeline från sidan Senaste på den vänstra sidopanelen.
  • När du visar en pipeline i produkten kan du välja att redigera pipelinen:

    • På sidan för pipelineövervakning klickar du på penna-ikonen.Redigera pipeline.
    • På sidan Jobbkörningar i den vänstra sidopanelen klickar du på fliken Jobb och pipelines och klickar på Kebabmenyikonen. och Redigera pipeline.
    • När du redigerar ett jobb och lägger till en pipelineaktivitet kan du klicka på knappen Öppna i ny flikikon när du väljer en pipeline under Pipeline.
  • Om du bläddrar i Alla filer i tillgångswebbläsaren och öppnar en källkodsfil från en annan pipeline visas en banderoll överst i redigeraren, där du uppmanas att öppna den associerade pipelinen.

Webbläsare för pipeline-tillgångar

När du redigerar en pipeline använder den vänstra arbetsytans sidopanel ett särskilt läge som kallas tillgångsbläddrare för pipeline. Som standardinställning fokuserar webbläsaren för pipelinetillgångar på rotmappen för pipelinen, och mappar och filer inom roten. Du kan också välja att visa Alla filer för att se filer utanför roten i pipelinen. Flikarna som öppnas i pipelineredigeraren när du redigerar en specifik pipeline sparas, och när du växlar till en annan pipeline öppnas flikarna senast du redigerade pipelinen.

Anmärkning

Redigeraren har också kontexter för redigering av SQL-filer (kallas Databricks SQL-redigeraren) och en allmän kontext för redigering av arbetsytefiler som inte är SQL-filer eller pipelinefiler. Var och en av dessa kontexter kommer ihåg och återställer flikarna som du hade öppnat förra gången du använde kontexten. Du kan växla kontext överst i det vänstra sidofältet. Klicka på rubriken för att välja mellan arbetsyta, SQL-redigerare eller pipelines som nyligen har redigerats.

Växla redigeringskontexter

När du öppnar en fil från arbetsytans webbläsarsida öppnas den i motsvarande redigerare för filen. Om filen är associerad med en pipeline är det Lakeflow Pipelines Editor.

Om du vill öppna en fil som inte är en del av pipelinen, men behålla pipelinekontexten, öppnar du filen från tillgångsläsarens fliken Alla filer .

Pipelinens tillgångswebbläsare har två flikar:

  • Pipeline: Här hittar du alla filer som är associerade med pipelinen. Du kan skapa, ta bort, byta namn på och ordna dem i mappar. Den här fliken innehåller även genvägar för pipelinekonfiguration och en grafisk vy över de senaste körningarna.
  • Alla filer: Alla andra arbetsytetillgångar är tillgängliga här. Detta kan vara användbart för att hitta filer som ska läggas till i pipelinen eller visa andra filer som är relaterade till pipelinen, till exempel en YAML-fil som definierar ett Databricks-tillgångspaket.

Pipelinetillgångswebbläsare

Du kan ha följande typer av filer i pipelinen:

  • Källkodsfiler: Dessa filer är en del av pipelinens källkodsdefinition, som kan visas i Inställningar. Databricks rekommenderar att du alltid lagrar källkodsfiler i rotmappen för pipelinen. Annars visas de i ett externt filavsnitt längst ned i webbläsaren och har en mindre omfattande funktionsuppsättning.
  • Icke-källkodsfiler: Dessa filer lagras i rotmappen för pipelinen men ingår inte i pipelinens källkodsdefinition.

Viktigt!

Du måste använda webbläsaren pipeline-tillgångar under fliken Pipeline för att hantera filer och mappar för din pipeline. Detta uppdaterar pipelineinställningarna korrekt. Om du flyttar eller byter namn på filer och mappar från arbetsytans webbläsare eller fliken Alla filer bryts pipelinekonfigurationen, och du måste sedan lösa detta manuellt i Inställningar.

Rotmapp

Pipelines webbläsare för tillgångar är förankrad i en rotmapp för pipelines. När du skapar en ny pipeline skapas rotmappen för pipelinen i användarens hemmapp och namnges på samma sätt som pipelinenamnet.

Du kan ändra rotmappen i webbläsaren för pipeline-tillgångar. Detta är användbart om du skapade en pipeline i en mapp och senare vill flytta allt till en annan mapp. Du har till exempel skapat pipelinen i en vanlig mapp och vill flytta källkoden till en Git-mapp för versionskontroll.

  1. Klicka på menyikonen Kebab. spillmeny för rotmappen.
  2. Klicka på Konfigurera ny rotmapp.
  3. Under Rotmapp för pipeline klickar du på Mappikon och väljer en annan mapp som rotmapp för pipelinen.
  4. Klicka på Spara.

Ändra rotmapp för pipeline

I menyikonen Kebab. För rotmappen kan du också klicka på Byt namn på rotmappen för att byta namn på mappnamnet. Här kan du också klicka på Flytta rotmapp för att flytta rotmappen, till exempel till en Git-mapp.

Du kan också ändra rotmappen för pipelinen i inställningarna:

  1. Klicka på Inställningar.
  2. Under Kodtillgångar klickar du på Konfigurera sökvägar.
  3. Klicka på Mappikonen för att ändra mappen i Rotmappen för pipeline.
  4. Klicka på Spara.

Anmärkning

Om du ändrar huvudpipelinemappen påverkas fillistan som visas i pipelinetillgångarnas webbläsare, eftersom filerna i den tidigare huvudmappen visas som externa filer.

Befintlig pipeline utan rotmapp

En befintlig pipeline som skapats med hjälp av den äldre notebook-redigeringsmiljön har inte någon rotmapp konfigurerad. När du öppnar en pipeline som inte har konfigurerat en rotmapp uppmanas du att skapa en rotmapp och ordna källfiler i den.

Du kan stänga det och fortsätta redigera pipelinen utan att ange en rotmapp.

Om du senare vill konfigurera rotmappen för din pipeline följer du dessa steg:

  1. I tillgångswebbläsaren för pipeline klickar du på Konfigurera.
  2. Klicka på Mappikon för att välja rotmappen vid Pipeline-rotmapp.
  3. Klicka på Spara.

Ingen rotmapp för pipelinen

Standardmappstruktur

När du skapar en ny pipeline skapas en standardmappstruktur. Det här är den rekommenderade strukturen för att organisera källkodsfilerna för din pipeline och andra filer, enligt beskrivningen nedan.

Ett litet antal exempelkodfiler skapas i den här mappstrukturen.

Mappnamn Rekommenderad plats för dessa typer av filer
<pipeline_root_folder> Rotmapp som innehåller alla mappar och filer för din pipeline.
transformations Källkodsfiler, till exempel Python- eller SQL-kodfiler med tabelldefinitioner.
explorations Icke-källkodsfiler, till exempel notebook-filer, frågor och kodfiler som används för undersökande dataanalys.
utilities Icke-källkodsfiler med Python-moduler som kan importeras från andra kodfiler. Om du väljer SQL som språk för exempelkod skapas inte den här mappen.

Du kan byta namn på mappnamnen eller ändra strukturen så att den passar ditt arbetsflöde. Följ dessa steg för att lägga till en ny källkodsmapp:

  1. Klicka på Lägg till i bläddraren för pipeline-tillgångar.
  2. Klicka på Skapa källkodsmapp för pipeline.
  3. Ange ett mappnamn och klicka på Skapa.

Källkodsfiler

Källkodsfiler är en del av pipelinens källkodsdefinition. När du kör pipelinen utvärderas dessa filer. Filer och mappar som ingår i källkodsdefinitionen har en särskild ikon med en minipipelineikon ovanpå.

Följ dessa steg för att lägga till en ny källkodsfil:

  1. Klicka på Lägg till i bläddraren för pipeline-tillgångar.
  2. Klicka på Transformation.
  3. Ange ett namn för filen och välj Python eller SQL som språk.
  4. Klicka på Skapa.

Du kan också klicka på Kebabmenyikonen för valfri mapp i pipelinens resurswebbläsare för att lägga till en källkodsfil.

En transformations mapp för källkod skapas som standard när du skapar en ny pipeline. Den här mappen är den rekommenderade platsen för pipelinens källkod, till exempel Python- eller SQL-kodfiler med pipelinetabelldefinitioner.

Filer som inte är källkodsfiler

Icke-källkodsfiler lagras i rotmappen för pipelinen men ingår inte i pipelinens källkodsdefinition. Dessa filer utvärderas inte när du kör pipelinen. Icke-källkodsfiler får inte vara externa filer.

Du kan använda detta för filer som är relaterade till ditt arbete på pipelinen som du vill lagra tillsammans med källkoden. Till exempel:

  • Notebook-filer som du använder för ad hoc-utforskningar körs på icke-Lakeflow-deklarativa pipelines och utförs utanför en pipelines livscykel.
  • Python-moduler som inte ska utvärderas med källkoden om du inte uttryckligen importerar dessa moduler i källkodsfilerna.

Följ dessa steg om du vill lägga till en ny icke-källkodsfil:

  1. Klicka på Lägg till i bläddraren för pipeline-tillgångar.
  2. Klicka på Utforskning eller verktyg.
  3. Ange ett namn för filen.
  4. Klicka på Skapa.

Du kan också klicka på Kebabmenyikonen för pipelinens rotmapp eller en fil som inte är källkod för att lägga till sådana filer i mappen.

När du skapar en ny pipeline skapas följande mappar för icke-källkodsfiler som standard:

Mappnamn Description
explorations Den här mappen är den rekommenderade platsen för anteckningsböcker, frågor, instrumentpaneler och andra filer och sedan köra dem på beräkningar för icke-Lakeflow deklarativa pipelines, som du normalt skulle göra utanför en pipelines körningscykel.
utilities Den här mappen är den rekommenderade platsen för Python-moduler som kan importeras från andra filer via direktimport uttryckt som from <filename> import, så länge deras överordnade mapp är hierarkiskt under rotmappen.

Du kan också importera Python-moduler utanför rotmappen, men i så fall måste du lägga till mappsökvägen sys.path i din Python-kod.

import sys, os
sys.path.append(os.path.abspath('<alternate_path_for_utilities>/utilities'))
from utils import \*

Externa filer

Avsnittet Externa filer i pipelinewebbläsaren visar källkodsfiler utanför rotmappen.

Följ dessa steg om du vill flytta en extern fil till rotmappen transformations , till exempel mappen:

  1. Klicka på Kebabmenyikonen för filen i resurshanteraren och klicka på Flytta.
  2. Välj den mapp som du vill flytta filen till och klicka på Flytta.

Filer som är associerade med flera pipelines

Ett märke visas i filens huvud om en fil är associerad med mer än en pipeline. Den har ett antal associerade pipelines och tillåter att växla mellan dem.

Avsnittet Alla filer

Förutom avsnittet Pipeline finns det avsnittet Alla filer , där du kan öppna valfri fil på din arbetsyta. Här kan du

  • Öppna filer utanför rotmappen på en flik utan att lämna Lakeflow Pipelines-redigeraren.
  • Navigera till en annan pipelines källkodsfiler och öppna dem. Då öppnas filen i redigeraren och du får en banderoll med alternativet att växla fokus i redigeraren till den andra pipelinen.
  • Flytta filer till pipelinens rotmapp.
  • Inkludera filer utanför rotmappen i pipelinens källkodsdefinition.

Redigera pipeline-källfiler

När du öppnar en pipelinekällfil från arbetsytewebbläsaren eller pipelinetillgångarnas webbläsare öppnas den på en redigeringsflik i Lakeflow Pipelines Editor. Om du öppnar fler filer öppnas separata flikar så att du kan redigera flera filer samtidigt.

Anmärkning

Om du öppnar en fil som inte är associerad med en pipeline från arbetsytans webbläsare öppnas redigeraren i en annan kontext (antingen den allmänna arbetsyteredigeraren eller SQL-redigeraren för SQL-filer).

När du öppnar en fil som inte är en pipeline från fliken Alla filer i pipelinetillgångens webbläsare öppnas den på en ny flik i pipelinekontexten.

Pipeline-källkoden innehåller flera filer. Som standardinställning finns källfilerna i transformeringsmappen i resurshanteraren för pipeline. Källkodsfiler kan vara Python-filer (*.py) eller SQL-filer (*.sql). Källan kan innehålla en blandning av både Python- och SQL-filer i en enda pipeline, och koden i en fil kan referera till en tabell eller vy som definierats i en annan fil.

Du kan också inkludera markdown-filer (*.md) i mappen tranformations . Markdown-filer kan användas för dokumentation eller anteckningar, men ignoreras när du kör en pipelineuppdatering.

Följande funktioner är specifika för Lakeflow Pipelines-redigeraren:

Redigera pipelinekod

  1. Anslut – Anslut till antingen serverlös eller klassisk beräkning för att köra pipelinen. Alla filer som är associerade med pipelinen använder samma beräkningsanslutning, så när du har anslutit behöver du inte ansluta för andra filer i samma pipeline. Mer information om beräkningsalternativ finns i Konfigurationsalternativ för beräkning.

    För filer som inte är pipelinefiler, till exempel en undersökande notebook-fil, är anslutningsalternativet tillgängligt, men gäller endast för den enskilda filen.

  2. Kör fil – Kör koden för att uppdatera tabellerna som definierats i den här källfilen. I nästa avsnitt beskrivs olika sätt att köra din pipelinekod.

  3. Redigera – Använd Databricks Assistant för att redigera eller lägga till kod i filen.

  4. Snabbkorrigering – När det finns ett fel i koden använder du assistenten för att åtgärda felet.

Den nedre panelen justeras också, baserat på den aktuella fliken. Det är alltid tillgängligt att visa pipelineinformation i den nedre panelen. Icke-pipeline-associerade filer, till exempel SQL-redigerarfiler, visar också sina utdata i den nedre panelen på en separat flik. Följande bild visar en lodrät flikväljare för att växla den nedre panelen mellan att visa pipelineinformation eller information för den valda notebook-filen.

Vertikal flikväljare för utforskande anteckningsbok

Kör pipelinekod

Du har fyra alternativ för att köra pipelinekoden:

  1. Kör alla källkodsfiler i pipelinen

    Klicka på Kör pipeline eller Kör pipeline med fullständig tabelluppdatering för att köra alla tabelldefinitioner i alla filer som definierats som pipelinekällkod. Mer information om uppdateringstyper finns i pipelineuppdateringssemantik.

    Kör pipeline

    Du kan också klicka på Torr körning för att verifiera pipelinen utan att uppdatera några data.

  2. Kör koden i en enda fil

    Klicka på Kör fil eller Kör fil med fullständig tabelluppdatering för att köra alla tabelldefinitioner i den aktuella filen. Andra filer i pipelinen utvärderas inte.

    Kör fil

    Det här alternativet är användbart för felsökning när du snabbt redigerar och itererar en fil. Det finns biverkningar när du bara kör koden i en enda fil.

    • När andra filer inte utvärderas hittas inte fel i dessa filer.
    • Tabeller som materialiserats i andra filer använder den senaste materialiseringen av tabellen, även om det finns nyare källdata.
    • Du kan stöta på fel om en refererad tabell ännu inte har materialiserats.
    • DAG kan vara felaktig eller uppdelad för tabeller i andra filer som inte har materialiserats. Azure Databricks gör sitt bästa för att hålla grafen korrekt, men utvärderar inte andra filer för att göra det.

    När du är klar med felsökningen och redigeringen av en fil rekommenderar Databricks att du kör alla källkodsfiler i pipelinen för att kontrollera att pipelinen fungerar från slutpunkt till slutpunkt innan pipelinen placeras i produktion.

  3. Kör koden för en enskild tabell

    Bredvid definitionen av en tabell i källkodsfilen klickar du på ikonen Kör tabellikonkör tabell och väljer sedan antingen Uppdatera tabell eller Fullständig uppdateringstabell i listrutan. Att köra koden för en enskild tabell har liknande sidoeffekter som att köra koden i en enda fil.

    Kör tabell

    Anmärkning

    Att köra koden för en enskild tabell är tillgängligt för strömmande tabeller och materialiserade vyer. Mottagare och vyer stöds inte.

  4. Kör koden för en uppsättning tabeller

    Du kan välja tabeller från DAG för att skapa en lista över tabeller som ska köras. Hovra över tabellen i DAG, klicka på menyikonen För Kebab., och välj Välj tabell för uppdatering. När du har valt de tabeller som ska uppdateras väljer du antingen alternativet Kör eller Kör med fullständig uppdatering längst ned i DAG.

    Kör markerade tabeller

Pipelinegraf, riktad acyklisk graf (DAG)

När du har kört eller verifierat alla källkodsfiler i pipelinen visas ett riktat acykliskt diagram (DAG), som kallas pipelinediagrammet. Diagrammet visar tabellens beroendediagram. Varje nod har olika tillstånd längs pipelinens livscykel, till exempel verifierad, körs eller fel.

Riktad acyklisk graf (DAG)

Du kan aktivera och inaktivera grafen genom att klicka på grafikonen på den högra panelen. Du kan också maximera diagrammet. Det finns ytterligare alternativ längst ned till höger, inklusive zoomalternativ och skjutreglageikonen.Fler alternativ för att visa diagrammet i en lodrät eller vågrät layout.

När du hovrar över en nod visas ett verktygsfält med alternativ, inklusive uppdatera frågan. Om du högerklickar på en nod får du samma alternativ i en snabbmeny.

När du klickar på en nod visas dataförhandsgranskningen och tabelldefinitionen. När du redigerar en fil markeras de tabeller som definierats i filen i diagrammet.

Dataförhandsgranskningar

Avsnittet dataförhandsgranskning visar exempeldata för en vald tabell.

Du ser en förhandsgranskning av tabellens data när du klickar på en nod i den riktade acykliska grafen (DAG).

Om ingen tabell har valts går du till avsnittet Tabeller och klickar på Visa dataförhandsgranskningLDP Visa dataförhandsgranskningsikon. Om du har valt en tabell klickar du på Alla tabeller för att återgå till alla tabeller.

När du förhandsgranskar tabelldata kan du filtrera eller sortera data på plats. Om du vill göra mer komplex analys kan du använda eller skapa en notebook-fil i mappen Utforskningar (förutsatt att du har kvar standardmappstrukturen). Som standard körs inte källkoden i den här mappen under en pipelineuppdatering, så du kan skapa frågor utan att påverka pipelineutdata.

Utförandeinsikter

Du kan se insikter om tabellutförande rörande den senaste pipelineuppdateringen i panelerna längst ned i redigeraren.

Panel Description
Tables Visar en lista över alla tabeller med deras status och mått. Om du väljer en tabell visas mått och prestanda för tabellen och en flik för dataförhandsgranskningen.
Performance Frågehistorik och profiler för alla flöden i den här pipelinen. Du kan komma åt exekveringsmått och detaljerade frågeplaner under och efter exekveringen. Mer information finns i Åtkomst till frågehistorik för Lakeflow-deklarativa pipelines .
Ärendepanel Klicka på panelen för en förenklad vy över fel och varningar för pipelinen. Du kan klicka på en post för att se mer information och sedan navigera till den plats i koden där felet inträffade. Om felet finns i en annan fil än den som visas för närvarande omdirigeras du till filen där felet finns.
Klicka på Visa information för att se motsvarande händelseloggpost för fullständig information. Klicka på Visa loggar för att se den fullständiga händelseloggen.
Felindikatorer som fästs med kod visas för fel som är associerade med en viss del av koden. Om du vill ha mer information klickar du på felikonen eller hovra över den röda linjen. Ett popup-fönster med mer information visas. Du kan sedan klicka på Snabbkorrigering för att visa en uppsättning åtgärder för att felsöka felet.
Händelselogg Alla händelser som utlöstes under den senaste pipelinekörningen. Klicka på Visa loggar eller någon post i ärendefältet.

Pipelinekonfiguration

Du kan konfigurera din pipeline från pipelineredigeraren. Du kan göra ändringar i pipelineinställningarna, schemat eller behörigheterna.

Var och en av dessa kan nås från en knapp i sidhuvudet i redigeraren eller från ikoner i tillgångsläsaren (det vänstra sidofältet).

  • Inställningar (eller välj kugghjulsikon. i tillgångswebbläsaren):

    Du kan redigera inställningarna för pipelinen från inställningspanelen, inklusive allmän information, rotmapp och källkodskonfiguration, beräkningskonfiguration, meddelanden, avancerade inställningar med mera.

  • Schemaläggning (eller välj alternativet kalenderklocka ikonen i resurswebbläsaren.)

    Du kan skapa ett eller flera scheman för din pipeline från schemadialogrutan. Om du till exempel vill köra den dagligen kan du ange det här. Det skapar ett jobb för att köra pipelinen enligt det schema du väljer. Du kan lägga till ett nytt schema eller ta bort ett befintligt schema från schemadialogrutan.

  • Dela (eller välj Dela-ikon från Menyn Kebab. meny i tillgångsläsaren.):

    Du kan hantera behörigheter på pipelinen för användare och grupper från dialogrutan för pipelinebehörigheter.

Händelselogg

Du kan publicera händelseloggen för en pipeline till Unity Catalog. Som standard visas händelseloggen för din pipeline i användargränssnittet och är tillgänglig för frågor från ägaren.

  1. Öppna Inställningar.
  2. Klicka på Chevron höger-ikonen bredvid pilen Avancerade inställningar.
  3. Klicka på Redigera avancerade inställningar.
  4. Under Händelseloggar klickar du på Publicera till katalog.
  5. Ange ett namn, en katalog och ett schema för händelseloggen.
  6. Klicka på Spara.

Dina pipelinehändelser publiceras till den tabell som du har angett.

Mer information om hur du använder pipelinehändelseloggen finns i Fråga händelseloggen.

Pipelinemiljö

Du kan skapa en miljö för källkoden genom att lägga till beroenden i Inställningar.

  1. Öppna Inställningar.
  2. Under Miljö klickar du på Redigera miljö.
  3. Välj Plus-ikonen.Lägg till beroende för att lägga till ett beroende, som om du skulle lägga till det i en requirements.txt fil. Mer information om beroenden finns i Lägga till beroenden i notebook-filen.

Databricks rekommenderar att du fäster versionen med ==. Se PyPI-paketet.

Miljön gäller för alla källkodsfiler i pipelinen.

Meddelanden

Du kan lägga till meddelanden med hjälp av pipelineinställningarna.

  1. Öppna Inställningar.
  2. I avsnittet Meddelanden klickar du på Lägg till meddelande.
  3. Lägg till en eller flera e-postadresser och de händelser som du vill att de ska skickas till.
  4. Klicka på Lägg till meddelande.

Anmärkning

Skapa anpassade svar på händelser, inklusive meddelanden eller anpassad hantering, med hjälp av Python-händelsekrokar.

Övervaka pipelines

Azure Databricks innehåller även funktioner för att övervaka pipelines som körs. Redigeraren visar resultaten och körningsinsikterna om den senaste körningen. Den är optimerad för att hjälpa dig att iterera effektivt medan du utvecklar din pipeline interaktivt.

Med pipelineövervakningssidan kan du visa historiska körningar, vilket är användbart när en pipeline körs enligt ett schema med hjälp av ett jobb.

Anmärkning

Det finns en standardövervakningsupplevelse och en uppdaterad förhandsgranskningsövervakning. I följande avsnitt beskrivs hur du aktiverar eller inaktiverar förhandsgranskningsövervakningen. Information om båda funktionerna finns i Övervaka deklarativa pipelines för Lakeflow i användargränssnittet.

Övervakningsupplevelsen är tillgänglig från knappen Jobb och pipelines till vänster på arbetsytan. Du kan också gå direkt till övervakningssidan från redigeraren genom att klicka på körresultaten i bläddraren för pipeline-tillgångar.

Länka till övervakningssidan från redigeraren

För mer information om övervakningssidan, se Övervaka Lakeflow-deklarativa pipelines i användargränssnittet. Övervakningsgränssnittet innehåller möjligheten att återgå till Lakeflow Pipelines-redigeraren genom att välja Redigera pipeline från huvudet i användargränssnittet.

Aktivera Lakeflow Pipelines-redigeraren och uppdaterad övervakning

Förhandsversionen av Lakeflow Pipelines-redigeraren är aktiverad som standard. Du kan inaktivera den eller återaktivera den med följande instruktioner. När förhandsversionen av Lakeflow Pipelines Editor är aktiverad kan du även aktivera den uppdaterade övervakningsupplevelsen (förhandsversion).

Förhandsgranskningen måste vara aktiverad genom att ange alternativet Lakeflow Pipelines Editor för din arbetsyta. Mer information om hur du redigerar alternativ finns i Hantera förhandsversioner av Azure Databricks .

När förhandsversionen är aktiverad kan du aktivera Lakeflow Pipelines-redigeraren på flera sätt:

  • När du skapar en ny ETL-pipeline aktiverar du redigeraren i Lakeflow Deklarativa pipelines med Lakeflow Pipelines Editor växlingsknappen .

    Lakeflow deklarativa pipelines ETL-pipelineredigerare aktiveras

    Sidan avancerade inställningar för pipelinen används första gången du aktiverar redigeraren. Nästa gång du skapar en ny pipeline används det förenklade fönstret för pipeline-skapande.

  • För en befintlig pipeline öppnar du en notebook-fil som används i en pipeline och aktiverar växlingsknappen för Lakeflow Pipelines-redigeraren i rubriken. Du kan också gå till sidan för pipelineövervakning och klicka på Inställningar för att aktivera Lakeflow Pipelines-redigeraren.

  • Du kan aktivera Lakeflow Pipelines-redigeraren från användarinställningarna:

    1. Klicka på användarmärket i det övre högra området på arbetsytan och klicka sedan på Inställningar och Utvecklare.
    2. Aktivera Lakeflow Pipelines-redigeraren.

När du har aktiverat växlingsknappen för Lakeflow Pipelines-redigeraren använder alla ETL-pipelines Lakeflow Pipelines-redigeraren som standard. Du kan aktivera och inaktivera Lakeflow Pipelines-redigeraren från redigeraren.

Anmärkning

Om du inaktiverar den nya pipelineredigeraren är det bra att lämna feedback som beskriver varför du har inaktiverat den. Det finns knappen Skicka feedback på växlingsknappen för all feedback du har på den nya redigeraren.

Aktivera den nya sidan för pipelineövervakning

Viktigt!

Den här funktionen finns som allmänt tillgänglig förhandsversion.

Som en del av förhandsversionen av Lakeflow Pipelines Editor kan du även aktivera en ny pipelineövervakningssida för en pipeline. Förhandsversionen av Lakeflow Pipelines-redigeraren måste vara aktiverad för att aktivera pipelineövervakningssidan. När redigeringsprogrammets förhandsgranskning är aktiverat aktiveras även den nya övervakningssidan som standard.

  1. Klicka på Jobb och pipelines.

  2. Klicka på namnet på en pipeline för att visa information om pipelinen.

  3. Överst på sidan aktiverar du det uppdaterade övervakningsgränssnittet med sidan Ny pipeline .

    Växlingsknapp för nytt användargränssnitt för pipelinesida

Begränsningar och kända problem

Se följande begränsningar och kända problem för ETL-pipeline-redigeraren i Lakeflow Declarative Pipelines:

  1. Sidofältet för arbetsytans webbläsare fokuserar inte på pipelinen om du börjar med att öppna en fil i explorations mappen eller en notebook-fil, eftersom dessa filer eller notebook-filer inte ingår i pipelinens källkodsdefinition.

    Om du vill ange pipelinens fokusläge i arbetsytans webbläsare öppnar du en fil som är associerad med pipelinen.

  2. Dataförhandsgranskningar stöds inte för vanliga vyer.

  3. Python-moduler hittas inte från en UDF, även om de finns i din rotmapp eller på din sys.path. Du kan komma åt dessa moduler genom att lägga till sökvägen från UDF till sys.path, till exempel: sys.path.append(os.path.abspath(“/Workspace/Users/path/to/modules”))

  4. %pip install stöds inte från filer (standardtillgångstypen med den nya redigeraren). Du kan lägga till beroenden i inställningarna. Se Pipeline-miljö.

    Alternativt kan du fortsätta att använda %pip install från en notebook-fil som är associerad med en pipeline i dess källkodsdefinition.

Vanliga frågor

  1. Varför ska du använda filer och inte notebook-filer för källkod?

    Den cellbaserade exekveringen av notebooks är inte kompatibel med Lakeflow Deklarativa Pipelines. Standardfunktioner i notebooks inaktiveras eller ändras när du arbetar med Lakeflow deklarativa pipelines, vilket leder till förvirring för användare som är bekanta med hur notebooks fungerar.

    I Lakeflow Pipelines-redigeraren används filredigeraren som grund för en förstklassig redigerare för Lakeflow deklarativa pipelines. Funktioner riktas uttryckligen mot Lakeflow Deklarativa Pipelines, såsom Run tableRun Table Icon, snarare än att överbelasta välkända funktioner med annorlunda beteende.

  2. Kan jag fortfarande använda notebook-filer som källkod?

    Ja, det kan du. Vissa funktioner, till exempel Run tableRun Table Icon eller Run file, finns dock inte.

    Om du har en befintlig pipeline med notebook-filer fungerar den fortfarande i den nya redigeraren. Databricks rekommenderar dock att du byter till filer för nya pipelines.

  3. Hur lägger jag till befintlig kod i en nyskapade pipeline?

    Du kan lägga till befintliga källkodsfiler i en ny pipeline. Följ dessa steg för att lägga till en mapp med befintliga filer:

    1. Klicka på Inställningar.
    2. Under Källkod klickar du på Konfigurera sökvägar.
    3. Klicka på Lägg till sökväg och välj mappen för de befintliga filerna.
    4. Klicka på Spara.

    Du kan också lägga till enskilda filer:

    1. Klicka på Alla filer i pipelinens resursbläddrare.
    2. Navigera till din fil, klicka på Kebabmenyikonen. och klicka sedan på Inkludera i pipeline.

    Överväg att flytta filerna till rotmappen för pipelinen. Om de lämnas utanför rotmappen för pipelinen visas de i avsnittet Externa filer .

  4. Kan jag hantera pipelinens källkod i Git?

    Du kan hantera din pipelinekälla i Git genom att välja en Git-mapp när du först skapar pipelinen.

    Anmärkning

    När du hanterar källan i en Git-mapp läggs versionskontrollen till för källkoden. Databricks rekommenderar dock att du använder Databricks Asset Bundles för att definiera pipelinekonfigurationen i paketkonfigurationsfiler som kan lagras i Git (eller ett annat versionskontrollsystem). Mer information finns i Vad är Databricks-tillgångspaket?.

    Om du inte skapade pipelinen i en Git-mapp från början kan du flytta källan till en Git-mapp. Databricks rekommenderar att du använder redigeringsåtgärden för att flytta hela rotmappen till en Git-mapp. Detta uppdaterar alla inställningar i enlighet med detta. Se Rotmapp.

    Så här flyttar du rotmappen till en Git-mapp i webbläsaren för pipelinetillgången:

    1. Klicka på Kebabmenyikonen för rotmappen.
    2. Klicka på Flytta rotmapp.
    3. Välj en ny plats för rotmappen och klicka på Flytta.

    Mer information finns i avsnittet Rotmapp .

    Efter flytten visas den välbekanta Git-ikonen bredvid rotmappens namn.

    Viktigt!

    Om du vill flytta rotmappen för pipelinen använder du webbläsaren pipelinetillgångar och stegen ovan. Om du flyttar den på något annat sätt bryts pipelinekonfigurationerna och du måste konfigurera rätt mappsökväg manuellt i Inställningar.

  5. Kan jag ha flera pipelines i samma rotmapp?

    Det kan du, men Databricks rekommenderar att du bara har en enda pipeline per rotmapp.

  6. När ska jag köra en torrkörning?

    Klicka på Kör torrt för att kontrollera koden utan att uppdatera tabellerna.

  7. När ska jag använda tillfälliga vyer och när ska jag använda materialiserade vyer i min kod?

    Använd tillfälliga vyer när du inte vill materialisera data. Det här är till exempel ett steg i en sekvens med steg för att förbereda data innan de är redo att materialiseras med hjälp av en strömmande tabell eller en materialiserad vy som är registrerad i katalogen.