Anteckning
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Viktigt!
Den här funktionen finns som allmänt tillgänglig förhandsversion.
Den här artikeln beskriver hur du använder Lakeflow Pipelines-redigeraren för att utveckla och felsöka ETL-pipelines (extrahera, transformera och läsa in) i Lakeflows deklarativa pipelines.
Anmärkning
Lakeflow Pipelines-redigeraren är aktiverad som standard. Du kan inaktivera den eller återaktivera den om den har inaktiverats. Se Aktivera Lakeflow Pipelines-redigeraren och uppdaterad övervakning.
Vad är Lakeflow Pipelines-redigeraren?
Lakeflow Pipelines Editor är en IDE utformad för att utveckla Lakeflow Deklarativa Pipelines. Den kombinerar alla pipelineutvecklingsuppgifter på en enda yta med stöd för kod-första arbetsflöden, mappbaserad kodorganisation, selektiv körning, dataförhandsgranskningar och pipelinediagram. Den är integrerad med Azure Databricks-plattformen och möjliggör även versionskontroll, kodgranskningar och schemalagda körningar.
Översikt över användargränssnittet för Lakeflow Pipelines-redigeraren
Följande bild visar Lakeflow Pipelines-redigeraren:
Bilden visar följande funktioner:
- Pipeline-ressursbläddrare: Skapa, ta bort, byt namn på och organisera pipeline-resurser. Innehåller även genvägar till pipelinekonfiguration.
- Kodredigerare med flera filer med flikar: Arbeta med flera kodfiler som är associerade med en pipeline.
- Pipelinespecifikt verktygsfält: Innehåller konfigurationsalternativ för pipeline och körningsåtgärder på pipelinenivå.
- Interaktivt riktat acykliskt diagram (DAG): Få en översikt över dina tabeller, öppna dataförhandsgranskningens nedre stapel och utför andra tabellrelaterade åtgärder.
- Förhandsversion av data: Granska data för dina strömmande tabeller och materialiserade vyer.
- Insikter om körning på tabellnivå: Hämta körningsinsikter för alla tabeller eller en enda tabell i en pipeline. Insikterna syftar på den senaste pipelinekörningen.
- Problempanel: Den här funktionen sammanfattar fel i alla filer i pipelinen och du kan navigera till platsen där felet inträffade i en specifik fil. Den kompletterar felindikatorer som har kodats.
- Selektiv körning: Kodredigeraren har funktioner för stegvis utveckling, till exempel möjligheten att uppdatera tabeller endast i den aktuella filen med hjälp av åtgärden Kör fil eller en enda tabell.
- Standardstruktur för pipelinemappar: Nya pipelines innehåller en fördefinierad mappstruktur och exempelkod som du kan använda som utgångspunkt för din pipeline.
- Förenklad skapande av pipeline: Ange ett namn, en katalog och ett schema där tabeller ska skapas som standard och en pipeline skapas med standardinställningarna. Du kan senare justera Inställningar från verktygsfältet för pipelineredigeraren.
Skapa en ny ETL-pipeline
Följ dessa steg för att skapa en ny ETL-pipeline med Lakeflow Pipelines-redigeraren:
Längst upp i sidofältet klickar du på
Ny och välj sedan
ETL-pipeline.
Längst upp kan du ge din pipeline ett unikt namn.
Precis under namnet kan du se den standardkatalog och det schema som har valts åt dig. Ändra dessa för att ge din pipeline olika standardvärden.
Standardkatalogen och standardschemat är därifrån dataset läses eller skrivs när du inte anger en katalog eller ett schema i din kod. Mer information finns i Databasobjekt i Azure Databricks .
Välj önskat alternativ för att skapa en pipeline genom att välja något av följande alternativ:
- Börja med exempelkod i SQL för att skapa en ny pipeline- och mappstruktur, inklusive exempelkod i SQL.
- Börja med exempelkod i Python för att skapa en ny pipeline- och mappstruktur, inklusive exempelkod i Python.
- Börja med en enda transformering för att skapa en ny pipeline och mappstruktur med en ny tom kodfil.
- Lägg till befintliga tillgångar för att skapa en pipeline som du kan associera med exisitng-kodfiler på din arbetsyta.
Du kan ha både SQL- och Python-källkodsfiler i ETL-pipelinen. När du skapar en ny pipeline och väljer ett språk för exempelkoden är språket endast för exempelkoden som ingår i pipelinen som standard.
När du gör ditt val omdirigeras du till den nyligen skapade pipelinen.
ETL-pipelinen skapas med följande standardinställningar:
- Unity-katalog
- Aktuell kanal
- Serverlös databearbetning
- Utvecklingsläge av. Den här inställningen påverkar endast schemalagda körningar av pipelinen. När du kör pipelinen från redigeraren används alltid utvecklingsläget som standard.
Du kan justera de här inställningarna från pipelinens verktygsfält.
Du kan också skapa en ETL-pipeline från arbetsytans webbläsare:
- Klicka på Arbetsyta på den vänstra panelen.
- Välj valfri mapp, inklusive Git-mappar.
- Klicka på Skapa i det övre högra hörnet och klicka på ETL-pipeline.
Du kan också skapa en ETL-pipeline från sidan jobb och pipelines:
- På arbetsytan klickar du på
Jobb och pipelines i sidofältet.
- Under Ny klickar du på ETL-pipeline.
Öppna en befintlig ETL-pipeline
Det finns flera sätt att öppna en befintlig ETL-pipeline i Lakeflow Pipelines-redigeraren:
Öppna alla källfiler som är associerade med pipelinen:
- Klicka på Arbetsyta på sidopanelen.
- Navigera till en mapp med källkodsfiler för din pipeline.
- Klicka på källkodsfilen för att öppna pipelinen i redigeraren.
Öppna en nyligen redigerad pipeline:
- Från redigeraren kan du navigera till andra pipelines som du nyligen har redigerat genom att klicka på namnet på pipelinen överst i tillgångsläsaren och välja en annan pipeline från listan med senaste data som visas.
- Utanför redigeraren öppnar du en pipeline eller en fil som konfigurerats som källkod för en pipeline från sidan Senaste på den vänstra sidopanelen.
När du visar en pipeline i produkten kan du välja att redigera pipelinen:
- På sidan för pipelineövervakning klickar du på
Redigera pipeline.
- På sidan Jobbkörningar i den vänstra sidopanelen klickar du på fliken Jobb och pipelines och klickar på
och Redigera pipeline.
- När du redigerar ett jobb och lägger till en pipelineaktivitet kan du klicka på knappen
när du väljer en pipeline under Pipeline.
- På sidan för pipelineövervakning klickar du på
Om du bläddrar i Alla filer i tillgångswebbläsaren och öppnar en källkodsfil från en annan pipeline visas en banderoll överst i redigeraren, där du uppmanas att öppna den associerade pipelinen.
Webbläsare för pipeline-tillgångar
När du redigerar en pipeline använder den vänstra arbetsytans sidopanel ett särskilt läge som kallas tillgångsbläddrare för pipeline. Som standardinställning fokuserar webbläsaren för pipelinetillgångar på rotmappen för pipelinen, och mappar och filer inom roten. Du kan också välja att visa Alla filer för att se filer utanför roten i pipelinen. Flikarna som öppnas i pipelineredigeraren när du redigerar en specifik pipeline sparas, och när du växlar till en annan pipeline öppnas flikarna senast du redigerade pipelinen.
Anmärkning
Redigeraren har också kontexter för redigering av SQL-filer (kallas Databricks SQL-redigeraren) och en allmän kontext för redigering av arbetsytefiler som inte är SQL-filer eller pipelinefiler. Var och en av dessa kontexter kommer ihåg och återställer flikarna som du hade öppnat förra gången du använde kontexten. Du kan växla kontext överst i det vänstra sidofältet. Klicka på rubriken för att välja mellan arbetsyta, SQL-redigerare eller pipelines som nyligen har redigerats.
När du öppnar en fil från arbetsytans webbläsarsida öppnas den i motsvarande redigerare för filen. Om filen är associerad med en pipeline är det Lakeflow Pipelines Editor.
Om du vill öppna en fil som inte är en del av pipelinen, men behålla pipelinekontexten, öppnar du filen från tillgångsläsarens fliken Alla filer .
Pipelinens tillgångswebbläsare har två flikar:
- Pipeline: Här hittar du alla filer som är associerade med pipelinen. Du kan skapa, ta bort, byta namn på och ordna dem i mappar. Den här fliken innehåller även genvägar för pipelinekonfiguration och en grafisk vy över de senaste körningarna.
- Alla filer: Alla andra arbetsytetillgångar är tillgängliga här. Detta kan vara användbart för att hitta filer som ska läggas till i pipelinen eller visa andra filer som är relaterade till pipelinen, till exempel en YAML-fil som definierar ett Databricks-tillgångspaket.
Du kan ha följande typer av filer i pipelinen:
- Källkodsfiler: Dessa filer är en del av pipelinens källkodsdefinition, som kan visas i Inställningar. Databricks rekommenderar att du alltid lagrar källkodsfiler i rotmappen för pipelinen. Annars visas de i ett externt filavsnitt längst ned i webbläsaren och har en mindre omfattande funktionsuppsättning.
- Icke-källkodsfiler: Dessa filer lagras i rotmappen för pipelinen men ingår inte i pipelinens källkodsdefinition.
Viktigt!
Du måste använda webbläsaren pipeline-tillgångar under fliken Pipeline för att hantera filer och mappar för din pipeline. Detta uppdaterar pipelineinställningarna korrekt. Om du flyttar eller byter namn på filer och mappar från arbetsytans webbläsare eller fliken Alla filer bryts pipelinekonfigurationen, och du måste sedan lösa detta manuellt i Inställningar.
Rotmapp
Pipelines webbläsare för tillgångar är förankrad i en rotmapp för pipelines. När du skapar en ny pipeline skapas rotmappen för pipelinen i användarens hemmapp och namnges på samma sätt som pipelinenamnet.
Du kan ändra rotmappen i webbläsaren för pipeline-tillgångar. Detta är användbart om du skapade en pipeline i en mapp och senare vill flytta allt till en annan mapp. Du har till exempel skapat pipelinen i en vanlig mapp och vill flytta källkoden till en Git-mapp för versionskontroll.
- Klicka på
spillmeny för rotmappen.
- Klicka på Konfigurera ny rotmapp.
- Under Rotmapp för pipeline klickar du på
och väljer en annan mapp som rotmapp för pipelinen. - Klicka på Spara.
I För rotmappen kan du också klicka på Byt namn på rotmappen för att byta namn på mappnamnet. Här kan du också klicka på Flytta rotmapp för att flytta rotmappen, till exempel till en Git-mapp.
Du kan också ändra rotmappen för pipelinen i inställningarna:
- Klicka på Inställningar.
- Under Kodtillgångar klickar du på Konfigurera sökvägar.
- Klicka på
för att ändra mappen i Rotmappen för pipeline. - Klicka på Spara.
Anmärkning
Om du ändrar huvudpipelinemappen påverkas fillistan som visas i pipelinetillgångarnas webbläsare, eftersom filerna i den tidigare huvudmappen visas som externa filer.
Befintlig pipeline utan rotmapp
En befintlig pipeline som skapats med hjälp av den äldre notebook-redigeringsmiljön har inte någon rotmapp konfigurerad. När du öppnar en pipeline som inte har konfigurerat en rotmapp uppmanas du att skapa en rotmapp och ordna källfiler i den.
Du kan stänga det och fortsätta redigera pipelinen utan att ange en rotmapp.
Om du senare vill konfigurera rotmappen för din pipeline följer du dessa steg:
- I tillgångswebbläsaren för pipeline klickar du på Konfigurera.
- Klicka på
för att välja rotmappen vid Pipeline-rotmapp. - Klicka på Spara.
Standardmappstruktur
När du skapar en ny pipeline skapas en standardmappstruktur. Det här är den rekommenderade strukturen för att organisera källkodsfilerna för din pipeline och andra filer, enligt beskrivningen nedan.
Ett litet antal exempelkodfiler skapas i den här mappstrukturen.
| Mappnamn | Rekommenderad plats för dessa typer av filer |
|---|---|
<pipeline_root_folder> |
Rotmapp som innehåller alla mappar och filer för din pipeline. |
transformations |
Källkodsfiler, till exempel Python- eller SQL-kodfiler med tabelldefinitioner. |
explorations |
Icke-källkodsfiler, till exempel notebook-filer, frågor och kodfiler som används för undersökande dataanalys. |
utilities |
Icke-källkodsfiler med Python-moduler som kan importeras från andra kodfiler. Om du väljer SQL som språk för exempelkod skapas inte den här mappen. |
Du kan byta namn på mappnamnen eller ändra strukturen så att den passar ditt arbetsflöde. Följ dessa steg för att lägga till en ny källkodsmapp:
- Klicka på Lägg till i bläddraren för pipeline-tillgångar.
- Klicka på Skapa källkodsmapp för pipeline.
- Ange ett mappnamn och klicka på Skapa.
Källkodsfiler
Källkodsfiler är en del av pipelinens källkodsdefinition. När du kör pipelinen utvärderas dessa filer. Filer och mappar som ingår i källkodsdefinitionen har en särskild ikon med en minipipelineikon ovanpå.
Följ dessa steg för att lägga till en ny källkodsfil:
- Klicka på Lägg till i bläddraren för pipeline-tillgångar.
- Klicka på Transformation.
- Ange ett namn för filen och välj Python eller SQL som språk.
- Klicka på Skapa.
Du kan också klicka på för valfri mapp i pipelinens resurswebbläsare för att lägga till en källkodsfil.
En transformations mapp för källkod skapas som standard när du skapar en ny pipeline. Den här mappen är den rekommenderade platsen för pipelinens källkod, till exempel Python- eller SQL-kodfiler med pipelinetabelldefinitioner.
Filer som inte är källkodsfiler
Icke-källkodsfiler lagras i rotmappen för pipelinen men ingår inte i pipelinens källkodsdefinition. Dessa filer utvärderas inte när du kör pipelinen. Icke-källkodsfiler får inte vara externa filer.
Du kan använda detta för filer som är relaterade till ditt arbete på pipelinen som du vill lagra tillsammans med källkoden. Till exempel:
- Notebook-filer som du använder för ad hoc-utforskningar körs på icke-Lakeflow-deklarativa pipelines och utförs utanför en pipelines livscykel.
- Python-moduler som inte ska utvärderas med källkoden om du inte uttryckligen importerar dessa moduler i källkodsfilerna.
Följ dessa steg om du vill lägga till en ny icke-källkodsfil:
- Klicka på Lägg till i bläddraren för pipeline-tillgångar.
- Klicka på Utforskning eller verktyg.
- Ange ett namn för filen.
- Klicka på Skapa.
Du kan också klicka på för pipelinens rotmapp eller en fil som inte är källkod för att lägga till sådana filer i mappen.
När du skapar en ny pipeline skapas följande mappar för icke-källkodsfiler som standard:
| Mappnamn | Description |
|---|---|
explorations |
Den här mappen är den rekommenderade platsen för anteckningsböcker, frågor, instrumentpaneler och andra filer och sedan köra dem på beräkningar för icke-Lakeflow deklarativa pipelines, som du normalt skulle göra utanför en pipelines körningscykel. |
utilities |
Den här mappen är den rekommenderade platsen för Python-moduler som kan importeras från andra filer via direktimport uttryckt som from <filename> import, så länge deras överordnade mapp är hierarkiskt under rotmappen. |
Du kan också importera Python-moduler utanför rotmappen, men i så fall måste du lägga till mappsökvägen sys.path i din Python-kod.
import sys, os
sys.path.append(os.path.abspath('<alternate_path_for_utilities>/utilities'))
from utils import \*
Externa filer
Avsnittet Externa filer i pipelinewebbläsaren visar källkodsfiler utanför rotmappen.
Följ dessa steg om du vill flytta en extern fil till rotmappen transformations , till exempel mappen:
- Klicka på
för filen i resurshanteraren och klicka på Flytta.
- Välj den mapp som du vill flytta filen till och klicka på Flytta.
Filer som är associerade med flera pipelines
Ett märke visas i filens huvud om en fil är associerad med mer än en pipeline. Den har ett antal associerade pipelines och tillåter att växla mellan dem.
Avsnittet Alla filer
Förutom avsnittet Pipeline finns det avsnittet Alla filer , där du kan öppna valfri fil på din arbetsyta. Här kan du
- Öppna filer utanför rotmappen på en flik utan att lämna Lakeflow Pipelines-redigeraren.
- Navigera till en annan pipelines källkodsfiler och öppna dem. Då öppnas filen i redigeraren och du får en banderoll med alternativet att växla fokus i redigeraren till den andra pipelinen.
- Flytta filer till pipelinens rotmapp.
- Inkludera filer utanför rotmappen i pipelinens källkodsdefinition.
Redigera pipeline-källfiler
När du öppnar en pipelinekällfil från arbetsytewebbläsaren eller pipelinetillgångarnas webbläsare öppnas den på en redigeringsflik i Lakeflow Pipelines Editor. Om du öppnar fler filer öppnas separata flikar så att du kan redigera flera filer samtidigt.
Anmärkning
Om du öppnar en fil som inte är associerad med en pipeline från arbetsytans webbläsare öppnas redigeraren i en annan kontext (antingen den allmänna arbetsyteredigeraren eller SQL-redigeraren för SQL-filer).
När du öppnar en fil som inte är en pipeline från fliken Alla filer i pipelinetillgångens webbläsare öppnas den på en ny flik i pipelinekontexten.
Pipeline-källkoden innehåller flera filer. Som standardinställning finns källfilerna i transformeringsmappen i resurshanteraren för pipeline. Källkodsfiler kan vara Python-filer (*.py) eller SQL-filer (*.sql). Källan kan innehålla en blandning av både Python- och SQL-filer i en enda pipeline, och koden i en fil kan referera till en tabell eller vy som definierats i en annan fil.
Du kan också inkludera markdown-filer (*.md) i mappen tranformations . Markdown-filer kan användas för dokumentation eller anteckningar, men ignoreras när du kör en pipelineuppdatering.
Följande funktioner är specifika för Lakeflow Pipelines-redigeraren:
Anslut – Anslut till antingen serverlös eller klassisk beräkning för att köra pipelinen. Alla filer som är associerade med pipelinen använder samma beräkningsanslutning, så när du har anslutit behöver du inte ansluta för andra filer i samma pipeline. Mer information om beräkningsalternativ finns i Konfigurationsalternativ för beräkning.
För filer som inte är pipelinefiler, till exempel en undersökande notebook-fil, är anslutningsalternativet tillgängligt, men gäller endast för den enskilda filen.
Kör fil – Kör koden för att uppdatera tabellerna som definierats i den här källfilen. I nästa avsnitt beskrivs olika sätt att köra din pipelinekod.
Redigera – Använd Databricks Assistant för att redigera eller lägga till kod i filen.
Snabbkorrigering – När det finns ett fel i koden använder du assistenten för att åtgärda felet.
Den nedre panelen justeras också, baserat på den aktuella fliken. Det är alltid tillgängligt att visa pipelineinformation i den nedre panelen. Icke-pipeline-associerade filer, till exempel SQL-redigerarfiler, visar också sina utdata i den nedre panelen på en separat flik. Följande bild visar en lodrät flikväljare för att växla den nedre panelen mellan att visa pipelineinformation eller information för den valda notebook-filen.
Kör pipelinekod
Du har fyra alternativ för att köra pipelinekoden:
Kör alla källkodsfiler i pipelinen
Klicka på Kör pipeline eller Kör pipeline med fullständig tabelluppdatering för att köra alla tabelldefinitioner i alla filer som definierats som pipelinekällkod. Mer information om uppdateringstyper finns i pipelineuppdateringssemantik.
Du kan också klicka på Torr körning för att verifiera pipelinen utan att uppdatera några data.
Kör koden i en enda fil
Klicka på Kör fil eller Kör fil med fullständig tabelluppdatering för att köra alla tabelldefinitioner i den aktuella filen. Andra filer i pipelinen utvärderas inte.
Det här alternativet är användbart för felsökning när du snabbt redigerar och itererar en fil. Det finns biverkningar när du bara kör koden i en enda fil.
- När andra filer inte utvärderas hittas inte fel i dessa filer.
- Tabeller som materialiserats i andra filer använder den senaste materialiseringen av tabellen, även om det finns nyare källdata.
- Du kan stöta på fel om en refererad tabell ännu inte har materialiserats.
- DAG kan vara felaktig eller uppdelad för tabeller i andra filer som inte har materialiserats. Azure Databricks gör sitt bästa för att hålla grafen korrekt, men utvärderar inte andra filer för att göra det.
När du är klar med felsökningen och redigeringen av en fil rekommenderar Databricks att du kör alla källkodsfiler i pipelinen för att kontrollera att pipelinen fungerar från slutpunkt till slutpunkt innan pipelinen placeras i produktion.
Kör koden för en enskild tabell
Bredvid definitionen av en tabell i källkodsfilen klickar du på ikonen Kör tabellikon
och väljer sedan antingen Uppdatera tabell eller Fullständig uppdateringstabell i listrutan. Att köra koden för en enskild tabell har liknande sidoeffekter som att köra koden i en enda fil.
Anmärkning
Att köra koden för en enskild tabell är tillgängligt för strömmande tabeller och materialiserade vyer. Mottagare och vyer stöds inte.
Kör koden för en uppsättning tabeller
Du kan välja tabeller från DAG för att skapa en lista över tabeller som ska köras. Hovra över tabellen i DAG, klicka på
, och välj Välj tabell för uppdatering. När du har valt de tabeller som ska uppdateras väljer du antingen alternativet Kör eller Kör med fullständig uppdatering längst ned i DAG.
Pipelinegraf, riktad acyklisk graf (DAG)
När du har kört eller verifierat alla källkodsfiler i pipelinen visas ett riktat acykliskt diagram (DAG), som kallas pipelinediagrammet. Diagrammet visar tabellens beroendediagram. Varje nod har olika tillstånd längs pipelinens livscykel, till exempel verifierad, körs eller fel.
Du kan aktivera och inaktivera grafen genom att klicka på grafikonen på den högra panelen. Du kan också maximera diagrammet. Det finns ytterligare alternativ längst ned till höger, inklusive zoomalternativ och Fler alternativ för att visa diagrammet i en lodrät eller vågrät layout.
När du hovrar över en nod visas ett verktygsfält med alternativ, inklusive uppdatera frågan. Om du högerklickar på en nod får du samma alternativ i en snabbmeny.
När du klickar på en nod visas dataförhandsgranskningen och tabelldefinitionen. När du redigerar en fil markeras de tabeller som definierats i filen i diagrammet.
Dataförhandsgranskningar
Avsnittet dataförhandsgranskning visar exempeldata för en vald tabell.
Du ser en förhandsgranskning av tabellens data när du klickar på en nod i den riktade acykliska grafen (DAG).
Om ingen tabell har valts går du till avsnittet Tabeller och klickar på Visa dataförhandsgranskning
. Om du har valt en tabell klickar du på Alla tabeller för att återgå till alla tabeller.
När du förhandsgranskar tabelldata kan du filtrera eller sortera data på plats. Om du vill göra mer komplex analys kan du använda eller skapa en notebook-fil i mappen Utforskningar (förutsatt att du har kvar standardmappstrukturen). Som standard körs inte källkoden i den här mappen under en pipelineuppdatering, så du kan skapa frågor utan att påverka pipelineutdata.
Utförandeinsikter
Du kan se insikter om tabellutförande rörande den senaste pipelineuppdateringen i panelerna längst ned i redigeraren.
| Panel | Description |
|---|---|
| Tables | Visar en lista över alla tabeller med deras status och mått. Om du väljer en tabell visas mått och prestanda för tabellen och en flik för dataförhandsgranskningen. |
| Performance | Frågehistorik och profiler för alla flöden i den här pipelinen. Du kan komma åt exekveringsmått och detaljerade frågeplaner under och efter exekveringen. Mer information finns i Åtkomst till frågehistorik för Lakeflow-deklarativa pipelines . |
| Ärendepanel | Klicka på panelen för en förenklad vy över fel och varningar för pipelinen. Du kan klicka på en post för att se mer information och sedan navigera till den plats i koden där felet inträffade. Om felet finns i en annan fil än den som visas för närvarande omdirigeras du till filen där felet finns. Klicka på Visa information för att se motsvarande händelseloggpost för fullständig information. Klicka på Visa loggar för att se den fullständiga händelseloggen. Felindikatorer som fästs med kod visas för fel som är associerade med en viss del av koden. Om du vill ha mer information klickar du på felikonen eller hovra över den röda linjen. Ett popup-fönster med mer information visas. Du kan sedan klicka på Snabbkorrigering för att visa en uppsättning åtgärder för att felsöka felet. |
| Händelselogg | Alla händelser som utlöstes under den senaste pipelinekörningen. Klicka på Visa loggar eller någon post i ärendefältet. |
Pipelinekonfiguration
Du kan konfigurera din pipeline från pipelineredigeraren. Du kan göra ändringar i pipelineinställningarna, schemat eller behörigheterna.
Var och en av dessa kan nås från en knapp i sidhuvudet i redigeraren eller från ikoner i tillgångsläsaren (det vänstra sidofältet).
Inställningar (eller välj
i tillgångswebbläsaren):
Du kan redigera inställningarna för pipelinen från inställningspanelen, inklusive allmän information, rotmapp och källkodskonfiguration, beräkningskonfiguration, meddelanden, avancerade inställningar med mera.
Schemaläggning (eller välj alternativet
)
Du kan skapa ett eller flera scheman för din pipeline från schemadialogrutan. Om du till exempel vill köra den dagligen kan du ange det här. Det skapar ett jobb för att köra pipelinen enligt det schema du väljer. Du kan lägga till ett nytt schema eller ta bort ett befintligt schema från schemadialogrutan.
Dela (eller välj
från
meny i tillgångsläsaren.):
Du kan hantera behörigheter på pipelinen för användare och grupper från dialogrutan för pipelinebehörigheter.
Händelselogg
Du kan publicera händelseloggen för en pipeline till Unity Catalog. Som standard visas händelseloggen för din pipeline i användargränssnittet och är tillgänglig för frågor från ägaren.
- Öppna Inställningar.
- Klicka på
bredvid pilen Avancerade inställningar.
- Klicka på Redigera avancerade inställningar.
- Under Händelseloggar klickar du på Publicera till katalog.
- Ange ett namn, en katalog och ett schema för händelseloggen.
- Klicka på Spara.
Dina pipelinehändelser publiceras till den tabell som du har angett.
Mer information om hur du använder pipelinehändelseloggen finns i Fråga händelseloggen.
Pipelinemiljö
Du kan skapa en miljö för källkoden genom att lägga till beroenden i Inställningar.
- Öppna Inställningar.
- Under Miljö klickar du på Redigera miljö.
- Välj
Lägg till beroende för att lägga till ett beroende, som om du skulle lägga till det i en
requirements.txtfil. Mer information om beroenden finns i Lägga till beroenden i notebook-filen.
Databricks rekommenderar att du fäster versionen med ==. Se PyPI-paketet.
Miljön gäller för alla källkodsfiler i pipelinen.
Meddelanden
Du kan lägga till meddelanden med hjälp av pipelineinställningarna.
- Öppna Inställningar.
- I avsnittet Meddelanden klickar du på Lägg till meddelande.
- Lägg till en eller flera e-postadresser och de händelser som du vill att de ska skickas till.
- Klicka på Lägg till meddelande.
Anmärkning
Skapa anpassade svar på händelser, inklusive meddelanden eller anpassad hantering, med hjälp av Python-händelsekrokar.
Övervaka pipelines
Azure Databricks innehåller även funktioner för att övervaka pipelines som körs. Redigeraren visar resultaten och körningsinsikterna om den senaste körningen. Den är optimerad för att hjälpa dig att iterera effektivt medan du utvecklar din pipeline interaktivt.
Med pipelineövervakningssidan kan du visa historiska körningar, vilket är användbart när en pipeline körs enligt ett schema med hjälp av ett jobb.
Anmärkning
Det finns en standardövervakningsupplevelse och en uppdaterad förhandsgranskningsövervakning. I följande avsnitt beskrivs hur du aktiverar eller inaktiverar förhandsgranskningsövervakningen. Information om båda funktionerna finns i Övervaka deklarativa pipelines för Lakeflow i användargränssnittet.
Övervakningsupplevelsen är tillgänglig från knappen Jobb och pipelines till vänster på arbetsytan. Du kan också gå direkt till övervakningssidan från redigeraren genom att klicka på körresultaten i bläddraren för pipeline-tillgångar.
För mer information om övervakningssidan, se Övervaka Lakeflow-deklarativa pipelines i användargränssnittet. Övervakningsgränssnittet innehåller möjligheten att återgå till Lakeflow Pipelines-redigeraren genom att välja Redigera pipeline från huvudet i användargränssnittet.
Aktivera Lakeflow Pipelines-redigeraren och uppdaterad övervakning
Förhandsversionen av Lakeflow Pipelines-redigeraren är aktiverad som standard. Du kan inaktivera den eller återaktivera den med följande instruktioner. När förhandsversionen av Lakeflow Pipelines Editor är aktiverad kan du även aktivera den uppdaterade övervakningsupplevelsen (förhandsversion).
Förhandsgranskningen måste vara aktiverad genom att ange alternativet Lakeflow Pipelines Editor för din arbetsyta. Mer information om hur du redigerar alternativ finns i Hantera förhandsversioner av Azure Databricks .
När förhandsversionen är aktiverad kan du aktivera Lakeflow Pipelines-redigeraren på flera sätt:
När du skapar en ny ETL-pipeline aktiverar du redigeraren i Lakeflow Deklarativa pipelines med Lakeflow Pipelines Editor växlingsknappen .
Sidan avancerade inställningar för pipelinen används första gången du aktiverar redigeraren. Nästa gång du skapar en ny pipeline används det förenklade fönstret för pipeline-skapande.
För en befintlig pipeline öppnar du en notebook-fil som används i en pipeline och aktiverar växlingsknappen för Lakeflow Pipelines-redigeraren i rubriken. Du kan också gå till sidan för pipelineövervakning och klicka på Inställningar för att aktivera Lakeflow Pipelines-redigeraren.
Du kan aktivera Lakeflow Pipelines-redigeraren från användarinställningarna:
- Klicka på användarmärket i det övre högra området på arbetsytan och klicka sedan på Inställningar och Utvecklare.
- Aktivera Lakeflow Pipelines-redigeraren.
När du har aktiverat växlingsknappen för Lakeflow Pipelines-redigeraren använder alla ETL-pipelines Lakeflow Pipelines-redigeraren som standard. Du kan aktivera och inaktivera Lakeflow Pipelines-redigeraren från redigeraren.
Anmärkning
Om du inaktiverar den nya pipelineredigeraren är det bra att lämna feedback som beskriver varför du har inaktiverat den. Det finns knappen Skicka feedback på växlingsknappen för all feedback du har på den nya redigeraren.
Aktivera den nya sidan för pipelineövervakning
Viktigt!
Den här funktionen finns som allmänt tillgänglig förhandsversion.
Som en del av förhandsversionen av Lakeflow Pipelines Editor kan du även aktivera en ny pipelineövervakningssida för en pipeline. Förhandsversionen av Lakeflow Pipelines-redigeraren måste vara aktiverad för att aktivera pipelineövervakningssidan. När redigeringsprogrammets förhandsgranskning är aktiverat aktiveras även den nya övervakningssidan som standard.
Klicka på Jobb och pipelines.
Klicka på namnet på en pipeline för att visa information om pipelinen.
Överst på sidan aktiverar du det uppdaterade övervakningsgränssnittet med sidan Ny pipeline .
Begränsningar och kända problem
Se följande begränsningar och kända problem för ETL-pipeline-redigeraren i Lakeflow Declarative Pipelines:
Sidofältet för arbetsytans webbläsare fokuserar inte på pipelinen om du börjar med att öppna en fil i
explorationsmappen eller en notebook-fil, eftersom dessa filer eller notebook-filer inte ingår i pipelinens källkodsdefinition.Om du vill ange pipelinens fokusläge i arbetsytans webbläsare öppnar du en fil som är associerad med pipelinen.
Dataförhandsgranskningar stöds inte för vanliga vyer.
Python-moduler hittas inte från en UDF, även om de finns i din rotmapp eller på din
sys.path. Du kan komma åt dessa moduler genom att lägga till sökvägen från UDF tillsys.path, till exempel:sys.path.append(os.path.abspath(“/Workspace/Users/path/to/modules”))%pip installstöds inte från filer (standardtillgångstypen med den nya redigeraren). Du kan lägga till beroenden i inställningarna. Se Pipeline-miljö.Alternativt kan du fortsätta att använda
%pip installfrån en notebook-fil som är associerad med en pipeline i dess källkodsdefinition.
Vanliga frågor
Varför ska du använda filer och inte notebook-filer för källkod?
Den cellbaserade exekveringen av notebooks är inte kompatibel med Lakeflow Deklarativa Pipelines. Standardfunktioner i notebooks inaktiveras eller ändras när du arbetar med Lakeflow deklarativa pipelines, vilket leder till förvirring för användare som är bekanta med hur notebooks fungerar.
I Lakeflow Pipelines-redigeraren används filredigeraren som grund för en förstklassig redigerare för Lakeflow deklarativa pipelines. Funktioner riktas uttryckligen mot Lakeflow Deklarativa Pipelines, såsom Run table
, snarare än att överbelasta välkända funktioner med annorlunda beteende.
Kan jag fortfarande använda notebook-filer som källkod?
Ja, det kan du. Vissa funktioner, till exempel Run table
eller Run file, finns dock inte.
Om du har en befintlig pipeline med notebook-filer fungerar den fortfarande i den nya redigeraren. Databricks rekommenderar dock att du byter till filer för nya pipelines.
Hur lägger jag till befintlig kod i en nyskapade pipeline?
Du kan lägga till befintliga källkodsfiler i en ny pipeline. Följ dessa steg för att lägga till en mapp med befintliga filer:
- Klicka på Inställningar.
- Under Källkod klickar du på Konfigurera sökvägar.
- Klicka på Lägg till sökväg och välj mappen för de befintliga filerna.
- Klicka på Spara.
Du kan också lägga till enskilda filer:
- Klicka på Alla filer i pipelinens resursbläddrare.
- Navigera till din fil, klicka på
och klicka sedan på Inkludera i pipeline.
Överväg att flytta filerna till rotmappen för pipelinen. Om de lämnas utanför rotmappen för pipelinen visas de i avsnittet Externa filer .
Kan jag hantera pipelinens källkod i Git?
Du kan hantera din pipelinekälla i Git genom att välja en Git-mapp när du först skapar pipelinen.
Anmärkning
När du hanterar källan i en Git-mapp läggs versionskontrollen till för källkoden. Databricks rekommenderar dock att du använder Databricks Asset Bundles för att definiera pipelinekonfigurationen i paketkonfigurationsfiler som kan lagras i Git (eller ett annat versionskontrollsystem). Mer information finns i Vad är Databricks-tillgångspaket?.
Om du inte skapade pipelinen i en Git-mapp från början kan du flytta källan till en Git-mapp. Databricks rekommenderar att du använder redigeringsåtgärden för att flytta hela rotmappen till en Git-mapp. Detta uppdaterar alla inställningar i enlighet med detta. Se Rotmapp.
Så här flyttar du rotmappen till en Git-mapp i webbläsaren för pipelinetillgången:
- Klicka på
för rotmappen.
- Klicka på Flytta rotmapp.
- Välj en ny plats för rotmappen och klicka på Flytta.
Mer information finns i avsnittet Rotmapp .
Efter flytten visas den välbekanta Git-ikonen bredvid rotmappens namn.
Viktigt!
Om du vill flytta rotmappen för pipelinen använder du webbläsaren pipelinetillgångar och stegen ovan. Om du flyttar den på något annat sätt bryts pipelinekonfigurationerna och du måste konfigurera rätt mappsökväg manuellt i Inställningar.
- Klicka på
Kan jag ha flera pipelines i samma rotmapp?
Det kan du, men Databricks rekommenderar att du bara har en enda pipeline per rotmapp.
När ska jag köra en torrkörning?
Klicka på Kör torrt för att kontrollera koden utan att uppdatera tabellerna.
När ska jag använda tillfälliga vyer och när ska jag använda materialiserade vyer i min kod?
Använd tillfälliga vyer när du inte vill materialisera data. Det här är till exempel ett steg i en sekvens med steg för att förbereda data innan de är redo att materialiseras med hjälp av en strömmande tabell eller en materialiserad vy som är registrerad i katalogen.