Dela via


Konfigurera läge för hög samtidighet för notebook-filer i infrastrukturresurser i pipelines

När du kör ett notebook-steg i en pipeline startas en Apache Spark-session och används för att köra de frågor som skickas från notebook-filen. När du aktiverar det högsamtidiga läget för pipelines packas dina notebook-filer automatiskt i de befintliga Spark-sessionerna.

Detta ger dig funktioner för sessionsdelning i alla notebook-filer inom en enda användargräns. Systemet packar automatiskt alla notebook-filer i en befintlig session med hög samtidighet.

Animering som visar session med hög belastning för notebooks.

Kommentar

Sessionsdelning med hög samtidighetsläge ligger alltid inom en enda användargräns. Om du vill dela en enda Spark-session måste notebookarna ha matchande Spark-konfigurationer, de ska vara en del av samma arbetsyta och dela samma standard-lakehouse och bibliotek.

Villkor för sessionsdelning

För att anteckningsböcker ska kunna dela en enda Spark-session måste de:

  • Körs av samma användare.
  • Ha samma standardiserade sjöstuga. Notebook-filer utan standard lakehouse kan dela sessioner med andra notebook-filer som inte har ett standard lakehouse.
  • Ha samma Spark-beräkningskonfigurationer.
  • Ha samma bibliotekspaket. Du kan ha olika installationer av inbäddade bibliotek som en del av anteckningsblockceller och fortfarande dela sessionen med anteckningsblock som har olika biblioteksberoenden.

Konfigurera läge för hög samtidighet

Administratörer för arbetsytor i Fabric kan aktivera läget för hög samtidighet för pipelines med hjälp av arbetsyteinställningarna. Använd följande steg för att konfigurera funktionen med hög samtidighet:

  1. Välj Arbetsyteinställningar i dina Fabric-arbetsytor.

  2. Gå till sektionen Data Engineering/Science>Spark-inställningar>Hög samtidighet.

  3. I avsnittet hög samtidighet aktiverar du inställningen För pipeline som kör flera notebook-filer.

    Skärmbild som visar avsnittet med hög samtidighet i arbetsyteinställningarna.

  4. Om du aktiverar alternativet hög samtidighet kan alla notebook-sessioner som utlöses av pipelines vara en session med hög samtidighet.

  5. Systemet packar automatiskt de inkommande notebook-sessionerna till aktiva sessioner med hög samtidighet. Om det inte finns några aktiva sessioner med hög samtidighet skapas en ny session med hög samtidighet och de samtidiga notebook-filer som skickas packas in i den nya sessionen.

Använda sessionstaggen i notebook-filen för att gruppera delade sessioner

  1. Gå till arbetsytan, välj knappen Nytt objekt och skapa en ny pipeline.

  2. Gå till fliken Aktiviteter i menyfliksområdet och lägg till en Notebook-aktivitet .

  3. Från Avancerade inställningar anger du valfritt strängvärde för egenskapen sessionstagg .

  4. När sessionstaggen har lagts till använder delning av anteckningsböcker den här taggen som kriterium för att gruppera ihop alla anteckningsböcker med samma sessionstagg.

    Skärmbild som visar alternativet att starta en ny session med hög samtidighet i notebook-menyn.

Kommentar

För att optimera prestanda kan en session med hög samtidighet dela resurser över högst 5 notebook-filer som identifieras med samma sessionstagg. När fler än 5 notebook-filer skickas med samma tagg skapar systemet automatiskt en ny session med hög samtidighet som värd för efterföljande notebook-steg. Detta möjliggör effektiv skalning och belastningsutjämning genom att distribuera arbetsbelastningen över flera sessioner.

Övervaka och felsöka notebook-filer som utlöses av pipelines

Det kan vara svårt att övervaka och felsöka när flera notebook-filer körs i en delad session. I läget för hög parallellitet tillhandahålls loggavgränsning, vilket gör att du kan spåra loggar från Spark-händelser för varje enskilt notebook-dokument.

  1. När sessionen är pågående eller i slutfört läge kan du visa sessionsstatusen genom att gå till menyn Kör och välj alternativet Alla körningar.

  2. Då öppnas körhistoriken för notebook med listan över aktuella och tidigare spark-sessioner.

    Skärmbild som visar sidan med alla körningar för en anteckningsbok i en session med hög parallellitet.

  3. Genom att välja en session kan du komma åt övervakningsinformationsvyn, som visar en lista över alla Spark-jobb som körs i den sessionen.

  4. För session med hög samtidighet kan du identifiera jobben och dess associerade loggar från olika notebook-filer med hjälp av fliken Relaterad anteckningsbok, som visar anteckningsboken som jobbet kördes från.

    Skärmbild som visar alla relaterade notebook-filer för session med hög samtidighet i övervakningsinformationsvyn.