Dela via


Skicka in en batchkörning och utvärdera ett flöde

Viktigt!

Objekt markerade (förhandsversion) i den här artikeln är för närvarande i offentlig förhandsversion. Den här förhandsversionen tillhandahålls utan ett serviceavtal och vi rekommenderar det inte för produktionsarbetsbelastningar. Vissa funktioner kanske inte stöds eller kan vara begränsade. Mer information finns i Kompletterande villkor för användning av Microsoft Azure-förhandsversioner.

Om du vill utvärdera hur bra flödet presterar med en stor datamängd kan du skicka batchkörning och använda en utvärderingsmetod i promptflödet.

I den här artikeln lär du dig att:

  • Skicka en batchkörning och använd en utvärderingsmetod
  • Visa utvärderingsresultatet och måtten
  • Starta en ny utvärderingsrunda
  • Kontrollera batchkörningshistoriken och jämför mätvärden
  • Förstå de inbyggda utvärderingsmetoderna
  • Sätt att förbättra flödesprestanda

Förutsättningar

Anmärkning

Du måste använda ett hubbbaserat projekt för den här funktionen. Ett Azure AI Foundry-projekt stöds inte. Se Hur vet jag vilken typ av projekt jag har? och Skapa ett hubbbaserat projekt.

För en batchkörning och för att använda en utvärderingsmetod måste du ha följande redo:

  • En testdatauppsättning för batchkörning. Datauppsättningen bör ha något av följande format: .csv, .tsveller .jsonl. Dina data bör också innehålla rubriker som matchar indatanamnen för ditt flöde. Om dina flödesindata innehåller en komplex struktur som en lista eller ordlista använder du jsonl format för att representera dina data.
  • En tillgänglig beräkningssession för att köra batchkörningen. En beräkningssession är en molnbaserad resurs som kör ditt flöde och genererar utdata. Mer information om beräkningssessioner finns i beräkningssession.

Skicka en batchkörning och använd en utvärderingsmetod

Med en batchkörning kan du köra ditt flöde med en stor datamängd och generera utdata för varje datarad. Du kan också välja en utvärderingsmetod för att jämföra utdata från ditt flöde med vissa kriterier och mål. En utvärderingsmetod är en särskild typ av flöde som beräknar mått för dina flödesutdata baserat på olika aspekter. En utvärderingskörning körs för att beräkna måtten när de skickas med batchkörningen.

Om du vill starta en batchkörning med utvärdering kan du välja på knappen UtvärderaAnpassad utvärdering. Genom att välja Anpassad utvärdering kan du antingen skicka en batchkörning med utvärderingsmetoder eller skicka en batchkörning utan utvärdering för ditt flöde.

Den här skärmbilden visar knappen för batchkörning och utvärderingsutlösare

Först uppmanas du att ge batchkörningen ett beskrivande och lättigenkännligt namn. Du kan också skriva en beskrivning och lägga till taggar (nyckel/värde-par) i batchkörningen. När du har slutfört konfigurationen väljer du Nästa för att fortsätta.

Den här skärmbilden visar den grundläggande inställningen för anpassad utvärdering

För det andra måste du välja eller ladda upp en datauppsättning som du vill testa ditt flöde med. Du måste också välja en tillgänglig beräkningssession för att köra den här batchkörningen.

Prompt flow stöder också mappning av flödesindata till en specifik datakolumn i datauppsättningen. Det innebär att du kan tilldela en kolumn till en viss indata. Du kan tilldela en kolumn till en indata genom att använda ${data.XXX} format. Om du vill tilldela ett konstant värde till en indata kan du skriva in det värdet direkt.

Den här skärmbilden visar batchkörningsinställningen för anpassad utvärdering

I nästa steg kan du sedan välja att använda en utvärderingsmetod för att verifiera flödets prestanda. Du kan välja knappen Nästa direkt för att hoppa över det här steget om du inte vill använda någon utvärderingsmetod eller beräkna några mått. Annars kan du välja en eller flera utvärderingsmetoder om du vill köra batchkörningen med utvärdering nu. Utvärderingen startar när batchkörningen har slutförts. Du kan också starta en ny utvärderingsrunda när batchkörningen har slutförts. Mer information om hur du startar en ny utvärderingsrunda finns i Starta en ny utvärderingsrunda.

Den här skärmbilden visar hur du väljer utvärderingsmetoder.

I nästa steg för indatamappning måste du ange källorna för de indata som behövs för utvärderingsmetoden. Till exempel kan kolumnen ground truth komma från en datauppsättning. Som standard använder utvärderingen samma datauppsättning som testdatauppsättningen som tillhandahålls till den testade körningen. Men om motsvarande etiketter eller målgrunds sanningsvärden finns i en annan datauppsättning kan du enkelt växla till den.

  • Om datakällan kommer från körningsutdata anges källan som ${run.output.[ OutputName]}
  • Om datakällan kommer från testdatauppsättningen anges källan som ${data.[ ColumnName]}

Den här skärmbilden visar hur du konfigurerar utvärderingsinställningar, inklusive indatamappning och anslutning.

Anmärkning

Om utvärderingen inte kräver data från datauppsättningen behöver du inte referera till några datamängdskolumner i avsnittet för indatamappning, vilket indikerar att valet av datauppsättning är en valfri konfiguration. Valet av datauppsättning påverkar inte utvärderingsresultatet.

Om en utvärderingsmetod använder stora språkmodeller (LLM) för att mäta prestanda för flödessvaret måste du också ange anslutningar för LLM-noderna i utvärderingsmetoderna.

Sedan kan du välja Nästa för att granska inställningarna och välja på Skicka för att starta batchkörningen med utvärdering.

Visa utvärderingsresultatet och måtten

Efter sändningen hittar du den skickade batchkörningen på fliken körlista på sidan för snabbflöde. Välj en körning för att navigera till körningens resultatsida.

På sidan körningsinformation kan du välja Information för att kontrollera informationen om den här batchkörningen.

Utgång

Grundläggande resultat och spårning

Detta leder dig först till fliken Utdata för att visa indata och utdata rad för rad. På fliken utdata visas en tabelllista med resultat, inklusive rad-ID, indata, utdata, status, systemmått och skapad tid.

Spårning är inaktiverad som standard, för att aktivera spårning måste du ange miljövariabeln PF_DISABLE_TRACING till false. Ett sätt att göra detta är genom att lägga till följande i python-noden:

import os
os.environ["PF_DISABLE_TRACING"] = "false"

Om du väljer Visa spårning för varje rad kan du observera och felsöka det specifika testfallet på den detaljerade sidan för spårning.

Den här skärmbilden visar batchkörningens utdata.

 Skärmbild av spårningsinformation.

Bifoga utvärderingsresultat och spårning

Om du väljer Lägg till utvärderingsutdata kan du välja relaterade utvärderingskörningar och du ser bifogade kolumner i slutet av tabellen som visar utvärderingsresultatet för varje rad med data. Flera utvärderingsutdata kan läggas till för jämförelse.

Skärmbild av batchkörningsutdata för att lägga till utvärderingsutdata.

Du kan se de senaste utvärderingsmåtten i den vänstra översiktspanelen .

Grundläggande översikt

Till höger innehåller översikten övergripande information om körningen, till exempel antalet körningar per datapunkt, totalt antal token och körningens varaktighet.

De senaste aggregerade måtten för utvärderingskörning visas här som standard. Du kan välja Visa utvärderingskörning för att visa själva utvärderingskörningen.

Skärmbild av översiktsinformation för batchkörning på utdatasidan.

Översikten kan expanderas och komprimeras här, och du kan välja Visa fullständig information som leder dig till fliken Översikt bredvid fliken Utdata, där innehåller mer detaljerad information om den här körningen.

Starta en ny utvärderingsrunda

Om du redan har slutfört en batchkörning kan du starta en ny utvärderingsrunda för att skicka en ny utvärderingskörning för att beräkna mått för utdata utan att köra flödet igen. Detta är användbart och kan spara din kostnad för att köra flödet igen när:

  • Du valde inte en utvärderingsmetod för att beräkna metrik när du lämnade in batchkörningen, och bestämmer dig nu för att göra det.
  • Du har redan använt utvärderingsmetoden för att beräkna ett mått. Du kan starta en ny utvärderingsrunda för att beräkna ett annat mått.
  • Utvärderingskörningen misslyckades men flödet genererade utdata. Du kan skicka utvärderingen igen.

Du kan gå till fliken Körningar för promptflöde. Gå sedan till detaljsidan för batchkörning och välj Utvärdera för att starta en ny utvärderingsrunda.

Den här skärmbilden visar hur du startar en ny utvärdering baserat på en batchkörning.

När du har konfigurerat konfigurationen kan du välja "Skicka" för den nya utvärderingsrundan. Efter inlämning kan du se en ny post i listan över körningar av promptflöden. När utvärderingskörningen har slutförts kan du på samma sätt kontrollera resultatet av utvärderingen på fliken Utdata i detaljpanelen för batchkörning. Du måste välja den nya värderingsomgången för att se resultatet.

Om du vill veta mer om måtten som beräknas med de inbyggda utvärderingsmetoderna, navigera till och läs mer om de inbyggda utvärderingsmetoderna.

Översikt

När du väljer fliken Översikt visas omfattande information om körningen, inklusive körningsegenskaper, indatauppsättning, utdatauppsättning, taggar och beskrivning.

Loggfiler

Om du väljer fliken Loggar kan du visa körningsloggarna, vilket kan vara användbart för detaljerad felsökning av körningsfel. Du kan ladda ned loggfilerna till den lokala datorn.

Ögonblicksbild

När du väljer fliken Ögonblicksbild visas körningsögonblicksbilden. Du kan visa flödets DAG. Dessutom har du möjlighet att klona det för att skapa ett nytt flöde. Du kan också distribuera den som en onlineslutpunkt.

Skärmbild av ögonblicksbild av batchkörning.

Kontrollera batchkörningshistoriken och jämför mätvärden

I vissa scenarier ändrar du flödet för att förbättra dess prestanda. Du kan skicka mer än en batchkörning för att jämföra prestanda för ditt flöde med olika versioner. Du kan också jämföra måtten som beräknas med olika utvärderingsmetoder för att se vilken som är lämpligare för ditt flöde.

Om du vill kontrollera batchkörningshistoriken för ditt flöde kan du välja knappen Visa batchkörning på flödessidan. Du ser en lista över batchkörningar som du har skickat in för det här flödet.

Den här skärmbilden visar knappen visualisera resultat på körlistesidan.

För varje batchkörning kan du välja för att kontrollera detaljerna. Du kan också välja flera batchkörningar och välja visualisera utdata för att jämföra måtten och utdata från batchkörningarna.

I panelen "Visualisera utdata" visar tabellen Körningar och mått informationen om de valda körningarna med markering. Andra körningar som tar utdata från de valda körningarna som indata visas också.

I tabellen "Utdata" kan du jämföra de valda batchkörningarna med varje rad i exemplet. Genom att välja ikonen "ögonvisualisering" i tabellen "Körningar och mått" läggs utdata från den körningen till i motsvarande baskörning.

Förstå de inbyggda utvärderingsmetoderna

I promptflöde tillhandahåller vi flera inbyggda utvärderingsmetoder som hjälper dig att mäta prestanda för dina flödesutdata. Varje utvärderingsmetod beräknar olika mått. I följande tabell finns en lista över inbyggda utvärderingsmetoder och deras beskrivningar.

Utvärderingsmetod Mätvärden Beskrivning Anslutning krävs Nödvändiga indata Poängvärde
Utvärdering av klassificeringsnoggrannhet Noggrannhet Mäter prestandan för ett klassificeringssystem genom att jämföra dess utdata med grund sanning. Nej förutsägelse, grund sanning i intervallet [0, 1].
Utvärdering av QnA-relevanspoäng i parvis jämförelse Poäng, vinst/förlust Utvärderar kvaliteten på svaren som genereras av ett frågesvarssystem. Det handlar om att tilldela relevanspoäng till varje svar baserat på hur väl det matchar användarfrågan, jämföra olika svar på ett baslinjesvar och aggregera resultaten för att producera mått som genomsnittliga vinstfrekvenser och relevanspoäng. Ja fråga, svar (ingen grund sanning eller kontext) Poäng: 0-100, vinst/förlust: 1/0
Utvärdering av QnA Groundedness Jordnära Mäter hur grundade modellens förutsagda svar finns i indatakällan. Även om LLM:s svar är sanna, om de inte kan verifieras mot källan, så är de ogrundade. Ja fråga, svar, sammanhang (ingen grund sanning) 1 till 5, där 1 är sämst och 5 är bäst.
QnA GPT-likhetsbedömning GPT-likhet Mäter likheten mellan de grundläggande sanningssvaren från användaren och modellens förutsagda svar med HJÄLP av GPT-modellen. Ja fråga, svar, grund sanning (kontext behövs inte) i intervallet [0, 1].
Utvärdering av QnA-relevans Relevans Mäter hur relevanta modellens förutsagda svar är på de frågor som ställs. Ja fråga, svar, sammanhang (ingen grund sanning) 1 till 5, där 1 är sämst och 5 är bäst.
Utvärdering av QnA-konsekvens Koherens Mäter kvaliteten på alla meningar i en modells förutsagda svar och hur de passar ihop naturligt. Ja fråga, svar (ingen grund sanning eller kontext) 1 till 5, där 1 är sämst och 5 är bäst.
Utvärdering av QnA-flyt Flyt Mäter hur grammatiskt och språkligt korrekt modellens förutsagda svar är. Ja fråga, svar (ingen grund sanning eller kontext) 1 till 5, där 1 är sämst och 5 är bäst
Utvärdering av QnA f1-poäng F1-poäng Mäter förhållandet mellan antalet delade ord mellan modellförutsägelse och grundsanningen. Nej fråga, svar, grund sanning (kontext behövs inte) i intervallet [0, 1].
Utvärdering av QnA Ada-likhet Ada-likhet Beräknar inbäddningar på menings- och dokumentnivå med Ada-inbäddnings-API för både referensdata och förutsägelse. Beräknar sedan cosininlikitet mellan dem (ett flyttalsnummer) Ja fråga, svar, grund sanning (kontext behövs inte) i intervallet [0, 1].

Sätt att förbättra flödesprestanda

När du har kontrollerat de inbyggda metoderna från utvärderingen kan du försöka förbättra flödesprestandan genom att:

  • Kontrollera utdata för att felsöka eventuella fel i flödet.
  • Ändra flödet för att förbättra dess prestanda. Detta inkluderar men inte begränsat till:
    • Ändra uppmaningen
    • Ändra systemmeddelandet
    • Ändra parametrar för flödet
    • Ändra flödeslogik

Mer information om hur du skapar en uppmaning som kan uppnå ditt mål finns i Introduktion till uppmaningsdesign, Tekniker för uppmaningsdesign, och Systemmeddelanderamverk och mallrekommendationer för stora språkmodeller (LLM).

I det här dokumentet har du lärt dig hur du skickar en batchkörning och använder en inbyggd utvärderingsmetod för att mäta kvaliteten på dina flödesutdata. Du har också lärt dig hur du visar utvärderingsresultatet och måtten och hur du startar en ny utvärderingsrunda med en annan metod eller delmängd av varianter. Vi hoppas att det här dokumentet hjälper dig att förbättra flödesprestandan och uppnå dina mål med snabbflöde.

Nästa steg