Skicka in en batchkörning och utvärdera ett flöde

2025-09-22

Viktigt!

Objekt markerade (förhandsversion) i den här artikeln är för närvarande i offentlig förhandsversion. Den här förhandsversionen tillhandahålls utan ett serviceavtal och vi rekommenderar det inte för produktionsarbetsbelastningar. Vissa funktioner kanske inte stöds eller kan vara begränsade. Mer information finns i Kompletterande villkor för användning av Microsoft Azure-förhandsversioner.

Om du vill utvärdera hur bra flödet presterar med en stor datamängd kan du skicka batchkörning och använda en utvärderingsmetod i promptflödet.

I den här artikeln lär du dig att:

Skicka en batchkörning och använd en utvärderingsmetod
Visa utvärderingsresultatet och måtten
Starta en ny utvärderingsrunda
Kontrollera batchkörningshistoriken och jämför mätvärden
Förstå de inbyggda utvärderingsmetoderna
Sätt att förbättra flödesprestanda

Förutsättningar

Anmärkning

Du måste använda ett hubbbaserat projekt för den här funktionen. Ett Azure AI Foundry-projekt stöds inte. Se Hur vet jag vilken typ av projekt jag har? och Skapa ett hubbbaserat projekt.

Ett Azure-konto med en aktiv prenumeration. Om du inte har ett skapar du ett kostnadsfritt Azure-konto, som innehåller en kostnadsfri utvärderingsprenumeration.
Om du inte har något skapar du ett hubbbaserat projekt.

För en batchkörning och för att använda en utvärderingsmetod måste du ha följande redo:

En testdatauppsättning för batchkörning. Datauppsättningen bör ha något av följande format: .csv, .tsveller .jsonl. Dina data bör också innehålla rubriker som matchar indatanamnen för ditt flöde. Om dina flödesindata innehåller en komplex struktur som en lista eller ordlista använder du jsonl format för att representera dina data.
En tillgänglig beräkningssession för att köra batchkörningen. En beräkningssession är en molnbaserad resurs som kör ditt flöde och genererar utdata. Mer information om beräkningssessioner finns i beräkningssession.

Skicka en batchkörning och använd en utvärderingsmetod

Med en batchkörning kan du köra ditt flöde med en stor datamängd och generera utdata för varje datarad. Du kan också välja en utvärderingsmetod för att jämföra utdata från ditt flöde med vissa kriterier och mål. En utvärderingsmetod är en särskild typ av flöde som beräknar mått för dina flödesutdata baserat på olika aspekter. En utvärderingskörning körs för att beräkna måtten när de skickas med batchkörningen.

Om du vill starta en batchkörning med utvärdering kan du välja på knappen Utvärdera – Anpassad utvärdering. Genom att välja Anpassad utvärdering kan du antingen skicka en batchkörning med utvärderingsmetoder eller skicka en batchkörning utan utvärdering för ditt flöde.

Först uppmanas du att ge batchkörningen ett beskrivande och lättigenkännligt namn. Du kan också skriva en beskrivning och lägga till taggar (nyckel/värde-par) i batchkörningen. När du har slutfört konfigurationen väljer du Nästa för att fortsätta.

För det andra måste du välja eller ladda upp en datauppsättning som du vill testa ditt flöde med. Du måste också välja en tillgänglig beräkningssession för att köra den här batchkörningen.

Prompt flow stöder också mappning av flödesindata till en specifik datakolumn i datauppsättningen. Det innebär att du kan tilldela en kolumn till en viss indata. Du kan tilldela en kolumn till en indata genom att använda ${data.XXX} format. Om du vill tilldela ett konstant värde till en indata kan du skriva in det värdet direkt.

I nästa steg kan du sedan välja att använda en utvärderingsmetod för att verifiera flödets prestanda. Du kan välja knappen Nästa direkt för att hoppa över det här steget om du inte vill använda någon utvärderingsmetod eller beräkna några mått. Annars kan du välja en eller flera utvärderingsmetoder om du vill köra batchkörningen med utvärdering nu. Utvärderingen startar när batchkörningen har slutförts. Du kan också starta en ny utvärderingsrunda när batchkörningen har slutförts. Mer information om hur du startar en ny utvärderingsrunda finns i Starta en ny utvärderingsrunda.

I nästa steg för indatamappning måste du ange källorna för de indata som behövs för utvärderingsmetoden. Till exempel kan kolumnen ground truth komma från en datauppsättning. Som standard använder utvärderingen samma datauppsättning som testdatauppsättningen som tillhandahålls till den testade körningen. Men om motsvarande etiketter eller målgrunds sanningsvärden finns i en annan datauppsättning kan du enkelt växla till den.

Om datakällan kommer från körningsutdata anges källan som ${run.output.[ OutputName]}
Om datakällan kommer från testdatauppsättningen anges källan som ${data.[ ColumnName]}

Anmärkning

Om utvärderingen inte kräver data från datauppsättningen behöver du inte referera till några datamängdskolumner i avsnittet för indatamappning, vilket indikerar att valet av datauppsättning är en valfri konfiguration. Valet av datauppsättning påverkar inte utvärderingsresultatet.

Om en utvärderingsmetod använder stora språkmodeller (LLM) för att mäta prestanda för flödessvaret måste du också ange anslutningar för LLM-noderna i utvärderingsmetoderna.

Sedan kan du välja Nästa för att granska inställningarna och välja på Skicka för att starta batchkörningen med utvärdering.

Visa utvärderingsresultatet och måtten

Efter sändningen hittar du den skickade batchkörningen på fliken körlista på sidan för snabbflöde. Välj en körning för att navigera till körningens resultatsida.

På sidan körningsinformation kan du välja Information för att kontrollera informationen om den här batchkörningen.

Utgång

Grundläggande resultat och spårning

Detta leder dig först till fliken Utdata för att visa indata och utdata rad för rad. På fliken utdata visas en tabelllista med resultat, inklusive rad-ID, indata, utdata, status, systemmått och skapad tid.

Spårning är inaktiverad som standard, för att aktivera spårning måste du ange miljövariabeln PF_DISABLE_TRACING till false. Ett sätt att göra detta är genom att lägga till följande i python-noden:

import os
os.environ["PF_DISABLE_TRACING"] = "false"

Om du väljer Visa spårning för varje rad kan du observera och felsöka det specifika testfallet på den detaljerade sidan för spårning.

Bifoga utvärderingsresultat och spårning

Om du väljer Lägg till utvärderingsutdata kan du välja relaterade utvärderingskörningar och du ser bifogade kolumner i slutet av tabellen som visar utvärderingsresultatet för varje rad med data. Flera utvärderingsutdata kan läggas till för jämförelse.

Du kan se de senaste utvärderingsmåtten i den vänstra översiktspanelen .

Grundläggande översikt

Till höger innehåller översikten övergripande information om körningen, till exempel antalet körningar per datapunkt, totalt antal token och körningens varaktighet.

De senaste aggregerade måtten för utvärderingskörning visas här som standard. Du kan välja Visa utvärderingskörning för att visa själva utvärderingskörningen.

Översikten kan expanderas och komprimeras här, och du kan välja Visa fullständig information som leder dig till fliken Översikt bredvid fliken Utdata, där innehåller mer detaljerad information om den här körningen.

Starta en ny utvärderingsrunda

Om du redan har slutfört en batchkörning kan du starta en ny utvärderingsrunda för att skicka en ny utvärderingskörning för att beräkna mått för utdata utan att köra flödet igen. Detta är användbart och kan spara din kostnad för att köra flödet igen när:

Du valde inte en utvärderingsmetod för att beräkna metrik när du lämnade in batchkörningen, och bestämmer dig nu för att göra det.
Du har redan använt utvärderingsmetoden för att beräkna ett mått. Du kan starta en ny utvärderingsrunda för att beräkna ett annat mått.
Utvärderingskörningen misslyckades men flödet genererade utdata. Du kan skicka utvärderingen igen.

Du kan gå till fliken Körningar för promptflöde. Gå sedan till detaljsidan för batchkörning och välj Utvärdera för att starta en ny utvärderingsrunda.

När du har konfigurerat konfigurationen kan du välja "Skicka" för den nya utvärderingsrundan. Efter inlämning kan du se en ny post i listan över körningar av promptflöden. När utvärderingskörningen har slutförts kan du på samma sätt kontrollera resultatet av utvärderingen på fliken Utdata i detaljpanelen för batchkörning. Du måste välja den nya värderingsomgången för att se resultatet.

Om du vill veta mer om måtten som beräknas med de inbyggda utvärderingsmetoderna, navigera till och läs mer om de inbyggda utvärderingsmetoderna.

Översikt

När du väljer fliken Översikt visas omfattande information om körningen, inklusive körningsegenskaper, indatauppsättning, utdatauppsättning, taggar och beskrivning.

Loggfiler

Om du väljer fliken Loggar kan du visa körningsloggarna, vilket kan vara användbart för detaljerad felsökning av körningsfel. Du kan ladda ned loggfilerna till den lokala datorn.

Ögonblicksbild

När du väljer fliken Ögonblicksbild visas körningsögonblicksbilden. Du kan visa flödets DAG. Dessutom har du möjlighet att klona det för att skapa ett nytt flöde. Du kan också distribuera den som en onlineslutpunkt.

Kontrollera batchkörningshistoriken och jämför mätvärden

I vissa scenarier ändrar du flödet för att förbättra dess prestanda. Du kan skicka mer än en batchkörning för att jämföra prestanda för ditt flöde med olika versioner. Du kan också jämföra måtten som beräknas med olika utvärderingsmetoder för att se vilken som är lämpligare för ditt flöde.

Om du vill kontrollera batchkörningshistoriken för ditt flöde kan du välja knappen Visa batchkörning på flödessidan. Du ser en lista över batchkörningar som du har skickat in för det här flödet.

För varje batchkörning kan du välja för att kontrollera detaljerna. Du kan också välja flera batchkörningar och välja visualisera utdata för att jämföra måtten och utdata från batchkörningarna.

I panelen "Visualisera utdata" visar tabellen Körningar och mått informationen om de valda körningarna med markering. Andra körningar som tar utdata från de valda körningarna som indata visas också.

I tabellen "Utdata" kan du jämföra de valda batchkörningarna med varje rad i exemplet. Genom att välja ikonen "ögonvisualisering" i tabellen "Körningar och mått" läggs utdata från den körningen till i motsvarande baskörning.

Förstå de inbyggda utvärderingsmetoderna

I promptflöde tillhandahåller vi flera inbyggda utvärderingsmetoder som hjälper dig att mäta prestanda för dina flödesutdata. Varje utvärderingsmetod beräknar olika mått. I följande tabell finns en lista över inbyggda utvärderingsmetoder och deras beskrivningar.

Utvärderingsmetod	Mätvärden	Beskrivning	Anslutning krävs	Nödvändiga indata	Poängvärde
Utvärdering av klassificeringsnoggrannhet	Noggrannhet	Mäter prestandan för ett klassificeringssystem genom att jämföra dess utdata med grund sanning.	Nej	förutsägelse, grund sanning	i intervallet [0, 1].
Utvärdering av QnA-relevanspoäng i parvis jämförelse	Poäng, vinst/förlust	Utvärderar kvaliteten på svaren som genereras av ett frågesvarssystem. Det handlar om att tilldela relevanspoäng till varje svar baserat på hur väl det matchar användarfrågan, jämföra olika svar på ett baslinjesvar och aggregera resultaten för att producera mått som genomsnittliga vinstfrekvenser och relevanspoäng.	Ja	fråga, svar (ingen grund sanning eller kontext)	Poäng: 0-100, vinst/förlust: 1/0
Utvärdering av QnA Groundedness	Jordnära	Mäter hur grundade modellens förutsagda svar finns i indatakällan. Även om LLM:s svar är sanna, om de inte kan verifieras mot källan, så är de ogrundade.	Ja	fråga, svar, sammanhang (ingen grund sanning)	1 till 5, där 1 är sämst och 5 är bäst.
QnA GPT-likhetsbedömning	GPT-likhet	Mäter likheten mellan de grundläggande sanningssvaren från användaren och modellens förutsagda svar med HJÄLP av GPT-modellen.	Ja	fråga, svar, grund sanning (kontext behövs inte)	i intervallet [0, 1].
Utvärdering av QnA-relevans	Relevans	Mäter hur relevanta modellens förutsagda svar är på de frågor som ställs.	Ja	fråga, svar, sammanhang (ingen grund sanning)	1 till 5, där 1 är sämst och 5 är bäst.
Utvärdering av QnA-konsekvens	Koherens	Mäter kvaliteten på alla meningar i en modells förutsagda svar och hur de passar ihop naturligt.	Ja	fråga, svar (ingen grund sanning eller kontext)	1 till 5, där 1 är sämst och 5 är bäst.
Utvärdering av QnA-flyt	Flyt	Mäter hur grammatiskt och språkligt korrekt modellens förutsagda svar är.	Ja	fråga, svar (ingen grund sanning eller kontext)	1 till 5, där 1 är sämst och 5 är bäst
Utvärdering av QnA f1-poäng	F1-poäng	Mäter förhållandet mellan antalet delade ord mellan modellförutsägelse och grundsanningen.	Nej	fråga, svar, grund sanning (kontext behövs inte)	i intervallet [0, 1].
Utvärdering av QnA Ada-likhet	Ada-likhet	Beräknar inbäddningar på menings- och dokumentnivå med Ada-inbäddnings-API för både referensdata och förutsägelse. Beräknar sedan cosininlikitet mellan dem (ett flyttalsnummer)	Ja	fråga, svar, grund sanning (kontext behövs inte)	i intervallet [0, 1].

Sätt att förbättra flödesprestanda

När du har kontrollerat de inbyggda metoderna från utvärderingen kan du försöka förbättra flödesprestandan genom att:

Kontrollera utdata för att felsöka eventuella fel i flödet.
Ändra flödet för att förbättra dess prestanda. Detta inkluderar men inte begränsat till:
- Ändra uppmaningen
- Ändra systemmeddelandet
- Ändra parametrar för flödet
- Ändra flödeslogik

Mer information om hur du skapar en uppmaning som kan uppnå ditt mål finns i Introduktion till uppmaningsdesign, Tekniker för uppmaningsdesign, och Systemmeddelanderamverk och mallrekommendationer för stora språkmodeller (LLM).

I det här dokumentet har du lärt dig hur du skickar en batchkörning och använder en inbyggd utvärderingsmetod för att mäta kvaliteten på dina flödesutdata. Du har också lärt dig hur du visar utvärderingsresultatet och måtten och hur du startar en ny utvärderingsrunda med en annan metod eller delmängd av varianter. Vi hoppas att det här dokumentet hjälper dig att förbättra flödesprestandan och uppnå dina mål med snabbflöde.

Nästa steg

Feedback

Var den här sidan till hjälp?