Anteckning
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Om du vill noggrant utvärdera prestandan för dina generativa AI-modeller och program när de tillämpas på en betydande datamängd kan du initiera en utvärderingsprocess. Under den här utvärderingen testas din modell eller ditt program med den angivna datamängden och dess prestanda mäts kvantitativt med både matematiska och AI-assisterade mått. Den här utvärderingskörningen ger dig omfattande insikter om programmets funktioner och begränsningar.
För att utföra den här utvärderingen kan du använda utvärderingsfunktionerna i Azure AI Foundry-portalen, en omfattande plattform som erbjuder verktyg och funktioner för att utvärdera prestanda och säkerhet för din generativa AI-modell. I Azure AI Foundry-portalen kan du logga, visa och analysera detaljerade utvärderingsmått.
I den här artikeln lär du dig att skapa en utvärderingskörning mot en modell eller en testdatauppsättning med inbyggda utvärderingsmått från Användargränssnittet för Azure AI Foundry. För större flexibilitet kan du upprätta ett anpassat utvärderingsflöde och använda den anpassade utvärderingsfunktionen. Du kan också använda den anpassade utvärderingsfunktionen för att utföra en batchkörning utan utvärdering.
Förutsättningar
- En testdatauppsättning i något av följande format: CSV- eller JSON Lines (JSONL).
 - En Azure OpenAI-anslutning. En distribution av en av dessa modeller: en GPT-3.5-modell, en GPT-4-modell eller en Davinci-modell. Krävs endast när du kör kvalitetsutvärderingar med AI-assisterad användning.
 
Skapa en utvärdering med inbyggda utvärderingsmått
Med en utvärderingskörning kan du generera måttutdata för varje datarad i testdatauppsättningen. Du kan välja ett eller flera utvärderingsmått för att utvärdera utdata från olika aspekter. Du kan skapa en utvärderingskörning från utvärderings- eller modellkatalogsidorna i Azure AI Foundry-portalen. En utvärderingsguide visas och visar hur du konfigurerar en utvärderingskörning.
Från sidan Utvärdera
På den komprimerade vänstra menyn väljer du Utvärdering>Skapa en ny utvärdering.
Från modellkatalogsidan
Välj Modellkatalog på den hopfällbara vänstra menyn.
Gå till modellen.
Välj fliken Benchmarks .
Välj Prova med dina egna data. Det här valet öppnar panelen för modellutvärdering, där du kan skapa en utvärderingskörning mot den valda modellen.
Utvärderingsmål
När du startar en utvärdering från sidan Utvärdera måste du först välja utvärderingsmålet. Genom att ange lämpligt utvärderingsmål kan vi skräddarsy utvärderingen efter programmets specifika karaktär, vilket säkerställer korrekta och relevanta mått. Vi stöder två typer av utvärderingsmål:
- Modell: Det här valet utvärderar utdata som genereras av den valda modellen och den användardefinierade prompten.
 - Datauppsättning: Dina modellgenererade utdata finns redan i en testdatauppsättning.
 
Konfigurera testdata
När du anger guiden för att skapa utvärdering kan du välja mellan befintliga datauppsättningar eller ladda upp en ny datauppsättning att utvärdera. Testdatauppsättningen måste ha modellgenererade utdata som ska användas för utvärdering. En förhandsgranskning av dina testdata visas i den högra rutan.
Välj befintlig datauppsättning: Du kan välja testdatauppsättningen från din etablerade datauppsättningssamling.
Lägg till ny datauppsättning: Ladda upp filer från din lokala lagring. Endast CSV- och JSONL-filformat stöds. En förhandsgranskning av dina testdata visas i den högra rutan.
Konfigurera testvillkor
Vi stöder tre typer av mått som kurerats av Microsoft för att underlätta en omfattande utvärdering av ditt program:
- AI-kvalitet (AI-assisterad): Dessa mått utvärderar den övergripande kvaliteten och enhetligheten hos det genererade innehållet. Du behöver en modellimplementering för att fatta beslut och köra dessa metrik.
 - AI-kvalitet (NLP): Dessa nlp-mått (natural language processing) är matematiska och utvärderar även den övergripande kvaliteten på det genererade innehållet. De kräver ofta riktig data, men de kräver ingen implementering av en modell som domare.
 - Risk- och säkerhetsmått: Dessa mått fokuserar på att identifiera potentiella innehållsrisker och säkerställa säkerheten för det genererade innehållet.
 
När du lägger till testkriterierna kommer olika mått att användas som en del av utvärderingen. Du kan referera till tabellen för den fullständiga listan över mått som vi erbjuder stöd för i varje scenario. Mer detaljerad information om måttdefinitioner och hur de beräknas finns i Vad är utvärderare?.
| AI-kvalitet (AI-assisterad) | AI-kvalitet (NLP) | Risk- och säkerhetsmått | 
|---|---|---|
| Groundedness, Relevans, Koherens, Fluency, GPT-likhet | F1-poäng, ROUGE-poäng, BLEU-poäng, GLEU-poäng, METEOR-poäng | Självskaderelaterat innehåll, Hatiskt och orättvist innehåll, Våldsamt innehåll, Sexuellt innehåll, Skyddat material, Indirekt attack | 
När du kör ai-assisterad kvalitetsutvärdering måste du ange en GPT-modell för beräknings-/klassificeringsprocessen.
MÅTT för AI-kvalitet (NLP) är matematiskt baserade mått som utvärderar programmets prestanda. De kräver ofta grund sanningsdata för beräkning. ROUGE är en familj av mått. Du kan välja ROUGE-typ för att beräkna poängen. Olika typer av ROUGE-mått erbjuder sätt att utvärdera kvaliteten på textgenereringen. ROUGE-N mäter överlappningen av n-gram mellan kandidaten och hänvisa till texter.
För risk- och säkerhetsmått behöver du inte tillhandahålla någon utrullning. Azure AI Foundry-portalen etablerar en GPT-4-modell som kan generera allvarlighetsgradspoäng och resonemang för innehållsrisker så att du kan utvärdera ditt program för innehållsskador.
Anmärkning
AI-assisterade risk- och säkerhetsmått hanteras av Azure AI Foundry-säkerhetsutvärderingar och är endast tillgängliga i följande regioner: USA, östra 2, Frankrike, centrala, Storbritannien, södra, Sverige, centrala.
Försiktighet
Användare som tidigare hanterade sina modelldistributioner och körde utvärderingar med hjälp oai.azure.comav och sedan registrerade sig på Utvecklarplattformen för Azure AI Foundry har dessa begränsningar när de använder ai.azure.com:
- Dessa användare kan inte visa sina utvärderingar som har skapats via Azure OpenAI-API:et. Om du vill visa dessa utvärderingar måste de gå tillbaka till 
oai.azure.com. - Dessa användare kan inte använda Azure OpenAI API för att köra utvärderingar i Azure AI Foundry. I stället bör de fortsätta att använda 
oai.azure.comför den här uppgiften. De kan dock använda De Azure OpenAI-utvärderare som är tillgängliga direkt i Azure AI Foundry (ai.azure.com) i alternativet för att skapa datauppsättningsutvärdering. Alternativet för finjusterad modellutvärdering stöds inte om distributionen är en migrering från Azure OpenAI till Azure AI Foundry. 
För scenariot med uppladdning av datamängder och bring your own storage finns det några konfigurationskrav:
- Kontoautentisering måste vara Microsoft Entra-ID.
 - Lagringen måste läggas till i kontot. Om du lägger till det i projektet orsakas tjänstfel.
 - Användarna måste lägga till sitt projekt i sitt lagringskonto via åtkomstkontroll i Azure-portalen.
 
Mer information om hur du skapar utvärderingar med OpenAI-utvärderingsklassare i Azure OpenAI-hubben finns i Så här använder du Azure OpenAI i Utvärdering av Azure AI Foundry-modeller.
Datakartläggning
Datamappning för utvärdering: För varje mått som läggs till måste du ange vilka datakolumner i datauppsättningen som motsvarar de indata som behövs i utvärderingen. Olika utvärderingsmått kräver olika typer av dataindata för exakta beräkningar.
Under utvärderingen utvärderas modellens svar mot viktiga indata, till exempel:
- Fråga: Krävs för alla mått.
 - Kontext: Valfritt.
 - Grundsanning: Valfritt, krävs för MÅTT för AI-kvalitet (NLP).
 
Dessa mappningar säkerställer korrekt justering mellan dina data och utvärderingskriterierna.
Krav för fråge- och svarsmått
Vägledning om specifika datamappningskrav för varje mått finns i informationen i tabellen:
| Måttsystem | Sökfråga | Svar | Kontext | Grund sanning | 
|---|---|---|---|---|
| Jordnära | Obligatoriskt: Str | Obligatoriskt: Str | Obligatoriskt: Str | Gäller inte | 
| Koherens | Obligatoriskt: Str | Obligatoriskt: Str | Gäller inte | Gäller inte | 
| Flyt | Obligatoriskt: Str | Obligatoriskt: Str | Gäller inte | Gäller inte | 
| Relevans | Obligatoriskt: Str | Obligatoriskt: Str | Obligatoriskt: Str | Gäller inte | 
| GPT-likhet | Obligatoriskt: Str | Obligatoriskt: Str | Gäller inte | Obligatoriskt: Str | 
| F1-poäng | Gäller inte | Obligatoriskt: Str | Gäller inte | Obligatoriskt: Str | 
| BLEU-poäng | Gäller inte | Obligatoriskt: Str | Gäller inte | Obligatoriskt: Str | 
| GLEU-poäng | Gäller inte | Obligatoriskt: Str | Gäller inte | Obligatoriskt: Str | 
| METEOR-poäng | Gäller inte | Obligatoriskt: Str | Gäller inte | Obligatoriskt: Str | 
| ROUGE-poäng | Gäller inte | Obligatoriskt: Str | Gäller inte | Obligatoriskt: Str | 
| Självskaderelaterat innehåll | Obligatoriskt: Str | Obligatoriskt: Str | Gäller inte | Gäller inte | 
| Hatiskt och orättvist innehåll | Obligatoriskt: Str | Obligatoriskt: Str | Gäller inte | Gäller inte | 
| Våldsamt innehåll | Obligatoriskt: Str | Obligatoriskt: Str | Gäller inte | Gäller inte | 
| Sexuellt innehåll | Obligatoriskt: Str | Obligatoriskt: Str | Gäller inte | Gäller inte | 
| Skyddat material | Obligatoriskt: Str | Obligatoriskt: Str | Gäller inte | Gäller inte | 
| Indirekt angrepp | Obligatoriskt: Str | Obligatoriskt: Str | Gäller inte | Gäller inte | 
- Fråga: En fråga som söker specifik information.
 - Svar: Svaret på en fråga som genereras av modellen.
 - Kontext: Källan som svaret baseras på. (Exempel: grunddokument.)
 - Grundsanning: Ett frågesvar som genereras av en mänsklig användare som fungerar som det sanna svaret.
 
Granska och slutför
När du har slutfört alla nödvändiga konfigurationer kan du ange ett valfritt namn för utvärderingen. Sedan kan du granska och välja Lämna in för att lämna in testkörningen.
Modellutvärdering
Om du vill skapa en ny utvärdering för den valda modelldistributionen kan du använda en GPT-modell för att generera exempelfrågor, eller välja från din etablerade datamängdssamling.
Konfigurera testdata för en modell
Konfigurera testdatauppsättningen som används för utvärdering. Den här datamängden skickas till modellen för att generera svar för utvärdering. Du har två alternativ för att konfigurera dina testdata:
- Skapa exempelfrågor
 - Använda en befintlig datauppsättning (eller ladda upp en ny datauppsättning)
 
Skapa exempelfrågor
Om du inte har en datauppsättning som är lättillgänglig och vill köra en utvärdering med ett litet exempel väljer du den modelldistribution som du vill utvärdera baserat på ett valt ämne. Azure OpenAI-modeller och andra öppna modeller som är kompatibla med serverlös API-distribution, till exempel Meta Llama- och Phi-3-familjemodeller, stöds.
Ämnet hjälper dig att skräddarsy det genererade innehållet efter ditt intresseområde. Frågorna och svaren genereras i realtid och du kan återskapa dem efter behov.
Använd din datauppsättning
Du kan också välja från din etablerade datamängdssamling eller ladda upp en ny datauppsättning.
Välj utvärderingsmått
Om du vill konfigurera testvillkoren väljer du Nästa. När du väljer dina kriterier läggs mått till och du måste mappa datauppsättningens kolumner till de obligatoriska fälten för utvärdering. Dessa mappningar säkerställer korrekt justering mellan dina data och utvärderingskriterierna.
När du har valt önskat testvillkor kan du granska utvärderingen, ändra namnet på utvärderingen och sedan välja Skicka. Gå till utvärderingssidan för att se resultatet.
Anmärkning
Den genererade datamängden sparas i projektets bloblagring när utvärderingskörningen har skapats.
Visa och hantera utvärderarna i utvärderingsbiblioteket
Du kan se information och status för dina utvärderare på ett ställe i utvärderingsbiblioteket. Du kan visa och hantera Microsoft-utvalda utvärderare.
Utvärderingsbiblioteket möjliggör även versionshantering. Du kan jämföra olika versioner av ditt arbete, återställa tidigare versioner om det behövs och samarbeta enklare med andra.
Om du vill använda utvärderingsbiblioteket i Azure AI Foundry-portalen går du till projektets utvärderingssida och väljer fliken Utvärderarbibliotek.
Du kan välja utvärderarens namn för att se mer information. Du kan se namn, beskrivning och parametrar och kontrollera alla filer som är associerade med utvärderaren. Här följer några exempel på Microsoft-utvalda utvärderare:
- För prestanda- och kvalitetsutvärderingar som kurerats av Microsoft kan du visa kommentarsprompten på informationssidan. Du kan anpassa dessa uppmaningar till ditt eget användningsfall. Ändra parametrarna eller kriterierna enligt dina data och mål i Azure AI Evaluation SDK. Du kan till exempel välja Groundedness-Evaluator och kontrollera filen Prompty som visar hur vi beräknar måttet.
 - För risk- och säkerhetsutvärderingar som kurerats av Microsoft kan du se definitionen av måtten. Du kan till exempel välja Self-Harm-Related-Content-Evaluator för att lära dig vad det innebär och förstå hur Microsoft avgör allvarlighetsgraderna.
 
Relaterat innehåll
Läs mer om hur du utvärderar dina generativa AI-program: