Dela via


Utvärdera generativa AI-modeller och program med hjälp av Azure AI Foundry

Om du vill noggrant utvärdera prestandan för dina generativa AI-modeller och program när de tillämpas på en betydande datamängd kan du initiera en utvärderingsprocess. Under den här utvärderingen testas din modell eller ditt program med den angivna datamängden och dess prestanda mäts kvantitativt med både matematiska och AI-assisterade mått. Den här utvärderingskörningen ger dig omfattande insikter om programmets funktioner och begränsningar.

För att utföra den här utvärderingen kan du använda utvärderingsfunktionerna i Azure AI Foundry-portalen, en omfattande plattform som erbjuder verktyg och funktioner för att utvärdera prestanda och säkerhet för din generativa AI-modell. I Azure AI Foundry-portalen kan du logga, visa och analysera detaljerade utvärderingsmått.

I den här artikeln lär du dig att skapa en utvärderingskörning mot en modell eller en testdatauppsättning med inbyggda utvärderingsmått från Användargränssnittet för Azure AI Foundry. För större flexibilitet kan du upprätta ett anpassat utvärderingsflöde och använda den anpassade utvärderingsfunktionen. Du kan också använda den anpassade utvärderingsfunktionen för att utföra en batchkörning utan utvärdering.

Förutsättningar

  • En testdatauppsättning i något av följande format: CSV- eller JSON Lines (JSONL).
  • En Azure OpenAI-anslutning. En distribution av en av dessa modeller: en GPT-3.5-modell, en GPT-4-modell eller en Davinci-modell. Krävs endast när du kör kvalitetsutvärderingar med AI-assisterad användning.

Skapa en utvärdering med inbyggda utvärderingsmått

Med en utvärderingskörning kan du generera måttutdata för varje datarad i testdatauppsättningen. Du kan välja ett eller flera utvärderingsmått för att utvärdera utdata från olika aspekter. Du kan skapa en utvärderingskörning från utvärderings- eller modellkatalogsidorna i Azure AI Foundry-portalen. En utvärderingsguide visas och visar hur du konfigurerar en utvärderingskörning.

Från sidan Utvärdera

På den komprimerade vänstra menyn väljer du Utvärdering>Skapa en ny utvärdering.

Från modellkatalogsidan

  1. Välj Modellkatalog på den hopfällbara vänstra menyn.

  2. Gå till modellen.

  3. Välj fliken Benchmarks .

  4. Välj Prova med dina egna data. Det här valet öppnar panelen för modellutvärdering, där du kan skapa en utvärderingskörning mot den valda modellen.

    Skärmbild av knappen Prova med egna data från modellkatalogsidan.

Utvärderingsmål

När du startar en utvärdering från sidan Utvärdera måste du först välja utvärderingsmålet. Genom att ange lämpligt utvärderingsmål kan vi skräddarsy utvärderingen efter programmets specifika karaktär, vilket säkerställer korrekta och relevanta mått. Vi stöder två typer av utvärderingsmål:

  • Modell: Det här valet utvärderar utdata som genereras av den valda modellen och den användardefinierade prompten.
  • Datauppsättning: Dina modellgenererade utdata finns redan i en testdatauppsättning.

Konfigurera testdata

När du anger guiden för att skapa utvärdering kan du välja mellan befintliga datauppsättningar eller ladda upp en ny datauppsättning att utvärdera. Testdatauppsättningen måste ha modellgenererade utdata som ska användas för utvärdering. En förhandsgranskning av dina testdata visas i den högra rutan.

  • Välj befintlig datauppsättning: Du kan välja testdatauppsättningen från din etablerade datauppsättningssamling.

    Skärmbild av alternativet att välja testdata när du skapar en ny utvärdering.

  • Lägg till ny datauppsättning: Ladda upp filer från din lokala lagring. Endast CSV- och JSONL-filformat stöds. En förhandsgranskning av dina testdata visas i den högra rutan.

    Skärmbild av alternativet för att ladda upp filer som du kan använda när du skapar en ny utvärdering.

Konfigurera testvillkor

Vi stöder tre typer av mått som kurerats av Microsoft för att underlätta en omfattande utvärdering av ditt program:

  • AI-kvalitet (AI-assisterad): Dessa mått utvärderar den övergripande kvaliteten och enhetligheten hos det genererade innehållet. Du behöver en modellimplementering för att fatta beslut och köra dessa metrik.
  • AI-kvalitet (NLP): Dessa nlp-mått (natural language processing) är matematiska och utvärderar även den övergripande kvaliteten på det genererade innehållet. De kräver ofta riktig data, men de kräver ingen implementering av en modell som domare.
  • Risk- och säkerhetsmått: Dessa mått fokuserar på att identifiera potentiella innehållsrisker och säkerställa säkerheten för det genererade innehållet.

När du lägger till testkriterierna kommer olika mått att användas som en del av utvärderingen. Du kan referera till tabellen för den fullständiga listan över mått som vi erbjuder stöd för i varje scenario. Mer detaljerad information om måttdefinitioner och hur de beräknas finns i Vad är utvärderare?.

AI-kvalitet (AI-assisterad) AI-kvalitet (NLP) Risk- och säkerhetsmått
Groundedness, Relevans, Koherens, Fluency, GPT-likhet F1-poäng, ROUGE-poäng, BLEU-poäng, GLEU-poäng, METEOR-poäng Självskaderelaterat innehåll, Hatiskt och orättvist innehåll, Våldsamt innehåll, Sexuellt innehåll, Skyddat material, Indirekt attack

När du kör ai-assisterad kvalitetsutvärdering måste du ange en GPT-modell för beräknings-/klassificeringsprocessen.

Skärmbild som visar Likert-skaleutvärderaren med AI-kvalitetens mått (AI-assisterade) listade i förvalda inställningar.

MÅTT för AI-kvalitet (NLP) är matematiskt baserade mått som utvärderar programmets prestanda. De kräver ofta grund sanningsdata för beräkning. ROUGE är en familj av mått. Du kan välja ROUGE-typ för att beräkna poängen. Olika typer av ROUGE-mått erbjuder sätt att utvärdera kvaliteten på textgenereringen. ROUGE-N mäter överlappningen av n-gram mellan kandidaten och hänvisa till texter.

Skärmbild som visar textlikhet med måtten FÖR AI-kvalitet (NLP) som anges i förinställningar.

För risk- och säkerhetsmått behöver du inte tillhandahålla någon utrullning. Azure AI Foundry-portalen etablerar en GPT-4-modell som kan generera allvarlighetsgradspoäng och resonemang för innehållsrisker så att du kan utvärdera ditt program för innehållsskador.

Anmärkning

AI-assisterade risk- och säkerhetsmått hanteras av Azure AI Foundry-säkerhetsutvärderingar och är endast tillgängliga i följande regioner: USA, östra 2, Frankrike, centrala, Storbritannien, södra, Sverige, centrala.

Skärmbild som visar måttet Våldsamt innehåll, vilket är ett av risk- och säkerhetsmåtten.

Försiktighet

Användare som tidigare hanterade sina modelldistributioner och körde utvärderingar med hjälp oai.azure.comav och sedan registrerade sig på Utvecklarplattformen för Azure AI Foundry har dessa begränsningar när de använder ai.azure.com:

  • Dessa användare kan inte visa sina utvärderingar som har skapats via Azure OpenAI-API:et. Om du vill visa dessa utvärderingar måste de gå tillbaka till oai.azure.com.
  • Dessa användare kan inte använda Azure OpenAI API för att köra utvärderingar i Azure AI Foundry. I stället bör de fortsätta att använda oai.azure.com för den här uppgiften. De kan dock använda De Azure OpenAI-utvärderare som är tillgängliga direkt i Azure AI Foundry (ai.azure.com) i alternativet för att skapa datauppsättningsutvärdering. Alternativet för finjusterad modellutvärdering stöds inte om distributionen är en migrering från Azure OpenAI till Azure AI Foundry.

För scenariot med uppladdning av datamängder och bring your own storage finns det några konfigurationskrav:

  • Kontoautentisering måste vara Microsoft Entra-ID.
  • Lagringen måste läggas till i kontot. Om du lägger till det i projektet orsakas tjänstfel.
  • Användarna måste lägga till sitt projekt i sitt lagringskonto via åtkomstkontroll i Azure-portalen.

Mer information om hur du skapar utvärderingar med OpenAI-utvärderingsklassare i Azure OpenAI-hubben finns i Så här använder du Azure OpenAI i Utvärdering av Azure AI Foundry-modeller.

Datakartläggning

Datamappning för utvärdering: För varje mått som läggs till måste du ange vilka datakolumner i datauppsättningen som motsvarar de indata som behövs i utvärderingen. Olika utvärderingsmått kräver olika typer av dataindata för exakta beräkningar.

Under utvärderingen utvärderas modellens svar mot viktiga indata, till exempel:

  • Fråga: Krävs för alla mått.
  • Kontext: Valfritt.
  • Grundsanning: Valfritt, krävs för MÅTT för AI-kvalitet (NLP).

Dessa mappningar säkerställer korrekt justering mellan dina data och utvärderingskriterierna.

Skärmbild av fråge-, kontext- och grundsanningsmappningen till dina utvärderingsindata.

Krav för fråge- och svarsmått

Vägledning om specifika datamappningskrav för varje mått finns i informationen i tabellen:

Måttsystem Sökfråga Svar Kontext Grund sanning
Jordnära Obligatoriskt: Str Obligatoriskt: Str Obligatoriskt: Str Gäller inte
Koherens Obligatoriskt: Str Obligatoriskt: Str Gäller inte Gäller inte
Flyt Obligatoriskt: Str Obligatoriskt: Str Gäller inte Gäller inte
Relevans Obligatoriskt: Str Obligatoriskt: Str Obligatoriskt: Str Gäller inte
GPT-likhet Obligatoriskt: Str Obligatoriskt: Str Gäller inte Obligatoriskt: Str
F1-poäng Gäller inte Obligatoriskt: Str Gäller inte Obligatoriskt: Str
BLEU-poäng Gäller inte Obligatoriskt: Str Gäller inte Obligatoriskt: Str
GLEU-poäng Gäller inte Obligatoriskt: Str Gäller inte Obligatoriskt: Str
METEOR-poäng Gäller inte Obligatoriskt: Str Gäller inte Obligatoriskt: Str
ROUGE-poäng Gäller inte Obligatoriskt: Str Gäller inte Obligatoriskt: Str
Självskaderelaterat innehåll Obligatoriskt: Str Obligatoriskt: Str Gäller inte Gäller inte
Hatiskt och orättvist innehåll Obligatoriskt: Str Obligatoriskt: Str Gäller inte Gäller inte
Våldsamt innehåll Obligatoriskt: Str Obligatoriskt: Str Gäller inte Gäller inte
Sexuellt innehåll Obligatoriskt: Str Obligatoriskt: Str Gäller inte Gäller inte
Skyddat material Obligatoriskt: Str Obligatoriskt: Str Gäller inte Gäller inte
Indirekt angrepp Obligatoriskt: Str Obligatoriskt: Str Gäller inte Gäller inte
  • Fråga: En fråga som söker specifik information.
  • Svar: Svaret på en fråga som genereras av modellen.
  • Kontext: Källan som svaret baseras på. (Exempel: grunddokument.)
  • Grundsanning: Ett frågesvar som genereras av en mänsklig användare som fungerar som det sanna svaret.

Granska och slutför

När du har slutfört alla nödvändiga konfigurationer kan du ange ett valfritt namn för utvärderingen. Sedan kan du granska och välja Lämna in för att lämna in testkörningen.

Modellutvärdering

Om du vill skapa en ny utvärdering för den valda modelldistributionen kan du använda en GPT-modell för att generera exempelfrågor, eller välja från din etablerade datamängdssamling.

Konfigurera testdata för en modell

Konfigurera testdatauppsättningen som används för utvärdering. Den här datamängden skickas till modellen för att generera svar för utvärdering. Du har två alternativ för att konfigurera dina testdata:

  • Skapa exempelfrågor
  • Använda en befintlig datauppsättning (eller ladda upp en ny datauppsättning)
Skapa exempelfrågor

Om du inte har en datauppsättning som är lättillgänglig och vill köra en utvärdering med ett litet exempel väljer du den modelldistribution som du vill utvärdera baserat på ett valt ämne. Azure OpenAI-modeller och andra öppna modeller som är kompatibla med serverlös API-distribution, till exempel Meta Llama- och Phi-3-familjemodeller, stöds.

Ämnet hjälper dig att skräddarsy det genererade innehållet efter ditt intresseområde. Frågorna och svaren genereras i realtid och du kan återskapa dem efter behov.

Använd din datauppsättning

Du kan också välja från din etablerade datamängdssamling eller ladda upp en ny datauppsättning.

Skärmbild som visar Välj datakälla och markeringar med hjälp av en befintlig datauppsättning.

Välj utvärderingsmått

Om du vill konfigurera testvillkoren väljer du Nästa. När du väljer dina kriterier läggs mått till och du måste mappa datauppsättningens kolumner till de obligatoriska fälten för utvärdering. Dessa mappningar säkerställer korrekt justering mellan dina data och utvärderingskriterierna.

När du har valt önskat testvillkor kan du granska utvärderingen, ändra namnet på utvärderingen och sedan välja Skicka. Gå till utvärderingssidan för att se resultatet.

Anmärkning

Den genererade datamängden sparas i projektets bloblagring när utvärderingskörningen har skapats.

Visa och hantera utvärderarna i utvärderingsbiblioteket

Du kan se information och status för dina utvärderare på ett ställe i utvärderingsbiblioteket. Du kan visa och hantera Microsoft-utvalda utvärderare.

Utvärderingsbiblioteket möjliggör även versionshantering. Du kan jämföra olika versioner av ditt arbete, återställa tidigare versioner om det behövs och samarbeta enklare med andra.

Om du vill använda utvärderingsbiblioteket i Azure AI Foundry-portalen går du till projektets utvärderingssida och väljer fliken Utvärderarbibliotek.

Du kan välja utvärderarens namn för att se mer information. Du kan se namn, beskrivning och parametrar och kontrollera alla filer som är associerade med utvärderaren. Här följer några exempel på Microsoft-utvalda utvärderare:

  • För prestanda- och kvalitetsutvärderingar som kurerats av Microsoft kan du visa kommentarsprompten på informationssidan. Du kan anpassa dessa uppmaningar till ditt eget användningsfall. Ändra parametrarna eller kriterierna enligt dina data och mål i Azure AI Evaluation SDK. Du kan till exempel välja Groundedness-Evaluator och kontrollera filen Prompty som visar hur vi beräknar måttet.
  • För risk- och säkerhetsutvärderingar som kurerats av Microsoft kan du se definitionen av måtten. Du kan till exempel välja Self-Harm-Related-Content-Evaluator för att lära dig vad det innebär och förstå hur Microsoft avgör allvarlighetsgraderna.

Läs mer om hur du utvärderar dina generativa AI-program: