Dela via


Se utvärderingsresultat i Azure AI Foundry-portalen

Lär dig hur du ser utvärderingsresultat i Azure AI Foundry-portalen. Visa och tolka AI-modellutvärderingsdata, prestandamått och kvalitetsutvärderingar. Få åtkomst till resultat från flöden, lekplatssessioner och SDK för att fatta datadrivna beslut.

När du har visualiserat dina utvärderingsresultat kan du gå in på en grundlig undersökning. Du kan visa enskilda resultat och jämföra dessa resultat mellan flera utvärderingskörningar. Du kan identifiera trender, mönster och avvikelser, vilket hjälper dig att få ovärderliga insikter om ai-systemets prestanda under olika förhållanden.

I den här artikeln lär du dig att:

  • Hitta och öppna utvärderingsprocesser.
  • Visa mått på aggregerings- och exempelnivå.
  • Jämför resultat mellan körningar.
  • Tolka måttkategorier och beräkningar.
  • Felsöka saknade eller partiella mått.

Se dina utvärderingsresultat

När du har skickat en utvärdering, hitta exekveringen på sidan Utvärdering. Filtrera eller justera kolumner för att fokusera på körningsdata av intresse. Granska övergripande mått på en översiktlig nivå innan du fördjupar dig.

Tips/Råd

Du kan visa en utvärderingskörning med valfri version av promptflow-evals SDK eller azure-ai-evaluation version 1.0.0b1, 1.0.0b2, 1.0.0b3. Aktivera reglaget Visa alla körningar för att hitta körningen.

Välj Läs mer om mått för definitioner och formler.

Skärmbild som visar information om utvärderingsmåtten.

Välj en körning för att öppna detaljer (datauppsättning, uppgiftstyp, uppmaning, parametrar) samt mätvärden per exempel. Instrumentpanelen för mått visualiserar genomströmningshastighet eller aggregeringspoäng per mått.

Försiktighet

Användare som tidigare hanterade sina modelldistributioner och körde utvärderingar med hjälp oai.azure.comav och sedan registrerade sig på Utvecklarplattformen för Azure AI Foundry har dessa begränsningar när de använder ai.azure.com:

  • Dessa användare kan inte visa sina utvärderingar som har skapats via Azure OpenAI-API:et. Om du vill visa dessa utvärderingar måste de gå tillbaka till oai.azure.com.
  • Dessa användare kan inte använda Azure OpenAI API för att köra utvärderingar i Azure AI Foundry. I stället bör de fortsätta att använda oai.azure.com för den här uppgiften. De kan dock använda De Azure OpenAI-utvärderare som är tillgängliga direkt i Azure AI Foundry (ai.azure.com) i alternativet för att skapa datauppsättningsutvärdering. Alternativet för finjusterad modellutvärdering stöds inte om distributionen är en migrering från Azure OpenAI till Azure AI Foundry.

För scenariot med uppladdning av datamängder och bring your own storage finns det några konfigurationskrav:

  • Kontoautentisering måste vara Microsoft Entra-ID.
  • Lagringen måste läggas till i kontot. Om du lägger till det i projektet orsakas tjänstfel.
  • Användarna måste lägga till sitt projekt i sitt lagringskonto via åtkomstkontroll i Azure-portalen.

Mer information om hur du skapar utvärderingar med OpenAI-utvärderingsklassare i Azure OpenAI-hubben finns i Så här använder du Azure OpenAI i Utvärdering av Azure AI Foundry-modeller.

Instrumentpanel för mått

I avsnittet Måttinstrumentpanel delas aggregerade vyer upp efter mått som inkluderar AI-kvalitet (AI Assisted), Risk och säkerhet (förhandsversion), AI-kvalitet (NLP) och Anpassad (i förekommande fall). Resultaten mäts som procentandelar av pass/fail baserat på de kriterier som valdes när utvärderingen skapades. Mer detaljerad information om måttdefinitioner och hur de beräknas finns i Vad är utvärderare?.

  • För AI-kvalitetsmått (AI Assisted) aggregeras resultaten genom genomsnitt för alla poäng per mått. Om du använder Groundedness Pro är utdata binärt och den aggregerade poängen är överföringshastigheten: (#trues / #instances) × 100. Skärmbild som visar instrumentpanelen för AI-kvalitet (AI Assisterad).
  • För mått för risk och säkerhet (förhandsversion) aggregeras resultaten efter defekt hastighet.
    • Innehållsskada: procentandel av instanser som överskrider tröskelvärdet för allvarlighetsgrad (standard Medium).
    • För skyddat material och indirekt attack beräknas defektfrekvensen som procentandelen instanser där utdata används true med hjälp av formeln (Defect Rate = (#trues / #instances) × 100). Skärmbild som visar instrumentpanelen för risk- och säkerhetsmått.
  • För mått för AI-kvalitet (NLP) aggregeras resultaten genom ett genomsnitt av poängen per mått. Skärmbild som visar instrumentpanelen för AI-kvalitet (NLP).

Detaljerad resultattabell för mått

Använd tabellen under instrumentpanelen för att inspektera varje dataexempel. Sortera efter ett mått för att visa sämst presterande exempel och identifiera systematiska luckor (felaktiga resultat, säkerhetsfel, svarstid). Använd sökningen för att gruppera relaterade felämnen. Använd kolumnanpassning för att fokusera på viktiga mått.

Vanliga åtgärder:

  • Filtrera efter låga poäng för att identifiera återkommande mönster.
  • Justera frågor eller finjustera när systembrister uppstår.
  • Exportera för offlineanalys.

Här är några exempel på måttresultaten för scenariot med frågesvar:

Skärmbild som visar måttresultat för scenariot med frågesvar.

Vissa utvärderingar har underutvärderingar som gör att du kan visa JSON för resultaten från underutvärderingarna. Om du vill visa resultatet väljer du Visa i JSON.

Skärmbild som visar detaljerade måttresultat med JSON valt.

Visa JSON i JSON Preview:

Skärmbild som visar JSON-förhandsversionen.

Här är några exempel på måttresultaten för konversationsscenariot. Om du vill granska resultaten i en konversation med flera turer väljer du Visa utvärderingsresultat per tur i kolumnen Konversation .

Skärmbild som visar måttresultat för konversationsscenariot.

När du väljer Visa utvärderingsresultat per tur visas följande skärm:

Skärmbild som visar utvärderingsresultaten per tur.

För en säkerhetsutvärdering i ett multimodalt scenario (text och bilder) kan du bättre förstå utvärderingsresultatet genom att granska bilderna från både indata och utdata i den detaljerade resultattabellen för mått. Eftersom multimodal utvärdering för närvarande endast stöds för konversationsscenarier kan du välja Visa utvärderingsresultat per tur för att undersöka indata och utdata för varje tur.

Skärmbild som visar bilddialogrutan från konversationskolumnen.

Välj bilden för att expandera och visa den. Som standard är alla bilder suddiga för att skydda dig från potentiellt skadligt innehåll. Om du vill visa bilden tydligt aktiverar du växlingsknappen Kontrollera oskärpa .

Skärmbild som visar en suddig bild och växlingsknappen Kontrollera oskärpa.

Utvärderingsresultat kan ha olika betydelser för olika målgrupper. Säkerhetsutvärderingar kan till exempel generera en etikett för Låg allvarlighetsgrad av våldsamt innehåll som kanske inte överensstämmer med en mänsklig granskares definition av hur allvarligt det specifika våldsamma innehållet kan vara. Den fastställda godkända betygsgränsen när utvärderingen skapas avgör om godkänt eller underkänt tilldelas. Det finns en kolumn med mänsklig feedback där du kan välja en tumme upp- eller tummen ned-ikon när du granskar dina utvärderingsresultat. Du kan använda den här kolumnen för att logga vilka instanser som godkänts eller flaggats som felaktiga av en mänsklig granskare.

Skärmbild som visar risk- och säkerhetsmått resultat med mänsklig feedback.

Om du vill förstå varje mått för innehållsrisk kan du visa måttdefinitioner genom att gå tillbaka till avsnittet Rapport , eller så kan du granska testet i avsnittet Måttinstrumentpanel .

Om det är något fel med körningen kan du också använda loggarna för att felsöka utvärderingskörningen. Här följer några exempel på loggar som du kan använda för att felsöka utvärderingskörningen:

Skärmbild som visar loggar som du kan använda för att felsöka utvärderingskörningen.

Om du utvärderar ett promptflöde kan du välja knappen Visa i flöde för att gå till den utvärderade flödessidan och uppdatera flödet. Du kan till exempel lägga till extra instruktioner för metaprompter eller ändra vissa parametrar och omvärdera.

Jämför utvärderingsresultaten

För att underlätta en omfattande jämförelse mellan två eller flera körningar kan du välja önskade körningar och initiera processen. Välj antingen knappen Jämför eller, för en allmän detaljerad instrumentpanelsvy, knappen Växla till instrumentpanelsvy . Du har befogenhet att analysera och kontrastera prestanda och resultat för flera körningar, vilket möjliggör mer välgrundat beslutsfattande och riktade förbättringar.

Skärmbild som visar alternativet att jämföra utvärderingar.

I instrumentpanelsvyn har du åtkomst till två värdefulla komponenter: jämförelsediagrammet för måttdistribution och jämförelsetabellen. Du kan använda dessa verktyg för att utföra en analys sida vid sida av de valda utvärderingskörningarna. Du kan jämföra olika aspekter av varje dataexempel med lätthet och precision.

Anmärkning

Som standard har äldre utvärderingskörningar matchande rader mellan kolumner. Nyligen körda utvärderingar måste dock avsiktligt konfigureras för att ha matchande kolumner när utvärderingen skapas. Säkerställ att samma namn används som kriterienamn för alla utvärderingar som du vill jämföra.

Följande skärmbild visar upplevelsen när fälten är desamma:

Skärmbild som visar automatiserade utvärderingar när fälten är desamma.

När en användare inte använder samma villkorsnamn för att skapa utvärderingen matchar inte fälten, vilket gör att plattformen inte kan jämföra resultatet direkt:

Skärmbild som visar automatiserade utvärderingar när fälten inte är desamma.

I jämförelsetabellen kan du upprätta en baslinje för jämförelsen genom att hovra över den specifika körning som du vill använda som referenspunkt och ange som baslinje. Du kan också aktivera växlingsknappen Visa delta för att enkelt visualisera skillnaderna mellan referenskörningen och de andra körningarna för numeriska värden. Dessutom kan du välja växlingsknappen Visa endast skillnad så att tabellen endast visar de rader som skiljer sig mellan de valda körningarna, vilket underlättar identifieringen av distinkta variationer.

Genom att använda dessa jämförelsefunktioner kan du fatta ett välgrundat beslut om att välja den bästa versionen:

  • Jämförelse av baslinje: Genom att ange en baslinjekörning kan du identifiera en referenspunkt som de andra körningarna ska jämföras med. Du kan se hur varje körning avviker från den standard du har valt.
  • Numerisk värdeutvärdering: Om du aktiverar alternativet Visa delta kan du förstå omfattningen av skillnaderna mellan baslinjen och andra körningar. Den här informationen kan hjälpa dig att bedöma prestandan hos olika körningar när det gäller specifika utvärderingsmått.
  • Skillnadsisolering: Funktionen Visa endast skillnad effektiviserar din analys genom att endast markera de områden där det finns avvikelser mellan körningar. Den här informationen kan vara avgörande för att fastställa var förbättringar eller justeringar behövs.

Använd jämförelseverktyg för att välja den bäst presterande konfigurationen samtidigt som du undviker regressioner i säkerhet eller förankring.

Skärmbild som visar utvärderingsresultat sida vid sida.

Mäta sårbarhet för jailbreak

Att utvärdera sårbarheter i jailbreak är en jämförande mätning, inte ett AI-assisterat mått. Kör utvärderingar på två olika, red-teamed datauppsättningar: en baslinje fientlig testdatauppsättning jämfört med samma fientliga testdatauppsättning med jailbreak-injektioner i första tur. Du kan använda den kontradiktoriska datasimulatorn för att generera datauppsättningen med eller utan jailbreak-injektioner. Kontrollera att värdet Kriterienamn är detsamma för varje utvärderingsmått när du konfigurerar körningar.

För att förstå om ditt program är sårbart för jailbreak kan du ange baslinjen och sedan aktivera växlingsfrekvensen för Jailbreak-defekter i jämförelsetabellen. Felfrekvensen för jailbreak är procentandelen instanser i testdatauppsättningen där en jailbreak-injektion genererade en högre allvarlighetsgrad för något mått för innehållsrisk med avseende på en baslinje över hela datamängdens storlek. Du kan välja flera utvärderingar på Jämför-instrumentpanelen för att visa skillnaden i defektfrekvenser.

Skärmbild som visar utvärderingsresultat sida vid sida med jailbreak-bugg aktiverad.

Tips/Råd

Felfrekvensen för jailbreakar beräknas komparativt endast för datauppsättningar av samma storlek och endast när alla körningar inkluderar innehållsrisker och säkerhetsmått.

Förstå de inbyggda utvärderingsmåtten

Det är viktigt att förstå de inbyggda måtten för att utvärdera prestanda och effektivitet för ditt AI-program. Genom att få insikter om dessa viktiga mätverktyg är du bättre rustad att tolka resultaten, fatta välgrundade beslut och finjustera ditt program för att uppnå optimala resultat. Mer information om följande aspekter finns i Utvärderings- och övervakningsmått :

  • Betydelsen av varje mått
  • Hur det beräknas
  • Dess roll vid utvärdering av olika aspekter av din modell
  • Så här tolkar du resultaten för att göra datadrivna förbättringar

Felsökning

Symtom Möjlig orsak Åtgärd
Körningen förblir väntande Hög tjänstbelastning/köade jobb Uppdatera; verifiera kvoten; skicka på nytt om det tar längre tid
Mätvärden saknas Inte markerat vid skapande Kör om valet av obligatoriska mått
Alla säkerhetsmått noll Kategori inaktiverad eller modell som inte stöds Verifiera stödmatris för modell + metrik
Stabilitet oväntat låg Hämtning/kontext ofullständig Verifiera kontextkonstruktion/svarstid för hämtning

Nästa steg

Läs mer om hur du utvärderar dina generativa AI-program:

Läs mer om skadereduceringstekniker.