Utvärdera prestanda för en modell manuellt
Under de tidiga faserna av utvecklingen av din generativa AI-app vill du experimentera och iterera snabbt. För att enkelt kunna bedöma om din valda språkmodell och app, som skapats med promptflöde, uppfyller dina krav, kan du manuellt utvärdera modeller och flöden i Azure AI Foundry-portalen.
Även om din modell och app redan är i produktion är manuella utvärderingar en viktig del av utvärderingen av prestanda. När manuella utvärderingar görs av människor kan de ge insikter som automatiserade mått kan missa.
Nu ska vi utforska hur du kan utvärdera dina valda modeller och appar manuellt i Azure AI Foundry-portalen.
Förbereda dina testprompter
För att påbörja den manuella utvärderingsprocessen är det viktigt att förbereda en mängd olika testfrågor som återspeglar det antal frågor och uppgifter som din app förväntas hantera. Dessa uppmaningar bör omfatta olika scenarier, inklusive vanliga användarfrågor, gränsfall och potentiella felpunkter. Genom att göra det kan du utvärdera appens prestanda på ett omfattande sätt och identifiera förbättringsområden.
Testa den valda modellen i chattlekplatsen
När du utvecklar ett chattprogram använder du en språkmodell för att generera ett svar. Du skapar ett chattprogram genom att utveckla ett promptflöde som kapslar in chattprogrammets logik, som kan använda flera språkmodeller för att i slutändan generera ett svar på en användarfråga.
Innan du testar appens svar kan du testa den valda språkmodellens svar för att kontrollera att den enskilda modellen fungerar som förväntat. Du kan testa en modell som du har distribuerat i Azure AI Foundry-portalen genom att interagera med den i chattlekplatsen.
Chattlekplatsen är perfekt för tidig utveckling. Du kan ange en fråga, se hur modellen svarar och justera prompten eller systemmeddelandet för att göra förbättringar. När du har tillämpat ändringarna kan du testa en fråga igen för att utvärdera om modellens prestanda verkligen har förbättrats.
Utvärdera flera uppmaningar manuellt
Chattlekplatsen är ett enkelt sätt att komma igång på. När du vill utvärdera flera frågor manuellt snabbare kan du använda funktionen manuella utvärderingar . Med den här funktionen kan du ladda upp en datauppsättning med flera frågor och eventuellt lägga till ett förväntat svar för att utvärdera modellens prestanda på en större testdatauppsättning.
Du kan betygsätta modellens svar med funktionen tummen upp eller ned. Baserat på det övergripande omdömet kan du försöka förbättra din modell genom att ändra indataprompten, systemmeddelandet, modellen eller modellens parametrar.
När du använder manuella utvärderingar kan du snabbare utvärdera modellens prestanda baserat på en mängd olika testdatamängder och förbättra modellen baserat på testresultaten.
När du har utvärderat en enskild modell manuellt kan du integrera modellen i ett chattprogram med promptflöde. Alla flöden som du skapar med promptflöde kan också utvärderas manuellt eller automatiskt. Nu ska vi utforska utvärderingen av flöden.