Automatiserade utvärderingar
Med automatiserade utvärderingar i Azure AI Foundry-portalen kan du utvärdera kvalitets- och innehållssäkerhetsprestanda för modeller, datauppsättningar eller promptflöden.
Utvärderingsdata
För att utvärdera en modell behöver du en datauppsättning med uppmaningar och svar (och eventuellt förväntade svar som "grund sanning"). Du kan kompilera den här datamängden manuellt eller använda utdata från ett befintligt program. men ett användbart sätt att komma igång är att använda en AI-modell för att generera en uppsättning frågor och svar relaterade till ett specifikt ämne. Du kan sedan redigera de genererade prompterna och svaren för att återspegla önskade utdata och använda dem som grundsanning för att utvärdera svaren från en annan modell.
Utvärderingsmått
Med automatiserad utvärdering kan du välja vilka utvärderare du vill utvärdera modellens svar och vilka mått som utvärderarna ska beräkna. Det finns utvärderare som hjälper dig att mäta:
- AI-kvalitet: Kvaliteten på modellens svar mäts med hjälp av AI-modeller för att utvärdera dem för mått som koherens och relevans och genom att använda nlp-standardmått som F1-poäng, BLEU, METEOR och ROUGE baserat på mark sanning (i form av förväntad svarstext)
- Risk och säkerhet: utvärderare som bedömer svar på innehållssäkerhetsfrågor, inklusive våld, hat, sexuellt innehåll och innehåll som rör självskadebeteende.