Anteckning
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
I den här artikeln beskrivs utvärderingsuppsättningar och hur de bidrar till att säkerställa programmets kvalitet.
Vad är en utvärderingsdataset?
För att mäta kvalitet rekommenderar Databricks att du skapar en utvärderingsuppsättning med mänsklig etikett. En utvärderingsuppsättning är en kuraterad, representativ uppsättning frågor, tillsammans med grundsanningssvar och (valfritt) rätt stöddokument som ska hämtas. Mänsklig indata är avgörande i den här processen eftersom den säkerställer att utvärderingsuppsättningen korrekt återspeglar slutanvändarnas förväntningar och krav.
Att hantera mänsklig etikettering kan vara en tidskrävande process. Du kan komma igång genom att skapa en utvärderingsuppsättning som bara innehåller frågor och lägga till grund sanningssvar över tid. Mosaic AI Agent Evaluation kan utvärdera din kedjas kvalitet utan grundsanning, men om grundsanning är tillgänglig, beräknar den även ytterligare mått, såsom korrektheten i svaren.
Element i en bra utvärderingsuppsättning
En bra utvärderingsuppsättning har följande egenskaper:
- Representant: Återspeglar exakt de olika begäranden som programmet kommer att stöta på i produktion.
 - Utmanande: Uppsättningen bör innehålla svåra och olika fall för att effektivt testa modellens funktioner. Helst innehåller den kontradiktoriska exempel som frågor som försöker få en snabbinmatning eller frågor som försöker generera olämpliga svar från LLM.
 - Uppdateras kontinuerligt: Uppsättningen måste uppdateras regelbundet för att återspegla hur programmet används i produktion, indexerade datas föränderliga karaktär och eventuella ändringar i programkraven.
 
Databricks rekommenderar minst 30 frågor i utvärderingsuppsättningen och helst 100–200. De bästa utvärderingsuppsättningarna växer med tiden och innehåller 1 000-talet frågor.
Utbildnings-, testnings- och valideringsuppsättningar
För att undvika överanpassning rekommenderar Databricks att du delar upp utvärderingsuppsättningen i tränings-, test- och valideringsuppsättningar:
- Träningsuppsättning: ~70% av frågorna. Används för en första omgång för att utvärdera varje experiment och identifiera de med störst potential.
 - Testuppsättning: ~20% av frågorna. Används för att utvärdera experiment med högst prestanda från träningsuppsättningen.
 - Valideringsuppsättning: ~10% av frågorna. Används för en slutlig valideringskontroll innan du distribuerar ett experiment till produktion.
 
Mosaic AI Agent Evaluation hjälper dig att skapa en utvärderingsuppsättning genom att tillhandahålla ett webbaserat chattgränssnitt för dina intressenter för att ge feedback om programmets utdata. Kedjans utdata och feedback från intressenter sparas i Delta-tabeller, som sedan kan kureras till en utvärderingsuppsättning. Se skapa en utvärderingsuppsättning i implementeringsdelen av den här kokboken för praktiska anvisningar och exempel på kod.