Dela via


Observerbarhet i generativ AI

Viktigt!

Objekt markerade (förhandsversion) i den här artikeln är för närvarande i offentlig förhandsversion. Den här förhandsversionen tillhandahålls utan ett serviceavtal och vi rekommenderar det inte för produktionsarbetsbelastningar. Vissa funktioner kanske inte stöds eller kan vara begränsade. Mer information finns i Kompletterande villkor för användning av Microsoft Azure-förhandsversioner.

I dagens AI-drivna värld revolutionerar Generative AI Operations (GenAIOps) hur organisationer skapar och distribuerar intelligenta system. I takt med att företag i allt högre grad använder AI för att omvandla beslutsfattande, förbättra kundupplevelser och driva innovation är ett element av största vikt: robusta utvärderingsramverk. Utvärdering är inte bara en kontrollpunkt. Det är grunden för förtroende för AI-program. Utan rigorös utvärdering kan AI-system producera innehåll som är:

  • Fabricerat eller ogrundat i verkligheten
  • Irrelevant eller osammanhängande för användarbehov
  • Skadligt för att vidmakthålla innehållsrisker och stereotyper
  • Farligt att sprida felaktig information
  • Sårbar för säkerhetsexploateringar

Det är vid denna utvärdering som utvärderarna blir viktiga. Specialiserade verktyg mäter både frekvensen och allvarlighetsgraden för risker i AI-utdata. De här verktygen gör det möjligt för team att systematiskt hantera kvalitets-, säkerhets- och säkerhetsproblem. Använd dessa verktyg under AI-utvecklingsresan, från att välja rätt modell till att övervaka produktionsprestanda, kvalitet och säkerhet.

Vad är utvärderare?

Utvärderare är specialiserade verktyg som mäter kvaliteten, säkerheten och tillförlitligheten hos AI-svar. När team implementerar systematiska utvärderingar under ai-utvecklingslivscykeln kan de identifiera och åtgärda potentiella problem innan dessa problem påverkar användarna. Följande stödda utvärderare tillhandahåller omfattande bedömningsmöjligheter för olika typer av AI-applikationer och aspekter.

Allmänt ändamål

Utvärderare Avsikt Ingångar
Koherens Mäter logisk konsekvens och flöde av svar. Fråga, svar
Flyt Mäter kvalitet och läsbarhet för naturligt språk. Svar
Kvalitetssäkring Mäter omfattande olika kvalitetsaspekter vid frågesvar. Fråga, kontext, svar, grundsanning

Mer information finns i Utvärderare för generell användning.

Textlikhet

Utvärderare Avsikt Ingångar
Likhet AI-assisterad textlikhetsmätning. Fråga, kontext, grundsanning
F1-poäng Harmoniskt medelvärde av precision och återkallande i token överlappar mellan svar och grund sanning. Svar, grund sanning
BLEU Tvåspråkig utvärderingspoäng för översättningskvalitetsmått överlappar i n-gram mellan svars- och grundsanning. Svar, grund sanning
GLEU Google-BLEU variant för bedömning på meningsnivå mäter överlapp mellan n-gram i svar och grundsanning. Svar, grund sanning
ROUGE Recall-Oriented Understudy för Gisting-utvärdering mäter överlappningar i n-grammen mellan svar och grundsanning. Svar, grund sanning
METEOR Metrik för utvärdering av översättning med explicit ordning mäter överlappning i n-gram mellan svar och referenssanning. Svar, grund sanning

Mer information finns i Utvärderare för textlikhet

RAG (förhöjd hämtningsgenerering)

Utvärderare Avsikt Ingångar
Räddning Mäter hur effektivt systemet hämtar relevant information. Fråga, kontext
Dokumenthämtning Mäter noggrannheten i hämtningsresultaten givet grundsanning. Grund sanning, hämtade dokument
Jordnära Mäter hur konsekvent svaret är med avseende på den hämtade kontexten. Fråga (valfritt), kontext, svar
Groundedness Pro Mäter om svaret är konsekvent med avseende på den hämtade kontexten. Fråga, kontext, svar
Relevans Mäter hur relevant svaret är för frågan. Fråga, svar
Svars fullständighet Mäter i vilken utsträckning svaret är fullständigt (saknar inte kritisk information) med avseende på grundsanningen. Svar, grund sanning

Mer information finns i Rag-utvärderare (Retrieveal-augmented Generation).

Säkerhet och säkerhet (förhandsversion)

Utvärderare Avsikt Ingångar
Hat och orättvisa Identifierar partiskt, diskriminerande eller hatiskt innehåll. Fråga, svar
Sexuell Identifierar olämpligt sexuellt innehåll. Fråga, svar
Våld Identifierar våldsamt innehåll eller uppvigling. Fråga, svar
Självskadebeteende Identifierar innehåll som främjar eller beskriver självskadebeteende. Fråga, svar
Innehållssäkerhet Omfattande bedömning av olika säkerhetsproblem. Fråga, svar
Skyddade material Identifierar obehörig användning av upphovsrättsskyddat eller skyddat innehåll. Fråga, svar
Säkerhetsrisk för kod Identifierar säkerhetsproblem i genererad kod. Fråga, svar
Ogrundade attribut Identifierar fabricerad eller hallucinerad information som härleds från användarinteraktioner. Fråga, kontext, svar

Mer information finns i Risk- och säkerhetsutvärderingar.

Agenter (förhandsversion)

Utvärderare Avsikt Ingångar
Avsiktslösning Mäter hur korrekt agenten identifierar och hanterar användarens avsikter. Fråga, svar
Uppgiftsefterlevnad Mäter hur väl agenten följer igenom identifierade uppgifter. Fråga, svar, verktygsdefinitioner (valfritt)
Noggrannhet för verktygsanrop Mäter hur väl agenten väljer och anropar rätt verktyg. Fråga, antingen svars- eller verktygsanrop, verktygsdefinitioner

Mer information finns i Agentutvärderingar.

Azure OpenAI-väghyvlar (förhandsversion)

Utvärderare Avsikt Ingångar
Modelletikett Klassificerar innehåll med hjälp av anpassade riktlinjer och etiketter. Fråga, svar, grund sanning
Strängkontroll Utför flexibel textvalidering och mönstermatchning. Svar
Textlikhet Utvärderar textens kvalitet eller fastställer semantisk närhet. Svar, grund sanning
Modellskytt Genererar numeriska poäng (anpassat intervall) för innehåll baserat på anpassade riktlinjer. Fråga, svar, grund sanning

Mer information finns i Azure OpenAI Graders.

Utvärderare i utvecklingslivscykeln

Genom att använda dessa utvärderare strategiskt under hela utvecklingslivscykeln kan teamen skapa mer tillförlitliga, säkra och effektiva AI-program som uppfyller användarnas behov samtidigt som potentiella risker minimeras.

Diagram över företagets GenAIOps-livscykel, visar modellval, skapande av ett AI-program och operationalisering.

De tre stegen i GenAIOps-utvärderingen

GenAIOps använder följande tre steg.

Val av basmodell

Innan du skapar ditt program väljer du rätt grund. Den här inledande utvärderingen hjälper dig att jämföra olika modeller baserat på:

  • Kvalitet och noggrannhet: Hur relevanta och sammanhängande är modellens svar?
  • Uppgiftsprestanda: Hanterar modellen dina specifika användningsfall effektivt?
  • Etiska överväganden: Är modellen fri från skadliga fördomar?
  • Säkerhetsprofil: Vad är risken för att generera osäkert innehåll?

Tillgängliga verktyg: Azure AI Foundry-benchmark för att jämföra modeller på offentliga datamängder eller dina egna data och Azure AI Evaluation SDK för testning av specifika modellslutpunkter.

Utvärdering före produktion

När du har valt en basmodell är nästa steg att utveckla ett AI-program, till exempel en AI-baserad chattrobot, ett RAG-program (retrieval augmented generation), ett agentiskt AI-program eller något annat generativt AI-verktyg. När utvecklingen är klar börjar förproduktionsutvärderingen . Innan du distribuerar till en produktionsmiljö är det viktigt med noggrann testning för att säkerställa att modellen är redo för verklig användning.

Förproduktionsutvärdering omfattar:

  • Testning med utvärderingsdatauppsättningar: Dessa datauppsättningar simulerar realistiska användarinteraktioner för att säkerställa att AI-programmet fungerar som förväntat.
  • Identifiera gränsfall: Hitta scenarier där AI-programmets svarskvalitet kan försämras eller generera oönskade utdata.
  • Bedömning av robusthet: Se till att modellen kan hantera en mängd olika indatavariationer utan betydande kvalitets- eller säkerhetsminskningar.
  • Mäta viktiga mått: Utvärdera mått som svarsgrund, relevans och säkerhet för att bekräfta beredskapen för produktion.

Diagram över förproduktionsutvärdering för modeller och program med de sex stegen.

Förproduktionsfasen fungerar som en slutlig kvalitetskontroll, vilket minskar risken för att distribuera ett AI-program som inte uppfyller önskade prestanda- eller säkerhetsstandarder.

Utvärderingsverktyg och metoder:

  • Ta med dina egna data: Du kan utvärdera dina AI-program i förproduktion med hjälp av dina egna utvärderingsdata med utvärderare som stöds, inklusive generationskvalitet, säkerhet eller anpassade utvärderare. Visa resultat med hjälp av Azure AI Foundry-portalen.

    Använd utvärderingsguiden för Azure AI Foundry eller Azure AI Evaluation SDK:s stödda utvärderare, inklusive genereringskvalitet, säkerhet eller anpassade utvärderare. Visa resultat med hjälp av Azure AI Foundry-portalen.

  • Simulatorer och AI red teaming agent (förhandsversion): Om du inte har utvärderingsdata eller testdata kan Azure AI Evaluation SDK:s simulatorer hjälpa dig genom att generera ämnesrelaterade eller kontradiktoriska frågor. Dessa simulatorer testar modellens svar på situationsanpassade eller attackliknande frågor (gränsfall).

    • Motståndarsimulatorer infiltrerar statiska frågor som efterliknar potentiella säkerhetsrisker, säkerhetsattacker eller försök till jailbreak. Simulatorerna hjälper till att identifiera begränsningar för att förbereda modellen för oväntade förhållanden.

    • Sammanhangsanpassade simulatorer genererar typiska, relevanta konversationer som du kan förvänta dig av användarna för att testa svarskvaliteten. Med sammanhangsanpassade simulatorer kan du utvärdera mått som grund, relevans, konsekvens och flyt för genererade svar.

    • AI red teaming agent (förhandsversion) simulerar komplexa fientliga attacker mot ditt AI-system med hjälp av ett brett spektrum av säkerhets- och skyddsåtgärder. Den använder Microsofts öppna ramverk för Python Risk Identification Tool (PyRIT).

      Automatiserade genomsökningar med den röda AI-teamindelningsagenten förbättrar riskbedömningen före produktion genom att systematiskt testa AI-program för risker. Den här processen omfattar simulerade attackscenarier för att identifiera svagheter i modellsvar före verklig distribution.

      Genom att köra AI-röda teamsökningar kan du identifiera och åtgärda potentiella säkerhetsproblem före distributionen. Vi rekommenderar att du använder det här verktyget tillsammans med human-in-the-loop-processer, till exempel konventionell AI red team-analys, för att påskynda riskidentifiering och hjälp vid bedömning av en mänsklig expert.

Du kan också använda utvärderingsfunktioner i Azure AI Foundry-portalen för att testa dina generativa AI-program.

När du har fått tillfredsställande resultat kan du distribuera AI-programmet till produktion.

Övervakning efter produktion

Efter distributionen säkerställer kontinuerlig övervakning att AI-programmet upprätthåller kvalitet under verkliga förhållanden.

  • Prestandaspårning: Regelbunden mätning av nyckelmått.
  • Incidenthantering: Snabb åtgärd när skadliga eller olämpliga utdata inträffar.

Effektiv övervakning hjälper till att upprätthålla användarnas förtroende och möjliggör snabb problemlösning.

Azure AI Foundry Observability tillhandahåller omfattande övervakningsfunktioner som är viktiga för dagens komplexa och snabbt föränderliga AI-landskap. Den här lösningen är sömlöst integrerad med Azure Monitor Application Insights och möjliggör kontinuerlig övervakning av distribuerade AI-program för att säkerställa optimal prestanda, säkerhet och kvalitet i produktionsmiljöer.

Instrumentpanelen för Foundry Observability ger insikter i realtid om viktiga prestandamått. Det gör det möjligt för team att snabbt identifiera och åtgärda prestandaproblem, säkerhetsproblem eller kvalitetsförsämring.

För agentbaserade program erbjuder Foundry förbättrade funktioner för kontinuerlig utvärdering. Dessa funktioner kan ge djupare insyn i kvalitets- och säkerhetsmått. De kan skapa ett robust övervakningsekosystem som anpassar sig till den dynamiska karaktären hos AI-program samtidigt som höga prestanda- och tillförlitlighetsstandarder upprätthålls.

Genom att kontinuerligt övervaka AI-programmets beteende i produktion kan du upprätthålla högkvalitativa användarupplevelser och snabbt åtgärda eventuella problem som uppstår.

Skapa förtroende genom systematisk utvärdering

GenAIOps etablerar en tillförlitlig process för att hantera AI-program under hela livscykeln. Genom att implementera noggrann utvärdering i varje steg – från modellval till distribution och senare – kan team skapa AI-lösningar som inte bara är kraftfulla utan tillförlitliga och säkra.

Utvärderingsblad

Avsikt Processen Parameterar
Vad utvärderar du för? Identifiera eller skapa relevanta utvärderare - Exempel på kvalitets- och prestandaanteckningsbok

- Svarskvalitet för agenter

- Säkerhet och trygghet (exempel på anteckningsbok om säkerhet och trygghet)

- Anpassad (anpassad exempelanteckningsbok)
Vilka data ska du använda? Ladda upp eller generera relevant datauppsättning - Allmän simulator för att mäta kvalitet och prestanda (Exempelblock för generisk simulator)

- Adversarial simulator för mätning av säkerhet och trygghet (Exempeldokument för Adversarial simulator)

– AI-röd teamindelningsagent för att köra automatiserade genomsökningar för att bedöma säkerhets- och säkerhetsrisker (exempelanteckningsbok för AI-röd teamindelningsagent)
Vilka resurser ska utföra utvärderingen? Kör utvärdering - Lokal körning

- Fjärrkörning i molnet
Hur presterade min modell/app? Analysera resultat - Visa aggregerade poäng, visa information, poänginformation, jämför utvärderingsresultat
Hur kan jag förbättra mig? Göra ändringar i modell, app eller utvärderare – Justera utvärderaren om utvärderingsresultaten inte stämmer överens med den mänskliga feedbacken.

– Om utvärderingsresultaten överensstämmer med mänsklig feedback, men inte uppfyller kvalitets-/säkerhetströsklarna, tillämpar du riktade åtgärder. Exempel på åtgärder att tillämpa: Azure AI Content Safety

Stöd för regioner

För närvarande är vissa AI-assisterade utvärderare endast tillgängliga i följande regioner:

Region Hat och orättvisa, Sexuell, Våldsam, Självskadebeteende, Indirekt attack, Kodsårbarheter, Ogrundade attribut Groundedness Pro Skyddat material
Östra USA 2 Understödd Understödd Understödd
Centrala Sverige Understödd Understödd Inte tillgänglig
USA, norra centrala Understödd Inte tillgänglig Inte tillgänglig
Frankrike Centrala Understödd Inte tillgänglig Inte tillgänglig
Schweiz Väst Understödd Inte tillgänglig Inte tillgänglig

Prissättning

Observerbarhetsfunktioner som risk- och säkerhetsutvärderingar och kontinuerliga utvärderingar faktureras baserat på förbrukning som anges på vår azure-prissida.