Innehållsfiltrering i Azure AI Foundry-portalen

2025-09-11

Azure AI Foundry innehåller ett system för innehållsfiltrering som fungerar tillsammans med kärnmodeller och bildgenereringsmodeller.

Important

Innehållsfiltreringssystemet tillämpas inte på uppmaningar och kompletteringar som bearbetas av Whisper-modellen i Azure AI Foundry Models. Läs mer om Whisper-modellen i Azure OpenAI.

Så här fungerar det

Innehållsfiltreringssystemet drivs av Azure AI Content Safety och fungerar genom att köra både modellpromptindata och slutförandeutdata via en uppsättning klassificeringsmodeller som är utformade för att identifiera och förhindra skadligt innehåll. Variationer i API-konfigurationer och programdesign kan påverka slutföranden och därmed filtreringsbeteende.

Med Azure OpenAI-modelldistributioner kan du använda standardinnehållsfiltret eller skapa ett eget innehållsfilter (beskrivs senare). Modeller som är tillgängliga via serverlösa API-distributioner har innehållsfiltrering aktiverat som standard. Mer information om standardinnehållsfiltret som är aktiverat för serverlösa API-distributioner finns i Innehållssäkerhet för modeller som säljs direkt av Azure .

Språkstöd

Innehållsfiltreringsmodellerna tränas och testas på följande språk: engelska, tyska, japanska, spanska, franska, italienska, portugisiska och kinesiska. Tjänsten kan dock fungera på många andra språk, men kvaliteten kan variera. I samtliga fall bör du göra dina egna tester för att säkerställa att det fungerar för ditt program.

Filter för innehållsrisk (indata- och utdatafilter)

Följande specialfilter fungerar för både indata och utdata för generativa AI-modeller:

Category	Description
Hate	Hatkategorin beskriver språkattacker eller användningsområden som inkluderar nedsättande eller diskriminerande språk med hänvisning till en person eller identitetsgrupp baserat på vissa differentieringsattribut för dessa grupper, inklusive men inte begränsat till ras, etnicitet, nationalitet, könsidentitet och uttryck, sexuell läggning, religion, invandringsstatus, förmågasstatus, personligt utseende och kroppsstorlek.
Sexual	Den sexuella kategorin beskriver språk som rör anatomiska organ och könsorgan, romantiska relationer, handlingar som porträtteras i erotiska eller tillgivna termer, fysiska sexuella handlingar, inklusive de som framställs som ett övergrepp eller en tvingad sexuell våldsam handling mot ens vilja, prostitution, pornografi och övergrepp.
Violence	Våldskategorin beskriver språk som rör fysiska handlingar som är avsedda att skada, skada, skada eller döda någon eller något; beskriver vapen osv.
Self-Harm	Självskadekategorin beskriver språk relaterade till fysiska handlingar som syftar till att avsiktligt skada, skada eller skada ens kropp eller döda sig själv.

Allvarlighetsgrad

Category	Description
Safe	Innehåll kan vara relaterat till våld, självskadebeteende, sexuella kategorier eller hatkategorier, men termerna används i allmänna, journalistiska, vetenskapliga, medicinska och liknande professionella sammanhang, som är lämpliga för de flesta målgrupper.
Low	Innehåll som uttrycker fördomsfulla, dömande eller åsiktsfulla åsikter omfattar stötande användning av språk, stereotyper, användningsfall som utforskar en fiktiv värld (till exempel spel, litteratur) och skildringar med låg intensitet.
Medium	Innehåll som använder stötande, förolämpande, hånfullt, skrämmande eller förnedrande språk mot specifika identitetsgrupper, innehåller skildringar av att söka och utföra skadliga instruktioner, fantasier, förhärligande, främjande av skada med medelhög intensitet.
High	Innehåll som visar explicita och allvarliga skadliga instruktioner, handlingar, skador eller missbruk; omfattar godkännande, förhärligande eller främjande av allvarliga skadliga handlingar, extrema eller olagliga former av skada, radikalisering eller icke-konsensuellt maktutbyte eller missbruk.

Andra indatafilter

Du kan också aktivera särskilda filter för generativa AI-scenarier:

Jailbreak-attacker: Jailbreak-attacker är användarfrågor som är utformade för att provocera Generative AI-modellen till att uppvisa beteenden som den har tränats för att undvika eller bryta mot reglerna som anges i systemmeddelandet.
Indirekta attacker: Indirekta attacker, även kallade indirekta promptattacker eller direktinmatningsattacker mellan domäner, är en potentiell säkerhetsrisk där tredje part placerar skadliga instruktioner i dokument som Generative AI-systemet kan komma åt och bearbeta.

Andra utdatafilter

Du kan också aktivera följande särskilda utdatafilter:

Skyddat material för text: Skyddad materialtext beskriver känt textinnehåll (till exempel sångtexter, artiklar, recept och valt webbinnehåll) som en stor språkmodell kan mata ut.
Skyddat material för kodkategori: Skyddat materialkod beskriver källkod som matchar en uppsättning källkod från offentliga källkodslager, vilket en stor språkmodell kan mata ut utan korrekt hänvisning till källlagringsplatser.
Groundedness: Filtret för jordningsidentifiering identifierar om textsvaren från stora språkmodeller (LLM: er) är baserade i källmaterialet som tillhandahålls av användarna.
Personligt identifierbar information (PII): PII-filtret identifierar om textsvaren från stora språkmodeller (LLM) innehåller personligt identifierbar information (PII). PII avser all information som kan användas för att identifiera en viss person, till exempel namn, adress, telefonnummer, e-postadress, personnummer, körkortsnummer, passnummer eller liknande information.

Skapa ett innehållsfilter i Azure AI Foundry

För alla modelldistributioner i Azure AI Foundry kan du använda standardinnehållsfiltret direkt, men du kanske vill ha mer kontroll. Du kan till exempel göra ett filter striktare eller mer överseende, eller aktivera mer avancerade funktioner som promptsköldar och skyddad materialidentifiering.

Important

GPT-image-1-modellen stöder inte konfiguration av innehållsfiltrering: endast standardinnehållsfiltret används.

Tip

Mer information om innehållsfilter i ditt Azure AI Foundry-projekt finns i Innehållsfiltrering i Azure AI Foundry.

Följ dessa steg för att skapa ett innehållsfilter:

Tip

Eftersom du kan anpassa det vänstra fönstret i Azure AI Foundry-portalen kan du se andra objekt än vad som visas i de här stegen. Om du inte ser det du letar efter väljer du ... Mer längst ned i det vänstra fönstret.

Gå till Azure AI Foundry och gå till projektet. Välj sedan sidan Skyddsräcken + kontroller på den vänstra menyn och välj fliken Innehållsfilter .
Välj + Skapa innehållsfilter.
På sidan Grundläggande information anger du ett namn för konfigurationen för innehållsfiltrering. Välj en anslutning som ska associeras med innehållsfiltret. Välj sedan Nästa.

Nu kan du konfigurera indatafilter (för användarfrågor) och utdatafilter (för modellavslut).
På sidan Indatafilter kan du ange filtret för indataprompten. För de första fyra innehållskategorierna finns det tre allvarlighetsnivåer som kan konfigureras: Låg, medel och hög. Du kan använda skjutreglagen för att ange tröskelvärdet för allvarlighetsgrad om du fastställer att ditt program eller användningsscenario kräver en annan filtrering än standardvärdena. Vissa filter, till exempel Prompt Shields och Skyddad materialidentifiering, gör att du kan avgöra om modellen ska kommentera och/eller blockera innehåll. Om du väljer Endast anteckna körs respektive modell och returnerar anteckningar via API-svaret, men filtrerar inte innehållet. Förutom att kommentera kan du också välja att blockera innehåll.

Om ditt användningsfall har godkänts för ändrade innehållsfilter får du fullständig kontroll över konfigurationer för innehållsfiltrering och kan välja att helt eller delvis inaktivera filtrering eller endast aktivera anteckningar för kategorierna för innehållsskador (våld, hat, sexuell och självskada).

Innehållet kommenteras efter kategori och blockeras enligt det tröskelvärde som du anger. För kategorierna våld, hat, sexuell och självskadebeteende justerar du skjutreglaget för att blockera innehåll av hög, medel eller låg allvarlighetsgrad.
På sidan Utdatafilter kan du konfigurera utdatafiltret, som ska tillämpas på allt utdatainnehåll som genereras av din modell. Konfigurera de enskilda filtren som tidigare. Den här sidan innehåller också alternativet Strömningsläge, vilket gör att du kan filtrera innehåll nästan i realtid eftersom det genereras av modellen, vilket minskar svarstiden. När du är klar väljer du Nästa.

Innehållet kommenteras av varje kategori och blockeras enligt tröskelvärdet. För våldsamt innehåll, hatinnehåll, sexuellt innehåll och självskadebeteende, justerar du tröskelvärdet för att blockera skadligt innehåll med samma eller högre allvarlighetsgrad.
På sidan Distribution kan du också associera innehållsfiltret med en distribution. Om en vald distribution redan har ett filter kopplat måste du bekräfta att du vill ersätta den. Du kan också associera innehållsfiltret med en distribution senare. Välj Skapa.

Konfigurationer för innehållsfiltrering skapas på hubbnivå i Azure AI Foundry-portalen. Läs mer om konfigurerbarhet i dokumentationen om Azure OpenAI i Azure AI Foundry Models.
På sidan Granska granskar du inställningarna och väljer sedan Skapa filter.

Använda en blockeringslista som ett filter

Du kan använda en blocklista som antingen ett indata- eller utdatafilter eller båda. Aktivera alternativet Blocklist på sidan Indatafilter och/eller Utdatafilter. Välj en eller flera blocklistor i listrutan eller använd den inbyggda listan med olämpligt språk. Du kan kombinera flera blocklistor i samma filter.

Använda ett innehållsfilter

Processen för att skapa filter ger dig möjlighet att tillämpa filtret på de distributioner du vill använda. Du kan också ändra eller ta bort innehållsfilter från dina distributioner när som helst.

Följ dessa steg för att tillämpa ett innehållsfilter på en distribution:

Gå till Azure AI Foundry och välj ett projekt.
Välj Modeller + slutpunkter i det vänstra fönstret och välj en av dina distributioner och välj sedan Redigera.
I fönstret Uppdateringsdistribution väljer du det innehållsfilter som du vill använda för distributionen. Välj sedan Spara och stäng.

Du kan också redigera och ta bort en konfiguration av innehållsfilter om det behövs. Innan du tar bort en konfiguration för innehållsfiltrering måste du avtilldela den och ersätta den i alla distributioner på fliken Distributioner.

Nu kan du gå till lekplatsen för att testa om innehållsfiltret fungerar som förväntat.

Tip

Du kan också skapa och uppdatera innehållsfilter med hjälp av REST-API:erna. Mer information finns i API-referensen. Innehållsfilter kan konfigureras på resursnivå. När en ny konfiguration har skapats kan den associeras med en eller flera distributioner. Mer information om modelldistribution finns i guiden för resursdistribution.

Konfigurerbarhet (förhandsversion)

Azure OpenAI i Azure AI Foundry Models innehåller standardsäkerhetsinställningar som tillämpas på alla modeller (exklusive ljud-API-modeller som Whisper). De här konfigurationerna ger dig en ansvarsfull upplevelse som standard, inklusive modeller för innehållsfiltrering, blocklistor, prompttransformering, autentiseringsuppgifter för innehåll och andra. Läs mer om det här.

Alla kunder kan också konfigurera innehållsfilter och skapa anpassade innehållsprinciper som är skräddarsydda för deras användningsfallskrav. Med konfigurationsfunktionen kan kunderna justera inställningarna separat för frågor och slutföranden för att filtrera innehåll för varje innehållskategori på olika allvarlighetsnivåer enligt beskrivningen i tabellen nedan. Innehåll som identifieras på allvarlighetsnivå "säker" är märkt i anteckningsutdata men kan inte filtreras och kan inte konfigureras.

Allvarlighetsgrad filtrerad	Kan konfigureras för uppmaningar	Kan konfigureras för slutförande	Descriptions
Låg, medelhög, hög	Yes	Yes	Striktast filtreringskonfiguration. Innehåll som identifieras på allvarlighetsgraderna låg, medelhög och hög filtreras.
Medelhög, hög	Yes	Yes	Innehåll som identifieras på allvarlighetsnivå låg filtreras inte, innehåll på medelhög och hög filtreras.
High	Yes	Yes	Innehåll som identifieras på allvarlighetsgraderna låg och medel filtreras inte. Endast innehåll på hög allvarlighetsgrad filtreras.
Inga filter	Om godkänd¹	Om godkänd¹	Inget innehåll filtreras oavsett allvarlighetsgrad som identifierats. Kräver godkännande¹.
Kommentera endast	Om godkänd¹	Om godkänd¹	Inaktiverar filterfunktionen, så innehållet blockeras inte, men anteckningar returneras via API-svar. Kräver godkännande¹.

¹ För Azure OpenAI-modeller har endast kunder som har godkänts för modifierad innehållsfiltrering fullständig innehållsfiltreringskontroll och kan inaktivera innehållsfilter. Ansök om ändrade innehållsfilter via det här formuläret: Granskning av begränsad åtkomst: Ändrade innehållsfilter. För Azure Government-kunder kan du ansöka om ändrade innehållsfilter via det här formuläret: Azure Government – Begära ändrad innehållsfiltrering.

Konfigurerbara innehållsfilter för indata (prompter) och utdata (slutföranden) är tillgängliga för alla Azure OpenAI-modeller.

Konfigurationer för innehållsfiltrering skapas i en resurs i Azure AI Foundry-portalen och kan associeras med distributioner. Läs mer om hur du konfigurerar innehållsfilter här.

Kunderna ansvarar för att säkerställa att program som integrerar Azure OpenAI följer uppförandekoden.

Läs mer om de underliggande modeller som driver Azure OpenAI.
Azure AI Foundry-innehållsfiltrering drivs av Azure AI Content Safety.
Läs mer om att förstå och minimera risker som är kopplade till ditt program: Översikt över ansvarsfulla AI-metoder för Azure OpenAI-modeller.
Läs mer om att utvärdera dina generativa AI-modeller och AI-system via Azure AI Evaluation.

Feedback

Var den här sidan till hjälp?