Dela via


Konfigurera innehållsfilter

Innehållsfiltreringssystemet som är integrerat i Azure AI Foundry körs tillsammans med kärnmodellerna, inklusive bildgenereringsmodeller. Den använder en ensemble av klassificeringsmodeller med flera klasser för att identifiera fyra kategorier av skadligt innehåll (våld, hat, sexuellt och självskadebeteende) på fyra allvarlighetsnivåer (säkra, låga, medelstora och höga) och valfria binära klassificerare för att upptäcka risk för jailbreak, befintlig text och kod i offentliga lagringsplatser.

Standardkonfigurationen för innehållsfiltrering är inställd på att filtrera vid den måttliga allvarlighetsnivån för alla fyra kategorier av innehållsskador, gällande både uppmaningar och slutsatser. Det innebär att innehåll som identifieras på allvarlighetsgrad medel eller hög filtreras, medan innehåll som identifieras på allvarlighetsnivå låg eller säker inte filtreras av innehållsfiltren. Läs mer om innehållskategorier, allvarlighetsnivåer och beteendet för innehållsfiltreringssystemet här.

Promptsköldar och skyddade text- och kodmodeller är valfria och aktiverade som standard. För promptsköldar och skyddade materialtext- och kodmodeller gör konfigurationsfunktionen att alla kunder kan aktivera och inaktivera modellerna. Modellerna är som standard aktiverade och kan inaktiveras enligt ditt scenario. Vissa modeller måste vara på i specifika scenarier för att upprätthålla täckning under kundens upphovsrättsåtagande.

Anmärkning

Alla kunder har möjlighet att ändra innehållsfiltren och konfigurera tröskelvärdena för allvarlighetsgrad (låg, medel, hög). Godkännande krävs för att stänga av innehållsfiltren helt eller delvis. Hanterade kunder kan endast ansöka om fullständig innehållsfiltreringskontroll via det här formuläret: Begränsad åtkomstgranskning: Ändrade innehållsfilter. För närvarande är det inte möjligt att bli en hanterad kund.

Viktigt!

Modellerna i GPT-image-1-serien stöder inte konfiguration av innehållsfiltrering: endast standardinnehållsfiltret används.

Innehållsfilter kan konfigureras på resursnivå. När en ny konfiguration har skapats kan den associeras med en eller flera distributioner. Mer information om modellimplementering finns i resursimplementeringsguiden.

Förutsättningar

  • Du måste ha en Azure OpenAI-resurs och en distribution av en stor språkmodell (LLM) för att konfigurera innehållsfilter. Följ en snabbstart för att komma igång.

Förstå konfigurerbarhet för innehållsfilter

Azure OpenAI i Azure AI Foundry Models innehåller standardsäkerhetsinställningar som tillämpas på alla modeller (exklusive ljud-API-modeller som Whisper). De här konfigurationerna ger dig en ansvarsfull upplevelse som standard, inklusive modeller för innehållsfiltrering, blocklistor, prompttransformering, autentiseringsuppgifter för innehåll och andra. Läs mer om det här.

Alla kunder kan också konfigurera innehållsfilter och skapa anpassade innehållsprinciper som är skräddarsydda för deras användningsfallskrav. Med konfigurationsfunktionen kan kunderna justera inställningarna separat för frågor och slutföranden för att filtrera innehåll för varje innehållskategori på olika allvarlighetsnivåer enligt beskrivningen i tabellen nedan. Innehåll som identifieras på allvarlighetsnivå "säker" är märkt i anteckningsutdata men kan inte filtreras och kan inte konfigureras.

Allvarlighetsgrad filtrerad Kan konfigureras för uppmaningar Kan konfigureras för slutförande Beskrivningar
Låg, medelhög, hög Ja Ja Striktast filtreringskonfiguration. Innehåll som identifieras på allvarlighetsgraderna låg, medelhög och hög filtreras.
Medelhög, hög Ja Ja Innehåll som identifieras på allvarlighetsnivå låg filtreras inte, innehåll på medelhög och hög filtreras.
Högt Ja Ja Innehåll som identifieras på allvarlighetsgraderna låg och medel filtreras inte. Endast innehåll på hög allvarlighetsgrad filtreras.
Inga filter Om godkänd1 Om godkänd1 Inget innehåll filtreras oavsett allvarlighetsgrad som identifierats. Kräver godkännande1.
Kommentera endast Om godkänd1 Om godkänd1 Inaktiverar filterfunktionen, så innehållet blockeras inte, men anteckningar returneras via API-svar. Kräver godkännande1.

1 För Azure OpenAI-modeller har endast kunder som har godkänts för modifierad innehållsfiltrering fullständig innehållsfiltreringskontroll och kan inaktivera innehållsfilter. Ansök om ändrade innehållsfilter via det här formuläret: Granskning av begränsad åtkomst: Ändrade innehållsfilter. För Azure Government-kunder kan du ansöka om ändrade innehållsfilter via det här formuläret: Azure Government – Begära ändrad innehållsfiltrering.

Konfigurerbara innehållsfilter för indata (prompter) och utdata (slutföranden) är tillgängliga för alla Azure OpenAI-modeller.

Konfigurationer för innehållsfiltrering skapas i en resurs i Azure AI Foundry-portalen och kan associeras med distributioner. Läs mer om hur du konfigurerar innehållsfilter här.

Kunderna ansvarar för att säkerställa att program som integrerar Azure OpenAI följer uppförandekoden.

Förstå andra filter

Du kan konfigurera följande filterkategorier utöver standardfilter för skadekategorier.

Filterkategori Läge Standardinställning Tillämpas på uppmaning eller fullbordan? Beskrivning
Utlös skydd för direkta attacker (jailbreak) GA Användarprompt Filtrerar/kommenterar användarfrågor som kan utgöra en jailbreak-risk. Mer information om anteckningar finns i Azure AI Foundry-innehållsfiltrering.
Aktivera skydd mot indirekta attacker GA Av Användarprompt Filtrera/kommentera indirekta attacker, även kallade indirekta promptattacker eller direktinmatningsattacker mellan domäner, en potentiell sårbarhet där tredje part placerar skadliga instruktioner i dokument som det generativa AI-systemet kan komma åt och bearbeta. Kräver: Inbäddning och formatering av dokument.
Skyddat material – kod GA Slutförande Filtrerar skyddad kod eller hämtar exempelinformation om källhänvisning och licens i anteckningar för kodfragment som matchar offentliga kodkällor som drivs av GitHub Copilot. Mer information om hur du använder anteckningar finns i guiden för koncept för skyddat material
Skyddat material – text GA Slutförande Identifierar och blockerar känt textinnehåll från att visas i modellutdata (till exempel låttexter, recept och valt webbinnehåll).
Jordnära Förhandsvisning Av Slutförande Identifierar om textsvaren från stora språkmodeller (LLM) är baserade på källmaterialet som tillhandahålls av användarna. Ogrundadhet avser instanser där LLM:erna producerar information som är felaktig eller icke-faktisk jämfört med det som fanns i källmaterialet. Kräver: Inbäddning och formatering av dokument.
Personligt identifierbar information (PII) Förhandsvisning Av Slutförande Filtrerar information som kan användas för att identifiera en viss person, till exempel namn, adress, telefonnummer, e-postadress, personnummer, körkortsnummer, passnummer eller liknande information.

Skapa ett innehållsfilter i Azure AI Foundry

För alla modelldistributioner i Azure AI Foundry kan du använda standardinnehållsfiltret direkt, men du kanske vill ha mer kontroll. Du kan till exempel göra ett filter striktare eller mer överseende, eller aktivera mer avancerade funktioner som promptsköldar och skyddad materialidentifiering.

Viktigt!

GPT-image-1-modellen stöder inte konfiguration av innehållsfiltrering: endast standardinnehållsfiltret används.

Tips/Råd

Mer information om innehållsfilter i ditt Azure AI Foundry-projekt finns i Innehållsfiltrering i Azure AI Foundry.

Följ dessa steg för att skapa ett innehållsfilter:

Tips/Råd

Eftersom du kan anpassa det vänstra fönstret i Azure AI Foundry-portalen kan du se andra objekt än vad som visas i de här stegen. Om du inte ser det du letar efter väljer du ... Mer längst ned i det vänstra fönstret.

  1. Gå till Azure AI Foundry och gå till projektet. Välj sedan sidan Skyddsräcken + kontroller på den vänstra menyn och välj fliken Innehållsfilter .

    Skärmbild av knappen för att skapa ett nytt innehållsfilter.

  2. Välj + Skapa innehållsfilter.

  3. På sidan Grundläggande information anger du ett namn för konfigurationen för innehållsfiltrering. Välj en anslutning som ska associeras med innehållsfiltret. Välj sedan Nästa.

    Skärmbild av alternativet att välja eller ange grundläggande information, till exempel filternamnet när du skapar ett innehållsfilter.

    Nu kan du konfigurera indatafilter (för användarfrågor) och utdatafilter (för modellavslut).

  4. På sidan Indatafilter kan du ange filtret för indataprompten. För de första fyra innehållskategorierna finns det tre allvarlighetsnivåer som kan konfigureras: Låg, medel och hög. Du kan använda skjutreglagen för att ange tröskelvärdet för allvarlighetsgrad om du fastställer att ditt program eller användningsscenario kräver en annan filtrering än standardvärdena. Vissa filter, till exempel Prompt Shields och Skyddad materialidentifiering, gör att du kan avgöra om modellen ska kommentera och/eller blockera innehåll. Om du väljer Endast anteckna körs respektive modell och returnerar anteckningar via API-svaret, men filtrerar inte innehållet. Förutom att kommentera kan du också välja att blockera innehåll.

    Om ditt användningsfall har godkänts för ändrade innehållsfilter får du fullständig kontroll över konfigurationer för innehållsfiltrering och kan välja att helt eller delvis inaktivera filtrering eller endast aktivera anteckningar för kategorierna för innehållsskador (våld, hat, sexuell och självskada).

    Innehållet kommenteras efter kategori och blockeras enligt det tröskelvärde som du anger. För kategorierna våld, hat, sexuell och självskadebeteende justerar du skjutreglaget för att blockera innehåll av hög, medel eller låg allvarlighetsgrad.

    Skärmbild av skärmen för indatafilter.

  5. På sidan Utdatafilter kan du konfigurera utdatafiltret, som ska tillämpas på allt utdatainnehåll som genereras av din modell. Konfigurera de enskilda filtren som tidigare. Den här sidan innehåller också alternativet Strömningsläge, vilket gör att du kan filtrera innehåll nästan i realtid eftersom det genereras av modellen, vilket minskar svarstiden. När du är klar väljer du Nästa.

    Innehållet kommenteras av varje kategori och blockeras enligt tröskelvärdet. För våldsamt innehåll, hatinnehåll, sexuellt innehåll och självskadebeteende, justerar du tröskelvärdet för att blockera skadligt innehåll med samma eller högre allvarlighetsgrad.

    Skärmbild av utdatafilterskärmen.

  6. På sidan Distribution kan du också associera innehållsfiltret med en distribution. Om en vald distribution redan har ett filter kopplat måste du bekräfta att du vill ersätta den. Du kan också associera innehållsfiltret med en distribution senare. Välj Skapa.

    Skärmbild av alternativet att välja en distribution när du skapar ett innehållsfilter.

    Konfigurationer för innehållsfiltrering skapas på hubbnivå i Azure AI Foundry-portalen. Läs mer om konfigurerbarhet i dokumentationen om Azure OpenAI i Azure AI Foundry Models.

  7. På sidan Granska granskar du inställningarna och väljer sedan Skapa filter.

Använda en blockeringslista som ett filter

Du kan använda en blocklista som antingen ett indata- eller utdatafilter eller båda. Aktivera alternativet Blocklistsidan Indatafilter och/eller Utdatafilter. Välj en eller flera blocklistor i listrutan eller använd den inbyggda listan med olämpligt språk. Du kan kombinera flera blocklistor i samma filter.

Använda ett innehållsfilter

Processen för att skapa filter ger dig möjlighet att tillämpa filtret på de distributioner du vill använda. Du kan också ändra eller ta bort innehållsfilter från dina distributioner när som helst.

Följ dessa steg för att tillämpa ett innehållsfilter på en distribution:

  1. Gå till Azure AI Foundry och välj ett projekt.

  2. Välj Modeller + slutpunkter i det vänstra fönstret och välj en av dina distributioner och välj sedan Redigera.

    Skärmbild av knappen för att redigera en distribution.

  3. I fönstret Uppdateringsdistribution väljer du det innehållsfilter som du vill använda för distributionen. Välj sedan Spara och stäng.

    Skärmbild av tillämpat innehållsfilter.

    Du kan också redigera och ta bort en konfiguration av innehållsfilter om det behövs. Innan du tar bort en konfiguration för innehållsfiltrering måste du avtilldela den och ersätta den i alla distributioner på fliken Distributioner.

Nu kan du gå till lekplatsen för att testa om innehållsfiltret fungerar som förväntat.

Tips/Råd

Du kan också skapa och uppdatera innehållsfilter med hjälp av REST-API:erna. Mer information finns i API-referensen. Innehållsfilter kan konfigureras på resursnivå. När en ny konfiguration har skapats kan den associeras med en eller flera distributioner. Mer information om modelldistribution finns i guiden för resursdistribution.

Ange en konfiguration för innehållsfiltrering vid begäran (förhandsversion)

Förutom konfigurationen för innehållsfiltrering på distributionsnivå tillhandahåller vi även en begäranderubrik som gör att du kan ange din anpassade konfiguration vid begärandetiden för varje API-anrop.

curl --request POST \ 
    --url 'URL' \ 
    --header 'Content-Type: application/json' \ 
    --header 'api-key: API_KEY' \ 
    --header 'x-policy-id: CUSTOM_CONTENT_FILTER_NAME' \ 
    --data '{ 
        "messages": [ 
            { 
                "role": "system", 
                "content": "You are a creative assistant." 
            }, 
            { 
                "role": "user", 
                "content": "Write a poem about the beauty of nature." 
            } 
        ] 
    }' 

Konfigurationen för innehållsfiltrering på begäran åsidosätter konfigurationen på distributionsnivå för det specifika API-anropet.

Viktigt!

Innehållsfilterspecifikation vid begäran är inte tillgänglig för scenarier med bildindata (chatt med bilder). I dessa fall används standardinnehållsfiltret.

Om en konfiguration har angetts som inte finns returneras följande felmeddelande.

{ 
    "error": 
        { 
            "code": "InvalidContentFilterPolicy", 
            "message": "Your request contains invalid content filter policy. Please provide a valid policy." 
        } 
} 

Feedback om filtrering av rapportinnehåll

Om du stöter på ett problem med innehållsfiltrering väljer du knappen Filterfeedback överst på lekplatsen. Detta aktiveras i lekplatsen Bilder, Chatt och Slutföranden när du skickar en uppmaning.

När dialogrutan visas väljer du lämpligt problem med innehållsfiltrering. Ta med så mycket information som möjligt om ditt problem med innehållsfiltrering, till exempel det specifika prompt- och innehållsfiltreringsfel som du stötte på. Ta inte med någon privat eller känslig information.

Om du vill ha support skickar du ett supportärende.

Följ metodtipsen

Vi rekommenderar att du informerar dina beslut om innehållsfiltrering genom en iterativ identifiering (till exempel red team-testning, stresstestning och analys) och mätningsprocess för att åtgärda potentiella skador som är relevanta för en specifik modell, ett visst program och distributionsscenario. När du har implementerat åtgärder som innehållsfiltrering upprepar du mätningen för att testa effektiviteten. Rekommendationer och metodtips för ansvarsfull AI för Azure OpenAI, som finns i Microsoft Responsible AI Standard, finns i Översikt över ansvarsfull AI för Azure OpenAI.