Dela via


Vad är nytt med Azure OpenAI i Azure AI Foundry Models

Den här artikeln innehåller en sammanfattning av de senaste versionerna och viktiga dokumentationsuppdateringar för Azure OpenAI.

Oktober 2025

Api-stöd i realtid för SIP

Realtids-API:et stöder nu SIP, vilket möjliggör telefonianslutningar till realtimeapi. Mer information finns i dokumentationen om Realtime SIP.

GPT-4o ljudmodell släppt

  • Tals gpt-4o-transcribe-diarize till text-modellen är nu tillgänglig. Det här är en ASR-modell (Automatisk taligenkänning) som konverterar talat språk till text i realtid. Det gör det möjligt för organisationer att låsa upp insikter från konversationer direkt med ultralåg svarstid och hög noggrannhet på över 100 språk. Den här funktionen är viktig för arbetsflöden där röstdata styr beslut – till exempel kundsupport, virtuella möten och livehändelser.

Diarisering är processen att identifiera vem som talade i en ljudström. Den omvandlar konversationer till avskrifter som tillskrivs talare, vilket gör det möjligt för företag att extrahera användbara insikter från möten, kundsamtal och livehändelser. Med avancerade modeller som gpt-4o-transcribe-diarizefår organisationer klarhet och sammanhang i realtid – att omvandla röst till strukturerade data som driver smartare beslut och förbättrar produktiviteten och stöder automatisk taligenkänning.

Använd den här modellen via API:erna /audio och /realtime .

GPT-image-1-mini

Modellen gpt-image-1-mini är nu tillgänglig för globala distributioner. Det är en mindre version av gpt-image-1 modellen som erbjuder en bra balans mellan prestanda och kostnad. Alla användningsfall stöds för närvarande, förutom bildredigering och inmatningsnoggrannhet.

Begär åtkomst: Program för begränsad åtkomstmodell

Följ instruktioner för bildgenerering för att komma igång med den här modellen.

Innehållsfilter för PII-identifiering

Identifiering av personligt identifierbar information (PII) är nu tillgänglig som ett inbyggt innehållsfilter. Med den här funktionen kan du identifiera och blockera känslig information i LLM-utdata, vilket förbättrar datasekretessen. Mer information finns i dokumentationen för PII-identifiering .

September 2025

GPT-5-codex är nu tillgängligt

Stöd för video till video i Sora

Sora-modellen från OpenAI stöder nu video-till-video-generering. Du kan ange en kort video som indata för att generera en ny, längre video som innehåller indatavideon. Se snabbstarten för att komma igång.

Augusti 2025

Stöd för bild till video i Sora

Sora-modellen från OpenAI stöder nu bild-till-video-generering. Du kan ange en bild som indata till modellen för att generera en video som innehåller innehållet i bilden. Du kan också ange bildrutan för videon där bilden ska visas: den behöver inte vara början. Se snabbstarten för att komma igång.

Sora-modellen är nu tillgänglig i regionen Sverige Central och regionen East US 2.

Ga för api-ljudmodell i realtid

OpenAI:s GPT RealTime- och Audio-modeller är nu allmänt tillgängliga på Azure AI Foundry Direct Models.

Modellförbättringar:

  • Förbättrad instruktion: Förbättrade funktioner för att följa instruktionerna för ton, tempo och eskalering mer exakt och tillförlitligt. Kan också växla språk.
  • Nya standardröster, Marin och Cedar, som ger förbättrad naturlighet och klarhet i talsyntesen.
  • Förbättrad ljudkvalitet: Glitch-fri utdata, förbättrad alfanumerisk reproduktion och modalitetskontroll.

Förbättringar av API-tjänsten i realtid:

  • Bildinmatning: Lägg till och diskutera bilder via röst utan videokrav.
  • Förbättrat funktionsanrop: Förbättrad möjlighet att anropa anpassad kod som definierats av utvecklare. Async-funktionsanrop stöds, vilket gör att sessioner kan fortsätta medan ett funktionsanrop väntar.
  • Konversationsläge: Verkligt turtagningsbeteende för naturliga interaktioner. Konversationsläget använder VAD för att fråga användare om inget svar identifieras, vilket förbättrar den verkliga användbarheten för telefonliknande interaktioner.

Vi rekommenderar starkt att alla kunder övergår till de nyligen lanserade GA-modellerna för att dra full nytta av de senaste funktionerna. Besök Azure OpenAI-dokumentationen och Azure AI Foundry Playground för att utforska funktioner och integrera i dina program.

Etablerad spillover Allmän tillgänglighet (GA)

Spillover är nu allmänt tillgängligt. Spillover hanterar trafikfluktuationer i tillhandahållna distributioner genom att dirigera överflöde till en angiven standarddistribution. Mer information om hur du maximerar användningen för dina etablerade distributioner med spillover finns i Hantera trafik med spillover för etablerade distributioner.

GPT-5-modeller tillgängliga

Ny version av modellrouter

  • Modellroutern har nu stöd för GPT-5-seriemodeller.

  • Modellrouter för Azure AI Foundry är en distribuerad AI-chattmodell som automatiskt väljer den bästa underliggande chattmodellen för att svara på en viss fråga. Mer information om hur modellroutern fungerar och dess fördelar och begränsningar finns i konceptguiden för modellrouter. Om du vill använda modellroutern med API:et Completions följer du instruktionsguiden.

Juli 2025

GPT-image-1-uppdatering (förhandsversion)

  • Parameter för indataåtergivning: Parametern input_fidelity i bildredigerings-API:et låter dig styra hur nära modellen förmedlar stil och funktioner hos motiv i den ursprungliga indata-bilden. Detta är användbart för:

    • Redigera foton samtidigt som ansiktsdrag bevaras; skapa avatarer som ser ut som ursprunglig person över olika stilar; kombinera ansikten från flera personer till en bild.
    • Att upprätthålla varumärkesidentitet i genererade bilder som marknadsföringsmaterial, mockups, produktfotografering.
    • E-handel och mode, där du behöver redigera bilder av kläder eller produktinformation utan att äventyra realismen.
  • Partiell bildströmning: API:erna för bildgenerering och bildredigering stöder partiell bildströmning, där de returnerar bilder med delvis renderat innehåll under hela bildgenereringsprocessen. Visa dessa bilder för användaren för att ge tidigare visuell feedback och visa förloppet för bildgenereringsåtgärden.

Juni 2025

Nya modeller codex-mini & o3-pro släppta

Maj 2025

Sora video generation släppt (förhandsversion)

Modellen Sora (2025-05-02) är en videogenereringsmodell från OpenAI som kan skapa realistiska och fantasifulla videoscener från textinstruktioner.

Följ snabbstartsguiden för videogenerering för att komma igång. Mer information finns i konceptguiden för videogenerering .

Spotlighting för promptsköldar (förhandsversion)

Spotlighting är en delfunktion i promptskydd som förbättrar skyddet mot indirekta (inbäddade dokument) attacker genom att märka indatadokument med särskild formatering för att indikera lägre tillit till modellen. Mer information finns i dokumentationen för filtret Prompt Shields.

Modellrouter (förhandsversion)

Modellrouter för Azure AI Foundry är en distribuerad AI-chattmodell som automatiskt väljer den bästa underliggande chattmodellen för att svara på en viss fråga. Mer information om hur modellroutern fungerar och dess fördelar och begränsningar finns i konceptguiden för modellrouter. Om du vill använda modellroutern med API:et Completions följer du instruktionsguiden.

April år 2025

Stöd för realtids-API (beta) för WebRTC

Realtids-API:et (förhandsversion) stöder nu WebRTC, vilket möjliggör direktuppspelning i realtid och interaktioner med låg latens. Den här funktionen är perfekt för program som kräver omedelbar feedback, till exempel support för livekunder eller interaktiva röstassistenter. Mer information finns i dokumentationen om Realtime API (förhandsversion).

GPT-image-1 släppt (förhandsversion, begränsad åtkomst)

GPT-image-1 (2025-04-15) är den senaste avbildningsgenereringsmodellen från Azure OpenAI. Den har stora förbättringar jämfört med DALL-E, inklusive:

  • Bättre på att svara på exakta instruktioner.
  • Återger text på ett tillförlitligt sätt.
  • Accepterar bilder som indata, vilket möjliggör de nya funktionerna för bildredigering och inpainting.

Begär åtkomst: Program för begränsad åtkomstmodell

Följ instruktioner för bildgenerering för att komma igång med den nya modellen.

o4-mini- och o3-modeller släppta

o4-mini och o3 modeller är nu tillgängliga. Det här är de senaste resonemangsmodellerna från Azure OpenAI som erbjuder bättre resonemang, kvalitet och prestanda. Mer information finns på sidan komma igång med resonemangsmodeller.

GPT-4.1 släppt

GPT 4.1 och GPT 4.1-nano är nu tillgängliga. Det här är de senaste modellerna från Azure OpenAI. GPT 4.1 har en kontextgräns på 1 miljon token. Mer information finns på sidan modeller.

gpt-4o-ljudmodeller släppta

Nya ljudmodeller som drivs av GPT-4o är nu tillgängliga.

  • Tal-till-text-modellerna gpt-4o-transcribe och gpt-4o-mini-transcribe släpps. Använd dessa modeller via API:erna /audio och /realtime .

  • Modellen gpt-4o-mini-tts för text till tal släpps. gpt-4o-mini-tts Använd modellen för text till tal-generering via API:et/audio.

Mer information om tillgängliga modeller finns i dokumentationen om modeller och versioner.

mars 2025

Svars-API och modell för förhandsgranskning av datoranvändning

Svars-API:et är ett nytt tillståndskänsligt API från Azure OpenAI. Den samlar de bästa funktionerna från API:et för chattavslut och assistenter i en enhetlig upplevelse. Svars-API:et lägger också till stöd för den nya computer-use-preview modellen, som driver funktionen Datoranvändning .

För åtkomst till computer-use-preview registrering krävs och åtkomst beviljas baserat på Microsofts berättigandekriterier. Kunder som har åtkomst till andra modeller med begränsad åtkomst behöver fortfarande begära åtkomst för den här modellen.

Ansök om åtkomst: computer-use-preview ansökan om begränsad åtkomstmodell

Mer information om modellfunktioner och regiontillgänglighet finns i modelldokumentationen.

Animerad gif av modellen för datoranvändningsförhandsvisning integrerad med Playwright.

Demokod för dramatikerintegrering.

Konfigurerad spillover (förhandsversion)

Spillover hanterar trafikfluktuationer i tillhandahållna distributioner genom att dirigera överflöde till en angiven standarddistribution. Mer information om hur du maximerar användningen för dina etablerade distributioner med spillover finns i Hantera trafik med spillover för etablerade distributioner (förhandsversion).

Ange konfigurationer för innehållsfiltrering

Förutom konfigurationen för innehållsfiltrering på distributionsnivå tillhandahåller vi nu även en begäranderubrik som gör att du kan ange din anpassade konfiguration vid begärandetiden för varje API-anrop. Mer information finns i Använda innehållsfilter (förhandsversion).

Februari 2025

GPT-4.5 Förhandsversion

Den senaste GPT-modellen som utmärker sig för olika text- och bilduppgifter är nu tillgänglig i Azure OpenAI.

Mer information om modellfunktioner och regiontillgänglighet finns i modelldokumentationen.

API för lagrade slutföranden

Med lagrade slutföranden kan du samla in konversationshistoriken från chattsessioner som ska användas som datauppsättningar för utvärderingar och finjustering.

o3-mini-distributioner av standarddatazoner

o3-mini är nu tillgängligt för global standard och standarddistributioner av datazoner för registrerade kunder med begränsad åtkomst.

Mer information finns i vår guide för resonemangsmodell.

gpt-4o mini ljud släppt

Modellen gpt-4o-mini-audio-preview (2024-12-17) är den senaste modellen för ljudavslut. Mer information finns i snabbstarten för ljudgenerering.

(gpt-4o-mini-realtime-preview2024-12-17) modellen är den senaste realtidsljudmodellen. Realtidsmodellerna använder samma underliggande GPT-4o-ljudmodell som completions API:n, men är optimerade för realtid ljudinteraktioner med låg latens. Mer information finns i snabbstartsguiden för realtidsljud.

Mer information om tillgängliga modeller finns i dokumentationen om modeller och versioner.

Januari 2025

o3-mini släppt

o3-mini (2025-01-31) är den senaste resonemangsmodellen, som erbjuder förbättrade resonemangsförmåga. Mer information finns i vår guide för resonemangsmodell.

GPT-4o ljudkompletteringar

Modellen gpt-4o-audio-preview är nu tillgänglig för globala distributioner i East US 2 och Central Sweden. gpt-4o-audio-preview Använd modellen för ljudgenerering.

Modellen gpt-4o-audio-preview introducerar ljudmodaliteten i det befintliga /chat/completions API:et. Ljudmodellen utökar potentialen för AI-program i text- och röstbaserade interaktioner och ljudanalys. Metoder som stöds i gpt-4o-audio-preview modellen är: text, ljud och text + ljud. Mer information finns i snabbstarten för ljudgenerering.

Note

Realtids-API:et använder samma underliggande GPT-4o-ljudmodell som API:et för slutföranden, men är optimerat för ljudinteraktioner med låg latens i realtid.

GPT Realtime API 2024-12-17

Modellversionen gpt-4o-realtime-preview 2024-12-17 är tillgänglig för globala utrullningar i regionerna Östra USA 2 och Centrala Sverige. Använd version 2024-12-17-modellen i stället för version 2024-10-01-preview-modellen för ljudinteraktioner i realtid.

  • Stöd för promptcachelagring har lagts till med gpt-4o-realtime-preview modellen.
  • Stöd har lagts till för nya röster. Modellerna gpt-4o-realtime-preview stöder nu följande röster: alloy, ash, ballad, coral, echo, , sage, , shimmer. verse
  • Hastighetsbegränsningar baseras inte längre på anslutningar per minut. Hastighetsbegränsning baseras nu på RPM (begäranden per minut) och TPM (token per minut) för gpt-4o-realtime-preview modellen. Hastighetsgränserna för varje gpt-4o-realtime-preview modelldistribution är 100 K TPM och 1 K RPM. Under förhandsversionen kan Azure AI Foundry-portalen och API:er felaktigt visa olika hastighetsgränser. Även om du försöker ange en annan hastighetsgräns är den faktiska hastighetsgränsen 100 K TPM och 1 K RPM.

Mer information finns i gpt-snabbstarten för realtidsljud och instruktioner.

December 2024

o1-resonemangsmodell frisläppt för begränsad åtkomst

Den senaste o1 modellen är nu tillgänglig för API-åtkomst och modelldistribution. Registrering krävs och åtkomst beviljas baserat på Microsofts berättigandekriterier. Kunder som tidigare har tillämpat och fått åtkomst till o1-previewbehöver inte ansöka igen eftersom de automatiskt finns på väntelistan för den senaste modellen.

Begär åtkomst: program för modell för begränsad åtkomst

Mer information om de avancerade o1 seriemodellerna finns i komma igång med o1-seriens resonemangsmodeller.

Tillgänglighet i regionen

Model Region
o1
(Version: 2024-12-17)
Östra USA 2 (global standard)
Sweden Central (Global Standard)

Finjustering av inställningar (förhandsversion)

Direktpreferensoptimering (DPO) är en ny justeringsteknik för stora språkmodeller som är utformad för att justera modellvikter baserat på mänskliga preferenser. Till skillnad från förstärkningsinlärning från mänsklig feedback (RLHF) kräver DPO inte anpassning av en belöningsmodell och använder enklare data (binära inställningar) för träning. Den här metoden är beräkningsmässigt lättare och snabbare, vilket gör den lika effektiv vid justering samtidigt som den är mer effektiv. DPO är särskilt användbart i scenarier där subjektiva element som ton, stil eller specifika innehållsinställningar är viktiga. Vi är glada över att kunna presentera den offentliga förhandsversionen av DPO i Azure OpenAI, med början i gpt-4o-2024-08-06 modellen.

För att justera tillgänglighet för modellregion, se modellsidan.

Lagrade slutförda processer och destillation

Med lagrade slutföranden kan du samla in konversationshistoriken från chattsessioner som ska användas som datauppsättningar för utvärderingar och finjustering.

GPT-4o 2024-11-20

gpt-4o-2024-11-20 är nu tillgängligt för standarddistribution globalt i:

  • East US
  • Östra USA 2
  • Norra centrala USA
  • Södra Centrala USA
  • West US
  • Västra USA 3
  • Sweden Central

NY etablerad datazon utplaceringstyp

Allokerade distributioner i datazonen är tillgängliga i samma Azure OpenAI-resurs som alla andra Azure OpenAI-distributionstyper, men gör att du kan använda global Azure-infrastruktur för att dynamiskt dirigera trafik till datacentret i Den Microsoft-definierade datazonen med bästa tillgänglighet för varje begäran. Etablerade distributioner i datazoner ger reserverad modellbearbetningskapacitet för högt och förutsägbart dataflöde med hjälp av Azure-infrastruktur inom Microsofts angivna datazoner. Driftsatta distributioner i datazoner stöds på gpt-4o-2024-08-06, gpt-4o-2024-05-13 och gpt-4o-mini-2024-07-18 modeller.

Mer information finns i guiden för distributionstyper.

Nästa steg

Läs mer om de underliggande modeller som driver Azure OpenAI.