你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

Azure AI Foundry 模型中 Azure OpenAI 的新增功能

2025-09-23

本文汇总了 Azure OpenAI 的最新版本和主要文档更新。

2025 年 10 月

GPT-4o 音频模型已发布

语音 gpt-4o-transcribe-diarize 转文本模型已发布。这是一种自动语音识别（ASR）模型，可将口语实时转换为文本。它使组织能够以超低的延迟和 100 多种语言的高准确度立即从对话中解锁见解。此功能对于语音数据驱动决策的工作流至关重要，例如客户支持、虚拟会议和直播活动。

分割是识别在音频流中说话的人员的过程。它将对话转换为演讲者属性的脚本，使企业能够从会议、客户呼叫和实时事件中提取可作的见解。借助高级模型 gpt-4o-transcribe-diarize，组织可以获得实时清晰度和上下文，从而将语音转化为结构化数据，从而推动更智能的决策并提高工作效率。支持自动语音识别。

通过 /audio/realtime API 使用此模型。

GPT-image-1-mini

模型 gpt-image-1-mini 现在可用于全局部署。它是一个较小的模型版本 gpt-image-1 ，在性能和成本之间提供了良好的平衡。目前支持所有用例，但图像编辑和输入保真度除外。

请求访问：受限访问模型应用程序

请按照图像生成指南来使用此模型。

PII 内容检测筛选器

个人身份信息（PII）检测现在可用作内置内容筛选器。此功能允许在 LLM 输出中识别和阻止敏感信息，从而增强数据隐私。有关详细信息，请参阅 PII 检测文档。

2025 年 9 月

GPT-5-codex 现已推出

若要了解更多信息 gpt-5-codex，请参阅推理模型入门页面。
gpt-5-codex 特别设计用于 Codex CLI 和 Visual Studio Code Codex 扩展。
需要注册才能访问 gpt-5-codex 模型。 如果以前已注册并获取了对其他受限访问模型的访问权限，例如 gpt-5 不需要重新应用，并且将自动授予访问权限。

Sora 视频转视频支持

OpenAI 中的 Sora 模型现在支持视频到视频生成。你可以提供短视频作为输入来生成包含输入视频的新较长视频。请参阅快速入门以开始使用。

2025 年 8 月

Sora 图像转视频支持

OpenAI 中的 Sora 模型现在支持图像转视频生成功能。你可提供图像作为模型的输入，生成包含图像内容的视频。还可以指定图像应出现在视频中的具体帧位置，该位置不需要是视频开头。请参阅快速入门以开始使用。

Sora 现在瑞典中部区域和美国东部 2 区域提供。

实时 API 音频模型 GA

OpenAI 的 GPT 实时模型和音频模型现在 Azure AI Foundry 直接模型中正式发布。

模型改进：

改进指令遵循能力：增强遵循语气、节奏和升级指令的能力，准确性与可靠性更高。还可以切换语言。
新增标准语音 Marin 和 Cedar，为语音合成带来更出色的自然度和清晰度。
改进音频质量：输出无杂音故障，字母数字内容还原效果提升，且支持模态控制。

实时 API 服务改进：

图像输入：无需视频要求，即可通过语音添加并讨论图像。
改进函数调用：增强调用开发人员定义的自定义代码的能力。支持异步函数调用，可让会话在函数调用挂起时继续进行。
对话模式：具备现实场景中的轮流交互行为，可实现自然交互。对话模式会使用 VAD 在未检测到响应时提示用户，从而提升类电话交互场景下的真实可用性。

强烈建议所有客户都过渡到新推出的 GA 模型，以充分利用最新功能。请访问 Azure OpenAI 文档和 Azure AI Foundry 操场，以探索相关功能并将其集成到你的应用程序中。

预配溢出正式发布 (GA)

溢出现已正式发布。溢出通过将超额部分路由到指定的标准部署来管理预配部署的流量波动。若要详细了解如何使用溢出最大化预配部署的利用率，请参阅使用溢出管理预配部署的流量。

适用的 GPT-5 模型

gpt-5、gpt-5-mini、gpt-5-nano 若要了解详细信息，请参阅推理模型入门页面。
gpt-5-chat 现已推出。若要了解详细信息，请参阅模型页面
gpt-5 现在可用于预配吞吐量单位 (PTU)。
需要注册才能访问 gpt-5 模型。
gpt-5-mini、gpt-5-nano 和 gpt-5-chat 不需要注册。

新版本的模型路由器

模型路由器现在支持 GPT-5 系列模型。
Azure AI Foundry 的模型路由器是一种可部署的 AI 聊天模型，可自动选择最佳基础聊天模型来响应给定的提示。有关模型路由器的工作原理及其优点和限制的详细信息，请参阅模型路由器概念指南。若要将模型路由器与 Completions API 配合使用，请遵循操作指南。

2025 年 7 月

GPT-image-1 更新（预览版）

输入保真度参数：图像编辑 API 中的 input_fidelity 参数允许您控制模型在原始（输入）图像中传达主题风格和特征的精确程度。这适用于：
- 在保留面部特征的同时编辑照片；创建看起来与原始人物相似、风格不同的虚拟形象；将多个人的面部特征组合到一张图像中。
- 在为营销资产、模型、产品摄影生成的图像中维护品牌标识。
- 电子商务和时尚，你需要编辑服装或产品细节的图像，而不会损害现实主义。
部分图像流式处理：图像生成和图像编辑 API 支持部分图像流式处理，在图像生成过程中返回具有部分呈现内容的图像。向用户显示这些图像以提供早期的视觉反馈并显示图像生成作的进度。

2025 年 6 月

codex-mini 和 o3-pro 模型已发布

codex-mini 和 o3-pro 已经可用。若要了解详细信息，请参阅推理模型页入门

2025年5月

Sora 视频生成已发布（预览版）

Sora（2025-05-02）是 OpenAI 的视频生成模型，可以从文本说明创建真实而富有想象力的视频场景。

按照视频生成快速入门开始操作。有关详细信息，请参阅视频生成概念指南。

聚焦提示屏蔽（预览版）

聚焦是提示防护的子功能，通过标记具有特殊格式的输入文档来指示对模型的信任度较低，从而增强对间接（嵌入式文档）攻击的保护。有关详细信息，请参阅提示防护筛选器文档。

模型路由器（预览版）

Azure AI Foundry 的模型路由器是一种可部署的 AI 聊天模型，可自动选择最佳基础聊天模型来响应给定的提示。有关模型路由器的工作原理及其优点和限制的详细信息，请参阅模型路由器概念指南。若要将模型路由器与 Completions API 配合使用，请遵循操作指南。

2025 年 4 月

WebRTC 的实时 API（预览版）支持

实时 API（预览版）现在支持 WebRTC，支持实时音频流式处理和低延迟交互。此功能非常适合需要即时反馈的应用程序，例如实时客户支持或交互式语音助手。有关详细信息，请参阅实时 API（预览版）文档。

GPT-image-1 已发布（预览版、访问权限受限）

GPT-image-1 (2025-04-15) 是 Azure OpenAI 的最新映像生成模型。它对 DALL-E 进行了重大改进，包括：

更好地响应精确的指令。
可靠地呈现文本。
接受图像作为输入，从而启用图像编辑和图像修复的新功能。

请求访问：受限访问模型应用程序

开始使用新模型时，请按照图像生成操作指南进行。

o4-mini 和 o3 模型已发布

o4-mini 和 o3 模型现已推出。这些是 Azure OpenAI 最新的推理模型，提供增强的推理、质量和性能。有关更多信息，请参阅推理模型入门页。

GPT-4.1 已发布

GPT 4.1 和 GPT 4.1-nano 现已推出。这些是 Azure OpenAI 的最新模型。 GPT 4.1 具有 100 万个令牌上下文限制。有关详细信息，请参阅 “模型”页。

gpt-4o 音频模型已发布

GPT-4o 提供支持的新音频模型现已推出。

gpt-4o-transcribe和gpt-4o-mini-transcribe语音转文本模型已经发布。使用 /audio 和 /realtime API 来使用这些模型。
文本转语音模型 gpt-4o-mini-tts 已发布。使用 gpt-4o-mini-tts 模型通过 /audio API 生成文本到语音。

有关可用模型的详细信息，请参阅模型和版本文档。

2025 年 3 月

响应 API 和 computer-use-preview 模型

响应 API 是 Azure OpenAI 中新的有状态 API。该 API 将聊天完成和助手 API 中的最佳功能汇集在一个统一体验中。响应 API 还添加了对新 computer-use-preview 模型的支持，该模型支持计算机使用功能。

要访问computer-use-preview，需要注册，并且根据Microsoft的资格条件授予访问权限。有权访问其他受限访问模型的客户仍需要请求对此模型的访问权限。

请求访问权限：computer-use-preview受限访问模型应用程序

有关模型功能和区域可用性的详细信息，请参阅模型文档。

Playwright 集成演示代码。

预置溢出（预览）

溢出通过将超额部分路由到指定的标准部署来管理预配部署的流量波动。若要详细了解如何使用溢出来最大化预配部署的利用率，请参阅使用预配部署的溢出管理流量（预览版）。

指定内容筛选配置

除了部署级内容筛选配置之外，我们现在还提供一个请求标头，用于在每次 API 调用的请求时指定自定义配置。有关详细信息，请参阅“使用内容筛选器”（预览版）。

2025 年 2 月

GPT-4.5 预览版

目前，Azure OpenAI 上提供了适用于各种文本和图像任务的最新 GPT 模型。

有关模型功能和区域可用性的详细信息，请参阅模型文档。

存储的补全 API

存储的补全使你可以从聊天补全会话中捕获会话历史记录，用作评估和微调的数据集。

o3-mini 数据区域标准部署

o3-mini 现在可用于全局标准，数据区域标准部署适用于已注册的有限访问客户。

有关详细信息，请参阅推理模型指南。

gpt-4o 迷你音频已发布

gpt-4o-mini-audio-preview (2024-12-17) 模型是最新的音频补全模型。有关详细信息，请参阅音频生成快速入门。

gpt-4o-mini-realtime-preview (2024-12-17) 模型是最新的实时音频模型。实时模型使用与补全 API 相同的基础 GPT-4o 音频模型，但针对低延迟、实时音频交互进行了优化。有关详细信息，请参阅实时音频快速入门。

有关可用模型的详细信息，请参阅模型和版本文档。

2025 年 1 月

o3-mini 已发布

o3-mini (2025-01-31) 是最新的推理模型，提供了增强的推理能力。有关详细信息，请参阅推理模型指南。

GPT-4o 音频补全

gpt-4o-audio-preview 模型现可用于美国东部 2 和瑞典中部地区的全局部署。使用 gpt-4o-audio-preview 模型生成音频。

gpt-4o-audio-preview 模型将音频模态引入了现有的 /chat/completions API。音频模型扩展了文本和基于语音的交互和音频分析中的 AI 应用程序的潜力。 gpt-4o-audio-preview 模型中支持的模态包括：文本、音频、文本 + 音频。有关详细信息，请参阅音频生成快速入门。

Note

实时 API 使用与补全 API 相同的基础 GPT-4o 音频模型，但针对低延迟、实时音频交互进行了优化。

GPT 实时 API 2024-12-17

gpt-4o-realtime-preview 模型版本 2024-12-17 可用于美国东部 2 和瑞典中部地区的全局部署。对于实时音频交互，请使用 gpt-4o-realtime-preview 版本 2024-12-17 模型，而非 gpt-4o-realtime-preview 版本 2024-10-01-preview 模型。

添加了对模型的gpt-4o-realtime-preview支持。
添加了对新语音的支持。 gpt-4o-realtime-preview 模型现在支持以下语音：alloy、ash、ballad、coral、echo、sage、shimmer、verse。
速率限制不再基于每分钟的连接数。速率限制现在基于 gpt-4o-realtime-preview 模型的 RPM（每分钟请求数）和 TPM（每分钟令牌数）。每个 gpt-4o-realtime-preview 模型部署的速率限制为 100 K TPM 和 1 K RPM。在预览期间， Azure AI Foundry 门户和 API 可能会不准确地显示不同的速率限制。即使你尝试设置其他速率限制，实际速率限制也是 100 K TPM 和 1 K RPM。

有关详细信息，请参阅 GPT 实时音频快速入门和操作指南。

2024 年 12 月

o1 推理模型，供有限访问

现在可使用最新的 o1 模型进行 API 访问和模型部署。需要完成注册，并且会根据 Microsoft 的资格条件授予访问权限。以前申请并获得o1-preview访问权限的客户，无需重新申请，他们会自动加入最新型号的等待名单。

请求访问：受限访问模型应用程序

若要详细了解高级 o1 系列模型，请参阅开始使用 o1 系列推理模型。

区域可用性

Model	Region
`o1` （版本：2024-12-17）	美国东部 2（全球标准）瑞典中部（全球标准）

偏好微调（预览版）

直接偏好优化 (DPO) 是一种用于大型语言模型的新对齐技术，旨在根据人类偏好调整模型权重。与人工反馈强化学习 (RLHF) 不同，DPO 不需要拟合奖励模型，并使用更简单的数据（二元偏好）进行训练。此方法在计算上更轻量、更快，因此在对齐时同样有效，同时效率更高。在语气、样式或特定内容偏好等主观元素重要的情况下，DPO 特别有用。我们很高兴宣布，在 Azure OpenAI 中，DPO 的公共预览版已推出，并从 gpt-4o-2024-08-06 模型开始。

有关微调模型区域可用性的信息，请参阅模型页面。

存储的补全和蒸馏

存储的补全使你可以从聊天补全会话中捕获会话历史记录，用作评估和微调的数据集。

GPT-4o 2024-11-20

gpt-4o-2024-11-20 现可在以下区域进行全球标准部署：

美国东部
美国东部 2
美国中北部
美国中南部
美国西部
美国西部 3
瑞典中部

新的数据区域预配部署类型

数据区域预配部署可在与非全球部署类型相同的 Azure OpenAI 资源中使用，但前者允许利用 Azure 的全球基础结构将流量动态路由到 Microsoft 定义的数据区域中的数据中心，并为每个请求提供最佳可用性。数据区域预配部署在 Microsoft 指定数据区域中使用 Azure 基础结构为高吞吐量和可预测的吞吐量提供预留模型处理容量。 gpt-4o-2024-08-06、gpt-4o-2024-05-13 和 gpt-4o-mini-2024-07-18 模型支持数据区域预配部署。

有关详细信息，请参阅部署类型指南。

后续步骤

详细了解支持 Azure OpenAI 的基础模型。

反馈

此页面是否有帮助？

通过

Azure AI Foundry 模型中 Azure OpenAI 的新增功能

2025 年 10 月

GPT-4o 音频模型已发布

GPT-image-1-mini

PII 内容检测筛选器

2025 年 9 月

GPT-5-codex 现已推出

Sora 视频转视频支持

2025 年 8 月

Sora 图像转视频支持

实时 API 音频模型 GA

预配溢出正式发布 (GA)

适用的 GPT-5 模型

新版本的模型路由器

2025 年 7 月

GPT-image-1 更新（预览版）

2025 年 6 月

codex-mini 和 o3-pro 模型已发布

2025年5月

Sora 视频生成已发布（预览版）

聚焦提示屏蔽（预览版）

模型路由器 （预览版）

2025 年 4 月

WebRTC 的实时 API（预览版）支持

GPT-image-1 已发布（预览版、访问权限受限）

o4-mini 和 o3 模型已发布

GPT-4.1 已发布

gpt-4o 音频模型已发布

2025 年 3 月

响应 API 和 computer-use-preview 模型

预置溢出（预览）

指定内容筛选配置

2025 年 2 月

GPT-4.5 预览版

存储的补全 API

o3-mini 数据区域标准部署

gpt-4o 迷你音频已发布

2025 年 1 月

o3-mini 已发布

GPT-4o 音频补全

GPT 实时 API 2024-12-17

2024 年 12 月

o1 推理模型，供有限访问

区域可用性

偏好微调（预览版）

存储的补全和蒸馏

GPT-4o 2024-11-20

新的数据区域预配部署类型

后续步骤

反馈

其他资源

模型路由器（预览版）