你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
什么是语音实时 API?
语音实时 API 是一种解决方案,可实现语音代理的低延迟、高质量语音到语音交互。 该 API 专为寻求可缩放且高效的语音驱动体验的开发人员设计,因为它无需手动协调多个组件。 通过将语音识别、生成 AI 和文本集成到单个统一界面中,它为创建无缝体验提供了端到端解决方案。
了解语音交流体验
语音转语音技术正在彻底改变人类如何与系统交互,提供直观的基于语音的解决方案。 传统实现涉及将不同的模块(例如语音转文本、对话管理、文本转语音等)组合在一起。 这种链接可能会增加工程复杂性和最终用户感知的延迟。
随着大型语言模型(LLM)和多模式 AI 的进步,语音实时 API 整合了这些功能,简化了开发人员的工作流。 此方法增强了实时交互,并确保高质量的自然通信,使其适用于需要即时、支持语音的解决方案的行业。
语音实时 API 的关键场景
Azure AI 语音实时 API 非常适合语音驱动交互改善用户体验的方案。 示例包括:
- 联系中心:为客户支持、产品目录导航和自助服务解决方案开发交互式语音机器人。
- 汽车助手:启用免提车载语音助手,用于执行命令、导航和一般查询。
- 教育:为交互式培训和教育创建支持语音的学习同伴和虚拟导师。
- 公共服务:构建语音代理,帮助公民提供行政查询和公共服务信息。
- 人力资源:使用支持语音的工具增强人力资源流程,以便员工支持、职业生涯发展和培训。
语音实时 API 的功能
语音实时 API 包括一组全面的功能,用于支持各种用例,并确保卓越的语音交互:
- 广泛的区域设置覆盖:支持超过 15 个区域设置进行语音转文本,并在 140 多个区域设置中提供 600 多种标准语音,用于文本转语音,确保全球可访问性。
- 可自定义输入和输出:对音频输入或自定义语音模型使用短语列表进行轻量级实时自定义,以便进行高级语音识别微调。 使用定制语音为音频输出创建独特且与品牌一致的声音。 请参阅 如何自定义语音实时输入和输出 以了解详细信息。
- 灵活的生成 AI 模型选项: 从多个模型中进行选择,包括 GPT-5、GPT-4.1、GPT-4o、Phi,以及更符合对话要求。
-
高级对话功能:
- 噪音抑制:减少环境噪音,以便更清晰的通信。
- 回声消除:防止代理拾取自己的响应。
- 可靠的中断检测:确保准确识别对话期间的中断。
- 高级轮次结束检测:允许自然暂停,而无需过早结束交互。
- 虚拟形象集成:提供与音频输出同步的标准或可自定义的头像,为语音代理提供视觉标识。
- 函数调用:使用 VoiceRAG 模式实现外部操作、工具使用和上下文关联响应。
工作原理
语音实时 API 完全托管,无需客户处理后端业务流程或组件集成。 开发人员提供音频输入,并接收音频输出、虚拟形象视觉和动作触发器——所有这些都以最小的延迟。 无需部署或管理任何生成式 AI 模型,因为 API 处理所有底层基础结构。
API 设计和兼容性
语音实时 API 旨在与 Azure OpenAI 实时 API 兼容。 支持的实时事件主要与
语音实时 API 独有的功能都是可选项,用户可以根据需要选择添加使用。 可以将 Azure AI 语音功能(例如噪音抑制、回声取消和高级轮次检测)添加到现有应用程序,而无需更改现有体系结构。
通过 WebSocket 事件支持该 API,因此可以轻松实现服务器到服务器集成。 后端或中间层服务通过 WebSocket 连接到语音实时 API。 可以直接使用 WebSocket 消息与 API 交互。
支持的模型和区域
为语音代理的智能提供支持,可以在 GPT-Realtime、GPT-5、GPT-4.1、Phi 等选项之间灵活地选择生成 AI 模型。 不同的生成 AI 模型提供不同类型的功能、智能级别、推理的速度/延迟和成本。 根据业务和用例最重要的内容,可以选择最适合需求的模型。
所有原生支持的模型都是完全托管的,这意味着无需部署模型、担心容量规划或配置吞吐量。 可以使用所需的模型,语音实时 API 负责其余部分。
语音实时 API 支持以下模型。 有关支持的区域,请参阅 Azure AI 语音服务区域。
| 型号 | DESCRIPTION |
|---|---|
gpt-realtime |
GPT 实时 + 使用 Azure 文本转语音的选项,包括音频的定制声音。 |
gpt-4o-mini-realtime-preview |
GPT-4o mini 实时预览 + 使用 Azure 文本转语音的选项,包括音频的定制声音。 |
gpt-4o |
GPT-4o + 通过 Azure 语音转文字的音频输入 + 通过 Azure 文字转语音的音频输出,包括自定义语音。 |
gpt-4o-mini |
GPT-4o mini + 通过 Azure 语音转文本进行音频输入 + 通过 Azure 文本转语音进行音频输出,包括定制声音。 |
gpt-4.1 |
GPT-4.1 + 通过 Azure 语音到文本的音频输入 + 通过 Azure 文本到语音的音频输出,包括自定义语音。 |
gpt-4.1-mini |
GPT-4.1 微型版,音频输入通过 Azure 语音转文本,音频输出通过 Azure 文本转语音(包括自定义语音)。 |
gpt-5 |
GPT-5 + 通过 Azure 语音转文本进行音频输入 + 通过 Azure 文本转语音进行音频输出,包括定制声音。 |
gpt-5-mini |
GPT-5 mini + 通过 Azure 语音转文本进行音频输入 + 通过 Azure 文本转语音进行音频输出,包括定制声音。 |
gpt-5-nano |
GPT-5 nano + 利用 Azure 语音转文本技术进行音频输入,利用 Azure 文本转语音技术进行音频输出,包括自定义语音。 |
gpt-5-chat |
GPT-5 聊天功能,通过 Azure 语音转文本实现音频输入,通过 Azure 文本转语音实现音频输出,并支持自定义语音。 |
phi4-mm-realtime |
Phi4-mm + 通过 Azure 文本转语音进行音频输出,包括定制声音。 |
phi4-mini |
Phi4-mm + 通过 Azure 语音转文本进行音频输入 + 通过 Azure 文本转语音进行音频输出,包括定制声音。 |
将语音实时 API 与其他语音与语音解决方案进行比较
语音实时 API 是协调多个组件(如语音识别、生成 AI 和文本转语音)的替代方法。 此业务流程可能很复杂且耗时,需要大量的工程工作才能集成和维护。 语音实时 API 通过为所有这些组件提供单个界面来简化此过程,使开发人员能够专注于生成其应用程序,而不是管理底层基础结构。
若要满足要求,可以生成自己的解决方案或使用语音实时 API。 下表比较了以下方法:
| 应用程序要求 | 自制 | 语音实时 API |
|---|---|---|
| 区域设置覆盖范围广,准确度高(音频输入) | ✅ | ✅ |
| 保持品牌和角色个性(音频输出) | ✅ | ✅ |
| 对话增强 | ❌ | ✅ |
| 选择生成式 AI 模型 | ✅ | ✅ |
| 带有文本转语音虚拟形象的视觉输出 | ✅ | ✅ |
| 工程成本低 | ❌ | ✅ |
| 最终用户感知到的低延迟 | ❌ | ✅ |
定价
语音实时 API 的定价从 2025 年 7 月 1 日起生效。
语音实时 API 的定价基于使用的生成 AI 模型分层(Pro、 Basic 和 Lite)。
您未选择层级。 您选择一个生成型 AI 模型,并应用相应的定价。
| 定价类别 | 模型 |
|---|---|
| 语音直播专业人员 |
gpt-realtime、gpt-4o、gpt-4.1、gpt-5、gpt-5-chat |
| 语音直播基础 |
gpt-4o-mini-realtime-preview、gpt-4o-mini、gpt-4.1-mini、gpt-5-mini |
| 语音直播轻量版 |
gpt-5-nano,phi4-mm-realtime, phi4-mini |
如果选择为语音输出使用自定义语音,则需单独为自定义语音模型训练和托管付费。 有关详细信息,请参阅 文本转语音 - 自定义语音 - 专业 定价。 自定义语音是有限的访问功能。 详细了解如何创建自定义语音。
虚拟形象单独按 此处发布的交互式虚拟形象定价收费。
有关自定义语音和虚拟形象培训费用的详细信息, 请参阅此定价说明。
示例定价方案
下面是一些示例定价方案,可帮助你了解语音实时 API 的收费方式:
方案 1
使用标准 Azure AI 语音输入、GPT-4.1、自定义 Azure AI 语音输出和自定义头像构建的客户服务代理。
你将按照语音直播专业费率进行收费:
- 文本
- 使用 Azure AI 语音的音频 - 标准
- 使用 Azure AI 语音的音频 - 自定义
对于训练和模型托管,你需要分别付费。
- 自定义语音 - 专业
- 自定义头像
方案 2
使用 gpt-realtime 本机音频输入和标准 Azure AI 语音输出构建的学习代理。
你将按照语音直播专业费率进行收费:
- 文本
- 使用
gpt-realtime的本机音频 - 使用 Azure AI 语音的音频 - 标准
方案 3
使用 gpt-4o-mini-realtime-preview 本机音频输入、标准 Azure AI 语音输出及标准虚拟形象构建的人才面试代理。
您将按语音直播基本费率收费:
- 文本
- 使用
gpt-4o-mini-realtime-preview的本机音频 - 使用 Azure AI 语音的音频 - 标准
您将被单独收费:
- 文本转语音头像(标准)
方案 4
使用 phi4-mm-realtime 和 Azure 自定义语音构建的汽车内助手。
你将按语音实时精简版费率收费,适用于以下服务:
- 文本
- 使用
phi4-mm-realtime的本机音频
你将按照语音直播专业费率进行收费:
- 使用 Azure AI 语音的音频 - 自定义
对于训练和模型托管,你需要分别付费。
- 自定义语音 - 专业
令牌使用情况和成本估算
令牌是生成 AI 模型用于处理输入和生成输出的单位。
可以使用语音实时 API 根据音频长度估算不同模型系列的令牌使用情况。 以下令牌计算适用于每个模型系列:
| 模型系列 | 输入音频(每秒标记数) | 输出音频(每秒令牌数) |
|---|---|---|
| Azure OpenAI 模型 | 约 10 个标记 | 约 20 个标记 |
| Phi 模型 | 约 12.5 个标记 | 约 20 个标记 |
还需为缓存的音频和文本输入付费,包括对话的提示和上下文。
相关内容
- 详细了解 如何使用语音实时 API
- 试用 语音实时 API 快速入门
- 请参阅 语音实时 API 参考