你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

实时语音智能体的 Voice Live API

2025-09-29

什么是语音实时 API？

语音实时 API 是一种解决方案，可实现语音代理的低延迟、高质量语音到语音交互。该 API 专为寻求可缩放且高效的语音驱动体验的开发人员设计，因为它无需手动协调多个组件。通过将语音识别、生成 AI 和文本集成到单个统一界面中，它为创建无缝体验提供了端到端解决方案。

了解语音交流体验

语音转语音技术正在彻底改变人类如何与系统交互，提供直观的基于语音的解决方案。传统实现涉及将不同的模块（例如语音转文本、对话管理、文本转语音等）组合在一起。这种链接可能会增加工程复杂性和最终用户感知的延迟。

随着大型语言模型（LLM）和多模式 AI 的进步，语音实时 API 整合了这些功能，简化了开发人员的工作流。此方法增强了实时交互，并确保高质量的自然通信，使其适用于需要即时、支持语音的解决方案的行业。

语音实时 API 的关键场景

Azure AI 语音实时 API 非常适合语音驱动交互改善用户体验的方案。示例包括：

联系中心：为客户支持、产品目录导航和自助服务解决方案开发交互式语音机器人。
汽车助手：启用免提车载语音助手，用于执行命令、导航和一般查询。
教育：为交互式培训和教育创建支持语音的学习同伴和虚拟导师。
公共服务：构建语音代理，帮助公民提供行政查询和公共服务信息。
人力资源：使用支持语音的工具增强人力资源流程，以便员工支持、职业生涯发展和培训。

语音实时 API 的功能

语音实时 API 包括一组全面的功能，用于支持各种用例，并确保卓越的语音交互：

广泛的区域设置覆盖：支持超过 15 个区域设置进行语音转文本，并在 140 多个区域设置中提供 600 多种标准语音，用于文本转语音，确保全球可访问性。
可自定义输入和输出：对音频输入或自定义语音模型使用短语列表进行轻量级实时自定义，以便进行高级语音识别微调。使用定制语音为音频输出创建独特且与品牌一致的声音。请参阅如何自定义语音实时输入和输出以了解详细信息。
灵活的生成 AI 模型选项：从多个模型中进行选择，包括 GPT-5、GPT-4.1、GPT-4o、Phi，以及更符合对话要求。
高级对话功能：
- 噪音抑制：减少环境噪音，以便更清晰的通信。
- 回声消除：防止代理拾取自己的响应。
- 可靠的中断检测：确保准确识别对话期间的中断。
- 高级轮次结束检测：允许自然暂停，而无需过早结束交互。
虚拟形象集成：提供与音频输出同步的标准或可自定义的头像，为语音代理提供视觉标识。
函数调用：使用 VoiceRAG 模式实现外部操作、工具使用和上下文关联响应。

工作原理

语音实时 API 完全托管，无需客户处理后端业务流程或组件集成。开发人员提供音频输入，并接收音频输出、虚拟形象视觉和动作触发器——所有这些都以最小的延迟。无需部署或管理任何生成式 AI 模型，因为 API 处理所有底层基础结构。

API 设计和兼容性

语音实时 API 旨在与 Azure OpenAI 实时 API 兼容。支持的实时事件主要与 Azure OpenAI 实时 API 事件保持一致，但< c1 > 语音实时 API 使用指南中介绍了一些例外情况。

语音实时 API 独有的功能都是可选项，用户可以根据需要选择添加使用。可以将 Azure AI 语音功能（例如噪音抑制、回声取消和高级轮次检测）添加到现有应用程序，而无需更改现有体系结构。

通过 WebSocket 事件支持该 API，因此可以轻松实现服务器到服务器集成。后端或中间层服务通过 WebSocket 连接到语音实时 API。可以直接使用 WebSocket 消息与 API 交互。

支持的模型和区域

为语音代理的智能提供支持，可以在 GPT-Realtime、GPT-5、GPT-4.1、Phi 等选项之间灵活地选择生成 AI 模型。不同的生成 AI 模型提供不同类型的功能、智能级别、推理的速度/延迟和成本。根据业务和用例最重要的内容，可以选择最适合需求的模型。

所有原生支持的模型都是完全托管的，这意味着无需部署模型、担心容量规划或配置吞吐量。可以使用所需的模型，语音实时 API 负责其余部分。

语音实时 API 支持以下模型。有关支持的区域，请参阅 Azure AI 语音服务区域。

型号	DESCRIPTION
`gpt-realtime`	GPT 实时 + 使用 Azure 文本转语音的选项，包括音频的定制声音。
`gpt-4o-mini-realtime-preview`	GPT-4o mini 实时预览 + 使用 Azure 文本转语音的选项，包括音频的定制声音。
`gpt-4o`	GPT-4o + 通过 Azure 语音转文字的音频输入 + 通过 Azure 文字转语音的音频输出，包括自定义语音。
`gpt-4o-mini`	GPT-4o mini + 通过 Azure 语音转文本进行音频输入 + 通过 Azure 文本转语音进行音频输出，包括定制声音。
`gpt-4.1`	GPT-4.1 + 通过 Azure 语音到文本的音频输入 + 通过 Azure 文本到语音的音频输出，包括自定义语音。
`gpt-4.1-mini`	GPT-4.1 微型版，音频输入通过 Azure 语音转文本，音频输出通过 Azure 文本转语音（包括自定义语音）。
`gpt-5`	GPT-5 + 通过 Azure 语音转文本进行音频输入 + 通过 Azure 文本转语音进行音频输出，包括定制声音。
`gpt-5-mini`	GPT-5 mini + 通过 Azure 语音转文本进行音频输入 + 通过 Azure 文本转语音进行音频输出，包括定制声音。
`gpt-5-nano`	GPT-5 nano + 利用 Azure 语音转文本技术进行音频输入，利用 Azure 文本转语音技术进行音频输出，包括自定义语音。
`gpt-5-chat`	GPT-5 聊天功能，通过 Azure 语音转文本实现音频输入，通过 Azure 文本转语音实现音频输出，并支持自定义语音。
`phi4-mm-realtime`	Phi4-mm + 通过 Azure 文本转语音进行音频输出，包括定制声音。
`phi4-mini`	Phi4-mm + 通过 Azure 语音转文本进行音频输入 + 通过 Azure 文本转语音进行音频输出，包括定制声音。

将语音实时 API 与其他语音与语音解决方案进行比较

语音实时 API 是协调多个组件（如语音识别、生成 AI 和文本转语音）的替代方法。此业务流程可能很复杂且耗时，需要大量的工程工作才能集成和维护。语音实时 API 通过为所有这些组件提供单个界面来简化此过程，使开发人员能够专注于生成其应用程序，而不是管理底层基础结构。

若要满足要求，可以生成自己的解决方案或使用语音实时 API。下表比较了以下方法：

应用程序要求	自制	语音实时 API
区域设置覆盖范围广，准确度高（音频输入）	✅	✅
保持品牌和角色个性（音频输出）	✅	✅
对话增强	❌	✅
选择生成式 AI 模型	✅	✅
带有文本转语音虚拟形象的视觉输出	✅	✅
工程成本低	❌	✅
最终用户感知到的低延迟	❌	✅

定价

语音实时 API 的定价从 2025 年 7 月 1 日起生效。

语音实时 API 的定价基于使用的生成 AI 模型分层（Pro、 Basic 和 Lite）。

您未选择层级。您选择一个生成型 AI 模型，并应用相应的定价。

定价类别	模型
语音直播专业人员	`gpt-realtime`、`gpt-4o`、`gpt-4.1`、`gpt-5`、`gpt-5-chat`
语音直播基础	`gpt-4o-mini-realtime-preview`、`gpt-4o-mini`、`gpt-4.1-mini`、`gpt-5-mini`
语音直播轻量版	`gpt-5-nano`，`phi4-mm-realtime`， `phi4-mini`

如果选择为语音输出使用自定义语音，则需单独为自定义语音模型训练和托管付费。有关详细信息，请参阅文本转语音 - 自定义语音 - 专业定价。自定义语音是有限的访问功能。详细了解如何创建自定义语音。

虚拟形象单独按此处发布的交互式虚拟形象定价收费。

有关自定义语音和虚拟形象培训费用的详细信息，请参阅此定价说明。

示例定价方案

下面是一些示例定价方案，可帮助你了解语音实时 API 的收费方式：

方案 1

使用标准 Azure AI 语音输入、GPT-4.1、自定义 Azure AI 语音输出和自定义头像构建的客户服务代理。

你将按照语音直播专业费率进行收费：

文本
使用 Azure AI 语音的音频 - 标准
使用 Azure AI 语音的音频 - 自定义

对于训练和模型托管，你需要分别付费。

自定义语音 - 专业
自定义头像

方案 2

使用 gpt-realtime 本机音频输入和标准 Azure AI 语音输出构建的学习代理。

你将按照语音直播专业费率进行收费：

文本
使用 gpt-realtime 的本机音频
使用 Azure AI 语音的音频 - 标准

方案 3

使用 gpt-4o-mini-realtime-preview 本机音频输入、标准 Azure AI 语音输出及标准虚拟形象构建的人才面试代理。

您将按语音直播基本费率收费：

文本
使用 gpt-4o-mini-realtime-preview 的本机音频
使用 Azure AI 语音的音频 - 标准

您将被单独收费：

文本转语音头像（标准）

方案 4

使用 phi4-mm-realtime 和 Azure 自定义语音构建的汽车内助手。

你将按语音实时精简版费率收费，适用于以下服务：

文本
使用 phi4-mm-realtime 的本机音频

你将按照语音直播专业费率进行收费：

使用 Azure AI 语音的音频 - 自定义

对于训练和模型托管，你需要分别付费。

自定义语音 - 专业

令牌使用情况和成本估算

令牌是生成 AI 模型用于处理输入和生成输出的单位。 

可以使用语音实时 API 根据音频长度估算不同模型系列的令牌使用情况。以下令牌计算适用于每个模型系列：

模型系列	输入音频（每秒标记数）	输出音频（每秒令牌数）
Azure OpenAI 模型	约 10 个标记	约 20 个标记
Phi 模型	约 12.5 个标记	约 20 个标记

还需为缓存的音频和文本输入付费，包括对话的提示和上下文。

反馈

此页面是否有帮助？

通过

实时语音智能体的 Voice Live API

什么是语音实时 API？

了解语音交流体验

语音实时 API 的关键场景

语音实时 API 的功能

工作原理

API 设计和兼容性

支持的模型和区域

将语音实时 API 与其他语音与语音解决方案进行比较

定价

示例定价方案

方案 1

方案 2

方案 3

方案 4

令牌使用情况和成本估算

相关内容

反馈

其他资源