你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

实时语音智能体的 Voice Live API

什么是语音实时 API?

语音实时 API 是一种解决方案,可实现语音代理的低延迟、高质量语音到语音交互。 该 API 专为寻求可缩放且高效的语音驱动体验的开发人员设计,因为它无需手动协调多个组件。 通过将语音识别、生成 AI 和文本集成到单个统一界面中,它为创建无缝体验提供了端到端解决方案。

了解语音交流体验

语音转语音技术正在彻底改变人类如何与系统交互,提供直观的基于语音的解决方案。 传统实现涉及将不同的模块(例如语音转文本、对话管理、文本转语音等)组合在一起。 这种链接可能会增加工程复杂性和最终用户感知的延迟。

随着大型语言模型(LLM)和多模式 AI 的进步,语音实时 API 整合了这些功能,简化了开发人员的工作流。 此方法增强了实时交互,并确保高质量的自然通信,使其适用于需要即时、支持语音的解决方案的行业。

语音实时 API 的关键场景

Azure AI 语音实时 API 非常适合语音驱动交互改善用户体验的方案。 示例包括:

  • 联系中心:为客户支持、产品目录导航和自助服务解决方案开发交互式语音机器人。
  • 汽车助手:启用免提车载语音助手,用于执行命令、导航和一般查询。
  • 教育:为交互式培训和教育创建支持语音的学习同伴和虚拟导师。
  • 公共服务:构建语音代理,帮助公民提供行政查询和公共服务信息。
  • 人力资源:使用支持语音的工具增强人力资源流程,以便员工支持、职业生涯发展和培训。

语音实时 API 的功能

语音实时 API 包括一组全面的功能,用于支持各种用例,并确保卓越的语音交互:

  • 广泛的区域设置覆盖:支持超过 15 个区域设置进行语音转文本,并在 140 多个区域设置中提供 600 多种标准语音,用于文本转语音,确保全球可访问性。
  • 可自定义输入和输出:对音频输入或自定义语音模型使用短语列表进行轻量级实时自定义,以便进行高级语音识别微调。 使用定制语音为音频输出创建独特且与品牌一致的声音。 请参阅 如何自定义语音实时输入和输出 以了解详细信息。
  • 灵活的生成 AI 模型选项从多个模型中进行选择,包括 GPT-5、GPT-4.1、GPT-4o、Phi,以及更符合对话要求。
  • 高级对话功能
    • 噪音抑制:减少环境噪音,以便更清晰的通信。
    • 回声消除:防止代理拾取自己的响应。
    • 可靠的中断检测:确保准确识别对话期间的中断。
    • 高级轮次结束检测:允许自然暂停,而无需过早结束交互。
  • 虚拟形象集成:提供与音频输出同步的标准或可自定义的头像,为语音代理提供视觉标识。
  • 函数调用:使用 VoiceRAG 模式实现外部操作、工具使用和上下文关联响应

工作原理

语音实时 API 完全托管,无需客户处理后端业务流程或组件集成。 开发人员提供音频输入,并接收音频输出、虚拟形象视觉和动作触发器——所有这些都以最小的延迟。 无需部署或管理任何生成式 AI 模型,因为 API 处理所有底层基础结构。

API 设计和兼容性

语音实时 API 旨在与 Azure OpenAI 实时 API 兼容。 支持的实时事件主要与 Azure OpenAI 实时 API 事件保持一致,但< c1 > 语音实时 API 使用指南中介绍了一些例外情况。

语音实时 API 独有的功能都是可选项,用户可以根据需要选择添加使用。 可以将 Azure AI 语音功能(例如噪音抑制、回声取消和高级轮次检测)添加到现有应用程序,而无需更改现有体系结构。

通过 WebSocket 事件支持该 API,因此可以轻松实现服务器到服务器集成。 后端或中间层服务通过 WebSocket 连接到语音实时 API。 可以直接使用 WebSocket 消息与 API 交互。

支持的模型和区域

为语音代理的智能提供支持,可以在 GPT-Realtime、GPT-5、GPT-4.1、Phi 等选项之间灵活地选择生成 AI 模型。 不同的生成 AI 模型提供不同类型的功能、智能级别、推理的速度/延迟和成本。 根据业务和用例最重要的内容,可以选择最适合需求的模型。

所有原生支持的模型都是完全托管的,这意味着无需部署模型、担心容量规划或配置吞吐量。 可以使用所需的模型,语音实时 API 负责其余部分。

语音实时 API 支持以下模型。 有关支持的区域,请参阅 Azure AI 语音服务区域

型号 DESCRIPTION
gpt-realtime GPT 实时 + 使用 Azure 文本转语音的选项,包括音频的定制声音。
gpt-4o-mini-realtime-preview GPT-4o mini 实时预览 + 使用 Azure 文本转语音的选项,包括音频的定制声音。
gpt-4o GPT-4o + 通过 Azure 语音转文字的音频输入 + 通过 Azure 文字转语音的音频输出,包括自定义语音。
gpt-4o-mini GPT-4o mini + 通过 Azure 语音转文本进行音频输入 + 通过 Azure 文本转语音进行音频输出,包括定制声音。
gpt-4.1 GPT-4.1 + 通过 Azure 语音到文本的音频输入 + 通过 Azure 文本到语音的音频输出,包括自定义语音。
gpt-4.1-mini GPT-4.1 微型版,音频输入通过 Azure 语音转文本,音频输出通过 Azure 文本转语音(包括自定义语音)。
gpt-5 GPT-5 + 通过 Azure 语音转文本进行音频输入 + 通过 Azure 文本转语音进行音频输出,包括定制声音。
gpt-5-mini GPT-5 mini + 通过 Azure 语音转文本进行音频输入 + 通过 Azure 文本转语音进行音频输出,包括定制声音。
gpt-5-nano GPT-5 nano + 利用 Azure 语音转文本技术进行音频输入,利用 Azure 文本转语音技术进行音频输出,包括自定义语音。
gpt-5-chat GPT-5 聊天功能,通过 Azure 语音转文本实现音频输入,通过 Azure 文本转语音实现音频输出,并支持自定义语音。
phi4-mm-realtime Phi4-mm + 通过 Azure 文本转语音进行音频输出,包括定制声音。
phi4-mini Phi4-mm + 通过 Azure 语音转文本进行音频输入 + 通过 Azure 文本转语音进行音频输出,包括定制声音。

将语音实时 API 与其他语音与语音解决方案进行比较

语音实时 API 是协调多个组件(如语音识别、生成 AI 和文本转语音)的替代方法。 此业务流程可能很复杂且耗时,需要大量的工程工作才能集成和维护。 语音实时 API 通过为所有这些组件提供单个界面来简化此过程,使开发人员能够专注于生成其应用程序,而不是管理底层基础结构。

若要满足要求,可以生成自己的解决方案或使用语音实时 API。 下表比较了以下方法:

应用程序要求 自制 语音实时 API
区域设置覆盖范围广,准确度高(音频输入)
保持品牌和角色个性(音频输出)
对话增强
选择生成式 AI 模型
带有文本转语音虚拟形象的视觉输出
工程成本低
最终用户感知到的低延迟

定价

语音实时 API 的定价从 2025 年 7 月 1 日起生效。

语音实时 API 的定价基于使用的生成 AI 模型分层(ProBasicLite)。

您未选择层级。 您选择一个生成型 AI 模型,并应用相应的定价。

定价类别 模型
语音直播专业人员 gpt-realtimegpt-4ogpt-4.1gpt-5gpt-5-chat
语音直播基础 gpt-4o-mini-realtime-previewgpt-4o-minigpt-4.1-minigpt-5-mini
语音直播轻量版 gpt-5-nanophi4-mm-realtimephi4-mini

如果选择为语音输出使用自定义语音,则需单独为自定义语音模型训练和托管付费。 有关详细信息,请参阅 文本转语音 - 自定义语音 - 专业 定价。 自定义语音是有限的访问功能。 详细了解如何创建自定义语音。

虚拟形象单独按 此处发布的交互式虚拟形象定价收费。

有关自定义语音和虚拟形象培训费用的详细信息, 请参阅此定价说明。

示例定价方案

下面是一些示例定价方案,可帮助你了解语音实时 API 的收费方式:

方案 1

使用标准 Azure AI 语音输入、GPT-4.1、自定义 Azure AI 语音输出和自定义头像构建的客户服务代理。

你将按照语音直播专业费率进行收费:

  • 文本
  • 使用 Azure AI 语音的音频 - 标准
  • 使用 Azure AI 语音的音频 - 自定义

对于训练和模型托管,你需要分别付费。

  • 自定义语音 - 专业
  • 自定义头像

方案 2

使用 gpt-realtime 本机音频输入和标准 Azure AI 语音输出构建的学习代理。

你将按照语音直播专业费率进行收费:

  • 文本
  • 使用 gpt-realtime 的本机音频
  • 使用 Azure AI 语音的音频 - 标准

方案 3

使用 gpt-4o-mini-realtime-preview 本机音频输入、标准 Azure AI 语音输出及标准虚拟形象构建的人才面试代理。

您将按语音直播基本费率收费:

  • 文本
  • 使用 gpt-4o-mini-realtime-preview 的本机音频
  • 使用 Azure AI 语音的音频 - 标准

您将被单独收费:

  • 文本转语音头像(标准)

方案 4

使用 phi4-mm-realtime 和 Azure 自定义语音构建的汽车内助手。

你将按语音实时精简版费率收费,适用于以下服务:

  • 文本
  • 使用 phi4-mm-realtime 的本机音频

你将按照语音直播专业费率进行收费:

  • 使用 Azure AI 语音的音频 - 自定义

对于训练和模型托管,你需要分别付费。

  • 自定义语音 - 专业

令牌使用情况和成本估算

令牌是生成 AI 模型用于处理输入和生成输出的单位。 

可以使用语音实时 API 根据音频长度估算不同模型系列的令牌使用情况。 以下令牌计算适用于每个模型系列:

模型系列 输入音频(每秒标记数) 输出音频(每秒令牌数)
Azure OpenAI 模型 约 10 个标记 约 20 个标记
Phi 模型 约 12.5 个标记 约 20 个标记

还需为缓存的音频和文本输入付费,包括对话的提示和上下文。