你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

如何自定义语音实时输入和输出

2025-09-26

注释

此功能目前处于公开预览状态。此预览版在没有服务级别协议的情况下提供，不建议用于生产工作负荷。某些功能可能不受支持或者受限。有关详细信息，请参阅 Microsoft Azure 预览版补充使用条款。

语音直播提供了多种选项，用于使用自定义模型优化性能和质量。当前提供以下自定义选项：

语音输入自定义：
- 短语列表：基于作为会话配置的一部分提供的字词或短语列表的轻型实时自定义，以帮助提高识别质量。请参阅使用短语列表提高识别准确性，了解详细信息。
- 自定义语音：使用自定义语音，可以评估和提高应用程序和产品的语音识别的准确性，并微调你的业务需求的识别质量。请参阅什么是自定义语音？了解详细信息。
语音输出自定义：
- 自定义词典：自定义词典允许你轻松自定义标准 Azure 文本转语音和自定义语音的发音，以提高用例的语音合成准确性。有关详细信息，请参阅自定义词典以了解更多关于文本转语音的内容。
- 自定义语音：自定义语音允许你为应用程序创建一种自定义合成语音。使用自定义语音，可以通过提供人工语音示例作为微调数据，为品牌或角色构建高度自然的声音。请参阅什么是自定义语音？了解详细信息。
- 自定义头像：自定义文本转语音头像允许你为应用程序创建自定义的一种合成聊天头像。使用自定义文本转语音虚拟形象，可以通过提供所选演员的视频录制数据，为产品或品牌构建独特的自然形象。请参阅什么是自定义文本转语音头像？了解详细信息。

语音输入自定义

短语列表

对音频输入使用短语列表进行轻型实时自定义。若要配置短语列表，可以在邮件中 session.update 设置phrase_list。

{
    "session": {
        "input_audio_transcription": {
            "model": "azure-speech",
            "phrase_list": ["Neo QLED TV", "TUF Gaming", "AutoQuote Explorer"]
        }
    }
}

注释

短语列表目前不支持 gpt-realtime、gpt-4o-mini-realtime 和 phi4-mm-realtime。若要了解有关短语列表的详细信息，请参阅语音转文本短语列表。

自定义语音配置

可以使用custom_speech字段指定自定义语音模型。此字段定义为字典，其中每个键表示区域设置代码，每个值对应于 Model ID 自定义语音模型。有关自定义语音的详细信息，请参阅什么是自定义语音？。

语音直播支持结合使用基本模型和自定义模型，只要每种类型在每个区域设置中都是唯一的，总共最多可以指定 10 种语言。

使用自定义语音模型的示例会话配置。在这种情况下，如果检测到的语言是英语，则使用基础模型，如果检测到的语言为中文，则使用自定义语音模型。

{
  "session": {
    "input_audio_transcription": {
      "model": "azure-speech",
      "language": "en",
      "custom_speech": {
        "zh-CN": "847cb03d-7f22-4b11-444-e1be1d77bf17"
      }
    }
  }
}

注释

若要将自定义语音模型与语音实时 API 配合使用，该模型必须可用于用于调用语音实时 API 的同一 Azure AI Foundry 资源。如果在不同的 Azure AI Foundry 或 Azure AI 语音资源上训练了模型，则必须将该模型复制到用于调用语音实时 API 的资源。你单独为自定义语音训练和模型托管付费。

语音输出自定义

自定义词典

使用 custom_lexicon_url 字符串属性为标准 Azure 文字转语音和自定义语音定制发音。若要详细了解如何设置自定义词典的格式（与语音合成标记语言（SSML 相同），请参阅文本转语音的自定义词典。

{
  "voice": {
    "name": "en-US-Ava:DragonHDLatestNeural",
    "type": "azure-standard",
    "temperature": 0.8, // optional
    "custom_lexicon_url": "<custom lexicon url>"
  }
}

Azure 自定义语音

可以将自定义语音用于音频输出。有关如何创建自定义语音的信息，请参阅什么是自定义语音。

{
  "voice": {
    "name": "en-US-CustomNeural",
    "type": "azure-custom",
    "endpoint_id": "your-endpoint-id", // a guid string
    "temperature": 0.8 // optional, value range 0.0-1.0, only take effect when using HD voices
  }
}

注释

Azure 自定义头像

文本转语音虚拟形象将文本转换为拟真人物（标准虚拟形象或自定义文本转语音虚拟形象）以自然声音说话的数字视频。

自定义头像的配置与标准头像的配置不同。有关详细示例，请参阅如何使用语音实时 API - Azure 文本转语音头像。

注释

若要将自定义语音模型与语音实时 API 配合使用，该模型必须可用于用于调用语音实时 API 的同一 Azure AI Foundry 资源。如果在不同的 Azure AI Foundry 或 Azure AI 语音资源上训练了模型，则必须将该模型复制到用于调用语音实时 API 的资源。你单独为自定义虚拟形象训练和模型托管付费。

试用语音实时 API 快速入门
详细了解如何使用语音实时 API

反馈

此页面是否有帮助？