你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

什么是自定义文本转语音虚拟形象？

借助自定义文本转语音虚拟形象，可以为应用程序创建独特的自定义合成语音虚拟形象。使用自定义文本转语音虚拟形象，可以通过提供所选参与者的视频录制数据来为产品或品牌打造独特且外观自然的虚拟形象。如果你还使用了同一参与者的专业声音或虚拟形象语音同步，虚拟形象会更加真实。

重要说明

根据资格和使用条件，自定义文本转语音虚拟形象访问是受限的。在引入表单上请求访问。

工作原理

创建自定义文本转语音虚拟形象需要至少 10 分钟的虚拟形象发音人视频录制内容作为训练数据，并且必须先获得参与者的同意。

自定义虚拟形象模型可以支持：

在开始之前，需要考虑下面的一些注意事项：

用例： 是否要使用虚拟形象创建视频内容，如培训材料或产品简介？是否希望在与客户的实时对话中将头像用作虚拟销售代表？对于不同的用例，存在一些录制要求。

虚拟形象的外观：自定义文本转语音虚拟形象外观与训练数据中的虚拟形象发音人相同，我们不支持自定义虚拟形象模型的外观，如衣服、发型等。因此，如果应用程序需要同一虚拟形象的多种风格，则应为每个风格准备训练数据，因为虚拟形象的每个风格都将被视为单个虚拟形象模型。

头像的声音： 自定义文本转语音化身可以使用标准语音、专业语音，并支持语音同步。

下面是创建自定义文本转语音虚拟形象的步骤概述：

获取同意视频。 获取朗读同意声明的发音人的视频录制。他们必须同意使用图像和语音数据来训练自定义文本到语音虚拟形象模型及其语音的合成版本。
准备训练数据。 确保视频录制格式正确。最好在专业质量的视频拍摄工作室中录制视频，以获得干净的背景图像。生成的虚拟形象质量在很大程度上取决于用于训练的录制视频。讲话速度、身体姿势、面部表情、手势、参与者位置的一致性，以及视频录制的照明条件等因素对于创建引人入胜的自定义文本转语音虚拟形象至关重要。请参阅如何准备训练数据了解更多详细信息。
训练虚拟形象模型。 准备好数据后，将数据上传至自定义虚拟形象门户并开始训练模型。在训练期间会执行同意验证。在创建项目之前，请确保有权访问自定义文本转语音虚拟形象功能。
在应用程序中部署和使用虚拟形象模型。

自定义文本转语音虚拟形象模型包含三个组件：文本分析器、文本转语音音频合成器，以及文本转语音虚拟形象视频呈现器。

基于不同语言人类视频的录制示例，使用深度神经网络训练语音虚拟形象模型。支持标准语音和自定义语音的所有语言。

自定义虚拟形象训练仅在以下服务区域中提供：东南亚、西欧和美国西部 2。可在以下服务区域中使用自定义虚拟形象模型：东南亚、北欧、西欧、瑞典中部、美国中南部、美国东部 2 和美国西部 2。

自定义语音和自定义文本转语音头像是单独的功能。可以独立使用它们，也可以一起使用。如果还要为参与者创建专业声音，则虚拟形象可能非常逼真。

自定义文本转语音虚拟形象可以使用标准声音或定制声音作为虚拟形象的声音。有关详细信息，请参阅虚拟形象声音和语言。

自定义头像有两种类型的自定义语音：

头像语音同步：在自定义头像训练期间启用头像语音同步选项时，将同时训练一个使用头像才艺相似性的合成语音模型与头像。此语音专门与自定义头像相关联，不能独立使用。目前，东南亚、西欧和美国西部 2 区域支持头像的语音同步。
专业语音：可以微调专业语音。专业语音微调和自定义文本转语音头像是单独的功能。可以独立使用它们，也可以一起使用。如果选择将它们一起使用，则需要分别申请专业语音微调和自定义文本到语音头像，并且需要为专业语音微调和自定义文本到语音头像单独收费。有关详细信息，请参阅定价页。此外，如果计划将专业语音微调与文本转语音头像结合使用，则需要将自定义语音模型部署到或将自定义语音模型复制到其中一个受虚拟形象支持的区域。

如果微调专业语音并想要将其与自定义头像一起使用，请注意以下几点：

请确保在与自定义头像终结点相同的 Azure AI Foundry 资源中创建自定义语音终结点。根据需要，请参阅训练专业语音模型，将自定义语音模型复制到与自定义头像终结点相同的 Azure AI Foundry 资源。
可以在虚拟形象内容生成页面和实时聊天声音设置的声音列表中看到定制声音选项。
如果使用虚拟形象 API 的批处理合成，请添加 "customVoices" 属性，将自定义语音模型的部署 ID 与请求中的语音名称相关联。有关详细信息，请参阅文本转语音属性。
如果使用虚拟形象 API 的实时合成，请参阅 GitHub 上的示例代码设置定制声音。

此页面是否有帮助？