你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

语音和虚拟形象人才的披露

2025-07-21

重要

仅为方便起见，提供非英语翻译。请参阅 EN-US 版本以获取最终版本的此文档。

本文的目的是帮助语音和化身人才了解他们的声音和图像如何助力创建文本转语音功能的技术。它还包含有关Microsoft如何处理、使用和保留包含人才录制语音和图像的音频和视频文件的重要隐私披露，并帮助Microsoft防止和/或响应对 Azure AI 服务滥用的投诉。

Microsoft致力于负责任地设计 AI。我们希望这一说明能促进技术建设者、语音人才、头像人才和公众对这项技术的预期和有益用途的更大共同理解。

文本转语音关键术语

语音模型： 文本转语音计算机模型，可以模拟目标扬声器的唯一声乐特征。语音模型也称为语音字体或合成语音。语音模型是一组二进制格式的参数，该参数不可读且不包含音频录制。无法反向工程来派生或构造人类说话的录音。

发音人：个人或目标说话人，其声音被录制并用于创建旨在听起来像配音员语音的语音模型。

虚拟形象模型： 文本转语音虚拟形象计算机模型，可以模仿目标参与者的独特面部特征。虚拟形象模型是一组二进制格式的参数，该参数不可读且不包含视频或音频录制。无法通过逆向工程来推导或构建人类表演的视频录制。

虚拟形象发音人：自定义文本转语音虚拟形象模型构建需要对真实人类说话的视频录制进行训练。此人是虚拟形象发音人。客户必须根据虚拟形象人才的所有相关法律法规获得足够的同意，才能使用其图像创建自定义头像。

神经文本语音工作原理

工作原理： 语音到语音的神经文本使用深度神经网络合成语音，这些神经网络“学习”了拼音在自然人语音中组合的方式，而不是使用经典编程或统计方法。除了特定配音演员的录音之外，神经网络文本到语音转换还使用一个源库，其中包含许多不同说话者的语音录音。

相关须知内容：由于神经网络文本转语音功能合成语音的方式，它能够生成原始录制内容中未包含的语音风格，例如语调和情感表达的变化。神经网络文本转语音声音听起来流畅，擅长模仿人们在说话时表现出的自然停顿、个性和犹豫不决。听过通过神经网络文本转语音制作的合成语音的人往往认为这些语音比标准的文本转语音声音更接近人类语音。

Microsoft如何使用它的示例：

预生成的神经语音 是文本转语音的一项功能，它提供“现成”语音模型供客户使用。预生成的神经语音也用于多个Microsoft产品，包括 Edge 浏览器、讲述人、Office 和 Teams。
自定义神经语音 是文本转语音的一项功能，可用于创建一种自定义合成语音模型。以下是自定义神经语音的功能：
- 语言传输 可以用不同于原始录音的语言表达。
- 风格传输 可以表达与原始录音不同的说话风格。例如，新闻播音员语音。
- 语音转换 可以表达与原始语音录制不同的方式。例如，通过改变语气或声调来创造不同角色的声音。
- Microsoft产品和服务中使用的其他语音，如 Cortana。

录制时的期望： 贡献至少300行以用于概念验证语音模型，并贡献大约2,000行来生成用于生产使用的新语音模型。

文本转语音头像的工作原理

工作原理： 文本转语音虚拟化身是基于预构建的神经语音和自定义神经语音构建的，并将文本与语音同步生成虚拟化身的视频内容，不论是使用预构建神经语音还是自定义神经语音。合成过程使用基于虚拟形象发音人视频录制开发的模型进行训练的深度神经网络。模型使用从录制的音频元素中提取的声学特征进行训练，以及从录制的视频元素中提取的物理特征、嘴部运动、面部表情和相关视觉元素。

相关须知内容：合成的文本转语音虚拟形象的面部、身体和动作与虚拟形象发音人高度相似，但文本转语音虚拟形象的声音可能是根据 Microsoft 提供的任何预构建神经语音或根据神经网络定制声音生成的，这包括发音人与虚拟形象发音人是同一人的情况，前提是该个人已授权这类使用。

Microsoft如何使用它的示例：

预生成文本到语音虚拟形象 是 Azure AI 语音文本到语音的一项功能，它提供“现成”文本到语音虚拟形象模型供客户使用。
自定义文本转语音头像 是 Azure AI 语音文本到语音的一项功能，可创建一种自定义合成文本到语音虚拟形象模型。

录制时的预期：你需要为概念验证的自定义虚拟形象模型录制至少 10 分钟的视频，并录制大约 20 分钟的视频，以生成供生产使用的完整自定义虚拟形象模型。

配音员和合成声音：不断发展的关系

认识到语音人才与合成语音之间的整体关系，Microsoft采访了语音人才，以更好地了解他们对技术新发展的看法。我们在 2019 年进行的研究表明，语音人才从神经文本引入语音的功能中获益，例如节省工作室完成录音作业的时间，以及增加完成更多语音表演工作的能力。与此同时，人们对文本转语音技术的发展如何影响其职业有着不同程度的了解。

总的来说，配音员表达了对透明度和清晰性的愿望：

对声音相似度可用于表达的内容和不可用于表达的内容的限制。
允许使用声音相似度的持续使用。
对未来录制机会的潜在影响。
与其声音相似度关联的角色。

更广泛的使用合成语音

传统上，由于机器人声音，文本转语音在采用方面受到限制。大多数用于支持辅助功能，例如，作为失明或视力不佳的人的屏幕阅读器。文本转语音声音也被有言语障碍的人使用。例如，已故的斯蒂芬·霍金就曾使用文本转语音生成的声音。

现在，随着越来越逼真的合成声音和机器和人类之间更熟悉的日常交互的上升，这项技术的使用已经激增和扩大。文本转语音系统支持跨设备和应用程序的语音助手。他们阅读了新闻、搜索结果、公共服务公告、教育内容等。

合成头像的使用更加广泛

与文本到语音的声音类似，虚拟形象现在提供现实的外观、动作和面部表情，并配以逼真的声音。这些演讲头像可用于各种情况，例如在在线培训中呈现内容、代表公司演示演讲、在客户服务设置中与客户交互等等。

Microsoft 在负责任使用文本转语音功能方面的方法

每天，人们都会找到将文本应用于语音技术的新方法，并不是所有人都适合个人或社会。如果被滥用，听起来逼真如人类语音的文本转语音声音或逼真的说话虚拟形象可能会造成危害。例如，如果错误信息活动使用知名公众人物的声音和形象，可能会变得更加有效。

我们认识到，没有完美的方法来防止媒体被修改或明确证明它来自哪里。因此，我们对负责任使用方法的关注点是通过限制自定义版本中这些功能的允许使用情况，并通过实际行动展示我们的价值观，使 Azure AI 语音转换文字功能更加透明。

如果使用Microsoft产品或服务处理生物识别数据，则你负责：（i）向数据主体提供通知，包括保留期和销毁：（二）获得数据主体的同意：和（iii），删除生物识别数据，在适用的数据保护要求下全部适当和必需。 “生物识别数据”将具有 GDPR 第 4 条中所述的含义，以及其他数据保护要求中的等效术语（如果适用）。

神经网络定制声音
自定义文本转语音虚拟形象

若要使用自定义神经语音，我们合同要求客户执行以下作：

从配音演员获得明确的书面许可，以使用该人的声音创建自定义神经语音。
向语音人才提供此文档，以便他们可以了解语音文本的工作原理，以及完成录音过程后如何使用它。
获得配音演员的必要授权，以便Microsoft处理、使用和保留配音演员的音频文件，以便进行与训练数据对照的说话人验证，并按照如下所述使用和保留语音模型。

我们还建议客户执行以下事项：

共享与语音人才一起使用的预期上下文，以便他们知道谁将听到自己的声音，在什么情况下，以及人们能否与语音交互。
确保发音人知道根据其录制内容创建的语音模型可能说出他们未在工作室中具体录制的内容。
讨论他们是否会对语音模型被用于表达某些内容感到不适。

Microsoft使用配音音频文件进行说话人验证

客户必须获得配音人才的许可权限，才能使用其声音为合成语音创建自定义语音模型。此技术保护措施旨在帮助防止滥用我们的服务，例如，防止有人使用录音训练语音模型，并使用模型欺骗语音，而无需说话人的知识或同意。

在 Speech Studio 中，您必须上传一份包含语音人才录制的确认声明的音频文件。 Microsoft保留使用Microsoft说话人识别技术的权利，以验证此录制的确认声明的语音，并将其与训练音频数据进行比对，以确认语音来自同一说话人，或在必要时进行调查以防止Azure AI语音的误用。

Microsoft使用从录制的确认语句文件和训练音频数据中创建的说话人语音签名，仅用于上述目的。 Microsoft 将保留录制的声明文件，保留时长以维持 Microsoft Azure AI 服务的安全性和完整性所需的时间为准。详细了解如何在数据、隐私和安全文档中处理、使用和保留数据。

Microsoft自定义模型的使用

神经网络定制声音
自定义文本转语音虚拟形象

虽然客户保留其自定义神经语音模型的独占使用权限，但Microsoft可以根据需要独立保留自定义神经语音模型的副本。 Microsoft可以使用自定义神经语音模型来保护 Microsoft Azure AI 服务的安全性和完整性。

Microsoft将保护并存储语音人才录制的确认语句和自定义神经语音模型的副本，该模型具有与其他 Azure 服务相同的高级安全性。在Microsoft信任中心了解详细信息。

我们将继续识别并明确说明文本转语音功能的有意、有益且符合预期的用途，这些用途基于人们在判断媒体内容为真实或虚假时所依据的现有社会规范和期望。根据Microsoft的信任原则，Microsoft不会主动监视或审查使用自定义神经语音生成的音频内容。客户完全负责确保使用符合所有适用的法律和法规，并按照客户与语音人才的协议条款。

Microsoft 将发音人数据与神经网络定制声音精简版一起使用

自定义神经语音精简版是公共预览版中的项目类型，可用于在 Speech Studio 上录制 20-50 个语音示例，并创建用于演示和评估的轻型自定义语音模型。录制脚本和测试脚本均由Microsoft预定义。仅当你申请并获得对自定义神经语音的完全访问权限（受适用条款的约束）时，才能更广泛地部署和使用你使用自定义神经语音 lite 创建的合成语音模型。

通过语音工作室提交的合成语音和相关录音将在 90 天内自动删除，除非你获得对自定义神经语音的完全访问权限，并选择部署合成语音，在这种情况下，你将控制其保留期。如果配音员希望在 90 天前删除合成语音和相关录音，他们可以直接在门户中删除它们，或联系其企业执行此作。

此外，在部署使用自定义神经语音精简项目创建的任何合成语音模型之前，语音人才必须提供一个额外的录音，他们确认合成语音将用于演示和评估以外的其他用途。

负责任的部署指南

由于文本转语音是一种可适应的技术，因此确定应或不应使用文本转语音的方式存在灰色区域。为了导航这些内容，我们制定了以下使用合成语音和虚拟形象模型的准则：

保护语音和图像/形象的所有者免受滥用或身份盗窃。
防止虚假和误导性内容的激增。
鼓励在使用者希望与合成内容交互的情况下使用。
鼓励在使用者观察合成内容的生成的情况下使用。

不当使用的示例

不得使用 Azure AI 文本转语音：

欺骗人和/或故意提供错误信息；
为了进行虚假广告，包括通过直播广告的方式；假装代表任何个人、公司、政府机构或实体，并未经明确许可进行这类宣称。
未获明确许可而冒充他人，包括以获取信息或特权为目的;
煽动或伪装仇恨言论、歧视、诽谤、恐怖主义或暴力行为：
利用或操控儿童
发出未经请求的电话、批量通信、帖子或消息;
伪装政策立场或政治意识形态：
传播未经证实的内容或虚假陈述来源。

适当使用的示例

适当的用例可能包括，但包括但不限于：

基于虚构角色的虚拟代理。例如，按需网络搜索、物联网控制或由公司品牌形象提供的客户支持。
用于虚构内容的娱乐媒体。例如，电影、视频游戏、电视、录制的音乐或音频书籍。
认可的教育机构或教育媒体。例如，交互式课程计划或引导式博物馆之旅。
辅助技术和实时翻译。例如，ALS 患者保留自己的声音。
使用虚构角色的公共服务公告。例如，机场或火车候机楼公告。
广告/实时传送视频流：广告内容、与产品营销或销售相关的实时传送视频流。

另请参阅

反馈

此页面是否有帮助？