你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

透明度说明:文本转语音

重要

仅为方便起见,提供非英语翻译。 请参阅 EN-US 版本以获取最终版本的此文档。

什么是透明度说明?

AI 系统不仅包括技术,还包括使用它的人员、受其影响的人员以及部署它的环境。 创建适合其预期用途的系统需要了解技术的工作原理、其功能和限制,以及如何实现最佳性能。 Microsoft 的透明度说明旨在帮助你了解 AI 技术的工作原理、系统所有者可通过哪些选择来影响系统性能和行为,以及保持系统全局观(包括技术、人员和环境)的重要性。 开发或部署自己的系统时,可以使用透明度说明,或者与将使用或受系统影响的人员共享它们。

Microsoft 的透明度说明是 Microsoft 将其 AI 原则付诸实践的广泛努力的一部分。 若要了解详细信息,请参阅 Microsoft AI 原则

文本转语音的基础知识

介绍

文本转语音是 Azure AI 语音的一部分,是一种通用的工具,可将书面文本转换为自然语音音频。 该功能采用文本形式输入,并生成可在设备上播放的高质量语音音频输出。 对于语音音频输出,文本转语音提供一系列预构建的神经语音,或者对于访问受限的客户,可以选择为产品或品牌创建自定义的神经语音。

文本转语音也具有视觉功能。 使用文本转语音虚拟形象,客户可以输入文本并创建虚拟形象演讲的合成视频。 预构建的语音合成虚拟形象和自定义的语音合成虚拟形象均可用,可用于预生成的神经网络语音和自定义的神经网络语音,但某些功能仅对受限访问客户开放。

在文本转语音系统中,客户可以将书面信息转换为可听见的语音,并提高用户的可访问性。 无论是使用合成语音收听文档还是增强用户体验,文本转语音将文本转换为自然语音语音。

关键术语

术语 定义
实时语音合成 使用 语音 SDKREST API,通过 预建神经语音预建文本语音化形象自定义神经语音自定义文本语音化形象 将文本转换为语音。
语音模型 在文本转语音系统中,语音模型是指基于机器学习的模型或算法,该模型从书面文本生成合成语音。 此模型经过训练,可将文本输入转换为口语输出,模仿人类语音的特征,包括音调、音调和发音。
韵律 韵律是指对语音元素(如音调、时长、音量和停顿)的调节,使合成语音更具自然和表现力的特质,传达情感细微差别和上下文含义,从而减少合成语音的机器人感,增强对听众的吸引力和理解度。
语音合成标记语言(“SSML”) 语音合成标记语言(SSML)是一种基于 XML 的标记语言,用于自定义文本到语音输出。 使用 SSML,你可以调整音调、添加暂停、改进发音、更改语速、调整音量,以及将多个语音归属到单个文档。 可以使用 SSML 定义自己的词典或切换到不同的说话风格。
长音频的异步合成 使用 批量合成 API(预览版) 异步将文本合成为超过 10 分钟的语音文件(例如,有声书或讲座)。 与通过语音 SDK 或语音转文本 REST API 执行的合成不同的是,响应不会实时返回。 预期会异步发送请求,以轮询的方式获取响应,并会下载合成音频(在服务使其可用时)。
Visemes 面部特征 是语音中观察到的关键姿势,包括在发出特定音素时嘴唇、下巴和舌头的位置。 视素与语音和音素有很强的关联性。

介绍

预生成的神经语音提供了广泛的语音选择,涵盖超过 400 种声音选项,支持 140 多种语言和地区。 通过这些文本转语音功能,可以快速将朗读功能集成到应用程序中,用于增强无障碍功能。

关键术语

术语 定义
预生成的神经语音 Microsoft提供了一组预生成的神经语音,这些语音使用深度神经网络来克服传统语音合成对口语压力和语调的限制。 韵律预测和声音合成以同步方式发生,使输出听起来更流畅且自然。 每个预生成的神经网络语音模型在 24kHz 和高保真 48kHz 上可用,输出可以向上采样或向下采样到其他格式。

能力

系统行为

文本到语音转换

文本转语音将文本转换为自然语音。

下面是调用文本转语音服务的主要选项。

实时文本转语音 API

这是通过 语音 SDKREST API 进行常见的 API 调用,用于发送文本输入并实时接收音频输出。 语音系统使用文本转语音模型将文本转换为类似人为的合成语音。 输出音频可以另存为文件,也可以播放回输出设备(例如扬声器)(详细了解 如何合成文本中的语音)。 用户还可以使用 SSML 微调文本到语音输出。

文本转语音模型通过大量多样化的音频进行训练,这些音频涵盖了典型的使用场景和各种说话者。 例如,文本转语音服务通常用于支持语音的聊天机器人或音频内容创建。

批处理合成 API

批处理合成是另一种类型的 API 调用。 它通常用于发送大型文本文件和异步接收音频输出(即稍后)。 若要使用此 API,可以指定多个文本文件的位置。 语音转语音技术从文件读取文本输入,并生成返回到指定存储位置的音频文件。 此功能用于支持更大的语音合成作业,无需实时向最终用户提供音频输出。 例如,创建音频书籍。

文本转语音 - 自定义神经语音

神经网络定制声音是一种文本转语音功能,它允许拥有有限访问权限的客户通过提供自己所选发音人的音频数据,为其应用程序创建一种自定义合成语音。

使用自定义神经语音,您可以邀请您的语音演员在语音工作室中阅读Microsoft提供的脚本进行录音,并通过精简项目(预览版)快速创建一个与该语音演员相似的合成语音。 轻量级项目非常适合快速试用或概念验证。

借助专业项目,你可以上传所选语音人才的录音室录制的高质量语音数据,并创建逼真的语音。 Pro 支持高度自然的语音训练,这些训练更类似于你的发音人的声音,并且调整,以便以多种情感和使用多种语言说话,而无需额外的特定于情感或语言的培训数据。

创建自定义神经语音后,可以使用唯一终结点部署语音模型,并使用模型通过上述实时合成 API 或批处理合成 API 生成合成语音。

有关自定义神经语音的详细信息,请参阅 自定义神经语音概述

个人语音

个人语音功能允许有限访问客户从简短的人声示例创建语音模型。 该功能可以在几秒钟内根据提示创建语音模型。 此功能通常用于为业务客户的应用程序提供个性化的语音体验。 个人语音模型能够创建以接近 100 种语言说话的逼真的声音。

水印将添加到使用个人声音功能创建的神经网络定制声音中。 水印允许用户识别语音是否是使用 Azure AI 语音合成的,以及使用的是哪个声音。 符合条件的客户可以使用 Azure AI 语音水印检测功能。 若要请求向应用程序添加水印检测,请联系 mstts[at]microsoft.com

有关个人语音的详细信息,请参阅 个人语音

文本转语音虚拟形象

文本转语音头像将文本转换为一个由逼真人类形象(预构建的头像或自定义头像)构成的数字视频,这些人像通过由文本转语音功能提供的自然语音(如预构建的神经语音或自定义神经语音)进行讲话。 文本转语音虚拟形象视频可以异步合成或实时合成。 开发人员可以通过 API 生成与文本转语音虚拟形象集成的应用程序,或使用 Speech Studio 上的内容创建工具创建视频内容,而无需编码。

借助文本转语音头像的高级神经网络模型,该功能使用户能够为各种应用程序提供类似生活和高质量的合成谈话头像视频。

文本转语音虚拟形象采用内容证明和真实性联盟(C2PA)标准,以便观众更清楚地了解虚拟形象创建的视频内容的源和历史记录。 此标准提供有关 AI 生成视频内容的透明信息。 有关 C2PA 与文本到语音虚拟形象集成的详细信息,请参阅 Azure 文本到语音虚拟形象中的内容凭据

此外,头像输出会自动水印。 水印允许批准用户识别视频是否是使用 Azure AI 语音的头像功能合成的。 若要请求水印检测,请联系 avatarvoice[at]microsoft.com

视频翻译

视频翻译可以有效地本地化视频内容,以满足全球不同受众的需求。 视频翻译将自动提取对话音频,进行转录和翻译,然后使用预生成或个人语音将内容配音成目标语言,并提供准确的字幕,以提高可访问性。 多说话人功能将有助于识别个人说话的数量,并推荐合适的语音。 通过在循环中使用人工进行内容编辑,可以精确匹配客户偏好。 增强的翻译质量可确保精确音频和视频与 GPT 集成保持一致。 视频翻译支持使用个人语音的真实和个性化的配音体验。

用例

文本转语音提供了各种功能,适用于跨行业和领域的各种预期用途。 所有文本转语音功能(包括视频翻译)都受客户 Azure 订阅适用的条款和条件的约束,包括 Azure AI 语音文本转语音的 Azure 可接受的使用策略和行为准则。

此外,自定义文本转语音功能(如自定义神经语音、个人语音和自定义文本转语音形象)仅限于批准的用例,具体情境如下所述:

自定义神经语音专业版和自定义神经语音轻量版的用途

以下是自定义神经语音 Pro 和自定义神经语音 Lite 的已批准用例:

  • 教育或互动学习:要创建一个虚构的品牌或角色语音,用于阅读或演讲教育材料、在线学习、互动课程计划、模拟学习或引导式博物馆之旅。
  • 媒体:娱乐:为视频游戏、电影、电视、录制音乐、播客、有声书籍或增强现实和虚拟现实中的阅读或演讲娱乐内容创建虚构品牌或角色语音。
  • 媒体:营销:创建虚构的品牌或角色语音,用于阅读或讲话营销和服务媒体、产品简介、商业促销或广告。
  • 自创作内容:创建语音,用于阅读由配音演员创作的内容。
  • 辅助功能:用于音频描述系统和旁白,包括任何虚构的品牌或角色语音,或促进有语音障碍的人的沟通。
  • 交互式语音响应(IVR)系统:创建语音,包括任何虚构的品牌或角色语音,用于呼叫中心运营、电话系统或电话互动的响应。
  • 公共服务和信息公告:创建一个虚构的品牌或角色语音来传达公共服务信息,包括公共场所的公告,或信息广播,如交通、天气、事件信息和日程安排。 此用例不适用于新闻或新闻内容。
  • 翻译和本地化:用于翻译应用程序中以不同语言翻译对话或翻译音频媒体。
  • 虚拟助手或聊天机器人:为智能助手或虚拟 Web 助手、家庭电器、汽车、玩具、IoT 设备的控制、导航系统、朗读个人消息、虚拟同伴或客户服务场景创建虚构品牌或角色语音。

个人语音的拟定用途

个人语音 API(有关详细信息,请参阅 个人语音 )在受限访问预览版中提供。 只有符合有限访问资格条件的客户才能将个人语音 API 与其应用程序集成。 这些符合条件的客户只能对以下用例使用个人语音:

  • 应用程序:用于语音输出受客户约束和定义,且语音不读取用户生成的内容或开放式内容的应用程序。 语音模型使用必须保留在应用程序中,并且输出不能从应用程序发布或共享。 适合此说明的应用程序的一些示例是智能设备中的语音助理和在游戏中自定义角色语音。
  • 媒体、电影和电视:仅限于在娱乐场景中为电影、电视、视频和音频进行配音,客户完全控制语音模型及其输出的创建、访问和使用。
  • 业务内容:为业务方案创建音频和视频内容,以传达产品信息、营销材料、业务促销内容和内部业务通信。
  • 特别用途,与视频翻译一起使用:为视频中的每位说话者合成语音。 客户还可以使用目标语言编辑和生成唇同步音频内容。 在这种情况下,客户无需向 Microsoft 额外提交关于视频内容的 音频同意,但客户必须对语音模型及其输出的创建、访问和使用保持完全控制。

禁止使用自定义神经语音(包括自定义神经语音 Pro、自定义神经语音 Lite 和个人语音)的所有其他用途。 此外,自定义神经语音是受限访问服务,需要注册才能访问此服务。 若要详细了解 Microsoft 的受限访问策略,请参阅 Azure AI 服务的受限访问功能。 某些功能仅适用于Microsoft托管客户和合作伙伴,并且仅适用于注册时Microsoft批准的特定用例。

预生成的神经语音也可用于上述自定义神经语音用例,以及客户选择的其他用例,并与 Azure AI 语音文本转语音的 Azure 可接受的使用策略和行为准则一致。 对于满足所有适用条款和条件的预生成神经网络语音,无需注册或预先批准。

视频翻译的预期用例

视频翻译可用于电影、电视和其他视觉对象(包括但不限于视频或动画)和音频应用程序,客户可以完全控制语音模型及其输出的创建、访问和使用。 个人语音和唇部同步受受限访问框架的约束,符合条件的客户可以使用这些功能进行视频翻译。 以下是视频翻译服务的已批准用例:

  • 教育与学习:为多语言学习者翻译在教育视觉资料、在线课程、培训模块、模拟学习或导览博物馆旅游中的音频。 
  • 媒体:娱乐:为全球观众翻译电影、电影、电视节目、纪录片、视频游戏、迷你系列、短剧和 AR/VR 内容,确保跨语言无缝讲故事。 
  • 媒体:营销:在促销视觉对象、产品演示、广告和品牌活动中翻译音频,以与国际市场和文化产生共鸣。 
  • 自著内容:翻译 vlog、短视频、网红内容、旅行指南、目的地宣传视频、社交媒体视频和文化精华影辑中的音频内容,使其易于访问和引人入胜。 
  • 企业培训和沟通:在内部沟通中使用的视觉材料、员工入职资料、合规培训以及针对国际团队的全球公司公告中进行音频翻译。 
  • 电子商务和产品演示:将产品开箱视频、教程、客户推荐和说明视频中的音频翻译,以满足国际购物者的需求。 
  • 公共服务和信息性公告:翻译适用于公众意识宣传材料、活动日程、安全公告以及政府信息广播中的音频,以实现多语言可访问性。 
  • 辅助功能:通过多语言音频和字幕扩大视频内容的可访问性。
  • 新闻和新闻内容:为各种语言受众翻译新闻片段、采访、新闻稿和突发新闻报道。 希望翻译新闻来源的客户将需要额外的审查。

自定义和预构建文本到语音头像的预期用途

下面是自定义文本到语音虚拟形象的已批准的用例:

  • 虚拟助手或聊天机器人:创建虚拟助手、虚拟助手、虚拟销售助理或客户服务应用程序。
  • 企业上下文的内容生成:用于传达产品信息、营销材料、业务促销内容和内部业务通信。 示例包括商业领导者的角色头像或数字孪生来推广品牌。
  • 教育或互动学习:创建虚构的品牌或人物形象,用于演示教育材料、在线学习、互动课程计划、模拟学习或引导式博物馆之旅。
  • 媒体:娱乐:提供更新、共享知识、创建交互式媒体,或为娱乐场景(如视频、游戏和扩充或虚拟现实)制作谈话头视频。
  • 辅助功能:用于促进有语音障碍的人的沟通。
  • 自著内容:创建虚拟形象,用于阅读由头像人才创作的内容。
  • 公共服务和信息性公告:创建一个虚构的品牌或人物形象来传达公共服务信息,包括公共场所的公告,或用于交通、天气、事件信息和日程安排等信息广播。 此用例不适用于新闻或新闻内容。
  • 翻译和本地化:用于翻译应用程序中以不同语言翻译对话或以视频格式翻译音频媒体。

自定义文本转语音头像的所有其他用途均被禁止。 此外,自定义文本转语音头像是受限访问服务,需要注册才能访问此功能。 若要详细了解 Microsoft 的受限访问策略 ,请访问 aka.ms/limitedaccesscogservices。 某些功能仅适用于Microsoft托管客户和合作伙伴,并且仅适用于注册时Microsoft批准的特定用例。

预生成的文本转语音虚拟形象可用于上述自定义头像用例,以及客户选择的其他用例,并符合 Azure AI 语音文本转语音行为准则和 Azure 可接受的使用策略。 对于满足所有适用条款和条件的预构建的语音虚拟形象,无需注册或预审批附加用例。

选择用例时的注意事项

我们鼓励客户在其创新解决方案或应用程序中使用文本转语音功能。 所有文本转语音功能都必须遵循 Azure 可接受的使用策略和 Azure AI 语音文本转语音行为准则。 此外,自定义神经网络语音和自定义文字转语音化身只能用于通过受限访问注册表单批准的用例。 此外,在为任何文本转语音功能选择用例时,以下是一些注意事项:

  • 确保用例对齐:确保预期使用任何文本转语音功能与文本转语音功能的功能和预期用途保持一致。
  • 负责任的 AI 注意事项:通过避免创建误导性或有害内容,确定负责任的 AI 做法的优先级。 使用文本转语音功能时,遵守隐私、数据保护和法律法规。
  • 查看行为准则:Microsoft建立了禁止某些使用所有文本转语音功能的行为准则。 选择文本转语音服务的用例时,请确保遵守行为准则。
  • 练习编辑控制:仔细考虑将合成语音与缺少正确编辑控制的内容一起使用,因为合成语音可以听起来像人一样,并放大不正确或误导性内容的效果。
  • 披露:向用户披露语音、图像和/或视频的合成性质,以便用户不太可能被欺骗或蒙骗(或无法轻易捉弄他人)而误以为自己正在与真实人互动。
  • 法律和法规注意事项:组织在使用任何 AI 服务和解决方案时需要评估潜在的特定法律和监管义务,这些义务可能不适合在每个行业或方案中使用。 此外,AI 服务或解决方案的设计目的并非用于适用服务条款和相关行为准则所禁止的用途,也不得以其中所禁止的方式使用。

通过遵循这些注意事项,用户可以更负责任地使用预设和定制的神经语音。

局限性

在技术和影响其使用和影响的人类、社会和组织因素的交集上,应考虑文本转语音的限制。 尽管文本转语音提供高级的语音合成功能,但在负责任地部署该技术以最大限度减少潜在错误时,会遇到某些限制。

技术限制、操作因素和范围

使用文本语音时要考虑的技术限制包括发音和语调的准确性。 虽然文本转语音旨在生成自然语音,但某些字词、名称或不常见短语可能会遇到困难。 用户应注意,在某些情况下,系统可能会错误提示或错误地强调字词,尤其是在处理利基或特定于域的词汇时。

请务必注意,某些人群受到这些技术限制的负面影响可能更严重。 例如,严重依赖合成语音的听力障碍的个人在理解不明确或扭曲的语音输出方面可能面临挑战。 同样,具有认知或语言相关障碍的用户可能会发现难以理解带有非自然语调或发音错误的语音。

  • 语言限制:虽然我们精心策划和准备训练数据,以尽量减少偏见,尤其是与性别、种族或区域口音相关的偏见,而语音转语音支持多种语言和口音,但不同语言语音的质量和可用性可能存在差异。 用户应注意发音准确性、语调以及某些特定语言或方言中的语言细微差别的潜在限制。
  • 上下文和情感:文本转语音在准确传达上下文信息和情感方面可能有限制。 客户应注意系统无法理解输入文本中存在的情感细微差别或微妙线索。 应考虑提供其他上下文或利用其他方法来有效传达情感。
  • 可用性:除非安全、法律或系统性能注意事项需要加快删除,否则 Microsoft 将提前 12 个月通知客户,然后才从目录中删除任何预生成的神经网络语音。 这不适用于预览版。

每个应用程序各不相同,我们的基本模型可能与你的背景不匹配,或者无法涵盖用例所需的所有情况。 我们鼓励开发人员使用反映用例的实际数据全面评估文本到语音合成语音和视频的质量,包括测试来自不同人口群体的用户以及具有不同语音特征的用户。 有关生成高质量语音模型的最佳做法,请参阅 “已训练语音模型的质量 ”部分。

除了确保性能之外,还必须考虑如何最大程度地降低合成语音和虚拟形象可能导致的陈规定型和擦除风险。 例如,如果要为智能语音助手创建自定义神经语音,请仔细考虑什么语音是合适的,并征求来自不同背景的人的多元化意见。 在构建和评估系统时,请始终寻求不同的输入。

公平性注意事项

在Microsoft,我们努力使地球上的每一个人都能够做更多的事情。 此目标的重要组成部分是努力创建公平和包容的技术和产品。 公平是一个多维的社会技术主题,影响我们产品开发的许多不同方面。 可以 在此处了解有关Microsoft公平性方法的详细信息。

使用 AI 系统(包括文本转语音)时要考虑的一个重要维度是系统对不同人群的表现。 研究表明,如果不有意识地努力提高所有群体的性能,AI 系统可以在不同的人口因素(如种族、种族、性别和年龄)中表现出不同级别的性能。

作为对 Azure AI 文本转语音评估的一部分,我们进行了一项分析,以评估潜在的公平性伤害。 我们已经研究了该系统在不同人口群体中的表现,旨在确定可能存在的任何差异,并可能影响公平性。

在某些情况下,可能存在性能差异。 请务必注意,这些差异可能超过目标,我们正在积极努力解决和尽量减少任何潜在的偏见或性能差距,仔细考虑演员的人口群体选择,并从各种背景寻求不同的视角。

关于代表性伤害,例如刻板印象、贬低或抹除性的输出,我们承认存在与这些问题相关的风险。 虽然我们的评估过程旨在缓解此类风险,但我们鼓励用户仔细考虑其特定用例,并适当地实施其他缓解措施。 通过引入人类参与可以提供额外的监督层,以解决任何潜在的偏见或意外后果。 使用阻止列表或允许列表还可以帮助确保合成的语音符合所需标准,并避免任何有害或不适当的内容。

我们致力于不断改进公平评估,以便更深入地了解系统在不同人口群体的表现和潜在的公平关切。 评估过程正在进行中,我们正在积极努力提高公平性和包容性,并缓解任何确定的差距。 我们了解解决公平性考虑的重要性,努力确保语音文本提供可靠和公平的合成语音输出。

请注意,此信息表示到目前为止我们对公平评估的了解,我们仍然致力于完善我们的评估方法,并解决可能出现的任何公平问题。

系统性能

文本转语音系统的性能是指它将书面文本转换为合成语音的准确性和自然度。 这是使用各种指标测量的,以评估生成的音频输出的质量和有效性。 使用的一些常见性能指标包括:

  • 平均意见分数(MOS):一个分级系统,法官提供一个分数,代表合成语音和虚拟形象视频的整体质量。 更高的 MOS 表示质量更好。
  • MOS 差距:人类录音的 MOS 分数与生成的音轨/视频之间的差异。 较小的MOS差距表示与人类语音或人类特征的相似度更高。
  • 相似性 MOS (SMOS):测量生成的音轨/视频与人类录音的相似性。 更高的 SMOS 表示更好的相似性。
  • Intelligibility:合成语音中正确识别单词的百分比。

即使使用最先进的模型,像文本转语音这样的 AI 系统也会产生错误。 例如,系统可能会生成具有微妙的非自然语调或发音错误的合成语音,从而导致不太理想的用户体验,或者系统可能误解文本或与异常语言构造作斗争,从而导致不自然或难以理解的语音。

提高系统性能的最佳做法

为了提高系统性能和将文本中的系统行为适应语音,可以遵循几种最佳做法。 这些做法涉及调整各种组件和参数,以优化权衡并满足特定的用例要求。 然而,请务必考虑对不同人群的潜在影响,以确保公平和包容性。

使用 SSML(语音合成标记语言)被认为是增强文本到语音输出质量的最佳做法。 SSML 允许用户更好地控制合成语音,从而自定义发音、语调、强调和其他专业功能。 通过将 SSML 标记合并到文本中,用户可以添加暂停、调整语音速率、指定拼音发音以及控制音调和音量等参数。 这种级别的微调有助于创建更自然和有表达性的语音,使文本到语音输出听起来更类似于人,更具吸引力。 所有 SSML 标记都可以直接传递给 API。 我们还提供在线工具“音频内容创建”,使客户能够使用直观的用户界面微调。

如果用例涉及专用词汇或特定于域的内容,请考虑使用自定义词典功能来改进系统准确发音和传达特定于域的术语或短语的能力。

文本转语音评估

评估方法

评估文本转语音总体系统性能的一些常用指标包括:

  • 平均意见分数(MOS)与人类录音的差距:通常用于比较文本到语音模型的音质与人类录音。 与人类录音相比,由自定义神经语音创建的语音模型的质量预计将接近,MOS 分数中差距不超过 0.5。
  • 对于自定义神经语音,还可以使用相似性 MOS (SMOS) 来测量与原始人类录音相比自定义语音声音的相似程度。 通过 SMOS 研究,评委被要求收听一组配对的音频轨道,一个是由自定义语音生成的,另一个来自训练数据中的原始人类录音,并评估每对音轨是否由同一个人讲话,使用五分制(1 为最低,5 为最高)。 平均分数被报告为 SMOS 分数。 我们建议良好的自定义神经语音应实现高于 4.0 的 SMOS。
  • 除了使用 MOS 和 SMOS 测量自然性外,还可以通过检查生成的语音的发音准确性来评估语音模型的可知性。 这是通过让法官听一组测试样本,确定他们能否理解含义并指示任何难以理解的字词来完成的。 使用测试单词总数(即已测试单词数/已测试单词总数 * 100%)中正确可理解单词的百分比计算 Intelligibility 率。 通常,一个可用的文本到语音引擎需要达到 > 98% 的分数,以确保可理解性。

评估结果

文本转语音始终提供高质量的自然合成语音,满足不同行业和领域的要求。 我们的评估包括对系统的训练和测试数据进行广泛的测试,确保它代表真实场景中的预期用途和操作因素,同时进行合成语音输出的样本测试。

评估结果影响了系统设计中关于约束的决策,例如最大案例大小和所需的最低训练数据量。 通过跨不同的数据集、设置和参数分析系统的性能,已设置适当的约束以优化系统的行为、可靠性和安全性。

虽然评估涵盖广泛的用例,但请务必注意,结果在一定程度上适用于不属于评估的用例。 系统的稳健性和性能让人对其处理各种场景的能力充满信心,包括那些可能尚未经过明确测试的场景。

下面是一些建议的测试和分数范围,具体取决于我们的体验:

测量 定义 计算方式 建议的文本大小 建议的分数
MOS 音轨质量的平均意见分数 每个音频中每个法官的评分分数的平均值 > 30 个生成的音轨 >4.0(通常人类录音的 MOS 需要高于 4.5)
MOS 间隙 人类录音和生成的音轨之间的 MOS 分数差异 人类录音上的 MOS 分数减去生成的音频轨道上的 MOS 分数 > 10 次人工录音, > 30 个生成音频曲目, > 每个音频上有 20 个评委 < 0.5
SMOS 生成的音轨与人类录音的相似性 每个音轨对相似度级别的评分的平均值 > 40 对, > 每对 20 位评委 > 4.0、 > 3.5(次要语言)
可理解性 在单词级别生成的语音的发音准确性 测试的单词总数中正确可理解单词的百分比 > 60 个生成的音频曲目, > 每个音频上有 10 个评委 > 98%

评估和集成文本转语音功能以供你使用

下面是一些最佳做法,可帮助你将文本与语音功能负责任的集成到用例中。

透露语音合成时间

披露语音是计算机生成的,不仅最大限度地减少了欺骗带来有害结果的风险,而且增加了对组织提供语音的信任。 详细了解 如何披露

Microsoft要求其客户向用户披露文本转语音声音的合成性质。

  • 请确保向受众提供足够的披露,尤其是在使用知名人士的声音时。 人们根据交付信息的人(无论是有意识还是无意识地这样做)来判断信息。 例如,可以在广播开始时口头披露信息。 有关详细信息,请访问 披露模式
  • 考虑向父母或其他参与方进行适当的披露,特别是在涉及未成年人和儿童的使用情况或可能用于这些情况的场合。 如果你的用例适用于未成年人或儿童,则需要确保你的披露清晰透明,以便家长或法定监护人能够理解合成媒体的作用,并代表未成年人或儿童就是否使用体验做出明智的决定。

披露虚拟形象视频何时是合成的

披露虚拟形象讲话视频是计算机生成的,不仅最大限度地减少了欺骗带来的有害结果的风险,而且增加了对提供视频的组织的信任。 详细了解 如何披露

Microsoft 要求其客户向用户披露文本转语音虚拟形象的合成性质。

  • 请确保向受众提供足够的披露,尤其是在使用知名人士的图像(和声音)时。 人们根据交付信息的人(无论是有意识还是无意识地这样做)来判断信息。 例如,可以在视频开头通过文本或语音(例如,“此视频中的语音和形象是 AI 生成的”)告知。 有关详细信息,请访问 披露模式
  • 考虑向父母或其他参与方进行适当的披露,特别是在涉及未成年人和儿童的使用情况或可能用于这些情况的场合。 如果你的用例适用于未成年人或儿童,则需要确保你的披露清晰透明,以便家长或法定监护人能够理解合成媒体的作用,并代表未成年人或儿童就是否使用体验做出明智的决定。

为场景选择适当的语音类型

仔细考虑使用上下文以及与使用文本转语音或虚拟形象相关的潜在危害。 例如,高保真合成语音在高风险方案中可能不适用,例如,对于个人消息传递、金融交易或需要人类适应性或同理心的复杂情况。

用户也可能对语音类型和虚拟形象表达式或手势有不同的期望,具体取决于上下文。 例如,当听合成语音阅读的敏感新闻时,一些用户更喜欢更同情和人类般的语气,而另一些用户则更喜欢中立的声音。 请考虑测试应用程序以更好地了解用户首选项。

公开功能和限制

与高保真合成语音代理交互时,用户更有可能有更高的期望。 当系统功能不符合这些期望时,信任可能会受到影响,并可能导致令人不快甚至有害的体验。

提供可选的人工支持

在不明确的事务性方案中(例如呼叫支持中心),用户并不总是信任计算机代理来适当响应其请求。 无论系统的语音或功能的现实质量如何,都可能需要人工支持。

配音人才注意事项

当客户与语音人才合作创建自定义神经语音时,以下指南适用。

  • 发音人应该控制其语音模型(使用方式和用途),并获取使用补偿。 Microsoft要求自定义神经语音客户从语音人才获取明确的书面权限,以创建合成语音,并确保客户与每个人的协议考虑持续时间、使用和任何内容限制。 如果要创建知名人士的合成语音,则应为配音员提供一种方法来编辑或批准你计划使用语音模型生成的输出内容
  • 一些语音人才可能不知道潜在的恶意使用技术,应该受到系统所有者关于技术能力的教育。 Microsoft 要求客户直接与发音人共享 Microsoft 的语音和虚拟形象原型的披露,或通过发音人的授权代表来描述合成语音是如何开发的,以及是如何与文本转语音服务结合使用的。

虚拟形象原型注意事项

当客户与虚拟形象人才合作创建自定义头像时,以下指南适用。

  • 虚拟形象原型应该控制他们的虚拟形象模型(使用方式和用途),并获取使用补偿。 Microsoft 要求自定义虚拟形象客户获取虚拟形象原型明确的书面许可,允许创建合成的文本转语音虚拟形象,并确保客户与每个人的协议都考虑了持续时间、使用和任何内容限制。 如果要创建自定义知名人士的虚拟形象,则应为头像人才提供一种方法,以便编辑或批准计划使用语音模型生成的输出内容
  • 一些头像人才可能不知道潜在的恶意使用技术,应该受到系统所有者对技术能力的教育。 Microsoft 要求客户直接与虚拟形象原型共享 Microsoft 的语音和虚拟形象原型披露,或通过虚拟形象原型的授权代表来描述合成的虚拟形象视频是如何开发的,以及是如何与文本转语音服务结合使用的。

语音障碍患者的注意事项

在为有语音障碍的个人创建或部署合成语音技术时,应遵循以下准则。

为辅助功能方案中与发音人的合同提供指南

客户应制定与使用合成语音协助说话的个人建立合同的准则。 客户应考虑在与个人合同中指定使用期限、所有权转让和/或许可证条件、删除语音模型的过程以及如何防止未经授权的访问。

将语音模式的不一致性考虑在内

对于记录自己语音字体的语音障碍患者,其语音模式(含糊或无法发音某些字词)中的不一致可能会使录制过程复杂化。 在这些情况下,应根据客户确定的适当调整来设计合成语音技术和录制流程(例如,提供休息时间或额外的录制会话)。

允许随时间推移进行修改

患有语音障碍的个人可能希望更新其合成语音,以反映老化或其他因素的变化。 个人也可能具有随时间变化的风格偏好,并且可能希望对音调、口音或其他语音特征进行更改。

详细了解负责任 AI

详细了解 Azure 语音