你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
重要
仅为方便起见,提供非英语翻译。 请参阅 EN-US 版本以获取最终版本的此文档。
AI 系统不仅包括技术,还包括使用它的人员、受其影响的人员以及部署它的环境。 创建一个适合其预期用途的系统需要了解技术的工作原理、功能和局限性,以及如何实现最佳性能。
Microsoft 提供了透明度说明来帮助你了解我们的 AI 技术工作原理。 这包括系统所有者可以做出的影响系统性能和行为的选择,以及考虑整个系统(包括技术、人员和环境)的重要性。 你可以在开发或部署自己的系统时使用透明度说明,或者与使用你的系统或受其影响的人员共享透明度说明。
透明度说明是 Microsoft 将其 AI 原则付诸实践的广泛努力的一部分。 若要了解详细信息,请参阅 Microsoft的 AI 原则。
发音评估简介
发音评估 API 采用音频输入来评估语音发音,并为演讲者提供有关语音音频的准确性、流畅性和完整性的反馈。 发音评估功能还包括有关语音音素、词汇用法、语法正确性和主题理解的各个方面的更全面的反馈,为你提供语言技能的详细评估。 同时支持脚本化评估和非标语评估,使你更容易评估发音和语言水平。 发音评估支持广泛的语言。
借助发音评估,语言学习者可以练习、获取即时反馈并改进发音,以便他们可以自信地说话和呈现。 教师可以使用发音评估来实时评估多个说话人的发音。
发音评估的基础知识
发音评估 API 使用基于机器学习的方法提供语音评估结果,与本机专家进行的语音评估密切相关。 它提供有关发音、流畅性、音律、词汇用法、语法正确性和主题理解的宝贵反馈,帮助你增强他们的语言技能,并自信地用新语言进行通信。 发音评估模型通过超过 100,000 小时的母语者语音数据进行训练。 与参考文本相比,当人们遗漏、重复或添加短语时,它仍可以提供准确的结果。 它还使丰富的配置参数能够支持使用 API 的灵活性,例如设置 粒度 以更改评估中的信息粒度。 (有关详细信息,请参阅 示例代码中的详细信息。
发音评估评估发音和内容的多个方面:准确性、流畅性、完整性、音律、词汇用法、语法正确性和主题理解。 它还提供多个粒度级别的评估,并返回特定音素、音节、单词、句子甚至整个文章的准确性分数。 有关详细信息,请参阅 如何使用语音 SDK 进行发音评估功能。
下表描述了关键结果。 有关详细信息,请参阅完整的 响应参数。 通过使用 自然语言处理(NLP) 技术和 EnableMiscue 设置,发音评估可以检测与引用文本相比的额外、缺失或重复字词等错误。 此信息有助于获取更准确的评分,以用作诊断信息。 此功能对于较长的文本段落非常有用。
| 参数 | DESCRIPTION |
|---|---|
AccuracyScore |
语音的发音准确度。 准确度表示音素与母语人士发音的接近程度。 音节、单词和全文准确性分数由音素级别的准确度分数聚合而来,并根据评估目标进行调整。 |
FluencyScore |
所给话语的流畅性。 流畅度表示语音与母语人士在单词之间使用无声停顿的接近程度。 |
CompletenessScore |
语音的完整性,按发音单词与输入引用文本的比例进行计算。 |
ProsodyScore |
给定语音的韵律。 韵律表示给定的语音有多么自然,包括重音、语调、语速和节奏。 |
PronScore |
指示给定语音发音质量的总体分数。 这根据 AccuracyScore、FluencyScore 和 CompletenessScore(具有权重)进行汇总。 |
ErrorType |
此值指示与参考文本相比,单词是否被遗漏、插入、发音糟糕、断句插入不正确、标点符号处缺少断句,或者语句中单调上升、下降或平坦。 可能的值是None(这意味着此单词没有错误)、Omission、、Insertion、MispronunciationUnexpectedBreak、和MissingBreakMonotone。 |
发音评估返回的另一组参数是偏移量和持续时间(称为“时间戳”),语音的时间戳以结构化 JSON 格式返回。 发音评估可以计算每个音素的发音错误。 发音评估还可以将错误标记为输入音频中的特定时间戳。 开发应用程序的客户可以使用信号来提供学习路径,以帮助学生以多种方式关注错误。 例如,应用程序可以突出显示原始语音、回复音频以将其与标准发音进行比较,或建议使用类似字词进行练习。
| 参数 | DESCRIPTION |
|---|---|
| 偏移 | 在音频流中开始识别语音的时间(以 100 纳秒为单位)。 |
| 持续时间 | 在音频流中识别语音的持续时间(以 100 纳秒为单位)。 |
示例用例:
发音评估可用于 远程学习、考试练习或其他需要发音反馈的方案。 以下示例是部署的或我们为使用发音评估的客户设计的用例:
- 教育服务提供商:提供商可以使用发音评估构建应用程序,以帮助学生通过实时反馈远程练习语言学习。 当应用程序需要支持实时反馈时,此用例很典型。 支持对音频文件 进行流式上传 ,以获取即时反馈。
- 游戏中的教育:例如,应用开发人员可以通过将游戏中的综合课程与最先进的语音技术相结合来构建语言学习应用,以帮助儿童学习英语。 该计划可以涵盖广泛的英语技能,如说话、阅读和倾听,以及训练儿童语法和词汇,发音评估用于支持孩子们学习英语。 这些多种学习格式可确保孩子们根据有趣的学习风格轻松学习英语。
- 通信应用中的教育:Microsoft Teams 朗读进展功能帮助教师通过自动检测遗漏、插入和发音错误来评估学生的口语作业。 它还使学生在提交家庭作业之前更方便地练习发音。 Microsoft Teams 演讲者进度功能作为一种学习加速器,也有助于支持学生提高演示和公开演讲技能。
选择其他用例时的注意事项
随着学校和组织适应新的连接方式和教育方法,在线学习发展迅速。 语音技术可以在使远程学习更加引人入胜和易于所有背景的学生访问方面发挥重要作用。 借助 Azure AI 服务,开发人员可以快速向应用程序添加语音功能,使在线学习更生动。
语言学习的一个关键要素是提高发音技能。 对于新语言学习者来说,练习发音和及时反馈对于成为更流畅的说话人至关重要。 对于寻求支持语言学习中的学习者或学生的解决方案提供商,使用发音评估随时随地练习的能力非常适合此方案。 它也可以作为教师的虚拟助理集成,并帮助提高效率。
以下建议与应谨慎使用发音评估的用例有关:
- 在任何正式考试场景中引入人工干预:发音评估系统由 AI 系统提供支持,语音质量和背景噪音等外部因素可能会影响准确性。 在正式考试中采用人机回环可确保评估结果符合预期。
- 请考虑为不同场景使用不同的阈值:目前,发音评估分数仅代表与用于训练模型的本地说话人语音的相似性距离。 这种相似度距离可以根据基于规则的条件或加权计数映射到不同的场景中,以帮助提供发音反馈。 例如,儿童学习的分级方法可能不如成人学习那么严格。 请考虑为成人学习设置更高的发音错误检测阈值。
- 考虑纠正失误的能力:当情境涉及阅读长段落时,用户可能会发现很难在不犯错误的情况下遵循原文。 这些错误,包括遗漏、插入和重复,都算作错误。 启用 EnableMiscue 后,将发音的字词与参考文本进行比较,并根据结果标记为“遗漏”、“插入”或“重复”。
法律和法规注意事项:组织在使用任何 AI 服务和解决方案时需要评估潜在的特定法律和监管义务,这些义务可能不适合在每个行业或方案中使用。 此外,AI 服务或解决方案并未设计为按适用服务条款和相关行为准则禁止的方式使用,也不得按这类方式使用。