你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Important
仅为方便起见,提供非英语翻译。 请参阅 EN-US 版本以获取最终版本的此文档。
Note
本文仅供参考,不用于提供法律建议。 我们强烈建议在实施语音服务时寻求专业法律建议。
本文提供有关语音转文本处理客户提供的数据的方式的一些高级详细信息。 请注意,根据各种隐私法规和法律,人类说话的音频数据和相关文本脚本可能被视为个人数据和/或敏感数据,因为它不仅包含人类的声音,而且音频的内容也可能包含个人信息,具体取决于收集音频的上下文。 音频数据和相关文本脚本也可以根据各种通信法或其他法律法规进行监管。 作为重要提醒,你负责实现此技术,并且需要获取处理数据所需的所有权限,以及输入语音转文本服务内容所需的任何许可证、权限或其他专有权限。 你有责任遵守所在司法管辖区的所有适用法律和法规。
语音转文本处理哪些数据?
语音转文本处理以下类型的数据:
- 音频输入或语音音频: 所有语音转文本功能都接受语音音频作为通过语音 SDK/REST API 流式传输到服务终结点的输入。 在批量听录中,音频输入将发送到客户指示的存储位置,语音服务访问并处理音频输入,以便提供所请求的听录服务。 有关如何指定存储的详细信息,请参阅如何使用批量听录。
- 输入听录文本: 在发音评估中,转录的文本与输入语音音频一起发送为“正确”文本。 根据输入听录评估发音。
- 语音翻译的转录: 使用语音翻译功能时,通过 翻译服务将语音转录生成的文本翻译为指定语言。
文本翻译服务仅用于将文本从一种语言转换为另一种语言。 翻译请求完成后,语音服务不会保留任何输入/输出数据。 有关文本翻译服务的详细信息,请参阅 什么是翻译服务 。
如果用户需要以音频格式转录/翻译的文本,该功能会将输出文本发送到 语音。 再者,在文本到语音数据处理中不会保留任何数据。
语音转文本如何处理数据?
实时语音转文本
当客户端应用程序将音频输入发送到语音转文本时,语音识别引擎将分析音频并将其转换为文本。 语音转文本依赖于其声学和语言或语言理解功能,选择可能在音频输入中表述的候选字词和短语。 转录输出以文本格式表示音频输入中所说内容的最佳推断或预测。
对于实时语音转文本,音频输入仅在 Azure 的服务器内存上处理,并且不会静态存储任何数据。 传输中的所有数据都经过加密以保护。 有关 Azure 范围安全和隐私保护的详细信息 ,请参阅受信任的云:安全性、隐私、合规性、复原能力和 IP 。
批量听录
在批量听录中,客户指定其选择的音频输入和输出听录文本文件的存储位置,以便语音服务访问、处理并提供听录输出。 客户控制此数据的存储,包括此类数据的保留。 客户可以使用名为“timeToLive”的参数为生成的听录文本文件设置保留时间。 有关更多详细信息 ,请参阅批量听录 - 配置属性 。
查看每个语音转文本功能的数据流:
说话人分离/分隔
此功能适用于实时 API 和批处理 API。 当客户启用扬声器分离(分割化)选项(默认禁用)时,语音转文本引擎会分析和提取音频输入中独特的语音特征信号,以区分说话人之间的音频。 这些语音特征信号仅用于标注转录输出,并暂时保留以便在说话者 1(来宾-1)或说话者 2(来宾-2)的文本旁边添加标记。 完成此过程后,将丢弃用于分隔扬声器的所有信号数据。 扬声器分离功能支持在单个音频文件中分离两个或多个扬声器。 说话人分离不支持说话人身份识别的注册,也不具备跨多个音频文件跟踪独特说话者的功能。
语言检测
语言检测类似于语音识别,但模型计算音素和语言之间的映射概率。 每种语言都有特定的音素和音素组合,这些组合具有语言的特征。 语言检测模型标识音素中的特征,以计算输入语音中使用的语言的可能性。
语音翻译
使用语音翻译时,首先使用音频输入来生成具有语音转文本的计算机转录文本。 然后,计算机转录的文本将发送到文本翻译服务,以将文本(源语言)转换为另一种语言。 如果客户需要音频格式的翻译文本,此功能可将翻译的文本发送到 语音。 客户可以选择仅生成翻译的文本或翻译的语音输出。
语音容器
借助语音容器,客户通过 Docker 容器将语音服务 API 部署到自己的环境。 由于所有语音组件都在客户的受控环境中运行,因此音频数据输入和听录输出在客户的容器中处理,不会发送到基于云的语音服务。 有关详细信息 ,请参阅安装并运行语音服务 API 的 Docker 容器 。
语音容器中客户数据的安全性
客户数据的安全性是共同的责任。 可以在 Azure AI 服务容器安全性中找到有关 Azure AI 容器安全模型的详细信息,例如语音容器。
你负责保护和维护在本地运行语音容器所需的设备和基础结构,例如边缘设备和网络。
若要详细了解Microsoft的隐私和安全承诺,请访问 Microsoft信任中心。
数据存储和保留
无数据跟踪
在对文本执行实时语音、快速听录、发音评估和语音翻译时,Microsoft不会保留或存储客户提供的数据。 在批量听录中,客户指定自己的存储位置以发送音频输入。 生成的听录文本可以存储在客户自己的存储中,或者在未指定存储时存储在Microsoft的存储中。 如果输出听录存储在Microsoft存储中,客户可以通过调用删除 API 或设置 timeToLive 参数以在指定时间自动删除数据来删除数据。 请参阅 有关如何使用批量听录 - 语音服务 - Azure AI 服务的更多详细信息。
若要详细了解Microsoft的隐私和安全承诺,请访问Microsoft 信任中心。