集成和使用语音识别和听录

2 分钟

语音服务是将语音转文本、文本转语音和语音翻译统一到单个 Azure 订阅中。使用语音 CLI、语音 SDK、语音设备 SDK、语音 Studio 或 REST API 接口，轻松为您的应用程序、工具和设备实现语音功能。

语音识别

说话人识别服务提供算法，这些算法使用语音生物测量通过说话人的独特语音特征来验证和识别说话人。它用于回答“谁在说话？” 首先，为单个说话者提供音频训练数据，根据说话者声音的独特特征创建注册档案。然后，可以针对此配置文件交叉检查音频语音示例，以验证说话人是否为同一人（说话人验证），也可以针对一组已注册的扬声器配置文件交叉检查音频语音示例，以查看它是否与组中的任何配置文件匹配（说话人识别）。相比之下，话者区分使用批处理操作按说话者身份对音频流进行分组，这意味着不同的说话者分别有自己的音频段。

转录

转录是一组 REST API 操作，可用于将存储中的音频转录。你可以指向具有共享访问签名 (SAS) URI 的音频文件并异步接收听录结果。

MRTK 语音命令

与 Windows 语音输入一样，语音输入提供程序不会创建任何控制器，而是允许你定义在识别时引发语音输入事件的关键字。你将在输入系统配置文件的语音命令配置文件中配置用于识别的关键字。对于每条命令，你还可以：

选择要映射到命令的输入操作。例如，这样，通过将两者都映射到同一动作，可以使关键字选择具有与鼠标左键单击相同的效果。
指定在按下时生成相同语音事件的键代码。
添加 UWP 应用中用于从应用资源获取本地化关键字的本地化密钥。

语音 SDK

语音软件开发工具包（SDK）公开了许多语音服务功能，使你能够开发支持语音的应用程序。语音 SDK 支持多种编程语言和所有平台。语音 SDK 公开语音服务中的许多功能（但并非全部）。语音 SDK 的功能通常与方案相关联。语音 SDK 在实时和非实时方案中是特别理想的选择，无论是使用本地设备、文件、Azure Blob 存储，还是输入和输出流。当无法使用语音 SDK 实现方案时，请查找 REST API 替代项。

空间感知

空间感知提供空间映射数据的编程访问，为混合现实应用提供有关用户附近应用程序指定空间区域中图面的信息。仅当应用显式使用这些图面网格时，才声明空间感知功能。混合现实应用无需此功能即可根据用户的头部姿势执行全息渲染。

Internet 客户端服务器

互联网客户端服务器支持对等（P2P）方案，在这些方案中，应用需要侦听传入的网络连接。

专用网络客户端服务器

专用网络客户端服务器通过防火墙提供对家庭和工作网络的入站和出站访问。此功能通常用于跨局域网（LAN）进行通信的游戏，以及跨各种本地设备共享数据的应用。

反馈

此页面是否有帮助？