适用于 Azure MCP 服务器的 Azure AI 语音工具

使用 Azure MCP 服务器通过自然语言提示管理 Azure AI 语音功能,例如语音转文本(SST)。 无需记住特定的命令语法。

注释

Azure MCP 服务器工具为完成任务所需的数据定义参数。 其中一些参数特定于每个工具,如下所示。 其他参数是全局参数,由所有工具共享。 有关详细信息,请参阅 工具参数

语音转文本:识别

使用 Azure AI 服务语音从音频文件中识别语音。 此命令使用音频文件,并使用高级语音识别功能将其转换为文本。 支持的音频格式包括 WAV、MP3、OPUS/OGG、FLAC、ALAW、MULAW、MP4、M4A 和 AAC。 压缩格式要求在系统上安装 GStreamer。

示例提示包括:

  • 基本转换:“使用 Azure 语音服务将此音频文件转换为文本”
  • 使用语言检测:“使用语言检测识别音频文件中的语音”
  • 使用不雅内容筛选:“使用不雅内容筛选从音频文件转录语音”
  • 指定终结点:“使用认知服务终结点将语音转换为音频文件中的文本”
  • 西班牙语:“用西班牙语转录音频文件”
  • 详细输出:“将语音转换为音频文件中具有详细输出格式的文本”
  • 使用短语提示:“使用短语提示识别语音以提高准确性”
  • 多个短语提示:“使用多个短语提示转录音频:”Azure“、”认知服务“、”机器学习”
  • 逗号分隔提示:“使用逗号分隔短语提示将语音转换为文本:”Azure, 认知服务, API“”
  • 原始不雅内容输出:“使用文件中的原始不雅内容输出转录音频”
参数 必需还是可选 Description
终结点 必选 Azure AI 服务终结点 URL(例如 https://your-service.cognitiveservices.azure.com/)。
文件 必选 要识别的本地音频文件的路径。
语言 可选 语音识别的语言(例如 en-USes-ES)。 默认值为 en-US
短语 可选 用于提高识别准确性的短语提示。 可以多次指定,也可以指定为逗号分隔值。
格式 可选 输出格式: simpledetailed。 默认值为 simple
亵渎 可选 不雅内容筛选器: maskedremovedraw。 默认值为 masked