获取媒体听录、翻译和语言识别见解

2025-10-08

听录、翻译和语言识别功能检测、转录和翻译媒体文件中的语音，并将其翻译为 50 多种语言。

Azure AI 视频索引器（VI）处理音频文件中的语音，以提取转录文本，然后将其翻译为多种语言。选择特定语言进行翻译时，脚本和关键字、主题、标签或 OCR 等见解将翻译成指定语言。您可以按原样使用转录，也可以将其与说话人的分析结合使用，以将转录映射到演讲者并分配给他们。音频文件可以包含多个扬声器。每个说话人都会收到一个 ID，该 ID 显示在其转录的语音下。

语言识别（LID） 识别视频文件中支持的主导口语。有关详细信息，请参阅 “应用 LID”。

多语言识别（MLID） 自动识别音频文件中不同段中的口语，并发送每个段以标识的语言进行转录。此过程结束时，所有听录合并到同一文件中。有关详细信息，请参阅应用 MLID。生成的见解在 JSON 文件中的分类列表中生成，其中包含 ID、语言、转录文本、持续时间和置信度分数。

当 Azure AI 视频索引器为包含多个说话者的媒体文件编制索引时，它会执行说话者分割聚类。它标识视频中的每个说话人，并将每段转录内容归属到相应的说话人。说话者被分配唯一标识，如说话者 #1 和 #2。此功能允许在对话期间识别说话人，并可用于各种方案，例如医生患者对话、代理-客户交互和法庭诉讼。

媒体听录、翻译和语言识别用例

通过为听力障碍人士提供内容来增强可访问性。使用 Azure AI 视频索引器生成语音转文本听录和翻译成多种语言。
改善不同区域和语言的不同受众的内容分发。使用 Azure AI 视频索引器的听录和翻译功能以多种语言交付内容。
增强和改进手动隐藏式字幕和字幕生成。使用 Azure AI 视频索引器的听录和翻译功能以及 Azure AI 视频索引器以一种受支持的格式生成的隐藏式字幕。
使用语言识别（LID）或多语言识别（MLID）以未知语言转录视频。这些功能允许 Azure AI 视频索引器自动识别视频中显示的语言，并相应地生成听录。

使用 Web 门户查看见解 JSON

上传视频并编制索引后，请从 Web 门户下载 JSON 格式的见解。

选择“ 库 ”选项卡。
选择所需的媒体。
选择“下载”，然后选择“见解”（JSON）。 JSON 文件将在新的浏览器选项卡中打开。
查找示例响应中所述的密钥对。

使用 API

使用 “获取视频索引” 请求。通过 &includeSummarizedInsights=false。
查找示例响应中所述的密钥对。

示例响应

API 返回在 sourceLanguage 中检测到的视频中的所有语言。转录部分中的每个项都包含转录的语言。

    "insights": {
      "version": "1.0.0.0",
      "duration": "0:01:50.486",
      "sourceLanguage": "en-US",
      "sourceLanguages": [
        "es-ES",
        "en-US"
      ],
      "language": "en-US",
      "languages": [
        "en-US"
      ],
      "transcript": [
        {
          "id": 1,
          "text": "Hi, I'm Doug from office. We're talking about new features that office insiders will see first and I have a program manager,",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:00",
              "adjustedEnd": "0:00:05.75",
              "start": "0:00:00",
              "end": "0:00:05.75"
            }
          ]
        },
        {
          "id": 2,
          "text": "Emily Tran, with office graphics.",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:05.75",
              "adjustedEnd": "0:00:07.01",
              "start": "0:00:05.75",
              "end": "0:00:07.01"
            }
          ]
        },

重要

阅读所有 Azure AI 视频索引器功能的透明度说明概述。每个见解也有其自己的透明度说明。

听录、翻译和语言识别说明

谨慎使用时，Azure AI 视频索引器是许多行业的宝贵工具。必须始终尊重他人的隐私和安全，并遵守当地和全球法规。我们建议：

仔细考虑结果的准确性，促进更准确的数据，检查音频的质量，低质量音频可能会影响检测到的见解。
视频索引器不执行说话人识别，因此不会在多个文件中为说话人分配标识符。无法在多个文件或脚本中搜索单个说话人。
说话人标识符是随机分配的，只能用于区分单个文件中的不同说话人。
跨对话和重叠语音：当多个说话人同时交谈或相互中断时，模型很难准确区分和分配相应的说话人的正确文本。
说话人重叠：有时，说话人可能具有类似的语音模式、口音或使用类似的词汇，从而使模型难以区分它们。
干扰音频：音频质量差、背景噪音或低质量录音可能会妨碍模型正确识别和转录扬声器的能力。
情感语音：语音中的情感变化，例如喊叫、哭泣或极度兴奋，会影响模型准确分割聚类说话者的功能。
说话人伪装或模拟：如果说话人故意模仿或伪装其语音，则模型可能会误演说话人。
模棱两可的说话人识别：某些语音段可能没有足够的独特特征，使模型能够自信地归因于特定说话人。
包含所选语言以外的语言的音频会产生意外的结果。
检测每种语言的最小段长度为 15 秒。
语言检测偏移量平均为 3 秒。
语音应是连续的。语言之间的频繁交替可能会影响模型的性能。
非母语发言人的语音可能会影响模型性能（例如，如果发言人在使用其第一语言时切换为另一种语言，则会发生这种情况）。
该模型旨在通过合理的音频音响效果（而不是语音命令、唱歌等）识别自发对话语音。
项目创建和编辑不适用于多语言视频。
使用多语言检测时，自定义语言模型不可用。
不支持添加关键字。
导出的隐藏式字幕文件中不包含语言指示。
API 中的更新脚本不支持多种语言文件。
该模型旨在识别自发的对话语音（而不是语音命令、唱歌等）。
如果 Azure AI 视频索引器无法识别具有足够置信度（大于 0.6）的语言，则回退语言为英语。

下面是支持的语言列表。

听录、翻译和语言识别组件

在听录、翻译和语言识别过程中，处理媒体文件中的语音，如下所示：

组件	定义
源语言	用户上传源文件进行索引，或者： - 指定视频源语言。 - 选择自动检测单语言（LID）以标识文件的语言。输出将单独保存。 - 选择自动检测多语言（MLID）以识别文件中的多种语言。将单独保存每种语言的输出。
听录 API	音频文件将发送到 Azure AI 服务，以获取转录和翻译的输出。如果指定了语言，则会相应地处理它。如果未指定任何语言，则运行 LID 或 MLID 进程以标识处理文件之后的语言。
输出统一	转录和翻译的文件统一到同一文件中。输出的数据包括每个提取句子的说话人 ID 及其置信度。
置信度值	每个句子的估计置信度计算为 0 到 1 的范围。置信度分数表示结果准确性的确定性。例如，82% 的确定性表示为 0.82 分数。

代码示例

查看 Azure AI 视频索引器的所有示例

反馈

此页面是否有帮助？