你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure AI 内容理解提供了哪些新增功能?

Azure AI 内容理解服务会持续更新。 将此页添加为书签,以随时了解最新的发行说明、功能增强内容和我们的最新文档。

2025 年 10 月

Azure AI 内容理解预览版引入了以下更新:

  • Azure AI 内容理解现在增加了所有模态的字段计数支持 (1,000)。
  • API 响应正文现在将输入、输出和上下文化令牌作为 tokens 对象的一部分使用。 有关详细信息,请查看 快速入门 文章。

2025年5月

Azure AI 内容理解 2025-05-01-preview REST API 现已推出。 此更新引入了以下更新和增强功能:

处理模式

2025-05-01-preview 发布中,我们引入了两种模式:standardpro。 所有分析器的默认模式为 standard

内容理解专业模式增加了推理、对多个输入文档的支持、配置用于链接、扩充和验证的外部知识库的功能。 这些功能通过扩展字段提取功能来自动执行复杂的任务,以涵盖以前需要自定义代码或人工工作的方案。

pro 模式目前仅限于将文档作为输入,即将支持其他类型的内容类型! 专业模式解决的常见挑战是跨不同输入文件的内容聚合架构、验证文档的结果,以及使用外部知识生成输出架构。 了解有关 Pro 模式的详细信息。

AI Foundry 体验

在此版本中,Azure AI Foundry 中的内容理解体验现在提供以下更新:

  • 添加了对在现有内容理解体验中创建 standard 模式和 pro 模式任务的支持。 现在,有了专业模式,就可以引入自己的引用数据,并创建一个任务来对数据执行多步骤推理。 详细了解 Azure AI Foundry 中使用 Azure AI 内容理解中的两种不同任务类型。
  • 试用体验现已可用于常规文档分析和发票分析。 在自己的数据上试用这些预生成功能,并开始获取见解,而无需创建自定义任务。

文档分类和拆分

此版本引入了新的 分类 API。 此 API 支持对包含多个文档的单个文件进行分类和逻辑拆分,以及选择路由到字段提取分析器。 可以创建自定义分类器,将文件拆分并分类为多个逻辑文档,并在单个 API 调用中将单个文档路由到下游字段提取模型。

文档处理改进

  • 添加了对将跨多个页的表提取为单个逻辑表的支持。 详细了解文档中的结构提取更新
  • 支持将复选标记和单选按钮作为 Unicode 字符的选择标记。 详细了解文档中的结构提取更新
  • 条形码提取作为默认内容提取的一部分,与 OCR 一起实现。 详细了解文档中的结构提取更新
  • 置信度分数改进,提取字段的基础结果更好。
  • 为以下文档类型扩展了新的文件格式支持:docx、、xslxpptx、、msgemlrtfhtmlmdxml

视频处理改进

  • 添加了对整个视频字段的支持。 详细了解 视频处理改进

  • 通过分段添加了对视频章节的支持。 详细了解 视频处理改进

  • 添加了对提取的人脸缩略图的人脸识别的支持。 标识可增强描述和下游任务,例如搜索和检索。 详细了解 视频中的人脸检测

  • 已添加支持可在分析器配置中禁用人脸模糊的功能。 详细了解 视频处理改进

  • 音频处理改进

  • 为音频听录添加了更多区域设置。 详细了解 音频功能

  • 添加了对多语言音频处理的支持。 详细了解 音频中的语言处理改进

  • 将支持的最大文件大小增加到≤ 1 GB,长度≤ 4 小时。 详细了解 音频服务限制

人脸 API

此版本向内容理解添加了新的人脸检测和识别功能。 可以创建人脸和人物目录。 该目录可用于识别已处理内容中的人脸。 详细了解 如何检测和识别人脸

2025 年 4 月

2024-12-01-preview REST API 引入了以下更新和增强功能:

  • 常规改进。 对于所有模态,若要请求提高当前限制,请通过 cu_contact@microsoft.com 与我们联系。
  • 预生成的发票模板。 发票模板现已可自定义。 选择发票模板后,可以通过添加或删除字段来访问可以根据特定需求定制的预定义字段列表。
  • 生成字段和分类字段
    • 现在文档模式支持生成字段和分类字段。
    • 现在可以使用 REST 终端/Studio 来为文档定义生成字段和分类字段,并实现零样本输出。 使用此功能,可以生成摘要、推断结果,以及跨多个文件对各个文档进行分类。
    • 可以调用多个分析器来处理单个文件。
  • 视频形式
    • 视频处理的延迟改进降低了 50% 的延迟。
    • 扩展的输出类型以添加对 Object 的支持和 Arrays
    • 添加了对通过 S3 预签名 URL 引入提供的视频文件的支持
    • 改进了视频分割,特别是在视频中没有镜头剪辑的情况下进行语义分割
  • 音频形式
    • API 现在支持字段类型: group
  • 文本形式
    • 对字段类型的 API 支持:group
  • 用户体验改进
    • 添加了在架构定义期间下载和上传架构配置的功能。
    • 增强的文件标记和分析器生成过程。
    • 添加了下载代码示例以便快速设置。

2024 年 11 月

欢迎使用! Azure AI 内容理解 API 版本 2024-12-01-preview 现在以公共预览版提供。 此版本允许你根据各种形式或格式生成根据特定任务定制的内容的结构化表示形式。 内容理解使用定义的架构来提取适合由大型语言模型和后续应用程序处理的内容。