你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
可以使用 Azure AI 内容理解分类器来检测和标识在应用程序中处理的文档。 内容理解分类器可以整体执行输入文件的分类。 它还可以识别输入文件中的多个文档或单个文档的多个实例。
重要
Azure AI 内容理解分类器仅在 2025-05-01-preview 版本中可用。 通过公共预览版,可以提前访问当前处于正在开发状态的功能。 正式发布之前,功能、方法和流程可能会更改或具有有限的功能。 有关详细信息,请参阅 Microsoft Azure 预览版补充使用条款。
业务用例
分类器可以处理各种格式和模板的复杂文档:
- 发票:根据需要对来自多个供应商的发票进行分类,以使用不同的内容理解分析器处理每个类别。
- 税务文档:将多个税务文档分类为不同类型的税单,例如 1040 和 1099。
- 合同:对长期非结构化合同进行分类,以简化运营,以了解不同类型的协议及其特定的法律影响。
内容理解分类器功能
内容理解分类器可以分析单个或多文件文档,以确定输入文件是否可以分类为定义的类别。 支持以下方案:
- 包含一个文档类型的单个文件,例如贷款申请表单。
- 包含多个文档类型的单个文件。 例如,包含贷款申请表单、付款单和银行帐单的贷款申请包。
- 包含同一文档的多个实例的单个文件。 例如,已扫描发票的集合。
- 默认情况下,在没有合适的已定义类别的场合下使用
$OTHER类。
使用内容理解分类器
内容理解分类器不需要任何训练数据集。 最多可以定义 50 个类别名称和说明,并创建分类器。 默认情况下,整个文件被视为单个内容对象,这意味着文件或对象与单个类别相关联。
在文件中有多个文档时,分类器可以识别具有拆分功能的输入文件中包含的不同文档类型。 分类器响应包含文件中包含的每个已标识文档类型的页面范围。 此响应可以包含同一文档类型的多个实例。
调用分类器时,analyze操作包括一个splitMode属性,该属性提供对拆分行为的精细控制。 还可以指定页码以仅分析输入文档的某些页面:
- 若要将整个输入文件视为单个文档进行分类,请设置为
splitModenone。 执行此作时,该服务将返回整个输入文件的一个类别。 - 若要对输入文件的每个页面进行分类,请设置为
splitModeperPage. 服务会尝试将每一页作为单个文档来进行分类。 - 若要标识文档和关联的页面范围,请设置为
splitModeauto.
可选分析
对于完整的端到端流,可以将分类器类别与现有分析器链接。 对于分类为具有链接分析器类别的每个内容对象,该服务将使用相应的分析器自动调用对内容对象的分析。
例如,可以使用此链接创建分类器,该分类器仅标识和分析包含文档中多种类型的表单的 PDF 中的发票。 将analyzerId设置为现有分析器,以便对分类文档或页面进行路由并执行字段提取操作。
分类器限制
有关支持的输入文档格式和分类器限制的信息,请参阅 服务配额和限制。
最佳做法
若要改进分类和拆分质量,请使用良好的类别名称和说明,以便模型可以了解具有某些上下文的类别。 有关类别名称和说明的详细信息,请参阅 最佳做法。
主要优势
- 准确性和可靠性:确保精确的文档分类以减少错误并提高效率。
- 可伸缩性:横向扩展文档处理以满足业务需求。
- 可自定义:调整文档分类器以适应特定工作流。
支持的语言和区域
有关支持的语言和区域的列表,请参阅 语言和区域支持。
数据隐私和安全性
使用内容理解功能的开发人员应查看Microsoft关于客户数据的策略。 有关详细信息,请参阅 数据、保护和隐私。
相关内容
- 尝试使用 Azure AI Foundry 中的内容理解来处理文档内容。
- 了解如何分析文档内容 分析器模板。