你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
重要说明
Azure AI 内容理解目前处于预览状态。 通过公共预览版,可以提前访问当前处于正在开发状态的功能。 正式发布之前,功能、方法和流程可能会更改或具有有限的功能。 有关详细信息,请参阅 Microsoft Azure 预览版补充使用条款。
内容理解提供复杂的文档分析功能。 组织可以使用这些功能将非结构化内容转换为可作和组织的数据。 内容理解可以使用 可自定义的分析器 从各种文档和表单中专家提取基本信息、字段和关系。
业务用例
文档分析器可以处理采用各种格式和模板的复杂文档:
- 合同生命周期管理: 从各种协定类型中提取关键字段、子句和义务。
- 贷款和抵押贷款申请: 自动处理,使银行、贷款人和政府实体能够更快地处理。
- 金融服务: 分析复杂的文档,如财务报告和资产管理报告。
- 费用管理: 分析各种零售商的收据和发票,以验证不同格式和模板的支出。
- 文档集和知识库方案: 从文档集中整体提取关键字段。 通过应用多步骤推理来添加处理验证和扩充等任务的引用数据。
主要优势
内容理解提供强大的文档分析功能,旨在解决关键企业和业务方案,例如 RAG 和机器人流程自动化。 主要优势包括:
- 智能搜索启用: 将非结构化文档转换为结构化、可搜索的数据资产,以提高整个组织的信息可发现性和可访问性。
- 地面数据提取:保持提取数据的清晰可追溯性和本地化性,以促进高效的人工循环评审过程,并确保透明度和合规性。
- 置信度驱动的自动化: 使用内置置信度评分智能地自动执行文档处理任务,以帮助优化资源分配、降低运营成本并提高决策准确性。
- 灵活的自定义: 轻松调整和定制文档分析器,使其与特定的业务流程和工作流保持一致。 自定义使精确提取和分类符合组织的特定要求。
- 提高准确性和可靠性: 实现关键业务数据的精确提取和分类,以减少错误并提高自动化工作流的作效率。
-
代理就绪:以标准格式处理各种输入并传送输出,以便直接供代理工作流使用。 通过
strongly-typed架构支持的数据,输出可以让应用程序了解用户意图,并更轻松地快速获取适合你代码格式的数据。
文档分析器功能
内容提取
内容提取构成了内容理解文档分析功能的基础。 此过程将非结构化文档转换为结构化的可读数据。 内容提取通过高级布局分析精确捕获打印文本和手写文本,同时保留文档的结构:
- 内容分析
- 文本:处理多语言内容,包括机器打印的文本和数百种语言的手写文本。
- 选择标记:标识和提取选择指示器,例如复选框、按钮和类似的标记。
- 条形码检测:扫描和解码来自十几种类型的线性和二维条形码的信息。
- 数学公式:捕获并保留 LaTeX 格式的复杂数学表达式。
- 图像元素:查找和提取图像、图表和图表及其相关标题和批注。
- 结构分析
- 段落:根据文本段的文档上下文和角色检测和分类文本段。
- 表格数据:识别和提取表结构,包括包含跨单元格和多页布局的复杂格式。
- 分层部分:通过节标题和嵌套内容关系映射内容组织。
- 检索扩充生成 (RAG)
- RAG 解决方案:内容提取通过将原始多模式数据转换为经过优化的结构化可搜索格式来形成有效的 RAG 系统的基础。 若要了解有关生成 RAG 解决方案的详细信息,请参阅 检索扩充生成。
字段提取
使用字段提取,可以从自定义以满足要求的各种文档和表单中提取、分类和生成结构化数据。 将非结构化内容转换为有组织、可作的信息的过程简化了数据管理,提高了可搜索性,并支持自动化工作流。
例如,可以从发票无缝提取客户详细信息、帐单地址和明细费用。 还可以在法律协议中识别合同方、续订日期和付款条款。 为了最大限度地提高效率,可以使用预生成的分析器模板,例如为发票定制的模板。 还可以从头开始设计定制分析器,通过标记更多示例文档来提高精度。
置信度和基础 API 是一项选择加入功能。 将 estimateFieldSourceAndConfidence 设置为 true,以选择加入针对字段提取的置信度和基础。
字段提取方法
内容理解为字段提取提供了多才多艺的方法,可实现对文档内容的精确和定制处理:
- 提取:从发票提取特定数据(如收据中的交易日期或行项)以获取精确且集中的信息捕获。
- 分类:将文档内容分类为预定义类别,例如在客户呼叫脚本中对情绪进行分类或对酒店收据项目进行分类。
- 生成:从文档生成新的见解或摘要,包括文档摘要和章节概述,以增强内容可访问性和理解性。
输入要求
有关支持的输入文档格式的详细信息,请参阅 服务配额和限制。
支持的语言和区域
有关支持的语言和区域的列表,请参阅 语言和区域支持。
数据、隐私和安全性
使用内容理解的开发人员应查看客户数据的Microsoft策略。 有关详细信息,请参阅 数据、隐私和安全性。
相关内容
- 尝试使用 Azure AI Foundry 中的内容理解来处理文档内容。
- 了解如何分析文档内容 分析器模板。
- 使用 可视文档搜索查看代码示例。