你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

文档智能的透明度说明和用例

重要

仅为方便起见,提供非英语翻译。 请查阅本文件的 EN-US 版本以获取最终版本。

什么是透明度说明?

AI 系统不仅包括技术,还包括使用它的人员、受其影响的人员以及部署它的环境。 创建一个适合其预期用途的系统需要了解技术的工作原理、功能和局限性,以及如何实现最佳性能。

Microsoft提供了 透明度说明 ,可帮助你了解 AI 技术的工作原理。 这包括系统所有者可以做出的影响系统性能和行为的选择,以及考虑整个系统(包括技术、人员和环境)的重要性。 可以在开发或部署自己的系统时使用透明度说明,或与将使用或受系统影响的人员共享它们。

透明度说明是Microsoft将 AI 原则付诸实践的更广泛努力的一部分。 若要了解详细信息,请参阅 Microsoft的 AI 原则

文档智能的基础知识

介绍

文档智能 通过一组 API 进行访问,开发人员可以轻松地从文档中提取文本、结构和字段。 它由以下功能组成:

  • 阅读了解文本提取。
  • 关于结构化见解和通用键值及实体(例如名称、地点和事物)的布局和通用文档。
  • 特定文档类型的预生成模型,例如发票、收据、名片、W2 和 ID。
  • 用于生成特定于文档类型的模型的自定义模型。

文档智能支持每个功能的一个或多个语言和区域设置,如 支持的语言 文章中所述。

关键术语

条款 定义
读取 此功能从图像和文档中提取文本行、字词及其位置,以及检测到的语言等其他信息。
版式 此功能提取文本、选择标记和表格结构(与文本关联的行号和列号)。 请参阅 文档智能布局
常规文档 分析文档,将发现的表中的键与条目对应的值关联起来。 有关详细信息,请参阅 文档智能常规文档
预生成的模型 预构建模型是用于独特表单类型的文档特定模型。 这些模型在使用前不需要自定义训练。 例如,预生成的发票模型从发票中提取关键字段。 有关详细信息,请参阅 文档智能预生成发票模型
自定义模型 使用文档智能可以训练根据表单和文档定制的自定义模型。 此模型提取文本、键值对、选择标记和表数据。 可以通过应用人工评审、更新标签以及使用 API 重新训练模型,通过人工反馈来改进自定义模型。
置信度值 所有 "获取分析结果" 操作都会为所有提取的字词和键值映射返回介于 0 和 1 之间的置信值。 该值表示服务在 100 次尝试中正确提取单词或正确映射键值对的次数估计。 例如,如果一个单词估计在 82% 的时间被正确提取,则置信度值为 0.82。
附加功能 文档智能提供了一组附加功能,用于扩展结果,以包含文档中的更多元素。 某些附加功能会产生额外的成本,可以根据文档提取的具体情况启用和禁用。 我们目前提供高分辨率、公式、字体样式、条形码、语言、键值对和查询字段提取功能。 有关详细信息,请参阅 文档智能附加组件功能

能力

系统行为

Azure AI 文档智能是一种基于云的 Azure AI 服务,它使用光学字符识别(OCR)、文本分析和 Azure AI 服务中的自定义文本构建。 自定义模型当前使用 Azure OpenAI 服务的 GPT-3.5 模型。 OCR 用于提取字样和手写文本文档。 文档智能使用 OCR 从 AI 支持的表单和文档中检测和提取信息,以便为文本提取提供更多结构和信息。

用例

预期用途

文档智能包括使来自不同行业的客户能够从其文档中提取数据的功能。 以下方案是适当用例的示例:

  • 应付账款: 公司可以通过使用预构建的发票模型和自定义表单,加速含人力参与的发票数据输入,从而提高应付账款文员的工作效率。 预生成的发票模型可以提取关键字段,例如 发票总计送货地址

  • 保险表单处理: 客户可以使用自定义表单来训练模型,以提取保险表单中的键值对,然后将数据馈送到其业务流程,以提高其流程的准确性和效率。 对于其唯一表单,客户可以使用自定义表单生成自己的模型来提取键值。 然后,这些提取的值将成为其业务中各种工作流的可作数据。

  • 银行表单处理: 银行可以使用预生成的 ID 模型和自定义表单来加快“了解客户”文档的数据输入速度,或加快抵押贷款数据包的数据输入。 如果银行要求客户在过程中提交个人标识,则预生成的 ID 模型可以提取密钥值,例如名称和文档编号,从而加快数据输入的总体时间。

  • 机器人过程自动化(RPA): 使用自定义提取模型,客户可以从各种类型的文档中提取所需的特定数据。 然后,可以通过 RPA 将提取的键值对输入到各种系统(例如数据库或 CRM 系统)中,替换手动数据输入。 客户还可以使用自定义分类模型根据文档的内容对文档进行分类,并将其提交到适当的位置。 因此,从自定义模型中提取的有序数据集对于定期处理大量文档的企业来说,记录 RPA 方案至关重要的第一步。

选择其他用例时的注意事项

选择用例时,请考虑以下因素:

  • 在涉及敏感数据或情境时仔细考虑应用人工审核:在处理高风险情境(例如影响某人的重要权利)或敏感数据时,请务必进行人工审核。 机器学习模型并不完美。 请仔细考虑何时在某些工作流中包含人工审核步骤。 例如,入境口岸(如机场)的身份验证应包括人工监督。

  • 在用于奖励或拒绝福利时,请仔细考虑:文档智能未针对奖励或拒绝福利进行设计或评估,在这些情况下使用可能会产生意想不到的后果。 这些方案包括:

    • 医疗保险:这包括使用医疗保健记录和医疗处方作为保险奖励或拒绝决定的基础。
    • 贷款批准:其中包括申请新贷款或再融资现有贷款。
  • 仔细考虑受支持的文档类型和区域设置:预生成模型具有受支持的字段的预定义列表,并且是为特定区域设置构建的。 请务必仔细检查官方支持的区域设置和文档类型,以确保获得最佳结果。 例如,请参阅 文档智能预定义收据区域

  • 法律和法规注意事项:组织在使用任何 AI 服务和解决方案时需要评估潜在的特定法律和监管义务,这些义务可能不适合在每个行业或方案中使用。 此外,AI 服务或解决方案并未设计为按适用服务条款和相关行为准则禁止的方式使用,也不得按这类方式使用。

局限性

技术限制、操作因素和范围

预生成模型限制

文档智能预生成模型用于处理特定文档类型,并预先训练成千上万个表单。 此功能允许开发人员在几分钟内开始并获取结果,无需训练数据或标记。 对于预生成模型,请务必注意输入要求列表、支持的文档类型和每个预生成模型的区域设置,以获得最佳结果。 例如,请参阅预生成的发票输入要求。

自定义模型限制

文档智能自定义模型通过使用您自己的训练数据进行训练,从而使模型能够适应您的特定表格和文档。 此功能在很大程度上取决于对数据进行标记的方式以及你提供的训练数据集的类型。 对于自定义模型,请务必注意训练数据集大小、文档页限制和每种文档类型所需的最小样本数限制。 自定义模型当前使用 Azure OpenAI 服务的 GPT-3.5 模型。 有关 Azure OpenAI 模型的详细信息,请参阅 Azure OpenAI 透明度说明

服务限制 ”页包含有关所有定价层的 Azure AI 文档智能服务配额和限制的详细信息。 它还包含关于使用模型和避免请求限制的模型限制和最佳做法。

功能支持

有关文档智能模型可以执行的不同操作的列表,请参阅 “分析功能”表

系统性能

准确性

文本在基础层次由行和单词组成,并在文档理解层面包括名称、价格、金额、公司名称和产品等实体。

词级准确率

OCR 的常用准确性度量是单词错误率(WER),或提取的结果中错误输出的单词数。 WER 越低,准确性就越高。

WER 定义为:

显示 WER 定义的插图。

地点:

术语 定义 示例:
S 输出中错误单词(“被替换的单词”)的数量。 “Velvet”被提取为“Veivet”,因为“l”被检测为“i”。
D 输出中缺失单词(“删除的单词”)的数量。 对于文本“Company Name: Microsoft”(公司名称:Microsoft),由于 Microsoft 是手写的或难以辨认,不会提取这个词。
I 输出中不存在的单词(“插入的单词”)的数量。 “Department”(部门)被错误地分词为三个单词,即“Dep artm ent”。在这种情况下,会得到一个已删除的单词和三个插入的单词。
C 输出中正确提取的单词个数。 正确提取的所有单词。
N 引用中的总单词计数(N=S+D+C),不包括I,因为这些单词在原始引用中不存在,却被错误预测为存在。 考虑一张显示了句子“Microsoft, headquartered in Redmond, WA announced a new product called Velvet for finance departments”(Microsoft 总部位于华盛顿州雷德蒙德,宣布推出一款面向财务部门的新产品 Velvet)的图像。假设 OCR 输出为“ , headquartered in Redmond, WA announced a new product called Veivet for finance dep artm ents”。在这种情况下,S (Velvet) = 1、D (Microsoft) = 1、I (dep artm ents) = 3、C (11),N = S + D + C = 13。 因此,WER = (S + D + I) / N = 5 / 13 = 0.38 或 38%(总计 100)。

使用置信度值

如前面的部分所述,该服务为 OCR 输出中的每个预测单词提供置信度值。 客户使用该值来为其内容和场景校准自定义阈值,以内容路由到直接处理流程或转发到人机回环流程。 结果测量确定了针对特定场景的准确性。

OCR 系统性能影响可能因应用 OCR 技术的情况而异。 我们将回顾一些示例来说明这一概念。

  • 医疗设备符合性:在第一个示例中,拥有各种专利、设备、药物和治疗产品组合的跨国制药公司需要分析符合 FDA 的产品标签信息和分析结果文档。 公司可能更喜欢为应用人机回环设置低置信度值阈值,因为错误提取的数据的代价可能对消费者产生重大影响,并可能导致监管机构处以罚款。
  • 图像和文档处理:在此第二个示例中,公司执行保险和贷款申请处理。 使用 OCR 的客户可能更喜欢中等置信度值阈值,因为自动化文本提取与其他信息输入和人机循环步骤相结合,以便全面审查应用程序。
  • 内容审查:对于大规模从供应商导入的大量电子商务目录数据,客户可能更喜欢高置信度值阈值,其准确性很高,因为即使是一小部分虚假标记的内容也会为其人工评审团队和供应商产生大量开销。

文档和实体级准确性

例如,在文档级别,在发票或收据的情况下,整个文档中只有一个字符的错误可能微不足道。 但是,如果该错误位于表示付费金额的文本中,则整个发票或收据可能会标记为不正确。

另一个有用的指标是实体错误率(EER)。 它是一个或多个文档中相应实体总数中错误提取的实体(如名称、价格、金额和电话号码)的百分比。 例如,对于表示 10 个名称的总共 30 个单词,如果其中 2 个单词错误,WER 为 0.06 (6%)。 但是,如果这导致 10 个名称中有 2 个不正确,则名称 EER 为 0.20(20%),这远远高于 WER。

测量 WER 和 EER 是一个有用的练习,可全面了解文档理解的准确性。

提高系统性能的最佳做法

请考虑以下关于限制和性能的要点:

该服务支持图像和文档。 有关页数、图像大小、纸张大小和文件大小的允许限制,请参阅 “什么是文档智能?”

  • 许多变量可能会影响文档智能所依赖的 OCR 结果的准确性。 这些变量包括文档扫描质量、分辨率、对比度、光线条件、旋转和文本属性,例如大小、颜色和密度。 例如,我们建议图像至少为 50 x 50 像素。 请参阅产品规格并测试文档中的服务,以验证适合你的情况。
  • 请注意每个服务对当前支持的输入、语言和区域设置以及文档类型的限制。 例如,请参阅 布局支持的语言

改进自定义模型质量的最佳做法

使用文档智能自定义模型时,您可以提供自己的训练数据,使模型能够针对您的特定表单和文档进行训练。 以下列表使用自定义表单模型类型来共享用于提高模型质量的初学者提示。

  • 对于填充表单,请使用填充了所有字段的示例。
  • 使用表单时,应为每个字段提供您期望看到的实际数值。
  • 如果表单图像质量较低,请使用更大的数据集(例如,至少 10-15 个图像)。

有关完整的指南和输入要求,请参阅 为自定义模型生成训练数据集

文档智能评估

文档智能的性能将有所不同,具体取决于其实现的实际解决方案。 为了确保其方案中的最佳性能,客户应进行自己的评估。 该服务为每个提取的单词和键值映射提供介于 0 和 1 之间的置信度值。 客户应进行一个试点或概念验证,以便更好地理解他们用例的置信度值范围和从文档智能提取的质量。 然后,他们可以估计结果的置信度值阈值,以决定是否用于直接处理(STP)或由人工评审。 例如,客户可能会提交置信度值大于或等于 .80 的结果以进行直接处理,并将人工评审应用于置信度值小于 .80 的结果。

评估并集成文档智能以供使用

Microsoft希望帮助你负责任地开发和部署使用文档智能的解决方案。 我们正在通过考虑 AI 系统的公平性、可靠性和安全、隐私和安全、包容性、透明度和人类责任,采取原则性方法来维护个人代理和尊严。 这些注意事项符合我们开发负责任的 AI 的承诺。

当你准备部署AI驱动的产品或功能时,以下活动将帮助你取得成功:

  • 了解它可以执行的作用: 充分评估文档智能的潜力,以便了解其功能和局限。 了解它在特定方案和上下文中的执行方式。 例如,如果使用预生成的发票模型,请使用业务流程中的实际发票进行测试,以根据现有流程指标分析和基准测试结果。

  • 尊重个人的隐私权利: 仅出于合法和正当目的从个人那里收集数据和信息。 仅将数据和信息用于客户同意的目的。

  • 法律审查: 获取适当的法律审查,尤其是在计划将其用于敏感或高风险应用程序中时。 了解可能需要在哪些限制范围内工作,并负责解决将来可能出现的任何问题。

  • 人机回环:让人员参与循环,并将人工监督作为要探索的一致模式领域包含在内。 这意味着确保持续对 AI 驱动的产品或功能进行人工监督,并维护人类在决策中的作用。 确保可以对解决方案进行实时人工干预,以防止伤害。 通过人机回环,可管理文档智能无法按要求执行的情况。

  • 安全: 确保解决方案是安全的,并且它有足够的控制来保留内容的完整性,并防止未经授权的访问。

保护隐私的建议

成功的隐私方法可让个人获得信息,并提供控制和保护来保留其隐私。

  • 如果文档智能是旨在合并个人身份信息(PII)的解决方案的一部分,请仔细考虑是否以及如何记录这些数据。 遵循有关隐私和敏感数据的适用国家和地区法规。
  • 隐私管理员应考虑对提取的文本和值以及这些文档的基础文档或图像的保留策略。 保留策略将与每个应用程序的预期用途相关联。

详细了解负责任 AI

详细了解文档智能