你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

自定义命名实体识别的用例

重要

仅为方便起见,提供非英语翻译。 请查阅 EN-US 文档以获取最终版本。

什么是透明度说明?

AI 系统不仅包括技术,还包括使用它的人员、受其影响的人员以及部署它的环境。 创建一个适合其预期用途的系统需要了解技术的工作原理、功能和局限性,以及如何实现最佳性能。

Microsoft 提供了透明度说明来帮助你了解我们的 AI 技术工作原理。 这包括系统所有者可以做出的影响系统性能和行为的选择,以及考虑整个系统(包括技术、人员和环境)的重要性。 你可以在开发或部署自己的系统时使用透明度说明,或者与使用你的系统或受其影响的人员共享透明度说明。

透明度说明是 Microsoft 将其 AI 原则付诸实践的广泛努力的一部分。 若要了解详细信息,请参阅 Microsoft AI 原则

自定义命名实体识别简介

自定义命名实体识别(自定义 NER)是一种基于云的 API 服务,用于信息提取。 该服务应用机器学习智能,以便可以生成用于信息提取任务的自定义模型。

自定义 NER 可用于从 .txt 文件中提取信息。 例如,金融机构可能想要构建自动化通知系统,提醒客户付款到期。 组织使用自定义 NER 从贷款协议中提取相关信息,例如客户名称、贷款金额、利率和付款日期。 系统可以进一步处理提取的实体,以便向客户端发送下一个付款日期和到期金额的提醒。

自定义命名实体识别的基础知识

自定义命名实体识别使用户能够生成自定义机器学习模型,以便从非结构化文本(如合同或财务文档)中提取特定于域的实体。

通过创建自定义 NER 项目,开发人员可以迭代标记数据中的实体、训练、评估和改进模型性能,然后再使其可供使用。 标记数据的质量极大地影响模型性能。 为了简化模型构建和自定义,该服务提供了一个可通过 Language Studio 访问的自定义 Web 门户。

自定义 NER 术语

以下术语通常用于此功能:

术语 定义
项目 项目是一个工作区域,用于基于数据生成自定义 ML 模型。 只有你和对所使用的 Azure 资源具有访问权限的其他人才能访问你的项目。 在项目中,可以标记数据中的实体、生成模型、根据需要评估和改进模型,并最终部署模型。 项目中可以有多个模型,所有模型都基于同一数据集生成。
型号 模型是经过训练以执行特定任务的对象,在本例中为自定义实体识别。 通过提供要学习的标记数据来训练模型,以便稍后可用于识别任务。
实体 实体是指示特定类型信息的文本范围。 文本范围可以包含一个或多个单词。 在自定义 NER 的范围内,实体表示用户想要从文本中提取的信息。 开发人员使用所需实体标记其数据中的实体,然后再将其传递给模型进行训练。 例如,“发票号”、“开始日期”、“发货号”、“发源地”、“源城市”、“供应商名称”或“客户端地址”。

示例用例:

下面是使用自定义 NER 时的一些示例:

  • 用于增强语义搜索的知识挖掘: 搜索是向用户显示文本内容的任何应用的基础。 常见场景包括目录或文档搜索、零售产品搜索或数据科学知识挖掘。 各行各业的许多企业都希望针对专用的异构内容(包括结构化和非结构化文档)构建丰富的搜索体验。 作为管道的一部分,开发人员可以使用自定义 NER 从与行业相关的文本中提取实体。 这些实体可用于丰富文件的索引,以获得更加自定义的搜索体验。

  • 从非结构化文本提取信息: 许多财务和法律组织每天从数千个复杂的非结构化文本源中提取和规范化数据。 此类源包括银行对帐单、法律协议或银行表单。 例如,由人工审核员手动完成的抵押贷款申请数据提取可能需要几天时间才能完成。 自动执行这些步骤可简化该过程,并节省成本、时间和精力。

  • 审核和符合性: 财务或法律企业中的 IT 部门可以使用自定义 NER 来构建自动化解决方案,而不是手动审查大量长文本文件来审核和应用策略。 这些解决方案有助于强制执行合规性策略,并基于处理结构化和非结构化内容的知识挖掘管道设置必要的业务规则。

选择用例时的注意事项

使用自定义 NER 时,请注意以下指南:

  • 避免将自定义 NER 用于可能具有严重不利影响的决策。 例如,避免基于从个人病历表单中提取的信息将医疗或健康诊断包括在内的场景,或避免基于提取的值向用户的银行帐户收费。 建议对可能对个人产生严重影响的决定进行人工审查。

  • 避免创建自定义实体来提取不必要的或敏感信息。 如果用例不需要敏感信息,请避免提取敏感信息。 例如,如果你的方案需要提取用户的城市和国家/地区,请创建仅从用户地址中提取城市和国家/地区的实体,而不是提取整个地址

  • 法律和法规注意事项:组织在使用任何 AI 服务和解决方案时需要评估潜在的特定法律和监管义务,这些义务可能不适合在每个行业或方案中使用。 此外,AI 服务或解决方案并非设计用于适用服务条款和相关行为准则所禁止的用途,也不得以其中所禁止的方式使用。

后续步骤