你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
重要
仅为方便起见,提供非英语翻译。 请参阅 EN-US 版本以获取最终版本的此文档。
什么是透明度说明?
重要
本文假设你熟悉 Azure AI 语言的指南和最佳做法。 有关详细信息,请参阅 Azure AI 语言的透明度说明。
AI 系统不仅包括技术,还包括使用它的人员、受其影响的人员以及部署它的环境。 创建一个适合其预期用途的系统需要了解技术的工作原理、功能和局限性,以及如何实现最佳性能。 Microsoft 的透明度说明旨在帮助你了解 AI 技术的工作原理、系统所有者可通过哪些选择来影响系统性能和行为,以及保持系统全局观(包括技术、人员和环境)的重要性。 你可以在开发或部署自己的系统时使用透明度说明,或者与使用你的系统或受其影响的人员共享透明度说明。
Microsoft的透明度说明是Microsoft将 AI 原则付诸实践的更广泛努力的一部分。 若要了解详细信息,请参阅Microsoft中负责任的 AI 原则。
命名实体识别与个人身份信息(Personally Identifiable Information, PII)简介
Azure AI 语言支持 命名实体识别 来识别和分类文本中的信息。 其中包括常规实体,例如产品和事件,以及个人身份信息 (PII) 实体。 可以识别 各种个人实体 ,例如姓名、组织、地址、电话号码、 财务帐户或 代码 以及政府和国家或地区特定的标识号 。 这些个人实体的一个子集是受保护的健康信息(PHI)。 如果在请求中指定 domain=phi,则只会返回 PHI 实体。 可在 此处的表中找到 PII 和 PHI 实体类别的完整列表。 此外,PII 识别还支持在响应中指定所需的特定实体类别,并在响应中编辑 PII 实体。 响应的 redactedText 属性中的 PII 实体将被星号替换。
阅读示例 NER 请求和示例响应 ,了解如何将文本发送到服务以及需要返回的内容。
示例用例:
客户可能想要识别各种类别的命名实体两个主要原因:
- 增强搜索功能 - 客户可以根据文档中检测到的实体生成知识图,以增强文档搜索。
- 增强或自动执行业务流程 - 例如,在查看保险索赔时,可以突出显示已识别的实体(如姓名和位置)来促进评审。 或者,可以通过电子邮件自动生成包含客户姓名和公司的支持工单。
客户可能需要专门识别各种类别的 PII 实体,原因如下:
- 应用敏感度标签 - 例如,根据 PII 服务的结果,公共敏感度标签可能应用于未检测到 PII 实体的文档。 对于识别到美国地址和电话号码的文档,可能会应用机密标签。 高度机密标签可用于要在其中识别银行路由号码的文档。
- 从文档中修订某些类别的个人信息以保护隐私 - 例如,如果客户联系人记录可供第一线支持代表访问,公司可能希望从客户历史记录中修订不必要的客户个人信息,以保留客户的隐私。
- 修订个人信息以减少无意识偏见 - 例如,在公司的简历审查过程中,他们可能想要阻止姓名、地址和电话号码,以帮助减少无意识性别或其他偏见。
- 替换源数据中用于机器学习的个人信息,以减少不公平性 – 例如,如果要删除在训练机器学习模型时可能会暴露性别的名称,则可以使用该服务来识别这些名称,并将它们替换为用于模型训练的泛型占位符。
选择用例时的注意事项
请勿使用
- 仅限个人身份信息 - 请勿用于自动去除或信息分类的场景 - 任何未能去除个人信息可能使人面临身份盗窃和身体或心理伤害风险的情况都应包括谨慎的人为监督。
- NER 和 PII - 请勿在未经同意的情况下使用涉及个人信息的场景 - 例如,某公司拥有过去求职者的简历。 申请人在提交简历时没有同意联系他们进行推广活动。 根据此方案,NER 和 PII 服务不应用于识别联系信息,以便邀请过去的申请人参加贸易展。
- NER 和 PII - 客户不得使用此服务从公开提供的内容中获取个人信息,但未经个人信息主体的同意。
- NER 和 PII - 请勿用于以文本形式替换个人信息以误导他人的情况。
法律和法规注意事项:组织在使用任何 AI 服务和解决方案时需要评估潜在的特定法律和监管义务,这些义务可能不适合在每个行业或方案中使用。 此外,AI 服务或解决方案的设计目的并非用于适用服务条款和相关行为准则所禁止的用途,也不得以其中所禁止的方式使用。
特征和限制
根据您的方案、输入数据和要提取的实体,性能表现可能会有所不同。 以下部分旨在帮助你了解有关性能的关键概念,因为它们适用于使用 Azure AI 语言 NER 和 PII 服务。
了解和衡量 NER 的性能
由于误报和漏报错误可能会发生,因此必须了解这两种类型的错误可能如何影响您的整体系统。 使用命名实体识别 (NER) 时,如果实体不存在于文本中,但被系统识别并返回,则会出现假正。 假负是当实体存在于文本中,但系统无法识别和返回。
了解 PII 的性能
例如,在编辑场景中,假负可能导致个人信息泄露。 对于编辑场景,请考虑采用人工审核过程来处理此类错误。 对于敏感度标签方案,误报和漏报都可能会导致文档分类错误。 对于标记为机密的文档,在出现误报时,可能会不必要地限制受众范围。 如果出现假正且应用了公共标签,则 PII 可能会泄露。
可调整系统使用的置信度分数阈值来调整系统。 如果确定 PII 的所有潜在实例更为重要,则可以使用较低的阈值。 这意味着你遇到的假正(非 PII 数据被识别为 PII 实体)可能更多,但假负(PII 实体未被识别为 PII)可能更少。 如果系统仅识别真正的 PII 数据更为重要,则可以使用更高的阈值。 阈值在 PII 实体的各个类别中可能没有一致的行为。 因此,使用实际数据测试你的系统至关重要,因为这些数据会在生产环境中被处理。
提高性能的系统限制和最佳做法
请确保了解系统可识别的 NER 和 PII 的所有实体类别。 根据你的方案,你的数据可能包含可能被视为个人但不受服务当前支持的类别涵盖的其他信息。
上下文对于系统正确识别所有实体类别非常重要,因为通常由人类识别实体。 例如,没有上下文的十位数字只是一个数字。 然而,鉴于上下文,如“你可以在我的办公室电话号码2345678901联系我”,系统和人类都可以将十位数号码识别为电话号码。 始终在向系统发送文本时包含上下文,以获得最好性能。
特别是人员姓名需要语言上下文。 尽可能多地发送上下文,以便更好地检测人员姓名。
对于对话数据,请考虑在对话中发送多轮内容,以确保实际实体中包含所需上下文的可能性更高。
在下列对话中,如果你一次发送一行内容,护照号码将没有任何关联的上下文,并且无法识别欧盟护照号码 PII 类别。你好,我今天怎么能帮你?
我想续订护照
当然,你的当前护照号码是什么?
这是123456789,谢谢。但是,如果发送整个对话,则会识别它,因为包含上下文。
有时可以识别同一实体的多个实体类别。 如果采用前面的示例:
你好,我今天怎么能帮你?
我想续订护照
当然,你的当前护照号码是什么?
这是123456789,谢谢。几个不同的国家/地区护照号码的格式相同,因此可以识别多个不同的特定实体类别。 在某些情况下,使用最高置信度分数可能不足以选择正确的实体类。 如果您的方案依赖于要识别的特定实体类别,则可能需要通过人工评审或在系统的其他部分中通过额外的验证代码来消除结果中的歧义。 全面测试真实数据可帮助你确定你的场景是否可能识别多个实体类别。
并非所有语言中的所有实体类别都支持 NER 和 PII。 请务必查看实体类型一文,了解你想要检测的语言的实体。
支持许多国际 PII 实体。 默认情况下,返回的实体类别是与 API 调用发送的语言代码匹配的类别。 如果预期实体并非来自指定的区域设置,则需要使用
piiCategories参数指定它们。 了解更多关于如何在 API 参考 中指定您的响应将包括哪些内容。 了解更多关于命名实体类型文档中各个地区支持的类别信息。在 PII 修订方案中,如果使用包含可选参数
piiCategories的 API 版本,请务必考虑文本中可能存在的所有 PII 类别。 如果只对特定实体类别或特定区域设置的默认实体类别进行修订,则会泄露文本中意外显示的其他 PII 实体类别。 例如,如果已发送 EN-US 区域格式,但未指定任何可选的 PII 类别,并且文本中存在德语驾驶执照号码,该号码就会被泄露。 若要防止出现这种情况,需要在参数中piiCategories指定德国驾照号码类别。 此外,如果为指定区域设置使用piiCategories参数指定了一个或多个类别,请注意,只有这些类别会被遮蔽。 例如,如果您已发送 EN-US 区域设置,并指定美国社会保障号码(SSN)作为需去除的 PII 类别,那么输入文本中如果出现任何其他 EN-US 类别(如美国驾照号码或美国护照号码),将会导致泄露。由于 PII 服务返回与调用中的语言代码匹配的 PII 类别,因此,如果不确定输入文本的语言或区域设置,请考虑验证输入文本所使用的语言。 可以使用 语言检测 功能执行此作。
PII 服务仅将文本作为输入。 如果要以其他格式对文档中的信息进行修订,请确保仔细测试修订代码,以确保未意外泄露标识的实体。