你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
重要
仅为方便起见,提供非英语翻译。 请参阅 EN-US 版本以获取最终版本的此文档。
什么是透明度说明?
重要
本文假设你熟悉 Azure AI 语言的指南和最佳做法。 有关详细信息,请参阅 Azure AI 语言的透明度说明。
AI 系统不仅包括技术,还包括使用它的人员、受其影响的人员以及部署它的环境。 创建一个适合其预期用途的系统需要了解技术的工作原理、功能和局限性,以及如何实现最佳性能。 Microsoft 的透明度说明旨在帮助你了解 AI 技术的工作原理、系统所有者可通过哪些选择来影响系统性能和行为,以及保持系统全局观(包括技术、人员和环境)的重要性。 你可以在开发或部署自己的系统时使用透明度说明,或者与使用你的系统或受其影响的人员共享透明度说明。
Microsoft的透明度说明是Microsoft将 AI 原则付诸实践的更广泛努力的一部分。 若要了解详细信息,请参阅Microsoft中负责任的 AI 原则。
个人身份信息(PII)功能简介
Azure AI 语言支持命名实体识别来识别和分类文本中的信息。 PII 功能 支持检测实体的个人(PII)类别。 可以识别 各种个人实体 ,例如姓名、组织、地址、电话号码、 财务帐户或 代码 以及政府和国家或地区特定的标识号 。 这些个人实体的一个子集是受保护的健康信息(PHI)。 如果在请求中指定 domain=phi,则只会返回 PHI 实体。 可在 此处的表中找到 PII 和 PHI 实体类别的完整列表。
阅读示例 NER 请求和示例响应 ,了解如何将文本发送到服务以及需要返回的内容。
示例用例:
客户可能出于多种原因想要识别各种类别的 PII:
- 应用敏感度标签 - 例如,根据 PII 服务的结果,公共敏感度标签可能应用于未检测到 PII 实体的文档。 对于识别到美国地址和电话号码的文档,可能会应用机密标签。 高度机密标签可用于要在其中识别银行路由号码的文档。
- 从获得更广泛的流通的文档中修订个人信息的某些类别 - 例如,如果客户联系人记录可供第一行支持代表访问,则公司可能希望从客户历史记录的版本中对除名字以外的客户个人信息进行修订,从而保留客户的隐私。
- 修订个人信息以减少无意识偏见 - 例如,在公司的简历审查过程中,他们可能想要阻止姓名、地址和电话号码,以帮助减少无意识性别或其他偏见。
- 替换源数据中用于机器学习的个人信息,以减少不公平性 – 例如,如果要删除在训练机器学习模型时可能会暴露性别的名称,则可以使用该服务来识别这些名称,并将它们替换为用于模型训练的泛型占位符。
- 从呼叫中心听录中删除个人信息 - 例如,如果要删除代理与客户在呼叫中心场景中出现的名称或其他 PII 数据。 可以使用该服务来标识和删除它们。
选择用例时的注意事项
- 避免高风险自动编修或信息分类方案 – 任何未能修订个人信息可能使人面临身份盗窃和身体或心理伤害风险的情况,都应包括谨慎的人监督。
- 避免在未经同意的情况下为其他目的使用个人信息的情况 - 例如,公司持有来自过去应聘者的简历。 申请人在提交简历时没有同意联系他们进行推广活动。 根据此方案,PII 服务不应用于识别联系信息,以便邀请过去的申请人参加贸易展。
- 避免使用服务从公开提供的内容中获取个人信息的方案。
- 避免那种通过替换文本中的个人信息来误导他人的情景。
- 法律和法规注意事项:组织在使用任何 AI 服务和解决方案时需要评估潜在的特定法律和监管义务,这些义务可能不适合在每个行业或方案中使用。 此外,AI 服务或解决方案并未设计为按适用服务条款和相关行为准则禁止的方式使用,也不得按这类方式使用。
特征和限制
根据您的方案、输入数据和要提取的实体,性能表现可能会有所不同。 以下部分旨在帮助你了解有关性能的关键概念,因为它们适用于使用 Azure AI 语言 PII 服务。
了解和衡量性能
由于误报和漏报错误可能会发生,因此必须了解这两种类型的错误可能如何影响您的整体系统。 例如,在编修方案中,假负例可能导致个人信息泄露。 对于编辑场景,请考虑采用人工审核过程来处理此类错误。 对于敏感度标签方案,误报和漏报都可能会导致文档分类错误。 对于标记为机密的文档,在出现误报时,可能会不必要地限制受众范围。 如果出现假正且应用了公共标签,则 PII 可能会泄露。
可调整系统使用的置信度分数阈值来调整系统。 如果确定 PII 的所有潜在实例更为重要,则可以使用较低的阈值。 这意味着你获得假正例(非 PII 数据被识别为 PII 实体)可能更多,但假负例(PII 实体未被识别为 PII)可能更少。 如果系统仅识别真正的 PII 数据更为重要,则可以使用更高的阈值。 阈值在 PII 实体的各个类别中可能没有一致的行为。 因此,使用实际数据测试你的系统至关重要,因为这些数据会在生产环境中被处理。
提高性能的系统限制和最佳做法
请确保了解系统可识别的所有 实体类别 。 根据你的方案,你的数据可能包含可能被视为个人但不受服务当前支持的类别涵盖的其他信息。
上下文对于系统正确识别所有实体类别非常重要,因为通常由人类识别实体。 例如,没有上下文的十位数数字只是一个数字,而不是 PII 实体。 但是,鉴于上下文(如你可以在我的办公室号码2345678901联系我),系统和人类都可以将十位数号码识别为电话号码。 始终在向系统发送文本时包含上下文,以获得最好性能。
特别是人员姓名需要语言上下文。 尽可能多地发送上下文,以便更好地检测人员姓名。
对于对话数据,请考虑在对话中发送多轮内容,以确保实际实体中包含所需上下文的可能性更高。
在下列对话中,如果你一次发送一行内容,护照号码将没有任何关联的上下文,并且无法识别欧盟护照号码 PII 类别。你好,我今天怎么能帮你?
我想续订护照
当然,你的当前护照号码是什么?
这是123456789,谢谢。但是,如果发送整个对话,则会识别它,因为包含上下文。
有时可以识别同一实体的多个实体类别。 如果采用前面的示例:
你好,我今天怎么能帮你?
我想续订护照
当然,你的当前护照号码是什么?
这是123456789,谢谢。几个不同的国家/地区护照号码的格式相同,因此可以识别多个不同的特定实体类别。 在某些情况下,使用最高置信度分数可能不足以选择正确的实体类。 如果您的方案依赖于要识别的特定实体类别,则可能需要通过人工评审或在系统的其他部分中通过额外的验证代码来消除结果中的歧义。 全面测试真实数据可帮助你确定你的场景是否可能识别多个实体类别。
虽然支持许多国际实体,但目前服务仅支持英语文本。 如果不确定输入文本是否全部为英语,请考虑验证输入文本使用的语言。PII 服务仅将文本作为输入。 如果要以其他格式对文档中的信息进行修订,请确保仔细测试修订代码,以确保未意外泄露标识的实体。