你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure AI 语言的透明度说明

重要

仅为方便起见,提供非英语翻译。 请参阅EN-US版本中的文档以获取最终版本。

什么是透明度说明?

AI 系统不仅包括技术,还包括使用它的人员、受其影响的人员以及部署它的环境。 创建一个适合其预期用途的系统需要了解技术的工作原理、功能和局限性,以及如何实现最佳性能。 Microsoft 的透明度说明旨在帮助你了解 AI 技术的工作原理、系统所有者可通过哪些选择来影响系统性能和行为,以及保持系统全局观(包括技术、人员和环境)的重要性。 你可以在开发或部署自己的系统时使用透明度说明,或者与使用你的系统或受其影响的人员共享透明度说明。

Microsoft的透明度说明是Microsoft将 AI 原则付诸实践的更广泛努力的一部分。 若要了解详细信息,请参阅 Microsoft AI 原则

Azure AI 语言的基础知识

介绍

Azure AI 语言是一种基于云的服务,它提供用于文本挖掘和文本分析的自然语言处理(NLP)功能,包括以下功能:

阅读概述以获取每个功能的简介并查看示例用例。 请参阅作指南和 API 参考,详细了解每个功能的作用以及系统返回的内容。

本文包含有关如何负责任地使用 Azure AI 语言功能的基本准则。 如果使用的是以下功能之一,请先阅读常规信息,然后跳转到特定文章。

能力

用例

Azure AI 语言服务可在各种行业的多个方案中使用。 按功能列出的一些示例有:

  • 使用自定义命名实体识别进行知识挖掘来增强语义搜索。 搜索是任何向用户展示文本内容的应用程序的基础。 常见方案包括目录或文档搜索、零售产品搜索或数据科学知识挖掘。 各行各业的许多企业都希望针对专用的异构内容(包括结构化和非结构化文档)构建丰富的搜索体验。 作为管道的一部分,开发人员可以使用自定义 NER 从与行业相关的文本中提取实体。 这些实体可用于丰富文件的索引,以获得更加自定义的搜索体验。

  • 使用命名实体识别增强或自动化业务流程。 例如,在查看保险索赔时,可以突出显示已识别的实体(如姓名和位置)以方便评审。 或者,可以通过电子邮件自动生成包含客户姓名和公司的支持工单。

  • 使用个人身份信息来编辑文档中某些类别的个人信息以保护隐私。 例如,如果客户联系人记录可供第一线支持代表访问,公司可能希望从客户历史记录中修订不必要的客户个人信息,以保留客户的隐私。

  • 使用语言检测来检测业务工作流中的语言。 例如,如果公司收到来自客户的各种语言的电子邮件,公司可以使用语言检测按语言将电子邮件发送给相应的母语者,以便与这些客户轻松沟通。

  • 使用情感分析来监测整体的正面和负面反馈趋势。 在推出新产品后,零售商可以使用情绪分析服务来监控多个社交媒体平台,分析关于该产品的提及和情绪。 他们可以在每周的产品会议上分析当前的趋势情绪。

  • 使用摘要从公共新闻文章中提取关键信息。 生成趋势和新闻焦点等见解。

  • 使用关键短语提取查看文本数据的聚合趋势。 例如,可以使用关键短语生成单词云,以帮助在文本注释或反馈中可视化关键概念。 例如,酒店可以根据评论中识别的关键短语生成一个单词云,并可能发现人们最常评论地点、清洁和有用的员工。

  • 使用医疗文本分析来提取见解和统计信息。 在临床笔记和各种临床文档中识别医学实体,如症状、药物和诊断。 使用此信息可生成有关患者群体的见解和统计信息、搜索临床文档、研究文档和出版物。

  • 使用自定义文本分类进行自动电子邮件或票证会审。 所有类型的支持中心都会收到大量电子邮件或票据,其中包含非结构化、自由格式的文本和附件。 及时查看、确认并转交给内部团队中的主题专家至关重要。 这种规模的电子邮件会审要求人们审阅材料,并将其转交给适当的部门,这需要时间和资源。 自定义文本分类可用于分析传入的文本,对内容进行会审和分类,以便自动将其转交给相关部门以执行进一步操作。

  • 使用对话语言理解生成端到端聊天机器人。 使用 CLU 基于特定域和预期用户话语生成和训练自定义自然语言理解模型。 将其与任何端到端聊天机器人集成,以便它可以实时处理和分析传入文本,以识别文本的意图并从中提取重要信息。 让机器人根据意图和提取的信息执行所需的作。 例如,用于在线购物或食品订购的自定义零售机器人。

  • 使用问答来进行客户支持。 在大多数客户支持方案中,经常会提出常见问题。 通过问答,你可以从现有支持内容立即创建聊天机器人,此机器人可以充当用于处理客户查询的一线系统。 如果机器人无法回答问题,则其他组件可以帮助识别并标记问题进行人工干预。

局限性

传入到系统的文本的质量会影响结果。

Azure AI 语言功能仅处理文本。 传入文本的保真度和格式会影响系统的性能。 请确保考虑以下事项:

  • 语音听录质量可能会影响结果的质量。 如果源数据是语音,请确保使用自动听录和人工听录的最高质量组合来确保最佳性能。 请考虑使用自定义语音模型来获得更好的质量结果。

  • 缺少标准标点符号或大小写可能会影响结果的质量。 如果使用语音系统(例如 Azure AI 语音转文本),请务必选择包含标点符号的选项。

  • 光学字符识别(OCR)质量可能会影响系统的质量。 如果源数据是图像,并且你使用 OCR 技术生成文本,则错误生成的文本可能会影响系统的性能。 请考虑使用自定义 OCR 模型来帮助提高结果质量。

  • 如果数据中存在频繁拼写错误,请考虑使用必应拼写检查进行更正。

  • 表格数据可能无法正确识别,具体取决于如何将表格文本发送到系统。 评估如何将源文档中表格的文本发送到服务。 对于文档中的表,请考虑使用 Azure AI 文档智能或类似服务。 这将允许你获取适当的键和值,以便将这些键和值发送到 Azure AI 语言中,其中上下文中的键与值足够接近,从而使系统能够正确识别实体。

  • Microsoft使用自然语言文本数据(主要是完全形成的句子和段落)训练了其 Azure AI 语言功能模型(语言检测除外)。 因此,将此服务用于最类似于此类文本的数据将产生最佳性能。 建议尽量避免使用此服务来评估不完整的句子和短语,因为性能可能会降低。

  • 该服务仅支持单语言文本。 如果文本包含多种语言,例如“三明治是好的”,则输出可能不准确。

  • 语言代码必须与输入文本语言匹配才能获得准确的结果。 如果不确定输入语言,则可以使用语言检测功能。

提高系统性能的最佳做法

Azure AI 语言的某些功能返回置信度分数,可以使用以下部分中所述的方法进行评估。 需要使用不同的方法评估不返回置信度分数的其他特征(如关键词提取和汇总)。

了解情绪分析、命名实体识别、语言检测以及健康功能的置信度分数

情绪分析、命名实体识别、语言检测和健康功能都作为系统响应的一部分返回置信度分数。 这是服务对系统响应的自信程度的指示器。 较高的值表示服务更确信结果准确。 例如,当给定文本“我的 NY 驾照号为 555 555 555”时,系统能够识别出该文本中的实体类别为“美国驾驶执照号”,得分为 0.75。当给定文本“我的 NY 驾照编号为 555 555 555”时,系统可能会以 0.65 分识别出相同的实体类别。 鉴于第一个示例中更具体的上下文,系统对其响应更加自信。 在许多情况下,可以在不检查置信度分数的情况下使用系统响应。 在其他情况下,仅当响应的置信度分数高于指定的置信度分数阈值时,才能选择使用响应。

了解和衡量性能

Azure AI 语言功能的性能通过检查系统识别支持的 NLP 概念(与人工判断相比的给定阈值)来衡量。例如,对于命名实体提取(NER),根据人工判断计算某些文本中电话号码实体的真实数量,然后与处理相同文本的系统输出进行比较。 将人类判断与系统识别的实体进行比较,可以将事件分类为两种正确(或“true”)事件和两种不正确的(或“false”)事件。

结果 正确/不正确 定义 示例:
真正 正确 该系统返回人类法官预期得到的相同结果。 系统在给定文本“你可以在我的办公室号码 1-234-567-9810 联系我”时,正确识别了文本 1-234-567-8910 中类别 电话号码 的 PII 实体。
真负 正确 该系统不返回结果,这符合人类判断的预期。 给定文本时,系统无法识别任何 PII 实体:“你可以在我的办公室号码上联系我。
假正 不正确 系统返回一个人工评审员无法得出的结果。 在给定文本“你可以通过我的办公号码联系我”时,系统错误地将“办公号码”文本识别为“电话号码”类别的 PII 实体。
假负 不正确 当人类法官会作出裁决时,该系统不会返回结果。 在给定文本“你可以通过我的办公号码 1-234-567-9810 联系我”时,系统错误地漏掉了文本“1-234-567-8910”上的“电话号码”PII 实体。

Azure AI 语言功能并不总是正确的。 你可能会遇到假负和假正错误。 请务必考虑每种类型的错误如何影响系统。 请仔细思考真实事件未被识别的情况和错误事件被识别的情况,以及这些情况在你的实现中可能产生的下游影响。 请确保制定识别、报告和响应每种类型错误的方法。 计划定期查看已部署系统的性能,以确保正确处理错误。

如何设置置信度分数阈值

可以选择根据系统返回的置信度分数在系统中做出决策。 可以调整系统用于满足需求的置信度分数阈值。 如果确定所需的 NLP 概念的所有潜在实例更重要,则可以使用较低的阈值。 这意味着你收到的假正错误可能更多,但假负错误可能更少。 如果系统必须仅识别所调用功能的真实实例,则可以使用更高的阈值。 如果使用更高的阈值,则你收到的假正错误可能更少,而假负错误可能更多。 不同的方案要求采用不同的方法。 此外,阈值在 Azure AI 语言和实体类别的各个功能中可能没有一致的行为。 例如,不要假设对 NER 类别电话号码使用特定阈值足以用于另一个 NER 类别,或者你在 NER 中使用的阈值同样适用于情绪分析。 因此,关键是你要使用真实数据对系统进行测试,以了解在实际应用场景中不同阈值对系统的影响。

公平性

在Microsoft,我们努力使地球上的每一个人都能取得更多成就。 此目标的重要组成部分是努力创建公平和包容的技术和产品。 公平是一个多维的社会技术主题,影响我们产品开发的许多不同方面。 可以 在此处了解有关Microsoft公平性方法的详细信息。

我们需要考虑的一个维度是系统对不同群体的表现有多好。 这可能包括查看模型的准确性以及测量完整系统的性能。 研究表明,如果不有意识地努力提高所有群体的性能,AI 系统的性能往往可能会因种族、种族、语言、性别和年龄等因素而因群体而异。

每个服务和功能都不同,我们的测试可能无法完全匹配你的上下文或涵盖用例所需的所有方案。 我们鼓励开发人员使用反映用例的实际数据(包括与来自不同人口群体的用户进行测试)来全面评估服务的错误率。

对于 Azure AI 语言,在我们支持的语言中,某些方言和语言变体,以及一些特定人口群体的文本,可能尚未在我们的当前训练数据集中得到足够的表示。 我们鼓励你查看 我们负责任的使用指南,如果你遇到性能差异,我们建议告知我们。

性能因功能和语言而异

每个 Azure AI 语言功能都支持各种语言。 你可能会发现特定功能的性能与其他功能不一致。 此外,你可能会发现,某个特定功能在各种语言之间的性能表现不一致。

后续步骤

如果使用以下任一功能,请务必查看该功能的特定信息。

另请参阅

此外,请确保查看: