你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
重要
仅为方便起见,提供非英语翻译。 请参阅 EN-US 版本以获取最终版本的此文档。
什么是透明度说明?
重要
本文假设你熟悉 Azure AI 语言的指南和最佳做法。 有关详细信息,请参阅 Azure AI 语言的透明度说明。
AI 系统不仅包括技术,还包括使用它的人员、受其影响的人员以及部署它的环境。 创建一个适合其预期用途的系统需要了解技术的工作原理、功能和局限性,以及如何实现最佳性能。 Microsoft 的透明度说明旨在帮助你了解 AI 技术的工作原理、系统所有者可通过哪些选择来影响系统性能和行为,以及保持系统全局观(包括技术、人员和环境)的重要性。 你可以在开发或部署自己的系统时使用透明度说明,或者与使用你的系统或受其影响的人员共享透明度说明。
Microsoft的透明度说明是Microsoft将 AI 原则付诸实践的更广泛努力的一部分。 若要了解详细信息,请参阅 Microsoft AI 原则。
情绪分析的基础知识
介绍
Azure AI 语言的情绪分析功能可评估文本,并返回每个句子的情绪分数和标签。 这对于检测社交媒体、客户评论、论坛和其他产品和服务方案中的积极、中立和负面情绪非常有用。
能力
系统行为
情绪分析基于服务在句子和文档级别找到的最高置信度分数提供情绪标签(如“负”、“中性”和“积极”。 此功能还返回每个文档的 0 到 1 之间的置信度分数,以及正面、中性情绪和负面情绪的句子。 分数越接近于 1 表示标签分类的置信度越高,分数越低表示置信度越低。 默认情况下,整体情绪标签是三个置信度分数中最大的一个,但是,可以根据最适合你的方案,为任何或所有单个情绪置信度分数定义阈值。 对于每个文档或每个句子,与标签(正、负和中性)关联的预测分数加起来等于1。 阅读有关 情绪标签和分数的更多详细信息。
此外,可选意见挖掘功能返回方面(如产品或服务的属性)及其相关意见词。 对于每个方面,将返回整体情绪标签以及正面和负面情绪的置信度分数。 例如,“餐厅有很好的食物,我们的服务员是友好的”有两个方面,“食物”和“服务员”,他们的相应意见词是“伟大”和“友好”。因此,这两个方面接收情绪分类 positive,置信度分数介于 0 和 1.0 之间。 阅读有关 意见挖掘的更多详细信息。
用例
情感分析可用于各个行业的多种场景。 一些示例包括:
- 监视整体的正面和负面反馈趋势。 在推出新产品后,零售商可以使用情绪服务来监视多个社交媒体媒体,以提及该产品及其相关情绪。 趋势情绪可用于产品会议,以便对新产品做出业务决策。
- 对调查的原始文本结果进行情感分析,以获取分析和跟进参与者(客户、员工、消费者等)的见解。 在 24 小时内跟踪客户的负面评论和一周内的积极评论的商店可以使用情绪服务对评论进行分类,以便轻松及时跟进。
- 通过实时分析交互中捕获的见解,帮助客户服务人员改进客户参与度。 从转录的客户服务电话中提取见解,以更好地了解客户与代理之间的互动和趋势,从而提升客户参与。
选择用例时的注意事项
- 在高影响场景中避免没有人工干预的自动化操作。 例如,员工奖金不应根据其客户服务交互文本中的情绪分数自动获得。 当某人的经济状况、运行状况或安全受到影响时,应始终查看源数据。
- 仔细考虑产品和服务评审域之外的方案。 由于模型是在产品和服务评审中训练的,因此系统可能无法准确识别其他域中的情绪重点语言。 请务必确保使用操作测试数据集测试系统,以确保获得所需的性能。 运营测试数据集应反映系统在生产中看到的实际数据,其中包含部署产品时将具有的所有特征和变体。 不反映您端到端场景的合成数据和测试可能不够充分。
- 仔细考虑采取自动作来筛选或删除内容的方案。 如果你的目标是确保内容符合社区标准,则可以添加人工评审周期和/或重新排名内容(而不是完全筛选)。
- 法律和法规注意事项:组织在使用任何 AI 服务和解决方案时需要评估潜在的特定法律和监管义务,这些义务可能不适合在每个行业或方案中使用。 此外,AI 服务或解决方案并未设计为按适用服务条款和相关行为准则禁止的方式使用,也不得按这类方式使用。
局限性
根据您的情境和输入数据,您可能会体验不同的性能水平。 以下信息旨在帮助你了解系统限制和有关性能的关键概念,因为它们适用于情绪分析。
要考虑的关键限制:
用于预测情绪的机器学习模型是在产品和服务评审上训练的。 这意味着,对于类似方案,服务将最准确地执行,并且对于产品和服务评审范围之外的方案,服务将不太准确。 例如,人员评审可能使用不同的语言来描述情绪,因此,可能无法获得预期的结果或性能。 在“Shafali 是一个坚强的领导者”这个短语中,“坚强”一词可能不会获得积极的情感共鸣,因为在产品和服务评论中,坚强一词可能并没有明确的积极情感。
由于模型是在产品和服务评审中训练的,因此数据集中表示较少的方言和语言的准确度可能较低。
模型不了解一起发送的各种句子的相对重要性。 由于整体情绪是句子的简单聚合分数,因此整体情绪分数可能与人的解释不一致,这将考虑到某些句子在确定整体情绪方面可能更重要的事实。
模型可能无法识别讽刺。 上下文,如语音的语气、面部表情、文本的作者、文本的受众或以前的对话往往对理解情绪很重要。 使用讽刺时,通常需要其他上下文来识别文本输入是否为正或负。 鉴于服务只看到文本输入,对讽刺情绪进行分类可能不太准确。 例如,“真不错”这句话可以是积极或消极的,这取决于上下文、语音语气、面部表情、作者和听众。
置信度分数幅度并不反映情绪的强度。 它基于模型对特定情绪(积极、中立、消极)的信心。 因此,如果你的系统依赖于情绪的强度,请考虑对个人意见分数或原始文本使用人工审阅者或后期处理逻辑来帮助对情绪强度进行排名。
虽然我们努力减少模型所表现出的偏见,但语言模型带来的限制(包括生成不准确、不可靠和有偏见的输出的可能性)适用于 Azure AI 语言情绪分析模型。 我们预计模型目前会有一些假负例和假正例,但我们希望收集用户反馈,以帮助我们持续改进该服务。
提高系统性能的最佳做法
由于情绪有点主观,因此无法为模型提供普遍适用的性能估计。 最终,性能取决于许多因素,例如主题域、处理的文本的特征、系统的用例,以及人们如何解释系统的输出。
你可能会发现积极、消极和中性情绪的置信度分数因方案而异。 相较于对整个文档或句子使用整体句子级别的情绪分析,您可以为最适合您情境的任何或所有单个情绪置信度分数定义一个阈值。 例如,如果确定所有潜在负面情绪实例更为重要,则可以对负面情绪使用较低的阈值,而不是查看整体情绪标签。 这意味着你可能会得到更多的假阳性(中性或正文本被识别为负面情绪),但假阴性会更少(负面文本未被识别为负面情绪)。 例如,你可能想要阅读所有具有潜在负面情绪的产品反馈,以寻找产品改进的想法。 在这种情况下,只能使用负面情绪分数并设置较低的阈值。 这可能会导致额外的工作,因为你可能会读到一些不是负面的评论,但即使如此,你更有可能确定改进的机会。 如果系统仅识别真正的负文本更为重要,则可以使用更高的阈值或使用整体情绪标签。 例如,你可能想要响应负面的产品评论。 如果要最大程度地减少阅读和响应负面评论的工作,只能使用整体情绪预测并忽略单个情绪分数。 虽然可能会漏掉一些预测出的负面情绪,但你可能会获得大多数真正负面的评论。 阈值在不同场景中可能会表现出行为不一致。 因此,您必须使用生产环境中将处理的真实数据来测试您的系统,这一点至关重要。