你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
重要
仅为方便起见,提供非英语翻译。 请参阅 EN-US 版本以获取最终版本的此文档。
大规模自然语言模型使用公开可用的文本数据进行训练,这些数据通常包含社会偏见。 此类数据可能以不公平、不可靠或冒犯性的方式行事。 反过来,这种行为可能会导致不同严重性的危害。 这些类型的伤害不是相互排斥的。 单个模型可以表现出多种伤害类型,可能与多组人有关。 例如:
分配: 使用语言模型的方式可能导致资源或机会的不公平分配。 例如,自动化系统在筛选简历时,如果根据反映技术行业性别不平衡的简历数据进行训练,可能会使女性失去就业机会。
服务质量: 语言模型无法向某些人提供与其他人相同的服务质量。 例如,由于某些方言或语言品种在训练数据中的代表性不足,摘要生成对这类方言或语言品种可能效果不佳。 模型主要基于英语文本进行训练。 在训练数据中代表性较低的英语语言变体可能表现更差。
刻板印象: 语言模型可以强化刻板印象。 例如,将他是护士和她是一个医生翻译成无性别语言(如土耳其语),再翻译回英语时,可能会出现错误。 许多机器翻译系统产生 她是护士 的陈规定型(和不正确的)结果, 他是一名医生。
贬低: 语言模型可以贬低人。 例如,具有不当缓解的开放端内容生成系统可能会生成针对特定人群的冒犯性文本。
过度和不足代表性: 语言模型可以造成对某些人群的过度或不足代表,甚至完全忽视他们。 例如,那些把包含同性恋一词的文本标记为有毒的毒性检测系统,可能会导致与 LGBTQ 社区相关的合法文本出现代表性不足甚至被抹去的情况。
不当或冒犯性内容: 语言模型可以生成其他类型的不当内容或冒犯性内容。 示例包括:
- 仇恨言论。
- 包含不雅字词或短语的文本。
- 与非法活动相关的文本。
- 与有争议的、有争议的或意识形态上两极分化的话题相关的文本。
- 误传。
- 操纵性文本。
- 与敏感或情感上激烈的主题相关的文本。
例如, 限制为正答复的建议回复系统 可能会为有关负面事件的消息建议不适当或不敏感的答复。
错误信息: 该服务不会检查事实或验证客户或用户提供的内容。 根据应用程序的开发方式,它可能会提升虚假信息,除非你为这种可能性构建了有效的缓解措施。
不准确的摘要: 该功能使用 抽象 摘要方法,其中模型不只是从输入文本中提取上下文。 相反,模型会尝试在简洁的自然句子中理解输入和描述关键信息。 但是,可能会丢失信息或准确性。
类型考虑: 用于在 Azure AI 服务中训练语言摘要功能的训练数据主要是两个参与者之间的文本和转录文本。 对于其他类型的文本(如文档或报告)中的输入文本,由于这些类型在训练数据中出现较少,模型的准确性可能较低。
语言支持: 大多数训练数据采用英语,以及德语和西班牙语等其他常用语言。 训练的模型可能无法在使用其他语言时表现得同样出色,因为这些语言在训练数据中的代表性较低。 Microsoft致力于扩展此功能的语言支持。
提高系统性能的最佳做法
模型的性能因方案和输入数据而异。 以下部分旨在帮助你了解有关性能的关键概念。
可以在各种应用程序中使用文档摘要,每个应用程序都有不同的重点和性能指标。 在这里,我们普遍认为性能意味着应用程序按预期执行,包括缺少有害输出。 可以采取几个步骤来缓解本文前面提到的一些问题,并改进性能:
*由于文档摘要功能是在基于文档的文本(如新闻文章、科学报告和法律文档)上训练的,因此在与训练数据(如对话和听录)中不太表示的不同流派的文本一起使用时,系统可能会以较低的准确度产品输出。
- 与可能包含错误或不太类似于格式正确的句子的文本(如从列表、表格、图表或通过 OCR(光学字符识别)扫描的文本一起使用时,文档摘要功能可能会生成准确度较低的输出。
- 大多数训练数据采用英语、德语、法语、中文、日语和朝鲜语等常用语言。 训练的模型可能无法在其他语言的输入上表现良好。
- 文档必须“破解”或将其原始格式转换为纯非结构化文本。
- 尽管服务可以处理每个请求最多 25 个文档,但 API 的延迟性能随着文档增大(速度变慢)。 如果文档包含的字符数接近 125,000 个字符,则尤其如此。 详细了解系统限制
- 提取摘要为每个句子提供 0 到 1 之间的分数,并返回每个请求的最高评分句子。 如果请求三句摘要,服务将返回三个最高评分句子。 如果从同一文档请求五个句子摘要,服务除了前三个句子外,还会返回接下来两个最高评分的句子。
- 提取摘要默认按时间顺序返回提取的句子。 若要更改顺序,请指定 sortBy。 sortBy 的接受值为 Offset (默认值)。 Offset 的值是提取的句子的字符位置,Rank 的值是提取的句子的排名分数。