你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
重要
仅为方便起见,提供非英语翻译。 请参阅 EN-US 版本以获取最终版本的此文档。
什么是透明度说明?
AI 系统不仅包括技术,还包括使用它的人员、受其影响的人员以及部署它的环境。 创建适合其预期用途的系统需要了解技术的工作原理、其功能和限制,以及如何实现最佳性能。 Microsoft 的透明度说明旨在帮助你了解 AI 技术的工作原理、系统所有者可通过哪些选择来影响系统性能和行为,以及保持系统全局观(包括技术、人员和环境)的重要性。 开发或部署自己的系统时,可以使用透明度说明,或者与将使用或受系统影响的人员共享它们。
Microsoft 的透明度说明是 Microsoft 将其 AI 原则付诸实践的广泛努力的一部分。 若要了解详细信息,请参阅 Microsoft AI 原则。
Azure AI 内容安全基础知识
介绍
Azure AI Content Safety 检测应用程序和服务中用户生成和 AI 生成的有害内容。 Azure AI 内容安全包括文本、图像和多模式 API,可用于检测有害材料,以及一个交互式工作室,可用于查看、浏览和试用用于检测不同形式有害内容的示例代码。
自定义类别是一项功能,允许用户定义和检测根据特定内容审查需求定制的类别。 自定义类别使用户能够更灵活地控制其内容安全措施。
关键术语
默认类别
以下类别描述了 Azure AI 内容安全检测到的有害内容的类型。
| 类别 | 说明 |
|---|---|
| 仇恨 | 仇恨类别描述了语言攻击或使用,包括含有贬义或歧视性的语言,这些语言是针对一个人或身份群体基于某些不同的属性,这些属性包括但不限于种族、民族、国籍、性别认同和表达、性取向、宗教、移民身份、能力状态、个人外貌和身体大小。 |
| 性 | 性类别指的是与以下方面相关的语言:解剖器官和生殖器官、恋爱关系、以色情或情爱用语描述的行为、实质性行为(包括被描述为攻击或违背个人意愿的强迫性暴力行为的行为)、卖淫、色情和虐待。 |
| 暴力 | 暴力类别是指与旨在伤害、损伤、损害或杀害某人或某物的肢体动作相关的语言,以及与武器等相关的语言。 |
| 自残 | 自残类别指的是与故意伤害、损伤或损害自己的身体或自杀的肢体动作相关的语言。 |
严重性级别
服务应用的内容标志分配严重性级别分级,指示显示已标记内容的严重性。
| 严重性级别 0 – 安全 | 内容可能与暴力、自我伤害、性或仇恨类别相关,但术语通常用于新闻、科学、医疗和适用于大多数受众的类似专业背景。 |
|---|---|
| 严重性级别 2 – 低 | 表达偏见性、评判性或固执己见的观点的内容,包括冒犯性的语言使用、刻板印象、探索虚构世界(例如游戏、文学)的用例以及低强度的描述。 |
| 严重性级别 4 – 中等 | 对特定身份群体使用冒犯性、侮辱性、嘲讽性、恐吓性或贬低性语言的内容,包括中等强度的有关寻找和执行伤害性说明以及对伤害行为进行幻想、美化和宣传的描述。 |
| 严重性级别 6 – 高 | 显示明确和严重的有害指令、行动、损害或滥用的内容包括认可、美化、促进严重有害行为、极端或非法形式的伤害、激进化和非自愿权力交换或滥用。 |
自定义类别
借助自定义类别,Azure AI 内容安全将其功能扩展到预定义的内容类别之外。 用户现在可以创建自定义定义,这些定义对他们的环境是唯一的,从而提供更个性化和相关的内容审查体验。 此功能支持各种用例,从品牌保护到社区指南强制实施。
能力
系统行为
Azure AI 内容安全使用人工智能来分析用户生成的内容和 AI 生成的内容,并标记任何有害内容(针对特定严重级别),例如仇恨言论、性、暴力和自我伤害活动。 提供了清晰且可理解的解释,允许用户了解内容被标记或删除的原因。
Azure AI 内容安全中提供了不同类型的分析:
| 类型 | 功能性 |
|---|---|
| 文本检测 API | 扫描具有多严重性风险级别的仇恨、性、暴力和自残内容的文本。 |
| 图像检测 API | 扫描具有多严重性风险级别的仇恨、性、暴力和自残内容的图像。 |
| 多模式检测 API | 扫描图像和文本(包括单独的文本或使用光学字符识别从图像中提取的文本),以检测仇恨内容并评估其多种严重性风险级别。 |
| Azure AI 内容安全工作室 | Azure AI 内容安全工作室是一种在线工具,客户可以使用该工具直观地浏览、理解和评估 Azure AI 内容安全服务。 工作室提供了一个平台,供客户试验不同的 Azure AI 内容安全分类,并在不编写任何代码的情况下以交互方式对返回的数据进行采样。 |
用例
预期用途
可以在多个方案中使用 Azure AI 内容安全。 系统的预期用途包括:
- 社交媒体平台: 客户可以在社交媒体平台上使用 Azure AI 内容安全来帮助防止有害内容(如仇恨言论、网络欺凌和色情)的传播。
- 电子商务网站: 电子商务客户可以使用 Azure AI 内容安全来帮助筛选有害内容的产品列表和评论,例如虚假评论和冒犯性语言。
- 游戏平台: 游戏平台可以使用 Azure AI 内容安全来帮助检测不当行为,以及防止聊天和论坛中的不当行为。
- 新闻网站: 新闻网站可以使用 Azure AI 内容安全来确保用户评论保持文明和尊重,并帮助防止误报和仇恨言论的传播。
- 视频共享平台:视频共享平台 可以使用 Azure AI 内容安全来检测和删除不适当的内容,例如暴力、仇恨言论和色情内容。
选择用例时的注意事项
我们鼓励客户在其创新解决方案或应用程序中利用 Azure AI 内容安全。 但是,以下是选择用例时的一些注意事项:
- 定制: 在内容安全方面,不同的应用程序和解决方案可能有不同的要求。 请务必试验 Azure AI 内容安全性的严重性级别,并将其设置为满足特定用例的需求。 自定义类别旨在通过允许用户定义对其特定上下文非常重要的内容来增强内容审查。 它不是为了替换现有内容类别,而是为了补充它们,从而提供更精细的内容安全级别。
- 透明度: 某些最终用户可能想要了解应用程序或解决方案如何审查内容。 选择使用 Azure AI 内容安全时,请务必确保该服务能够清晰透明地与用户沟通内容的管理方式,以及某些内容可能被标记或删除的原因。
- 法律和法规注意事项:组织在使用任何 AI 服务和解决方案时需要评估潜在的特定法律和监管义务,这些义务可能不适合在每个行业或方案中使用。 此外,AI 服务或解决方案的设计目的并非用于适用服务条款和相关行为准则所禁止的用途,也不得以其中所禁止的方式使用。
局限性
技术限制、操作因素和范围
Azure AI 内容安全具有一些可能影响性能的技术限制。 其中一些限制如下:
准确性: 在检测不适当的内容时,Azure AI 内容安全可能无法完全准确。 这是因为系统依赖于算法和机器学习,这可能会产生偏差和错误。
不支持的语言: Azure AI 内容安全可能无法检测其未经过训练或测试以处理的语言中的不当内容。 目前,Azure AI 内容安全以英语、德语、日语、西班牙语、法语、意大利语、葡萄牙语和中文提供。
图像识别: Azure AI 内容安全可能无法检测无法清楚地识别或已编辑的图像中的不当内容。
内容不断发展的性质: Azure AI 内容安全可能无法跟上联机内容不断发展的性质。 随着新类型的不当内容出现(例如,新语言或使用模式),Azure AI 内容安全可能会延迟检测这些新类型的内容。
Azure AI 内容安全也有一些操作因素,需要考虑以确保其有效性。 其中一些因素包括:
内容量: Azure AI 内容安全可能难以处理大量内容。 这可能会导致检测不当内容时出现延迟。
时间敏感度: 某些类型的不当内容需要立即采取行动。 Azure AI 内容安全可能无法快速识别这些类型的内容,以便向审查者发出警报。
上下文分析: Azure AI 内容安全可能无法分析上下文中的内容,以确定内容是否不合适。 例如,某些字词在某些上下文中可能适用,但不适用于其他上下文。
改进自定义类别: 虽然自定义类别提供了增强的自定义,但它们可能需要进行额外的设置和优化。 用户应了解迭代调整以实现最佳性能的潜在需求。
在部署之前,请务必对 Azure AI 内容安全进行严格的真实数据评估,并在系统部署后继续监控,以确保其表现适当。
系统性能
在本节中,我们将回顾 Azure AI 内容安全的性能意义、提高性能的最佳做法,以及与 Azure AI 内容安全相关的限制。
常规性能准则
由于 Azure AI 内容安全提供各种用途,因此没有普遍适用的准确性估算值。 Azure AI 内容安全的性能受客户用例和数据的影响。 以下部分介绍如何大致了解 Azure AI 内容安全性的准确性。
准确性
Azure AI 内容安全的性能通过检查系统检测有害内容的方式来衡量。 例如,根据人的判断,可能会计算某些文本中有害内容的真实流行率,然后与处理相同文本的系统输出进行比较。 将人类判断与系统识别的实体进行比较,可以将事件分类为两种正确(或“true”)事件以及两种不正确的(或“false”)事件。
| 错误类型 | 定义 | 示例 |
|---|---|---|
| 真报 | 模型正确标识有害内容。 | 当有害内容(如“你是白痴”)被标记为仇恨时,系统将返回严重级别 2。 系统正确拒绝有害内容。 |
| 误报 | 模型错误地将无害内容标识为有害内容。 | 当“你是好人”等无害内容被标记为仇恨并返回严重级别 4 时。 系统错误地阻止了内容。 |
| 实报 | 模型正确标识无害的内容。 | 当出现无害内容(如“你是个好人”)时,系统将返回严重级别 0。 系统正确接受内容。 |
| 漏报 | 模型无法识别有害内容。 | 当有害内容(如“你是白痴”)时,系统将返回严重级别 0。 系统错误地接受内容。 |
误报或漏报的后果会因您使用 Azure AI 内容安全系统的方式而有所不同。
严重性级别、匹配严重性级别和匹配条件
系统配置会影响系统准确性。 Azure AI 内容安全通过比较给定输入的模型输出严重性级别并使用匹配严重性级别来接受或拒绝输入作为匹配项来检测有害内容。
| 条款 | 定义 |
|---|---|
| 严重性级别 | 输入内容的严重性越高,此值越大。 值为:0、2、4 或 6。 |
| 匹配严重性级别(仅工作室具有此功能) | 匹配严重性是一个可配置值,用于确定被视为正匹配所需的匹配严重性级别。 如果匹配严重性级别设置为 0,则系统将接受任何匹配严重性级别;如果匹配严重性级别设置为 6,则仅接受 6(100%) 匹配严重性级别的输入。 Studio 具有默认的匹配严重性级别,您可以将其更改为适合您的应用程序。 |
使用评估结果,可以调整特定用例的匹配严重性级别,并通过使用数据进行测试来验证结果(只有 Azure AI 内容安全工作室具有此功能)。 例如,儿童游戏的内容安全要求通常高于仅成人可用的游戏。 对于儿童游戏,你可以将匹配严重性级别设置得低于默认值。 相比之下,对于成人,匹配严重性级别可能高于默认值。 根据每个评估结果,可以迭代调整匹配严重性级别,直到误报和漏报之间的权衡与用例中的需求相匹配。
提高准确性的最佳做法
下面是获取最佳结果的一些建议。
满足规范
请注意以下规范:
- 文本和图像格式: 当前系统仅支持文本和图像输入。
- 文本的最大长度:在 Azure AI 内容安全 API 中,文本输入限制为每个文本 API 调用 1000 个字符。 字符越少,结果就越准确。
设计系统以支持人工判断
我们建议使用 Azure AI 内容安全来支持用户做出准确高效的判断,而不是完全自动化流程。 人为评审在以下方面意义重大:
- 检测并解决错误识别的情况或其他故障。
- 为认为内容被错误标记的用户提供支持。
例如,在游戏场景中,由于误报,可能会拒绝合法内容。 在这种情况下,人工审阅者可以干预并帮助客户验证结果。
负责任地使用 AI 功能
使用 Azure AI 内容安全取决于 Azure OpenAI 服务行为准则的要求。 如果允许最终用户使用 Azure AI 内容安全创建或部署自定义类别,则应告知这些用户这些要求,并在使用系统时遵守这些要求。
提高系统性能的最佳做法
建议做法:
- 定期监视系统的性能,以确保权衡适合你的用例。
- 根据用户反馈和观察到的内容安全趋势调整阻止的严重性级别。
- 考虑系统性能对不同用户群体的影响,并相应地进行调整。 例如,某些字词或图像在一种文化中可能被视为冒犯性,但在另一种区域性中不具有攻击性,并且应训练系统来检测这一点并相应地调整其风险水平。
- 采取措施减少调整封锁风险级别可能带来的意外后果,例如内容过度删除或有害内容的传播。
- 若要最大程度地提高自定义类别的有效性,建议:
- 明确定义自定义类别。 服务将使用定义来扩充训练数据集。
- 准备高质量的数据集以同时涵盖正样本和负样本,因此模型的结果更准确。
- 根据内容趋势定期查看和更新类别。
- 利用用户反馈更新类别定义和培训示例。
不要:
- 设置严重性级别太低:如果阻止的严重性级别设置得太低,系统可能会标记大量内容,即使内容不有害。 这可能会对用户体验产生负面影响,因为用户很难在未标记的情况下发布合法内容。
- 设置严重性级别过高:相反,如果阻止的严重性级别设置过高,则内容安全系统可能不会将内容标记为有害。 这可以通过允许传播不适当的内容来损害用户和社区。
- 忽略来自用户和社区的反馈:内容安全系统旨在满足用户和社区的需求,倾听他们对系统性能的反馈非常重要。 例如,如果用户持续报告误报或漏报,则应相应地调整系统。
- 过度依赖自动化决策:内容安全系统通常依赖于自动决策来标记不当内容,但必须确保适当的人工监督和干预以避免错误和偏见。 例如,如果系统将内容标记为不合适,则人工审查器应审查该决定,以确保内容准确且公平。
评估和集成 Azure AI 内容安全以供使用
评估方法
在大规模部署或推出任何 Azure AI 内容安全之前,系统所有者应执行评估阶段。 用于评估系统的内容安全注意事项的方法通常涉及分析大量有害内容数据集,并评估系统准确识别和标记潜在有害或不当内容的能力。
评估系统在不同人口群体和地理区域的表现非常重要。 评估中包含的人员组取决于正在评估的内容类型和系统的预期受众。 例如,如果系统旨在监视社交媒体帖子,则数据集可能包含来自不同地理位置、背景和年龄组的各种用户。 但是,如果系统设计用于特定行业或利基市场,则数据集可能仅限于该特定组中的用户。
评估本身可能涉及内容安全专家的自动测试和手动评审的组合,以确保系统能够有效地识别潜在的有害或不当内容。 然后,评估结果用于改进系统,并优化其性能以供实际使用。
此项评估应在您将使用系统的具体环境中进行,并与将与系统交互的人共同进行。 评估 Azure AI 内容安全的一些最佳做法包括:
- 与分析和研究团队协作,收集地面真相评估数据。
- 建立基线准确性、假阳性率和假阴性率。
- 为用例选择适当的匹配严重性级别。
- 确定错误分布是否偏向于特定数据或类别组。
- 评估可能是一个迭代过程。 例如,可以从每个类别的 50 行或图像开始,然后评估误报和漏报结果。
- 除了分析准确性数据之外,还可以根据系统输出分析来自人员做出判断的反馈。
警告
内容警告:内容安全工作室中的示例内容。
Content Safety Studio 包括预填充的数据集,使你能够测试系统并根据需要定制它。 这些数据集包含令人反感的内容,使此功能能够正常运行。 应以自由裁量权审查此内容。 在某些情况下,图像内容默认会模糊,你可以选择一个切换来取消显示内容。
评估和集成 Azure AI 内容安全性的最佳做法
- 对系统进行适当的人工监督对于确保有效和负责任的使用至关重要。 这包括确保负责监督的人员了解系统的预期用途、如何有效地与系统交互、如何解释系统行为以及何时以及如何干预或替代系统。 UX 和 UI 设计和严重性级别的使用等注意事项可以告知人工监督策略,并帮助防止过度依赖系统输出。 例如,对于内容安全系统等产品,必须向内容审查者提供他们有效监督系统所需的培训和资源。 这可能涉及提供培训材料和文档的访问权限,以及内容安全专家的持续支持。
- 为用户和受影响的组建立反馈渠道。 AI 提供支持的产品和功能需要持续监视和改进。 建立渠道,从用户和受系统影响的人那里收集问题和关注点。 例如,将反馈功能构建到用户体验中。 邀请有关输出有用性和准确性的反馈,并为用户提供一个单独的清晰路径来报告有问题的输出。