列出潜在危害

已完成

负责任的生成 AI 过程的第一个阶段是映射可能影响计划解决方案的潜在危害。 此阶段有四个步骤,如下所示:

展示识别、优先排序、测试和共享潜在危害步骤的图表。

  1. 识别潜在的危害
  2. 确定的危害的优先级
  3. 测试和验证优先级的危害
  4. 记录并共享已验证的危害

1:识别潜在危害

与生成 AI 解决方案相关的潜在危害取决于多种因素,包括用于生成输出的特定服务和模型,以及用于自定义输出的任何微调或地面数据。 生成式 AI 解决方案中的一些常见潜在危害类型包括:

  • 生成冒犯性、贬义性或歧视性内容。
  • 生成包含事实不准确的内容。
  • 生成鼓励或支持非法或不道德行为或做法的内容。

若要充分了解解决方案中服务和模型的已知限制和行为,请参阅可用的文档。 例如,Azure OpenAI 服务包括 透明度说明;可用于了解与该服务及其包含的模型相关的特定注意事项。 此外,单个模型开发人员还可以提供适用于 GPT-4 模型的 OpenAI 系统卡等文档。

请考虑查看 Microsoft负责任的 AI 影响评估指南中的指南 ,并使用关联的 负责任的 AI 影响评估模板 来记录潜在的危害。

查看用于帮助识别潜在危害的资源 信息和指南。

2:确定危害的优先级

对于你确定的每个潜在危害,请评估其发生的可能性,并评估其发生的可能性,以及由此产生的影响级别(如果存在)。 然后,使用此信息优先处理最可能且影响最大的危害。 通过此优先顺序,你可以专注于查找和缓解解决方案中最有害的风险。

优先顺序必须考虑到解决方案的预期用途以及滥用的可能性;而且可能是主观的。 例如,假设你正在开发一个智能厨房警察,为厨师和业余厨师提供食谱帮助。 潜在的危害可能包括:

  • 该解决方案提供不准确的烹饪时间,导致可能导致疾病的食物不足。
  • 出现提示时,该解决方案提供了一种可由日常成分制成的致命毒药的配方。

虽然这两种结果都不可取,但你可能会决定,解决方案支持制造致命毒药的潜力比制造未煮熟的食物的潜力要高。 但是,鉴于解决方案的核心使用方案,你可能还假设建议使用不准确的烹饪时间的频率可能远高于显式请求毒配方的用户数。 最终的优先决定是开发团队的讨论主题,该主题可以涉及咨询政策或法律专家,以便充分确定优先级。

3:测试和验证是否存在伤害

现在,你已获得一个优先列表,可以测试解决方案,以验证是否发生了伤害;如果是这样,在什么条件下。 测试还可能会显示以前无法识别的危害的存在,你可以添加到列表中。

测试软件解决方案中潜在危害或漏洞的常见方法是使用“红队”测试,其中测试人员团队故意调查解决方案中的弱点并尝试产生有害结果。 前面讨论的智能厨房警察解决方案的示例测试可能包括请求毒食谱或快速食谱,其中包括应彻底煮熟的成分。 应记录和审查红色团队的成功,以帮助确定使用解决方案时发生有害输出的实际可能性。

注释

红色组合 是一种策略,通常用于查找安全漏洞或其他可能损害软件解决方案完整性的弱点。 通过扩展此方法来从生成式 AI 中查找有害内容,可以实施一个负责任的 AI 过程,以构建和补充现有的网络安全做法。

若要详细了解用于生成式 AI 解决方案的红队测试,请参阅 Azure OpenAI 服务文档中的 大型语言模型 (LLM) 红队测试简介

4:记录和分享危害的详细信息

收集证据以支持解决方案中存在潜在危害的证据时,请记录详细信息并与利益干系人共享。 然后,应维护优先的危害列表,并在确定新的危害时添加到其中。