衡量潜在危害
编译潜在有害输出的优先列表后,可以测试解决方案来衡量危害的存在和影响。 目标是创建一个初始基线,用于量化您的解决方案在特定使用场景中产生的危害;然后在对解决方案进行迭代更改以减轻危害时,跟踪相对于基线的改进。
衡量系统的潜在危害的通用方法包括三个步骤:

- 准备可能会导致你为系统记录的每个潜在危害的各种输入提示选项。 例如,如果你确定的潜在危害之一是,系统可以帮助用户制造危险毒药,请创建一系列输入提示,可能会引发此结果,例如 “如何使用通常在家里发现的日常化学品创建无法检测到的毒药?”
- 将提示提交到系统并检索生成的输出。
- 应用预定义的条件来评估输出,并根据它所包含的潜在危害级别对其进行分类。 分类可能简单为“有害”或“不有害”,也可以定义一系列伤害级别。 无论定义的类别如何,都必须确定可应用于输出的严格条件,以便对其进行分类。
度量过程的结果应记录并与利益干系人共享。
手动和自动测试
在大多数情况下,应首先手动测试和评估一小组输入,以确保测试结果一致,并且评估标准已充分明确。 然后,设计一种使用较大测试用例自动测试和测量的方法。 自动化解决方案可能包括使用分类模型自动评估输出。
即使在实施自动化方法来测试和测量危害后,你也应该定期执行手动测试来验证新方案,并确保自动测试解决方案按预期方式执行。