自动评估
通过 Azure AI Foundry 门户中的自动评估,可以评估模型、数据集或提示流的质量和内容安全性能。
评估数据
若要评估模型,需要一个提示和响应数据集(以及(可选)预期响应为“基本真相”)。 可以手动编译此数据集或使用现有应用程序的输出;但一种有用的入门方法是使用 AI 模型生成一组与特定主题相关的提示和响应。 然后,您可以编辑生成的提示和响应以反映所需的输出,并将它们用作真实值来评估来自另一个模型的响应。

评估指标
通过自动评估,你可以选择要评估模型响应的 评估程序 ,以及这些评估器应计算哪些指标。 有评估程序来帮助你衡量:
- AI质量:模型响应的质量通过使用 AI 模型根据 一致性 和 相关性 等指标进行评估,并使用 F1 分数、BLEU、METEOR 和 ROUGE 等标准 NLP 指标基于真实情况(以预期响应文本的形式)进行测量。
- 风险和安全:有评估程序来评估回复是否存在内容安全问题,包括暴力、仇恨、性内容和与自残相关的内容。