自动评估

通过 Azure AI Foundry 门户中的自动评估，可以评估模型、数据集或提示流的质量和内容安全性能。

评估数据

若要评估模型，需要一个提示和响应数据集（以及（可选）预期响应为“基本真相”）。可以手动编译此数据集或使用现有应用程序的输出;但一种有用的入门方法是使用 AI 模型生成一组与特定主题相关的提示和响应。然后，您可以编辑生成的提示和响应以反映所需的输出，并将它们用作真实值来评估来自另一个模型的响应。

AI 生成的评估数据的屏幕截图。

通过自动评估，你可以选择要评估模型响应的 评估程序 ，以及这些评估器应计算哪些指标。有评估程序来帮助你衡量：

AI质量：模型响应的质量通过使用 AI 模型根据 一致性 和 相关性 等指标进行评估，并使用 F1 分数、BLEU、METEOR 和 ROUGE 等标准 NLP 指标基于真实情况（以预期响应文本的形式）进行测量。
风险和安全：有评估程序来评估回复是否存在内容安全问题，包括暴力、仇恨、性内容和与自残相关的内容。

此页面是否有帮助？