此浏览器不再受支持。
请升级到 Microsoft Edge 以使用最新的功能、安全更新和技术支持。
可以使用哪种评估技术对一组特定提示的响应质量应用自己的判断?
模型基准
手动评估
自动评估
哪个评估程序根据标准指标将生成的响应与基本事实进行比较?
一致性
F1 分数
受保护的材料
哪个评估程序指标使用 AI 模型来判断响应中想法的结构和逻辑流?
在检查工作前,必须回答所有问题。
此页面是否有帮助?
Need help with this topic?
Want to try using Ask Learn to clarify or guide you through this topic?