虽然 MLflow 的 内置 LLM 评判器 在简单应用程序中为常见质量维度提供了出色的起点,但随着应用程序变得更加复杂,你需要创建自定义 LLM 评判器,并调整评估标准以满足特定用例的细微业务要求,确保与领域专家的判断保持一致。 MLflow 提供了可靠且灵活的方法来创建自定义 LLM 法官 ,以满足这些独特的要求。
自定义提示法官
- 最适合: 复杂和细致的评估,您需要完全控制法官的提示,或需要让法官指定多个输出值,例如“优秀”、“良好”、“差”。
- 工作原理: 提供一个提示模板,用于定义评估条件,并为应用跟踪中的特定字段提供占位符。 定义法官可以选择的输出选项。 然后,LLM 会选择适当的输出选项,并为其选择提供理由。
后续步骤
继续您的旅程,并参考这些推荐的行动和教程。
- 创建准则评委 - 使用自然语言规则定义评估标准(建议)
- 创建自定义提示法官 - 使用自定义提示和输出选择构建复杂的法官
- 在生产环境中运行评估程序 - 部署自定义评估程序以持续监控
参考指南
浏览本指南中提到的概念和功能的详细文档。