评估数据集参考

本页介绍评估数据集架构,并包含指向一些最常用的方法和类的 SDK 参考的链接。

有关如何使用评估数据集的一般信息和示例,请参阅 评估工具

评估数据集架构

评估数据集必须使用本节中所述的架构。

核心字段

评估数据集抽象或直接传递数据时使用以下字段。

数据类型 DESCRIPTION 必选
inputs dict[Any, Any] 应用的输入(例如用户问题、上下文),存储为 JSON 可序列化的dict 是的
expectations dict[Str, Any] 真实数据标签,存储为 JSON 可序列化的 dict 可选

expectations 保留密钥

expectations 具有由内置 LLM 法官使用的多个保留密钥: guidelinesexpected_facts以及 expected_response

字段 使用者 DESCRIPTION
expected_facts Correctness 法官 应显示的事实列表
expected_response Correctness 法官 确切或类似的预期输出
guidelines Guidelines 法官 要遵循的自然语言规则
expected_retrieved_context document_recall 得分手 应检索的文档

其他字段

评估数据集抽象使用以下字段来跟踪世系和版本历史记录。

数据类型 DESCRIPTION 必选
dataset_record_id 字符串 记录的唯一标识符。 如果未提供,则自动设置。
create_time 时间戳 创建记录的时间。 插入或更新时自动设置。
created_by 字符串 创建记录的用户。 插入或更新时自动设置。
last_update_time 时间戳 上次更新记录的时间。 插入或更新时自动设置。
last_updated_by 字符串 上次更新记录的用户。 插入或更新时自动设置。
source 结构 数据集记录的源。 请参阅 “源”字段 可选
tags dict[str, Any] 数据集记录的键值标记。 可选

源字段

字段 source 跟踪数据集记录来自何处。 每个记录只能有 一个 源类型。

人源:人员手动创建的记录

{
    "source": {
        "human": {
            "user_name": "jane.doe@company.com"  # user who created the record
        }
    }
}

文档源:从文档合成的记录

{
    "source": {
        "document": {
            "doc_uri": "s3://bucket/docs/product-manual.pdf",  # URI or path to the source document
            "content": "The first 500 chars of the document..."  # Optional, excerpt or full content from the document
        }
    }
}

跟踪源:从生产跟踪创建的记录

{
    "source": {
        "trace": {
            "trace_id": "tr-abc123def456". # unique identifier of the source trace
        }
    }
}

MLflow 评估数据集 UI

eval 数据集 ui

MLflow 评估数据集 SDK 参考

评估数据集 SDK 提供编程访问,用于创建、管理和使用用于 GenAI 应用评估的数据集。 有关详细信息,请参阅 API 参考: mlflow.genai.datasets 下面是一些最常用的方法和类: