本页介绍评估数据集架构,并包含指向一些最常用的方法和类的 SDK 参考的链接。
有关如何使用评估数据集的一般信息和示例,请参阅 评估工具。
评估数据集架构
评估数据集必须使用本节中所述的架构。
核心字段
评估数据集抽象或直接传递数据时使用以下字段。
| 列 | 数据类型 | DESCRIPTION | 必选 |
|---|---|---|---|
inputs |
dict[Any, Any] |
应用的输入(例如用户问题、上下文),存储为 JSON 可序列化的dict。 |
是的 |
expectations |
dict[Str, Any] |
真实数据标签,存储为 JSON 可序列化的 dict。 |
可选 |
expectations 保留密钥
expectations 具有由内置 LLM 法官使用的多个保留密钥: guidelines, expected_facts以及 expected_response。
| 字段 | 使用者 | DESCRIPTION |
|---|---|---|
expected_facts |
Correctness 法官 |
应显示的事实列表 |
expected_response |
Correctness 法官 |
确切或类似的预期输出 |
guidelines |
Guidelines 法官 |
要遵循的自然语言规则 |
expected_retrieved_context |
document_recall 得分手 |
应检索的文档 |
其他字段
评估数据集抽象使用以下字段来跟踪世系和版本历史记录。
| 列 | 数据类型 | DESCRIPTION | 必选 |
|---|---|---|---|
dataset_record_id |
字符串 | 记录的唯一标识符。 | 如果未提供,则自动设置。 |
create_time |
时间戳 | 创建记录的时间。 | 插入或更新时自动设置。 |
created_by |
字符串 | 创建记录的用户。 | 插入或更新时自动设置。 |
last_update_time |
时间戳 | 上次更新记录的时间。 | 插入或更新时自动设置。 |
last_updated_by |
字符串 | 上次更新记录的用户。 | 插入或更新时自动设置。 |
source |
结构 | 数据集记录的源。 请参阅 “源”字段。 | 可选 |
tags |
dict[str, Any] | 数据集记录的键值标记。 | 可选 |
源字段
字段 source 跟踪数据集记录来自何处。 每个记录只能有 一个 源类型。
人源:人员手动创建的记录
{
"source": {
"human": {
"user_name": "jane.doe@company.com" # user who created the record
}
}
}
文档源:从文档合成的记录
{
"source": {
"document": {
"doc_uri": "s3://bucket/docs/product-manual.pdf", # URI or path to the source document
"content": "The first 500 chars of the document..." # Optional, excerpt or full content from the document
}
}
}
跟踪源:从生产跟踪创建的记录
{
"source": {
"trace": {
"trace_id": "tr-abc123def456". # unique identifier of the source trace
}
}
}
MLflow 评估数据集 UI
MLflow 评估数据集 SDK 参考
评估数据集 SDK 提供编程访问,用于创建、管理和使用用于 GenAI 应用评估的数据集。 有关详细信息,请参阅 API 参考: mlflow.genai.datasets 下面是一些最常用的方法和类: