本页概述了将 Databricks 功能存储与 Unity 目录配合使用时可用的功能。
Databricks 功能存储为 AI 和 ML 模型中使用的功能提供了一个中心注册表。 功能表和模型在 Unity 目录中注册,提供内置治理、世系和跨工作区功能共享和发现。 借助 Databricks,整个模型训练工作流在单个平台上进行,包括:
- 用于引入原始数据、创建特征表、训练模型和执行批量推理的数据管道。
- 可一键式使用的并提供毫秒级延迟的模型和特征服务终结点。
- 数据和模型监测。
使用功能存储中的特征来训练模型时,模型会自动跟踪定型中使用的特征的世系。 在推理时,模型会自动查找最新的特征值。 功能存储还为实时应用程序提供功能的按需计算。 功能存储处理所有功能计算任务。 这消除了训练/服务偏斜,确保推理中使用的特征计算与模型训练期间使用的功能计算相同。 它还大大简化了客户端代码,因为所有功能查找和计算都由功能存储处理。
注释
本页介绍适用于已启用 Unity Catalog 的工作区的特征工程和服务功能。 如果你的工作区未启用 Unity Catalog,请参阅工作区特征存储(旧版)。
概念概述
有关 Databricks 功能存储的工作原理和术语表的概述,请参阅 概念。
特征工程
| 功能 / 特点 | Description | 
|---|---|
| 在 Unity 目录中处理功能表 | 创建和使用功能表。 | 
发现和共享功能
| 功能 / 特点 | Description | 
|---|---|
| 浏览 Unity 目录中的功能 | 使用目录资源管理器和功能 UI 浏览和管理功能表。 | 
| 在 Unity 目录中将标记与功能表和功能配合使用 | 使用简单的键值对对功能表和功能进行分类和管理。 | 
在训练工作流中使用功能
| 功能 / 特点 | Description | 
|---|---|
| 使用功能训练模型 | 使用功能训练模型。 | 
| 时间点功能联接 | 使用时间点正确性创建一个训练数据集,该数据集反映记录标签观察的时间特征值。 | 
| Python API | Python API 参考 | 
服务功能
| 功能 / 特点 | Description | 
|---|---|
| Databricks Online 功能存储 | 为联机应用程序和实时机器学习模型提供功能数据。 由 Databricks Lakebase 提供支持。 | 
| 使用自动功能查找进行模型服务 | 自动从在线商店查找功能值。 | 
| 功能服务终结点 | 为 Databricks 外部的模型和应用程序提供功能。 | 
| 按需功能计算 | 在推理时计算特征值。 | 
特征治理和世系
| 功能 / 特点 | Description | 
|---|---|
| 功能治理和世系 | 使用 Unity 目录控制对功能表的访问,并查看特征表、模型或函数的世系。 | 
Tutorials
| Tutorial | Description | 
|---|---|
| 要开始使用的示例笔记本 | 基本笔记本。 演示如何创建特征表、使用它来训练模型,以及如何使用自动功能查找运行批处理评分。 此外,还显示了用于搜索特征和查看世系的功能工程 UI。 出租车示例笔记本。 显示创建功能、更新特征以及将它们用于模型训练和批处理推理的过程。 | 
| 示例:部署和查询功能服务终结点 | 演示如何部署和查询功能服务终结点的教程和示例笔记本。 | 
| 示例:对结构化 RAG 应用程序使用功能 | 演示如何使用 Databricks 联机表和功能服务终结点来检索扩充生成(RAG)应用程序的教程。 | 
要求
- 你的工作区必须启用 Unity Catalog。
- Unity Catalog 中的特征工程需要 Databricks Runtime 13.3 LTS 或更高版本。
如果你的工作区不满足这些要求,请参阅工作区特征存储(旧版)来了解如何使用旧版工作区特征存储。
支持的数据类型
Unity Catalog 中的特征工程和旧版工作区特征存储支持以下 PySpark 数据类型:
- IntegerType
- FloatType
- BooleanType
- StringType
- DoubleType
- LongType
- TimestampType
- DateType
- ShortType
- ArrayType
- 
              BinaryType[1]
- 
              DecimalType[1]
- 
              MapType[1]
- 
              StructType[2]
[1] Unity Catalog 的所有 Feature Engineering 版本以及 Workspace Feature Store v0.3.5 或更高版本中支持 BinaryType、DecimalType 和 MapType。
[2] 特征工程 v0.6.0 或更高版本支持 StructType。
上面列出的数据类型支持机器学习应用程序中常见的特征类型。 例如:
- 可以将稠密矢量、张量和嵌入存储为 ArrayType。
- 可以将稀疏矢量、张量和嵌入存储为 MapType。
- 可以将文本存储为 StringType。
发布到在线商店时,ArrayType 和 MapType 特征以 JSON 格式存储。
特征库 UI 显示特征数据类型的元数据。
               
              
            
详细信息
有关最佳做法的详细信息,请下载特征存储综合指南。