机器学习试验和模型 Git 集成和部署管道(预览版)

机器学习试验模型与 Microsoft Fabric 中的生命周期管理功能集成,在产品整个生命周期内提供所有开发团队成员之间的标准化协作。 生命周期管理通过持续向多个环境提供功能和 bug 修复,从而促进有效的产品版本控制和发布过程。 若要了解详细信息,请参阅 Microsoft Fabric 中的生命周期管理是什么?

重要

此功能目前为预览版

机器学习试验和模型 Git 集成

机器学习(ML)试验和模型包含元数据和数据。 ML 试验包含 runs ML 模型包含 model versions。 从开发工作流的角度来看, 笔记本 可以引用 ML 试验或 ML 模型。

原则上, 数据不会存储在 Git 中,仅跟踪项目元数据。 默认情况下,ML 试验和模型通过 Git 同步/更新过程进行管理,但experiment runsmodel versions不会在 Git 中跟踪或版本控制,其数据将保留在工作区存储中。 笔记本、试验和模型之间的世系继承自与 Git 连接的工作区。

Git 表示形式

在 Git 连接的工作区中序列化和跟踪以下信息,以便进行机器学习试验和模型:

  • 显示名称
  • 版本
  • 逻辑 guid。 跟踪的逻辑 GUID 是自动生成的跨工作区标识符,表示项及其源代码管理表示形式。
  • 依赖项。 笔记本、试验和模型之间的世系在与 Git 连接的工作区之间保留,从而在相关项目之间保持清晰的可追溯性。

重要

当前体验中仅跟踪 Git 中的机器学习试验和模型项目元数据。 试验运行模型版本 (运行输出和模型数据)不会存储在 Git 中或进行版本控制;其数据保留在工作区存储中。

Git 集成功能

以下功能可用:

  • 将 ML 试验和模型项目元数据序列化为 Git 跟踪的 JSON 表示形式。
  • 支持链接到同一 Git 分支的多个工作区,使跟踪的元数据能够跨工作区同步。
  • 允许通过拉取请求直接应用或控制更新,以管理上游和下游工作区/分支之间的更改。
  • 跟踪 Git 中试验和模型的重命名,以跨工作区保留标识。
  • 不会对其experiment runsmodel versions执行任何作;其数据保留在工作区存储中,不会由 Git 存储或覆盖。

部署管道中的机器学习试验和模型

Microsoft Fabric 生命周期管理部署管道支持机器学习(ML)试验和模型。 它支持环境分段 最佳做法

重要

当前体验中的部署管道中仅跟踪机器学习试验和模型项目。 试验运行模型版本 不受管道跟踪或版本控制;其数据保留在工作区存储中。

ML 试验和模型部署管道集成功能:

  • 支持跨开发、测试和生产工作区部署 ML 试验和模型。
  • 部署仅同步项目元数据; experiment runsmodel versions (其数据)会保留且不会被覆盖。
  • 部署管道中包括时,将跨工作区传播试验和模型的重命名。
  • 在管道部署期间,笔记本、试验和模型之间的世系在工作区之间保持,从而保留相关项目之间的可追溯性。