从 Dataflow Gen1 迁移到 Dataflow Gen2

本文面向 Power BI 数据流创建者。 它为 Microsoft Fabric 中的 数据工厂 提供指导和理由,帮助将其数据流迁移到 Dataflow Gen2。

注意

Dataflow Gen2 是新一代数据流,可提供新功能和改进的体验。 Gen2 数据流与 Power BI 数据流一起驻留,后者现在称为“Dataflow Gen1”

若要了解 Dataflow Gen1 与 Dataflow Gen2 之间的差异,请参阅从 Dataflow 第 1 代到 Dataflow 第 2 代

背景

Microsoft Fabric 已演变为自助服务和 IT 托管企业数据的集成平台。 随着数据量和复杂性呈指数级增长,Fabric 客户要求其企业解决方案可缩放、安全、易于管理,并且可供最大规模的组织中的所有用户访问。

近年来,微软取得了长足的进步,为 Fabric 容量提供可扩展的云功能。 为此,Fabric 中的数据工厂立即赋能一个由数十年来构建的数据集成开发者和数据集成解决方案组成的大型生态系统。 它利用了整套特性和功能集,远远超出了前几代提供的同类功能。

自然而然地,客户现在会询问是否有机会通过在 Fabric 中托管其数据集成解决方案来对其进行合并。 他们经常提出如下问题:

  • 我们依赖的所有数据流功能是否都适用于 Dataflow Gen2?
  • 哪些功能仅在 Dataflow Gen2 中可用?
  • 如何将现有数据流迁移到 Dataflow Gen2?
  • Microsoft 企业数据引入的路线图是什么?

本文介绍了其中许多问题的解答。

注意

迁移到 Fabric 容量的决定取决于每位客户的要求。 客户应仔细评估权益,以便做出合理的决定。 我们预计,随着时间的推移,会有机地迁移到数据流 Gen2,我们的意图是,这一过程会在客户感到舒适的条件下进行。

为清楚起见,目前没有任何计划弃用 Power BI 数据流或 Power Platform 数据流。 因此,投资的重点是关注用于企业数据引入的数据流 Gen2,这样一来,Fabric 容量提供的价值会随着时间的推移而不断增加。 选择 Fabric 容量的客户有望从与 Microsoft Fabric 产品路线图保持一致中受益。

自助服务和企业数据集成的聚合

Fabric 中的项整合通过将资源集中在一起,简化了发现、协作和管理。 这使中心 IT 团队可以更轻松地采用和集成常用的自助服务项。 同时,它允许将任务关键的数据移动和转换服务进行操作化,使其符合公司标准,包括数据沿袭和监控。

为了支持创建者的协作和可缩放需求,Fabric 中的 Dataflow Gen2 引入了快速复制,该功能通过使用 Fabric 的后端基础结构在转换过程中存储和处理中间数据,从而实现高效引入大量数据。 它可以无缝处理 TB 级数据。 数据流创建者可以为转换后的数据指定数据目标,例如 Fabric 数据湖屋、仓库、eventhouse 或 Azure SQL 数据库,从而提供更好的数据管理和可访问性。 此外,最近通过 Copilot 集成的生成式 AI 通过提供智能代码生成和自动执行重复任务来增强数据准备体验,为创建复杂解决方案提供了更轻松、更快捷的途径。

通过利用通用平台,工作流得到简化,从而增强了业务与 IT 之间的协作。 因此,组织能够将其数据解决方案扩展到企业级别,确保管理大量数据的高性能、灵活性和高效率。

Fabric 容量

得益于分布式体系结构,Fabric 容量对总体负载、时态峰值和高并发性不太敏感。 通过将容量合并到更大容量的Fabric SKU,客户可以实现更高的性能和吞吐量。

功能比较

下表显示了 Power BI 数据流和/或 Fabric Dataflow Gen2 中支持的功能。

特性 Power BI 数据流 第一代 Fabric 数据流 Gen2
连接性
对所有 Power Query 数据源的支持
连接到 Power BI Desktop、Excel 或 Power Apps 中的数据流并从中加载数据
使用 DirectQuery 以直接连接到数据流,避免将数据导入到语义模型中 1
可伸缩性
快速复制,支持大规模数据引入,利用数据流中的管道复制活动
计划刷新,可使数据保持最新状态
增量刷新利用策略自动执行增量数据加载,并帮助实现接近实时的报告生成。
管道编排,它允许您向管道添加数据流活动并创建编排的条件事件
人工智能
适用于数据工厂的 Copilot,提供智能的代码生成,可轻松转换数据并生成代码说明,有助于更好地了解复杂任务
认知服务,它通过人工智能(AI)使用 Azure 认知服务中的多种算法,以增强自助数据准备。 2
自动化机器学习 (AutoML),使业务分析师能够直接在 Fabric 中训练、验证和调用机器学习 (ML) 模型 已弃用 3
Azure 机器学习集成,可将自定义模型公开为能够在 Power Query 编辑器中调用的动态 Power Query 函数 2
内容管理
数据世系视图,可帮助用户了解和评估数据流项依赖项
部署管道,用于管理 Fabric 内容的生命周期
平台可伸缩性和复原能力
高级容量体系结构,支持增加规模和性能
多地理位置支持,可帮助跨国客户解决区域、行业特定的要求或组织数据驻留要求 4
安全性
虚拟网络(VNet)数据网关 连接,使 Fabric 能够在组织的虚拟网络中无缝工作
本地数据网关连接,这样就可以安全地访问组织本地数据源和 Fabric 之间的数据
Azure 服务标记 支持,是一组已经定义的 IP 地址,由系统自动管理,以最小化更新或更改网络安全规则时的复杂性。
治理
内容 认可,促进或认证有价值的高质量织物物品
Microsoft Purview 集成,这有助于客户管理和治理 Fabric 项目
Microsoft信息保护(MIP)敏感度标签Microsoft Defender for Cloud Apps 集成,以实现 数据丢失防护(DLP)。
监视和诊断日志记录
增强的 刷新历史记录,使你可以详细评估数据流刷新期间发生的情况。
监视中心,它为 Fabric 项目提供监视功能
Microsoft Fabric 容量指标应用,可为 Fabric 容量提供监视功能
审核日志,用于跟踪 Fabric 和 Microsoft 365 之间的用户活动

1 建议利用数据目标并直接连接到输出表,请参阅 本文

2 若要了解如何创建自定义函数来调用 Azure AI API 终结点,请参阅 教程:从 Power BI 中存储的文本中提取关键短语

3 自动机器学习(AutoML)已弃用。 有关详细信息,请参阅此官方公告

4 若要将 Power BI 数据流存储配置为使用 Azure Data Lake Storage (ADLS) Gen2,请参阅 本文

注意事项

在迁移到 Dataflow Gen2 之前,规划时需要考虑其他因素。

许可

需要 Pro 或 Premium Per User (PPU) 许可证才能发布或管理 Power BI 数据流 (Dataflow Gen1)。 相比之下,您只需拥有 Microsoft Fabric(免费)许可证,即可在高级容量工作区中创建数据流 Gen2。

迁移方案

迁移数据流时,务必要超越仅仅复制现有解决方案的思维方式。 我们建议改为利用 Dataflow Gen2 的最新创新和功能来实现解决方案现代化。 此方法可确保解决方案能够支持不断增长的业务需求。

迁移方案文章中介绍了一些用于升级、盘点和使用加速器(如 Power Query 模板)的方法。 这些方法有助于确保项目的无缝升级。

路线图

Microsoft Fabric 发布计划 公布了最新的更新和时间表,功能已为未来的发布做好准备,包括 Microsoft Fabric中 数据工厂的新增功能和计划。

有关本文的详细信息,请查看以下资源: