数据流是一种基于云的工具,可帮助你在不编写代码的情况下准备和转换数据。 它们提供一个低代码接口,用于从数百个数据源引入数据,使用 300 多个数据转换转换数据,并将处理后数据加载到多个目标。 将它们视为你的个人数据助手,可以连接到数百个不同的数据源,清理混乱的数据,并精确地将数据交付到您需要的地方。 无论你是公民还是专业开发人员,数据流都能够让你拥有现代数据集成体验,从一组丰富的数据源(包括数据库、数据仓库、Lakehouse、实时数据等)引入、准备和转换数据。
数据流 Gen2 是与原始 Power BI 数据流(现在称为 Gen1)一起使用的较新、更强大的版本。 Dataflow Gen2 使用熟悉的 Power Query 体验构建,可在多个Microsoft产品和服务(如 Excel、Power BI、Power Platform 和 Dynamics 365)中使用,从而提供增强的功能、更好的性能和快速复制功能来快速引入和转换数据。 如果您是初次使用,我们推荐 Dataflow Gen2,因为它具有增强功能和更好的性能。
数据流可以做什么?
使用数据流,可以:
- 连接到数据:从数据库、文件、Web 服务等拉取信息。
- 转换数据:使用可视界面清理、筛选、合并和重塑数据。
- 在任意位置加载数据:将转换后的数据发送到数据库、数据仓库或云存储。
- 自动执行此过程:设置计划,使数据保持新鲜,up-to-date。
数据流功能
下面是数据流 Gen2 和 Gen1 之间可用的功能:
| 功能 / 特点 | 数据流 Gen2 | 数据流生成器1 |
|---|---|---|
| 使用 Power Query 创建数据流 | ✓ | ✓ |
| 更简单的创建过程 | ✓ | |
| 自动保存和后台发布 | ✓ | |
| 多个输出目标 | ✓ | |
| 更好的监视和刷新跟踪 | ✓ | |
| 使用管道 | ✓ | |
| 高性能计算 | ✓ | |
| 通过数据流连接器进行连接 | ✓ | ✓ |
| 通过数据流连接器直接查询 | ✓ | |
| 仅刷新已更改的数据 | ✓ | ✓ |
| AI 支持的见解 | ✓ |
对数据流 Gen2 的升级
在下一部分中,与 Gen1 相比,数据流 Gen2 中的一些关键改进使数据准备任务更加轻松高效。
第 2 代更易于创建和使用
如果以前使用过 Power Query,则数据流 Gen2 感觉很熟悉。 为了帮助您更快地立即投入使用,我们简化了流程。 将数据引入数据流时,将分步指导你,我们减少了创建数据流所需的步骤数。
自动保存可保护工作安全
数据流 Gen2 会在您工作时自动保存更改。 你可以离开计算机、关闭浏览器或丢失 Internet 连接,而无需担心丢失进度。 当你回来时,一切都就在你离开的地方。
生成数据流后,可以发布更改。 发布过程会保存您的工作并运行后台验证,因此,在继续下一个任务之前,无需等待所有内容都通过验证。
若要了解有关保存工作原理的详细信息,请查看 “保存数据流草稿”。
将数据发送到您需要的地方
虽然 Dataflow Gen1 将转换后的数据存储在其自己的内部存储中(可通过数据流连接器进行访问),但 Dataflow Gen2 可让你灵活地使用该存储或将数据发送到不同的目标。
这种灵活性开辟了新的可能性。 例如,你能够:
- 使用数据流技术将数据加载到 Lakehouse 中,然后使用笔记本对数据进行分析。
- 将数据加载到 Azure SQL 数据库中,然后使用管道将其移动到数据仓库
数据流 Gen2 目前支持以下目标:
- Azure SQL 数据库
- Azure 数据资源管理器 (Kusto)
- Azure Datalake Gen2 (预览版)
- Fabric Lakehouse 数据表
- Fabric Lakehouse 文件(预览版)
- Fabric Warehouse
- Fabric KQL 数据库
- Fabric SQL 数据库
- SharePoint 文件
有关可用数据目标的详细信息,请参阅 数据流 Gen2 数据目标和托管设置。
更好的监视和刷新跟踪
Dataflow Gen2 为您提供更清晰的数据刷新时发生情况的全貌。 我们已与 监视中心 集成并改进了 刷新历史记录 体验,因此可以跟踪数据流的状态和性能。
与管道无缝集成工作
通过管道可将活动组合在一起,以完成更大的任务。 将它们视为可以复制数据、运行 SQL 查询、执行存储过程或运行 Python 笔记本的工作流。
可以在管道中连接多个活动,并将其设置为按计划运行。 例如,每个星期一,可以使用管道从 Azure Blob 拉取数据并清理数据,然后触发数据流 Gen2 来分析日志数据。 也可以在月底将数据从 Azure Blob 复制到 Azure SQL 数据库,然后在该数据库上运行存储过程。
若要详细了解如何将数据流与管道连接,请参阅 数据流活动。
高性能计算
数据流 Gen2 使用高级计算结构 SQL 计算引擎高效处理大量数据。 为了执行此作,Dataflow Gen2 会在工作区中创建 Lakehouse 和 Warehouse 项,并使用它们来存储和访问数据,从而提高所有数据流的性能。
用于数据流 Gen2 的 Copilot
数据流 Gen2 与 Fabric 中的 Microsoft Copilot 集成,为使用自然语言提示创建数据集成解决方案提供 AI 支持的帮助。 Copilot 通过允许你使用自然语言来执行数据转换和操作,帮助你简化数据流开发过程。
- 从源获取数据:使用“从中获取数据”初学者提示连接到各种数据源,例如 OData、数据库和文件
-
使用自然语言转换数据:使用对话提示应用转换,例如:
- “只保留欧洲客户”
- “按城市计算员工总数”
- 仅保留数量超过中值的订单
- 创建示例数据:使用 Azure OpenAI 生成用于测试和开发的示例数据
- 撤消操作:键入或选择“撤消”以撤回上一个步骤
- 验证并查看:每个 Copilot 操作显示为一个响应卡片,并在"已应用的步骤"列表中有相应步骤。
有关详细信息,请参阅 适用于数据流 Gen2 的 Copilot。
使用数据流需要什么?
数据流 Gen2 需要 Fabric 容量或 Fabric 试用容量。 若要了解数据流的许可的工作原理,请查看 Microsoft Fabric 概念和许可证。
从数据流 Gen1 迁移到 Gen2
如果已使用 Gen1 构建数据流,请不要担心 – 可以轻松地将其迁移到 Gen2。 我们提供了多个选项来帮助你进行切换:
导出和导入您的查询
可以导出数据流 Gen1 查询并将其保存到 PQT 文件,然后将其导入 Dataflow Gen2。 有关分步说明,请参阅 “使用导出模板”功能。
在 Power Query 中复制和粘贴
如果 Power BI 或 Power Apps 中有数据流,则可以复制查询并将其粘贴到数据流 Gen2 编辑器中。 此方法使你无需从头开始重新生成查询即可迁移。 了解详细信息: 复制和粘贴现有的数据流 Gen1 查询。
使用“另存为”功能
如果已有任何类型的数据流(Gen1、Gen2 或 Gen2 CI/CD),数据工厂现在包括“另存为”功能。 这样,只需执行一个操作,即可将任何现有数据流另存为新的数据流 Gen2(CI/CD)项。 更多详细信息:通过“另存为”迁移到 Dataflow Gen2(CI/CD)。
相关内容
准备好了解详细信息? 查看以下有用的资源:
- 监控数据流 - 跟踪刷新历史和性能
- 在工作时保存草稿 - 了解自动保存功能
- 从 Gen1 迁移到 Gen2 - 分步迁移指南