在本快速入门中,你将了解数据流和管道如何协同工作,以创建功能强大的数据工厂解决方案。 你将使用数据流清理数据,并使用管道移动数据。
先决条件
在开始之前,需要:
- 具有有效订阅的租户帐户。 创建一个免费帐户。
- 启用 Microsoft Fabric 的工作区:创建一个工作区,它不是默认的“我的工作区”。
- 包含表数据的 Azure SQL 数据库。
- Blob 存储帐户。
比较数据流和管道
数据流 Gen2 提供低代码接口,其中包含 300 多个数据和基于 AI 的转换。 你可以灵活地轻松清理、准备和转换数据。 管道提供丰富的数据业务流程功能,用于组合满足企业需求的灵活数据工作流。
在管道中,可以创建执行任务的活动的逻辑分组。 这可能包括调用数据流来清理和准备数据。 虽然两者之间存在一些功能重叠,但你的选择取决于是需要管道的完整功能,还是可以使用更简单的数据流功能。 有关详细信息,请参阅 Fabric 决策指南。
使用数据流转换数据
按照以下步骤设置数据流。
创建数据流
获取数据
在 “连接到数据源 ”对话框中,输入 Azure SQL 数据库详细信息,然后选择“ 下一步”。 使用先决条件中的 AdventureWorksLT 示例数据库。
选择要转换的数据,例如 SalesLT.Customer,并使用 “选择相关表” 来包括相关表。 然后选择“创建”。
转换您的数据
从 Power Query 编辑器中的状态栏或
“视图”菜单 中选择“图表视图” 。右键单击 SalesLT 客户 查询,或选择查询右侧的垂直省略号,然后选择 “合并查询”。
将 SalesLTOrderHeader 配置为右表,CustomerID 作为联接列,左外部 作为联接类型进行合并配置。 选择“确定”。
通过选择带有箭头的数据库符号来添加数据目标。 选择 Azure SQL 数据库 作为目标类型。
提供要在其中发布合并查询的 Azure SQL 数据库连接的详细信息。 在此示例中,我们也使用用作目标的数据源的 AdventureWorksLT 数据库。
选择要存储数据的数据库,并提供表名,然后选择“下一步”。
接受“ 选择目标设置 ”对话框中的默认设置,然后选择“ 保存设置”。
在数据流编辑器中选择 “发布 ”以发布数据流。
使用管道移动数据
创建数据流 Gen2 后,可以在管道中对数据流 Gen2 进行操作。 在此示例中,将从数据流生成的数据复制到 Azure Blob 存储帐户中的文本格式。
创建新管道
在工作区中,选择“ 新建”,然后选择 “管道”。
为管道命名,然后选择“ 创建”。
配置数据流
通过在“活动”选项卡中选择“数据流”,将数据流活动添加到管道。
选择管道画布上的数据流,转到 “设置” 选项卡,然后选择之前创建的数据流。
选择“ 保存”,然后 运行 以填充合并的查询表。
添加“复制活动”
在画布上选择“复制数据”或使用“活动”选项卡中的“复制助手”。
选择 Azure SQL 数据库 作为数据源,然后选择“ 下一步”。
通过选择“创建新连接”,创建与数据源的连接。 在面板上填写所需的连接信息,然后输入数据库的 AdventureWorksLT,我们在这里的数据流中生成了合并查询。 然后选择 下一步。
选择之前在数据流步骤中生成的表格,然后选择 下一步。
对于目标,选择“Azure Blob 存储”,然后选择“下一步”。
选择“创建新连接”以创建与目标的连接。 提供连接的详细信息,然后选择下一步。
选择 文件夹路径 并提供 文件名,然后选择 下一步。
再次选择 “下一步 ”以接受默认文件格式、列分隔符、行分隔符和压缩类型(可选)包括标头。
完成设置。 然后,检查并选择保存 + 运行来完成该过程。
设计管道并保存以运行和加载数据
若要在“数据流”活动之后运行“复制”活动,请从“数据流”活动中的“成功”拖到“复制”活动。 “复制”活动仅在“数据流”活动成功后运行。
选择 “保存” 以保存管道。 然后选择 “运行” 以运行管道并加载数据。
计划管道执行
完成管道开发和测试后,可以计划管道自动运行。
在管道编辑器窗口的“主页”选项卡上,选择“日程安排”。
根据需要配置日程。 此处的示例将管道计划每天在晚上 8:00 运行,直到年底。
相关内容
此示例演示如何创建和配置数据流 Gen2 以创建合并查询并将其存储在 Azure SQL 数据库中,然后将数据库中的数据复制到 Azure Blob 存储中的文本文件中。 你已了解如何执行以下操作:
- 创建数据流。
- 使用数据流转换数据。
- 使用数据流创建管道。
- 对管道中的步骤执行进行排序。
- 使用复制助手复制数据。
- 运行并调度你的流水线。
接下来,请继续学习,详细了解如何监视管道运行。