快速入门:创建用于移动和转换数据的解决方案

在本快速入门中,你将了解数据流和管道如何协同工作,以创建功能强大的数据工厂解决方案。 你将使用数据流清理数据,并使用管道移动数据。

先决条件

在开始之前,需要:

比较数据流和管道

数据流 Gen2 提供低代码接口,其中包含 300 多个数据和基于 AI 的转换。 你可以灵活地轻松清理、准备和转换数据。 管道提供丰富的数据业务流程功能,用于组合满足企业需求的灵活数据工作流。

在管道中,可以创建执行任务的活动的逻辑分组。 这可能包括调用数据流来清理和准备数据。 虽然两者之间存在一些功能重叠,但你的选择取决于是需要管道的完整功能,还是可以使用更简单的数据流功能。 有关详细信息,请参阅 Fabric 决策指南

使用数据流转换数据

按照以下步骤设置数据流。

创建数据流

  1. 选择已启用 Fabric 的工作区,然后选择 “新建”,然后选择 “数据流 Gen2”。

    启动数据流 Gen2 的屏幕截图。

  2. 在数据流编辑器中,选择 “从 SQL Server 导入”。

    数据流编辑器的屏幕截图。

获取数据

  1. “连接到数据源 ”对话框中,输入 Azure SQL 数据库详细信息,然后选择“ 下一步”。 使用先决条件中的 AdventureWorksLT 示例数据库。

    连接到 Azure SQL 数据库的屏幕截图。

  2. 选择要转换的数据,例如 SalesLT.Customer,并使用 “选择相关表” 来包括相关表。 然后选择“创建”。

    选择要转换的数据的屏幕截图。

转换您的数据

  1. 从 Power Query 编辑器中的状态栏或“视图”菜单中选择“图表视图”

    选择关系图视图的屏幕截图。

  2. 右键单击 SalesLT 客户 查询,或选择查询右侧的垂直省略号,然后选择 “合并查询”。

    “合并查询”选项的屏幕截图。

  3. SalesLTOrderHeader 配置为右表,CustomerID 作为联接列,左外部 作为联接类型进行合并配置。 选择“确定”

    合并配置屏幕的屏幕截图。

  4. 通过选择带有箭头的数据库符号来添加数据目标。 选择 Azure SQL 数据库 作为目标类型。

    “添加数据目标”按钮的屏幕截图。

  5. 提供要在其中发布合并查询的 Azure SQL 数据库连接的详细信息。 在此示例中,我们也使用用作目标的数据源的 AdventureWorksLT 数据库。

    “连接到数据目标”对话框的屏幕截图。

  6. 选择要存储数据的数据库,并提供表名,然后选择“下一步”

    “选择目标目标”窗口的屏幕截图。

  7. 接受“ 选择目标设置 ”对话框中的默认设置,然后选择“ 保存设置”。

    “选择目标设置”对话框的屏幕截图。

  8. 在数据流编辑器中选择 “发布 ”以发布数据流。

    屏幕截图,其中突出显示了数据流第 2 代编辑器上的“发布”按钮。

使用管道移动数据

创建数据流 Gen2 后,可以在管道中对数据流 Gen2 进行操作。 在此示例中,将从数据流生成的数据复制到 Azure Blob 存储帐户中的文本格式。

创建新管道

  1. 在工作区中,选择“ 新建”,然后选择 “管道”。

    创建新管道的屏幕截图。

  2. 为管道命名,然后选择“ 创建”。

    屏幕截图,其中显示了包含示例管道名称的新管道创建提示。

配置数据流

  1. 通过在“活动”选项卡中选择“数据流”,将数据流活动添加到管道。

    添加数据流活动的屏幕截图。

  2. 选择管道画布上的数据流,转到 “设置” 选项卡,然后选择之前创建的数据流。

    选择数据流的屏幕截图。

  3. 选择“ 保存”,然后 运行 以填充合并的查询表。

    屏幕截图,显示选择“运行”的位置。

添加“复制活动”

  1. 在画布上选择“复制数据”或使用“活动”选项卡中的“复制助手”。

    屏幕截图,其中显示了访问复制助手的两种方法。

  2. 选择 Azure SQL 数据库 作为数据源,然后选择“ 下一步”。

    显示数据源选择位置的屏幕截图。

  3. 通过选择“创建新连接”,创建与数据源的连接。 在面板上填写所需的连接信息,然后输入数据库的 AdventureWorksLT,我们在这里的数据流中生成了合并查询。 然后选择 下一步

    显示创建新连接的位置的屏幕截图。

  4. 选择之前在数据流步骤中生成的表格,然后选择 下一步

    显示如何从可用表中进行选择的屏幕截图。

  5. 对于目标,选择“Azure Blob 存储”,然后选择“下一步”

    显示 Azure Blob 存储数据目标的屏幕截图。

  6. 选择“创建新连接”以创建与目标的连接。 提供连接的详细信息,然后选择下一步

    显示如何创建连接的屏幕截图。

  7. 选择 文件夹路径 并提供 文件名,然后选择 下一步

    显示如何选择文件夹路径和文件名的屏幕截图。

  8. 再次选择 “下一步 ”以接受默认文件格式、列分隔符、行分隔符和压缩类型(可选)包括标头。

    显示 Azure Blob 存储中文件的配置选项的屏幕截图。

  9. 完成设置。 然后,检查并选择保存 + 运行来完成该过程。

    显示如何查看复制数据设置的屏幕截图。

设计管道并保存以运行和加载数据

  1. 若要在“数据流”活动之后运行“复制”活动,请从“数据流”活动中的“成功”拖到“复制”活动。 “复制”活动仅在“数据流”活动成功后运行

    显示如何在复制活动之后运行数据流的屏幕截图。

  2. 选择 “保存” 以保存管道。 然后选择 “运行” 以运行管道并加载数据。

    选择“保存和运行”位置的屏幕截图。

计划管道执行

完成管道开发和测试后,可以计划管道自动运行。

  1. 在管道编辑器窗口的“主页”选项卡上,选择“日程安排”

    管道编辑器中“开始”选项卡菜单上的“计划”按钮的屏幕截图。

  2. 根据需要配置日程。 此处的示例将管道计划每天在晚上 8:00 运行,直到年底。

    显示每天晚上 8:00 运行,直至年底的管道计划配置的屏幕截图。

此示例演示如何创建和配置数据流 Gen2 以创建合并查询并将其存储在 Azure SQL 数据库中,然后将数据库中的数据复制到 Azure Blob 存储中的文本文件中。 你已了解如何执行以下操作:

  • 创建数据流。
  • 使用数据流转换数据。
  • 使用数据流创建管道。
  • 对管道中的步骤执行进行排序。
  • 使用复制助手复制数据。
  • 运行并调度你的流水线。

接下来,请继续学习,详细了解如何监视管道运行。