快速入门:创建第一个用于获取和转换数据的数据流

数据流是基于云的自助式数据准备技术。 在本文中,你创建你的第一个数据流,获取数据流的数据,然后转换数据并发布数据流。

先决条件

在开始之前,需要满足以下先决条件:

创建数据流

在本部分,你创建你的第一个数据流。

  1. 导航到你的 Microsoft Fabric 工作区。

    导航到工作区的工作区窗口的屏幕截图。

  2. 选择 “+新建项”,然后选择 “数据流 Gen2”。

    突出 Dataflow Gen2 选项的屏幕截图。

获取数据

让我们来获取一些数据吧! 在此示例中,你是从 OData 服务获取数据。 使用以下步骤获取数据流中的数据。

  1. 在数据流编辑器中,选择“获取数据”,然后选择“更多”。

    选择“获取数据”选项并在下拉框中突出“更多”的屏幕截图。

  2. 选择数据源中,选择查看更多

    “获取数据源”的屏幕截图,其中突出显示了“视图”。

  3. 新建源中,选择“其他>OData”作为数据源。

    “获取数据源”的屏幕截图,其中突出显示了“其他”类别和 OData 连接器。

  4. 输入 URL https://services.odata.org/v4/northwind/northwind.svc/,然后选择“下一步”。

    输入数据 URL 的 OData 数据源的屏幕截图。

  5. 选择 OrdersCustomers 表,然后选择“创建”。

    Power Query 导航器的屏幕截图,突出了 Customers 和 Orders 表。

可以在 获取数据概述中了解有关获取数据体验和功能的详细信息。

应用转换和发布

您已将数据加载到您的第一个数据流中。 祝贺你! 现在,是时候应用几个转换来将此数据引入我们需要的形状。

在 Power Query 编辑器中转换数据。 可以在 Power Query 用户界面中找到 Power Query 编辑器的详细概述,但本部分将指导你完成基本步骤:

  1. 确保启用 数据分析工具 。 转到 Home>选项>全局选项,然后选择 列配置文件下的所有选项。

    全局选项的屏幕截图,突出了列配置文件的选择。

    此外,请确保在 Power Query 编辑器功能区的“视图”选项卡下使用布局设置启用图视图,或者通过选择 Power Query 窗口右下角的图视图图标来启用图视图。

    Power Query 关系图视图的整体外观截图。

  2. 在“订单”表中,计算每个客户的订单总数:在数据预览中选择 CustomerID 列,然后在功能区中的 转换 选项卡下选择 分组依据

    显示选中的订单表的屏幕截图,在“转换”选项卡中突出了“分组依据”。

  3. 你在“分组依据”中执行行计数作为聚合。 可以在分组或汇总行中了解有关 Group By 功能的详细信息。

    “分组依据”的屏幕截图,选中了“Count”行操作。

  4. 在 Orders 表中对数据进行分组后,我们将获得一个由 CustomerIDCount 作为列的双列表。

    双列表的屏幕截图。

  5. 接下来,您需要将“客户”表中的数据与每个客户的订单数量合并:在关系图视图中选择“客户”查询,使用“⋮”菜单访问合并查询为新查询转换功能。

    数据流编辑器的屏幕截图,突出了 Customers 表和“合并为新查询”的垂直省略号。

  6. 通过在两个表中选择 CustomerID 作为匹配列来配置合并操作。 然后选择“确定”。

    合并窗口的屏幕截图。

    “合并”窗口的屏幕截图,其中要合并的左侧表设置为“Customers”表,要合并的右侧表设置为“Orders”表。 “Customers”和“Orders”表都选择了“CustomerID”列。 此外,联接类型设置为左外。 所有其他选项都设置为默认值。

  7. 现在有一个新查询,其中包含“客户”表中的所有列,还有一列包含“订单”表中的嵌套数据。

    数据流编辑器的屏幕截图,其中新增了“客户”和“订单”表右侧的合并查询。

  8. 让我们只关注“客户”表中的几列。 为此,请通过在数据流编辑器右下角选择架构视图按钮来打开架构视图。

    数据流编辑器的屏幕截图,其中右下角强调架构视图按钮。

  9. 在架构视图中,你将看到表中的所有列。 选择 CustomerIDCompanyNameOrders (2)。 然后,转到 “架构工具 ”选项卡,选择“ 删除列”,然后选择“ 删除其他列”。 这只保留您想要的列。

    显示所有可用列名的架构视图的屏幕截图,其中突出了 CustomerID、CompanyName 和 Orders (2) 列。

    架构工具菜单的屏幕截图,突出了“删除其他列”。

  10. 订单”(2) 列包含合并步骤的额外详细信息。 若要查看和使用此数据,请选择“显示架构视图”旁边的右下角的“显示数据视图”按钮。 然后,在 “订单”(2) 列标题中,选择 “展开列” 图标,然后选择 “计数 ”列。 这会将每个客户的订单计数添加到你的表中。

    使用数据视图的屏幕截图。

  11. 现在,让我们根据客户的订单数量对客户进行排名。 选择 “计数 ”列,然后转到“ 添加列 ”选项卡,然后选择“ 排名”列。 这会添加一个新列,其中根据客户的订单计数显示每个客户的排名。

    数据流编辑器的屏幕截图,其中选择了“计数”列。

  12. 保留“为列排名”中的默认设置。 然后选择“确定”以应用此转换。

    显示所有默认设置的排名窗口的屏幕截图。

  13. 现在,使用屏幕右侧的“查询设置”窗格将生成的查询重命名为“排名后的客户”。

    数据流编辑器的屏幕截图,其中“排名客户”名称在查询设置属性下强调。

  14. 你已准备好选择数据流向的位置。 在 “查询设置 ”窗格中,滚动到底部,然后选择“ 选择数据目标”。

    数据流编辑器的屏幕截图,其中突出显示了数据目标选择的位置。

  15. 如果有,则可以将结果发送到 lakehouse;如果没有,可以跳过此步骤。 在这里,您可以选择用于数据的 Lakehouse 和表,并选择是添加新数据(追加)还是替换已有数据(替换)。

    “连接到数据目标”窗口的屏幕截图,已选中其中的 Lakehouse。

    选择目标设置窗口的屏幕截图。

  16. 现在可以发布你的数据流了。 查看关系图视图中的查询,然后选择“发布”。

    数据流编辑器的屏幕截图,右下侧突出显示了“发布”按钮。

    选择右下角的 “发布 ”以保存数据流。 你将返回工作区,数据流名称旁边的旋转图标显示它正在发布中。 旋转器消失时,数据流已准备好刷新!

    重要

    首次在工作区中创建数据流 Gen2 时,Fabric 会设置一些后台项(Lakehouse 和 Warehouse),以帮助数据流运行。 这些项由工作区中的所有数据流共享,不应将其删除。 它们不打算直接使用,通常在你的工作区中不可见,但你可能会在笔记本或 SQL 分析等其他地方看到它们。 寻找以DataflowStaging开头的名称来识别它们。

  17. 在工作区中,选择“计划刷新”图标。

    工作区的屏幕截图,突出了计划刷新图标。

  18. 打开计划刷新,选择“添加其他时间”,然后配置刷新,如以下屏幕截图所示。

    显示如何选择其他时间的屏幕截图。

    计划刷新选项的屏幕截图,其中打开了计划刷新,刷新频率设置为“每日”,“时区”设置为“协调世界时”,“时间”设置为“凌晨 4:00”。 突出显示了“打开”按钮、“添加另一个时间”选项、数据流所有者和“应用”按钮。

清理资源

如果你不打算继续使用此数据流,可按以下步骤删除它:

  1. 导航到你的 Microsoft Fabric 工作区。

    导航到工作区的工作区窗口的屏幕截图。

  2. 选择数据流名称旁边的垂直省略号,然后选择“删除”。

    突出了三个垂直点和下拉菜单中的删除选项的屏幕截图。

  3. 选择“删除”以确认删除数据流。

    删除数据流窗口的屏幕截图,突出了删除按钮。

此示例中的数据流演示如何在 Dataflow Gen2 中加载和转换数据。 你已了解如何执行以下操作:

  • 创建 Dataflow Gen2。
  • 转换数据。
  • 配置已转换的数据的目标设置。
  • 运行并调度你的流水线。

请继续学习下一篇文章,了解如何创建第一个管道。