数据流是基于云的自助式数据准备技术。 在本文中,你创建你的第一个数据流,获取数据流的数据,然后转换数据并发布数据流。
先决条件
在开始之前,需要满足以下先决条件:
创建数据流
在本部分,你创建你的第一个数据流。
获取数据
让我们来获取一些数据吧! 在此示例中,你是从 OData 服务获取数据。 使用以下步骤获取数据流中的数据。
在数据流编辑器中,选择“获取数据”,然后选择“更多”。
在选择数据源中,选择查看更多。
在新建源中,选择“其他>OData”作为数据源。
输入 URL
https://services.odata.org/v4/northwind/northwind.svc/,然后选择“下一步”。
选择 Orders 和 Customers 表,然后选择“创建”。
可以在 获取数据概述中了解有关获取数据体验和功能的详细信息。
应用转换和发布
您已将数据加载到您的第一个数据流中。 祝贺你! 现在,是时候应用几个转换来将此数据引入我们需要的形状。
在 Power Query 编辑器中转换数据。 可以在 Power Query 用户界面中找到 Power Query 编辑器的详细概述,但本部分将指导你完成基本步骤:
确保启用 数据分析工具 。 转到 Home>选项>全局选项,然后选择 列配置文件下的所有选项。
此外,请确保在 Power Query 编辑器功能区的“视图”选项卡下使用布局设置启用图视图,或者通过选择 Power Query 窗口右下角的图视图图标来启用图视图。
在“订单”表中,计算每个客户的订单总数:在数据预览中选择 CustomerID 列,然后在功能区中的 转换 选项卡下选择 分组依据。
你在“分组依据”中执行行计数作为聚合。 可以在分组或汇总行中了解有关 Group By 功能的详细信息。
在 Orders 表中对数据进行分组后,我们将获得一个由 CustomerID 和 Count 作为列的双列表。
接下来,您需要将“客户”表中的数据与每个客户的订单数量合并:在关系图视图中选择“客户”查询,使用“⋮”菜单访问合并查询为新查询转换功能。
通过在两个表中选择 CustomerID 作为匹配列来配置合并操作。 然后选择“确定”。
“合并”窗口的屏幕截图,其中要合并的左侧表设置为“Customers”表,要合并的右侧表设置为“Orders”表。 “Customers”和“Orders”表都选择了“CustomerID”列。 此外,联接类型设置为左外。 所有其他选项都设置为默认值。
现在有一个新查询,其中包含“客户”表中的所有列,还有一列包含“订单”表中的嵌套数据。
让我们只关注“客户”表中的几列。 为此,请通过在数据流编辑器右下角选择架构视图按钮来打开架构视图。
在架构视图中,你将看到表中的所有列。 选择 CustomerID、CompanyName 和 Orders (2)。 然后,转到 “架构工具 ”选项卡,选择“ 删除列”,然后选择“ 删除其他列”。 这只保留您想要的列。
“ 订单”(2) 列包含合并步骤的额外详细信息。 若要查看和使用此数据,请选择“显示架构视图”旁边的右下角的“显示数据视图”按钮。 然后,在 “订单”(2) 列标题中,选择 “展开列” 图标,然后选择 “计数 ”列。 这会将每个客户的订单计数添加到你的表中。
现在,让我们根据客户的订单数量对客户进行排名。 选择 “计数 ”列,然后转到“ 添加列 ”选项卡,然后选择“ 排名”列。 这会添加一个新列,其中根据客户的订单计数显示每个客户的排名。
保留“为列排名”中的默认设置。 然后选择“确定”以应用此转换。
现在,使用屏幕右侧的“查询设置”窗格将生成的查询重命名为“排名后的客户”。
你已准备好选择数据流向的位置。 在 “查询设置 ”窗格中,滚动到底部,然后选择“ 选择数据目标”。
如果有,则可以将结果发送到 lakehouse;如果没有,可以跳过此步骤。 在这里,您可以选择用于数据的 Lakehouse 和表,并选择是添加新数据(追加)还是替换已有数据(替换)。
现在可以发布你的数据流了。 查看关系图视图中的查询,然后选择“发布”。
选择右下角的 “发布 ”以保存数据流。 你将返回工作区,数据流名称旁边的旋转图标显示它正在发布中。 旋转器消失时,数据流已准备好刷新!
重要
首次在工作区中创建数据流 Gen2 时,Fabric 会设置一些后台项(Lakehouse 和 Warehouse),以帮助数据流运行。 这些项由工作区中的所有数据流共享,不应将其删除。 它们不打算直接使用,通常在你的工作区中不可见,但你可能会在笔记本或 SQL 分析等其他地方看到它们。 寻找以
DataflowStaging开头的名称来识别它们。在工作区中,选择“计划刷新”图标。
打开计划刷新,选择“添加其他时间”,然后配置刷新,如以下屏幕截图所示。
计划刷新选项的屏幕截图,其中打开了计划刷新,刷新频率设置为“每日”,“时区”设置为“协调世界时”,“时间”设置为“凌晨 4:00”。 突出显示了“打开”按钮、“添加另一个时间”选项、数据流所有者和“应用”按钮。
清理资源
如果你不打算继续使用此数据流,可按以下步骤删除它:
导航到你的 Microsoft Fabric 工作区。
选择数据流名称旁边的垂直省略号,然后选择“删除”。
选择“删除”以确认删除数据流。
相关内容
此示例中的数据流演示如何在 Dataflow Gen2 中加载和转换数据。 你已了解如何执行以下操作:
- 创建 Dataflow Gen2。
- 转换数据。
- 配置已转换的数据的目标设置。
- 运行并调度你的流水线。
请继续学习下一篇文章,了解如何创建第一个管道。