本教程介绍如何将 Wide World Importers (WWI) 中的更多维度和事实数据表引入到湖屋。
先决条件
- 如果没有湖屋,则必须创建湖屋。
引入数据
在本部分,使用 Azure 数据工厂管道的“复制数据活动”将 Azure 存储帐户中的示例数据引入先前创建的湖屋的“文件”部分。
在左侧导航窗格中选择“工作区”,然后从“工作区”菜单中选择新的工作区。 将会显示工作区的项视图。
在工作区功能区中的 “新建项 ”选项中,选择 “管道”。
在“新建管道”对话框中,将名称指定为“IngestDataFromSourceToLakehouse”,然后选择“创建”。
从新建的管道中,选择 “管道”活动 以向管道添加活动,然后选择“ 复制数据”。 此作会将复制数据活动添加到管道画布。
从画布中选择新添加的复制数据活动。 活动属性显示在画布下方的窗格中(可能需要通过拖动上边缘向上展开窗格)。 在“属性”窗格中的“常规”选项卡中,在“名称”字段中键入“复制到 Lakehouse 的数据”。 将剩余属性保留为其默认值。
在所选复制数据活动的 “源 ”选项卡中,打开 “连接 ”字段,然后选择“ 全部浏览”。 弹出“数据源”窗口,搜索并选择 Azure Blob。 在本教程中,所有示例数据都在 Azure Blob 存储的公共容器中提供。 连接到此容器以从中复制数据。
在 “连接设置” 窗口中输入以下详细信息,然后选择 “连接” 以创建与数据源的连接。
属性 Value 帐户名或 URL https://fabrictutorialdata.blob.core.windows.net/sampledata/Connection 创建新连接 连接名称 wwisampledata 身份验证种类 匿名 创建新连接后,返回到复制数据活动的 “源 ”选项卡,并默认选择新创建的连接。 在移动到目标设置之前,请指定以下属性。
属性 Value Connection wwisampledata 文件路径类型 文件路径 文件路径 容器名称(第一个文本框):sampledata
目录名称(第二个文本框):WideWorldImportersDW/parquet递 归 已选中 文件格式 Binary 在所选复制数据活动的 “目标 ”选项卡中,指定以下属性:
属性 Value Connection wwilakehouse (如果你以不同的方式命名,请选择你的湖屋) 根文件夹 文件存储 文件路径 目录名称(第一个文本框):wwi-raw-data 文件格式 Binary 已配置复制数据活动。 选择顶部功能区(下主页)上的 “保存 ”图标以保存更改,然后选择“ 运行 ”以执行管道及其活动。 还可以计划管道以按定义的时间间隔刷新数据,以满足业务要求。 在本教程中,我们仅通过选择“ 运行”来运行管道一次。
此作会触发从基础数据源复制到指定的 Lakehouse 的数据,可能需要长达一分钟的时间才能完成。 可以在“输出”选项卡下监视管道及其活动的执行。活动状态从“正在排队>”成功>更改。
复制活动成功后,打开 lakehouse(wwilakehouse)以查看数据。 刷新 “文件” 部分以查看引入的数据。 文件部分会显示一个新文件夹 wwi-raw-data ,其中复制了 Azure Blob 表中的数据。