湖屋教程:将数据引入湖屋

本教程介绍如何将 Wide World Importers (WWI) 中的更多维度和事实数据表引入到湖屋。

先决条件

引入数据

在本部分,使用 Azure 数据工厂管道的“复制数据活动”将 Azure 存储帐户中的示例数据引入先前创建的湖屋的“文件”部分。

  1. 在左侧导航窗格中选择“工作区”,然后从“工作区”菜单中选择新的工作区。 将会显示工作区的项视图。

  2. 在工作区功能区中的 “新建项 ”选项中,选择 “管道”。

  3. 在“新建管道”对话框中,将名称指定为“IngestDataFromSourceToLakehouse”,然后选择“创建”。

  4. 从新建的管道中,选择 “管道”活动 以向管道添加活动,然后选择“ 复制数据”。 此作会将复制数据活动添加到管道画布。

    显示“管道活动”和“复制数据”位置的屏幕截图。

  5. 从画布中选择新添加的复制数据活动。 活动属性显示在画布下方的窗格中(可能需要通过拖动上边缘向上展开窗格)。 在“属性”窗格中的“常规”选项卡中,在“名称”字段中键入“复制到 Lakehouse 的数据”。 将剩余属性保留为其默认值。

    显示在“常规”选项卡上添加复制活动名称的位置的屏幕截图。

  6. 在所选复制数据活动的 “源 ”选项卡中,打开 “连接 ”字段,然后选择“ 全部浏览”。 弹出“数据源”窗口,搜索并选择 Azure Blob。 在本教程中,所有示例数据都在 Azure Blob 存储的公共容器中提供。 连接到此容器以从中复制数据。

  7. “连接设置” 窗口中输入以下详细信息,然后选择 “连接” 以创建与数据源的连接。

    属性 Value
    帐户名或 URL https://fabrictutorialdata.blob.core.windows.net/sampledata/
    Connection 创建新连接
    连接名称 wwisampledata
    身份验证种类 匿名

    显示选择 Blob 存储连接的位置的屏幕截图。

  8. 创建新连接后,返回到复制数据活动的 “源 ”选项卡,并默认选择新创建的连接。 在移动到目标设置之前,请指定以下属性。

    属性 Value
    Connection wwisampledata
    文件路径类型 文件路径
    文件路径 容器名称(第一个文本框):sampledata
    目录名称(第二个文本框):WideWorldImportersDW/parquet
    递 归 已选中
    文件格式 Binary

    显示 Blob 存储连接设置的屏幕截图。

  9. 在所选复制数据活动的 “目标 ”选项卡中,指定以下属性:

    属性 Value
    Connection wwilakehouse (如果你以不同的方式命名,请选择你的湖屋)
    根文件夹 文件存储
    文件路径 目录名称(第一个文本框):wwi-raw-data
    文件格式 Binary

    目标选项卡的屏幕截图,其中显示了输入特定详细信息的位置。

  10. 已配置复制数据活动。 选择顶部功能区(下主页)上的 “保存 ”图标以保存更改,然后选择“ 运行 ”以执行管道及其活动。 还可以计划管道以按定义的时间间隔刷新数据,以满足业务要求。 在本教程中,我们仅通过选择“ 运行”来运行管道一次。

  11. 此作会触发从基础数据源复制到指定的 Lakehouse 的数据,可能需要长达一分钟的时间才能完成。 可以在“输出”选项卡下监视管道及其活动的执行。活动状态从“正在排队>”成功>更改。

    显示“保存并运行管道的位置”的屏幕截图。

  12. 复制活动成功后,打开 lakehouse(wwilakehouse)以查看数据。 刷新 “文件” 部分以查看引入的数据。 文件部分会显示一个新文件夹 wwi-raw-data ,其中复制了 Azure Blob 表中的数据。

    屏幕截图显示已复制到目标湖仓中的 Blob 数据。

下一步