使用 Apache Spark 转换 Azure Synapse Link for Dataverse 数据

您可以使用 Azure Synapse Link 将 Microsoft Dataverse 数据连接到 Azure Synapse Analytics,以探索数据并加快获得见解的速度。 本文介绍如何使用 Synapse 工作区中提供的 Apache Spark 引擎转换 Dataverse 数据。

注释

Azure Synapse Link for Microsoft Dataverse 以前称为“导出到数据湖”。 此服务已更名,从 2021 年 5 月起生效,它会继续将数据导出到 Azure Data Lake 以及 Azure Synapse Analytics。

先决条件

本部分介绍使用 Azure Synapse Link for Dataverse 服务后使用 Apache Spark 转换 Dataverse 数据所需的先决条件。

  • Azure Synapse Link for Dataverse。 本指南假设您已通过 Azure Synapse Link for Dataverse 导出 Dataverse 数据。

  • 存储帐户访问。 您必须被授予存储帐户的以下角色之一:存储 Blob 数据读取者、存储 Blob 数据参与者或存储 Blob 数据负责人。

  • Synapse 管理员。 您必须在 Synapse Studio 中被授予 Synapse 管理员角色访问权限。

使用 Apache Spark 笔记本转换数据

  1. 在 Power Apps 中,从列表中选择所需的 Azure Synapse Link,然后选择 “转到 Azure Synapse 工作区”。

    转到工作区。

  2. 展开 数据库,选择 Dataverse 容器。 导出的表显示在左侧边栏的 “表” 目录下。

    在 Synapse 中查找表。

  3. 右键单击所需的表,然后选择新笔记本>加载到数据帧

    加载到 DataFrame。

  4. 通过从下拉菜单中选择一个池,将笔记本附加到 Apache Spark 池。 如果没有 Apache Spark 池,请选择“ 管理池 ”以创建一个池。

    附加 Spark 池。

  5. 添加代码单元格以转换数据。 可以分别通过选择每个单元格左侧的播放按钮来运行单个单元格,或者通过从顶部栏中选择“全部运行”来连续运行所有单元格。

    Spark 笔记本。

另请参阅

博客:宣布推出 Dataverse 的 Azure Synapse Link

什么是 Azure HDInsight 中的 Apache Spark