Microsoft Azure Synapse Analytics 是一项企业分析服务,可缩短跨数据仓库和大数据系统的见解时间。 它汇集了企业数据仓库中使用的最佳 SQL 技术、适用于大数据的 Apache Spark 技术以及用于日志和时序分析的 Azure 数据资源管理器。 有关详细信息,请参阅 Azure Synapse Analytics 文档。
以下示例演示一个 Synapse 工作区,其中包含一个专用 Synapse Data Warehouse (DWH) Table EMPLOYEE 实例和一个包含 SynapseSalesDelta 表的无服务器数据库 (SQL_ON_DEMAND) 。
扫描资产后,Microsoft Purview 中提供它们。 以下示例演示 Synapse Analytics 专用实例上的 Employee Table。
Azure Synapse Analytics 专用 (Data Warehouse)
设置数据映射扫描
若要扫描 Azure Synapse Analytics 专用 (Data Warehouse) 请按照这些说明作。 若要授予对专用 DWH 实例所需的托管标识权限, 请执行以下步骤。
扫描资产后,它们可在Microsoft Purview 统一目录中使用。 以下示例演示 Synapse Analytics 专用实例上的 Employee 表:
设置与 Synapse 专用数据仓库的连接
此时,已准备好扫描的资产进行编目和治理。 将扫描的资产关联到治理域中的数据产品。 在“数据质量”选项卡上,添加新Azure SQL数据库连接:获取手动输入的数据库名称。
在“统一目录”中,转到“运行状况管理>”“数据质量”并选择治理域。
在治理域的详细信息页上,选择“管理”,然后选择“Connections”。
在“Connections”页上,选择“新建”,并使用以下信息配置连接,如以下示例所示:
- 添加连接名称和说明。
- Azure Synapse Analytics 选择源类型。
- 选择“ Azure 订阅”。
- 选择 “工作区名称”。
- 选择“ 专用 SQL 终结点”。
- 选择 “无服务器 SQL 终结点”。
- 选择 “终结点类型”。
- 选择“ 数据库”。
- 将 MSI 添加为凭据。
测试连接。 配置数据源连接并成功对其进行测试后,可以继续配置和运行数据分析和数据质量扫描。
如果 Synapse 数据源位于专用终结点后面,则需要启用托管虚拟网络。 按照 设置托管虚拟网络中的步骤作。
重要
数据质量专员需要对 synapse 专用数据仓库具有只读访问权限才能设置数据质量连接。 对于托管虚拟网络设置,无法测试连接。
Synapse 专用数据仓库中的数据分析和数据质量扫描
设置连接后,可以分析数据、创建和应用规则,并在 Synapse 仓库中对数据运行数据质量扫描。 遵循以下文章中所述的分步指南:
重要
- 查询的性能,甚至成功运行取决于专用数据库实例的 DW 配置。
- 各自的数据质量评估作业或任何其他数据质量作业会引发专用 DW 上的连接,如果实例预配不足或并发限制失败,则可能会失败。 需要注意 DW 配置。 其并发性对时间上的任何实例都有硬性限制。
- 并发限制可能会导致作业终止。 DW 限制 (这样的 1000 DW) 提供运行查询的能力。
Azure Synapse Analytics 无服务器
设置数据映射扫描
若要扫描 Azure Synapse Analytics 无服务器,请按照以下说明进行作。 若要授予对专用 DWH 实例所需的托管标识权限, 请执行以下步骤。 扫描后,统一目录中提供了无服务器资产。
设置与 synapse Serverless 的连接
此时,已准备好扫描的资产进行编目和治理。 将扫描的资产关联到治理域中的数据产品。 在“数据质量”中,添加新SQL 数据库连接:获取手动输入的数据库名称。
在“统一目录”中,转到“运行状况管理>”“数据质量”并选择治理域。
在治理域的详细信息页上,选择“管理”,然后选择“Connections”。
在“Connections”页上,选择“新建”,并使用以下信息配置连接,如以下示例所示
- 添加连接名称和说明。
- Azure Synapse Analytics 选择源类型。
- 选择“ Azure 订阅”。
- 选择 “工作区名称”。
- 选择“ 专用 SQL 终结点”。
- 选择 “无服务器 SQL 终结点”。
- 选择 “终结点类型”。
- 选择“ 数据库”。
- 将 MSI 添加为凭据。
测试连接。 配置数据源连接并成功对其进行测试后,可以继续配置和运行数据分析和数据质量扫描。
如果 Synapse 数据源位于专用终结点后面,则需要启用托管虚拟网络。 按照 设置托管虚拟网络中的步骤作。
重要
- 数据质量专员需要对 synapse 专用数据仓库具有只读访问权限才能设置数据质量连接。
- 在 Synapse 无服务器设置中,外部表指向存储在 ADLS Gen2 中的 Delta 格式数据。
- Synapse 连接器仅检测并支持 sql.azuresynapse.net。 如果数据映射扫描生成的完全限定名称 (FQN) 包含 database.windows.net,则用于数据质量扫描的 Synapse 连接将失败。
Synapse 无服务器中的数据分析和数据质量扫描
设置连接后,可以分析数据、创建和应用规则,并在 Synapse 仓库中对数据运行数据质量扫描。 遵循以下文章中所述的分步指南:
重要
- 数据质量评估和分析在后台的 Spark 上运行。 有多个连接,其中每个 Spark 节点都有一个连接 SPID。 因此,如果使用或计划超出Data Warehouse限制,则Data Warehouse可能会遇到当前查询限制,从而导致失败。 但对于Azure Synapse无服务器 SQL 表,没有此类并发限制适用。 这取决于 ADLS Gen2 实例上的无服务器 Delta Parquet 优化。 该引擎与 Databricks 无服务器Data Warehouse产生密切的共鸣。 两者都在外部 Lakehouse 源(如 DELTA 格式表)上运行。