数据源连接设置所需的身份验证,以分析数据的统计快照,或扫描数据以查找数据质量异常和评分。
设置数据源连接是数据资产的数据质量生命周期中的 第四 步。 前面的步骤包括:
- 在 统一目录 中向用户分配数据质量专员权限,以使用所有数据质量功能。
- 在Microsoft Purview 数据映射中注册和扫描数据源。
- 将数据资产添加到数据产品。
先决条件
- 若要创建与数据资产的连接,用户必须具有 数据质量专员角色。
- 至少需要对要为其设置连接的数据源具有读取访问权限。
支持的多云数据源
浏览 支持的数据源文档 以查看支持的数据源列表,包括用于数据分析和数据质量扫描的文件格式,支持和不使用虚拟网络支持。
目前,数据质量扫描只能通过使用 托管标识 作为身份验证选项来运行。 数据质量服务在 Apache Spark 3.4 和 Delta Lake 2.4 上运行。
重要
若要访问这些源,需要将Microsoft Azure 存储源设置为开放防火墙、允许受信任的 Azure 服务,或者按照数据质量托管虚拟网络配置指南中所述的准则使用专用终结点。
设置数据源连接
按照以下步骤为治理域中的数据产品和数据资产创建新连接。
- 在“统一目录”中,依次选择“运行状况管理”、“数据质量”。
- 从列表中选择治理域。
- 从“管理”下拉列表中选择“Connections”。
- 在“Connections”页上,选择“新建”。
- 在 “创建连接 ”浮出控件窗格中,输入 “显示名称” 和“ 说明”(可选)。
- 选择 源类型。
- 选择其中一个数据源:Azure 订阅、数据映射或手动输入数据源。 根据所选数据源,输入所需的访问详细信息。 然后测试连接。
- 如果测试连接成功,请选择“ 提交 ”以完成连接设置。
提示
- 还可以使用专用终结点和Microsoft Purview 数据质量托管虚拟网络创建与资源的连接。 详细了解如何 为数据质量设置托管虚拟网络。
- 连接设置步骤因本机连接器而异。 从本机连接器文章到为 Azure Databricks、Snowflake、Google BigQuery 和Azure Synapse连接器设置连接,请查看连接设置步骤。
- 若要 (以前的 SQL DW) 连接设置 Azure 专用 SQL 池,用户需要选择源类型作为Azure SQL数据库,并将 添加
sqldatawarehouse.database.windows.net为终结点名称。 - 虚拟网络区域将从所选源区域自动填充。 查找有关 管理虚拟网络预配的详细信息。
授予Microsoft对源的 Purview 权限
创建连接后,需要向 Microsoft Purview 托管标识授予对数据源进行扫描的权限:
若要扫描Azure Data Lake Storage Gen2,请将存储 blob 数据读取者角色分配给 Microsoft Purview 托管标识。 按照 步骤分配托管标识权限。
若要扫描Azure SQL数据库,请将db_datareader角色分配给 Microsoft Purview 托管标识。 按照 步骤分配托管标识权限。
相关内容
- Fabric 数据资产的数据质量
- Fabric 镜像数据源的数据质量
- Fabric 快捷方式数据源的数据质量
- Azure Synapse无服务器和数据仓库的数据质量
- Azure Databricks Unity目录的数据质量
- Snowflake 数据源的数据质量
- Google Big Query 的数据质量
后续步骤
- 为数据源中的资产配置和运行数据分析。
- 根据分析结果设置数据质量规则,并将其应用于数据资产。
- 在数据产品上配置并运行数据质量扫描 ,以评估数据产品中所有受支持资产的质量。
- 查看扫描结果 以评估数据产品的当前数据质量。