Microsoft Purview 统一目录中的数据质量概述

Microsoft Purview 统一目录中的数据质量使治理域和数据所有者能够评估和监督其数据生态系统的质量,从而促进有针对性的改进作。 在当今的 AI 驱动环境中,数据的可靠性直接影响 AI 驱动的见解和建议的准确性。 如果没有可信数据,就有可能削弱对 AI 系统的信任并阻碍其采用。

数据质量差或数据结构不兼容可能会阻碍业务流程和决策能力。 统一目录中的数据质量通过为用户提供使用无代码或低代码规则(包括现 (OOB) 规则和 AI 生成的规则)评估数据质量的能力,解决了这些挑战。 这些规则在列级别应用并聚合,以提供数据资产、数据产品和治理域级别的分数,确保每个域中数据质量的端到端可见性。

Microsoft Purview 中的数据质量还包含 AI 支持的数据分析功能,推荐用于分析的列,同时允许人工干预来优化这些建议。 此迭代过程不仅提高了数据分析的准确性,还有助于持续改进基础 AI 模型。

通过应用数据质量,组织可以有效地衡量、监视和提高其数据资产的质量,增强 AI 驱动的见解的可靠性,并增强对基于 AI 的决策过程的信心。

数据质量生命周期

  1. 在 统一目录 中分配用户 () 数据质量专员权限,以使用所有数据质量功能。
  2. Microsoft Purview 数据映射 中注册和扫描数据源。
  3. 将数据资产添加到数据产品
  4. 设置数据源连接,以便为数据质量评估准备源
  5. 为数据源中的资产配置和运行数据分析。
    1. 分析完成后,浏览数据资产中每列的结果以了解数据的当前结构和状态。
  6. 根据分析结果设置数据质量规则,并将其应用于数据资产。
  7. 在数据产品上配置并运行数据质量扫描 ,以评估数据产品中所有受支持资产的质量。
  8. 查看扫描结果 以评估数据产品的当前数据质量。
  9. 在数据资产的生命周期中定期重复步骤 5-8,以确保其保持质量。
  10. 持续监视数据质量
    1. 查看数据质量作 以识别和解决问题。
    2. 设置数据质量通知 以提醒你出现质量问题。

支持的数据质量区域

以下区域目前支持数据质量。

支持的多云数据源

查看 支持的数据源列表。

重要

Parquet 文件的数据质量旨在支持:

  1. 包含 Parquet 部件文件的目录。 例如: ./Sales/{Parquet Part Files}。 完全限定的名称必须跟在 后面 https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}。 请确保目录和子目录结构不包含 {n} 模式。 请改用指向 {SparkPartitions} 的直接 FQN。
  2. 包含已分区 Parquet 文件的目录,按数据集中的列分区,例如按年份和月份分区的销售数据。 例如: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}。

支持这两种基本方案(提供一致的 Parquet 数据集架构)。 限度: 数据质量不是为了支持 Parquet 文件的目录的任意层次结构而设计的。 建议在 (1) 或 (2) 构造结构中呈现数据。

目前,Microsoft Purview 只能通过使用 托管标识 作为身份验证选项来运行数据质量扫描。 数据质量服务在 Apache Spark 3.4Delta Lake 2.4 上运行。

数据质量功能

  • 数据源连接配置
    • 配置连接以允许Microsoft Purview 数据质量 SaaS 应用程序对数据具有读取访问权限,以便进行质量扫描和分析。
    • Microsoft Purview 使用托管标识作为身份验证选项。
  • 数据分析
    • 已启用 AI 的数据分析体验。
    • 行业标准统计快照 (分布、最小值、最大值、标准偏差、唯一性、完整性、重复等) 。
    • 向下钻取列级分析度量值。
  • 数据质量规则
    • 现成规则用于衡量六个行业标准数据质量维度, (完整性、一致性、一致性、准确性、新鲜度和唯一性) 。
    • 自定义规则创建功能包括现用函数和表达式值的数量。
    • 具有 AI 集成体验的自动生成的规则。
  • 数据质量扫描
    • 选择规则并将其分配给用于数据质量扫描的列。
    • 在实体或表级别应用数据新鲜度规则来度量数据新鲜度 SLA。
    • 计划时间段的数据质量扫描作业 (每小时、每天、每周、每月等) 。
  • 数据质量作业监视
    • 启用监视数据质量作业状态 (活动、已完成、失败等) 。
    • 启用浏览数据质量扫描历史记录。
  • 数据质量评分
    • 规则级别的数据质量分数 (应用于列) 的规则的质量分数。
    • 数据资产、数据产品和治理域的数据质量分数 (一个治理域可以有多个数据产品,一个数据产品可以有多个数据资产,一个数据资产可以具有多个数据列) 。
  • 数据质量警报
    • 配置警报,以便在数据质量阈值未达到预期时通知数据所有者和数据专员。
    • 配置电子邮件别名或通讯组以发送有关数据质量问题的通知。
  • 数据质量操作
    • 数据质量作中心,其中包含解决数据质量异常状态的作,包括数据质量专员的诊断查询,以便对要针对每种异常状态修复的特定数据进行归零。
  • 数据质量托管虚拟网络
    • 由数据质量管理的虚拟网络,通过专用终结点连接到 azure 数据源Microsoft。

数据驻留和加密

Microsoft托管存储帐户存储数据质量元数据和分析摘要。 它会将它们存储在数据源所在的同一区域中,因此数据驻留保持不变。 所有数据都已加密。 Purview 资源提供程序区域用户数据存储用于元数据。 它处理所有加密,并且在所有 Purview 服务中很常见。 如果希望使用客户管理的加密密钥 (CMK) 更好地控制数据加密,请使用单独的过程。 详细了解 Microsoft Purview 客户密钥

数据质量计算定价

数据质量使用量根据数据管理处理单元 (DGPU) 即用即付计量计费。 详细了解 如何计算数据质量的定价

限制

  • Google Big Query 尚不支持虚拟网络。

后续步骤

  1. 在 统一目录 中向用户分配数据质量专员权限,以便他们可以使用所有数据质量功能。
  2. 设置数据源连接 ,为数据质量评估准备源。
  3. 为数据源中的资产配置和运行数据分析