数据质量监视结果系统表格参考

重要

此功能在 Beta 版中。

本页概述了数据质量监视结果系统表架构,并包括示例查询。 用于数据质量监控的元存储中所有表的刷新和完整性检查的结果,以及下游影响和根本原因分析,均存储在该表中。

表路径system.data_quality_monitoring.table_results

只有帐户管理员才能访问此表,并且必须根据需要向其他人授予访问权限。 系统表使用 默认存储。 因为它包含示例值和下游使用情况数据,因此在授予他人访问权限时请谨慎使用。

数据质量监视结果表架构

system.data_quality_monitoring.table_results 表使用以下架构:

列名称 内容(对于 struct 数据类型) 数据类型 Description 示例数据
event_time 时间戳 生成行的时间。 2025-06-27T12:00:00
catalog_name 字符串 目录的名称。 用于标识表。 main
schema_name 字符串 架构的名称。 用于标识表。 default
table_name 字符串 表格名称 用于标识表。 events
catalog_id 字符串 目录的稳定 ID。 3f1a7d6e-9c59-4b76-8c32-8d4c74e289fe
schema_id 字符串 架构的稳定 ID。 3f1a7d6e-9c59-4b76-8c32-8d4c74e289fe
table_id 字符串 表的稳定 ID。 3f1a7d6e-9c59-4b76-8c32-8d4c74e289fe
status 字符串 表级别的合并运行状况。 如果任何检查或组不正常,则为“不正常”。 HealthyUnhealthyUnknown
freshness 结构 新鲜度检查。
status 字符串 总体新鲜度状态。 Unhealthy
commit_freshness 结构 提交新鲜度检查结果。
completeness 结构 完整性检查结果。
status 字符串 完整性检查的状态。 Unhealthy
total_row_count 结构 表中随时间推移的总行数。
daily_row_count 结构 每天添加的行数。
downstream_impact 结构 基于依赖项图的下游影响摘要。
impact_level int 严重性指示器(0 = 无,1 = 低,2 = 中,3 = 高,4 = 非常高)。 2
num_downstream_tables int 受影响的下游表数。 5
num_queries_on_affected_tables int 过去 30 天内,受影响的下游表上运行的查询数。 120
root_cause_analysis 结构 有关导致问题的上游作业的信息。
upstream_jobs array 每个上游作业的元数据。

commit_freshness 数组结构

结构 commit_freshness 包含以下内容:

物料名称 数据类型 Description 示例数据
status 字符串 提交新鲜度检查的状态。 Unhealthy
error_code 字符串 检查期间遇到的错误消息。 FAILED_TO_FIT_MODEL
last_value 时间戳 上次提交时间戳。 2025-06-27T11:30:00
predicted_value 时间戳 表应更新的预测时间。 2025-06-27T11:45:00

total_row_countdaily_row_count 数组结构

total_row_countdaily_row_count结构体包含以下内容:

物料名称 数据类型 Description 示例数据
status 字符串 检查的状态。 Unhealthy
error_code 字符串 检查期间遇到的错误消息。 FAILED_TO_FIT_MODEL
last_value int 过去 24 小时内观察到的行数。 500
min_predicted_value int 过去 24 小时内的最小预期行数。 10
max_predicted_value int 过去 24 小时内的最大预期行数。 1000

upstream_jobs 数组结构

下表显示了列中显示的 upstream_jobs 数组的结构:

物料名称 数据类型 Description 示例数据
job_id 字符串 作业 ID。 12345
workspace_id 字符串 工作区 ID。 6051921418418893
job_name 字符串 作业显示名称。 daily_refresh
last_run_status 字符串 最近运行的状态。 SUCCESS
run_page_url 字符串 Databricks 作业运行页的 URL。 https://.../runs/123

下游影响信息

在记录的结果表中,该列 downstream_impact 具有以下 struct 字段:

领域 类型 Description
impact_level int 介于 1 和 4 之间的整数值,指示数据质量问题的严重性。 较高的值表示更大的中断。
num_downstream_tables int 可能受已确定问题影响的下游表的数量。
num_queries_on_affected_tables int 在过去 30 天内引用受影响表和下游表的查询总数。

示例查询

在运行之前,请将参数值替换为自己的值。

获取架构中的所有当前事件

WITH latest_rows AS (
    SELECT
        *,
        ROW_NUMBER() OVER (
            PARTITION BY table_id
            ORDER BY event_time DESC
        ) AS rn
    FROM
      system.data_quality_monitoring.table_results
    WHERE
      catalog_name = "c"
      AND schema_name = "s"
)

SELECT *
FROM latest_rows
WHERE
  rn = 1
  AND status = "Unhealthy"

获取架构中具有较高下游影响的所有事件表

WITH latest_rows AS (
    SELECT
        *,
        ROW_NUMBER() OVER (
            PARTITION BY table_id
            ORDER BY event_time DESC
        ) AS rn
    FROM
      system.data_quality_monitoring.table_results
    WHERE
      catalog_name = "c"
      AND schema_name = "s"
)
SELECT *
FROM latest_rows
WHERE rn = 1
  AND downstream_impact.impact_level >= 3

获取数据库模式中目前受到新鲜度问题影响的所有表格

WITH latest_rows AS (
    SELECT
        *,
        ROW_NUMBER() OVER (
            PARTITION BY table_id
            ORDER BY event_time DESC
        ) AS rn
    FROM
      system.data_quality_monitoring.table_results
    WHERE
      catalog_name = "c"
      AND schema_name = "s"
)

SELECT *
FROM latest_rows
WHERE rn = 1
  AND freshness.status = "Unhealthy"

获取表的所有历史记录

SELECT *
FROM system.data_quality_monitoring.table_results
WHERE
  catalog_name = "c"
  AND schema_name = "s"
  AND table_name = "t"