重要
此功能在 Beta 版中。
本页概述了数据质量监视结果系统表架构,并包括示例查询。 用于数据质量监控的元存储中所有表的刷新和完整性检查的结果,以及下游影响和根本原因分析,均存储在该表中。
表路径: system.data_quality_monitoring.table_results
只有帐户管理员才能访问此表,并且必须根据需要向其他人授予访问权限。 系统表使用 默认存储。 因为它包含示例值和下游使用情况数据,因此在授予他人访问权限时请谨慎使用。
数据质量监视结果表架构
该 system.data_quality_monitoring.table_results 表使用以下架构:
| 列名称 | 内容(对于 struct 数据类型) |
数据类型 | Description | 示例数据 |
|---|---|---|---|---|
event_time |
时间戳 | 生成行的时间。 | 2025-06-27T12:00:00 |
|
catalog_name |
字符串 | 目录的名称。 用于标识表。 | main |
|
schema_name |
字符串 | 架构的名称。 用于标识表。 | default |
|
table_name |
字符串 | 表格名称 用于标识表。 | events |
|
catalog_id |
字符串 | 目录的稳定 ID。 | 3f1a7d6e-9c59-4b76-8c32-8d4c74e289fe |
|
schema_id |
字符串 | 架构的稳定 ID。 | 3f1a7d6e-9c59-4b76-8c32-8d4c74e289fe |
|
table_id |
字符串 | 表的稳定 ID。 | 3f1a7d6e-9c59-4b76-8c32-8d4c74e289fe |
|
status |
字符串 | 表级别的合并运行状况。 如果任何检查或组不正常,则为“不正常”。 |
Healthy、Unhealthy、Unknown |
|
freshness |
结构 | 新鲜度检查。 | ||
status |
字符串 | 总体新鲜度状态。 | Unhealthy |
|
commit_freshness |
结构 | 提交新鲜度检查结果。 | ||
completeness |
结构 | 完整性检查结果。 | ||
status |
字符串 | 完整性检查的状态。 | Unhealthy |
|
total_row_count |
结构 | 表中随时间推移的总行数。 | ||
daily_row_count |
结构 | 每天添加的行数。 | ||
downstream_impact |
结构 | 基于依赖项图的下游影响摘要。 | ||
impact_level |
int | 严重性指示器(0 = 无,1 = 低,2 = 中,3 = 高,4 = 非常高)。 | 2 | |
num_downstream_tables |
int | 受影响的下游表数。 | 5 | |
num_queries_on_affected_tables |
int | 过去 30 天内,受影响的下游表上运行的查询数。 | 120 | |
root_cause_analysis |
结构 | 有关导致问题的上游作业的信息。 | ||
upstream_jobs |
array | 每个上游作业的元数据。 |
commit_freshness 数组结构
结构 commit_freshness 包含以下内容:
| 物料名称 | 数据类型 | Description | 示例数据 |
|---|---|---|---|
status |
字符串 | 提交新鲜度检查的状态。 | Unhealthy |
error_code |
字符串 | 检查期间遇到的错误消息。 | FAILED_TO_FIT_MODEL |
last_value |
时间戳 | 上次提交时间戳。 | 2025-06-27T11:30:00 |
predicted_value |
时间戳 | 表应更新的预测时间。 | 2025-06-27T11:45:00 |
total_row_count 和 daily_row_count 数组结构
total_row_count和daily_row_count结构体包含以下内容:
| 物料名称 | 数据类型 | Description | 示例数据 |
|---|---|---|---|
status |
字符串 | 检查的状态。 | Unhealthy |
error_code |
字符串 | 检查期间遇到的错误消息。 | FAILED_TO_FIT_MODEL |
last_value |
int | 过去 24 小时内观察到的行数。 | 500 |
min_predicted_value |
int | 过去 24 小时内的最小预期行数。 | 10 |
max_predicted_value |
int | 过去 24 小时内的最大预期行数。 | 1000 |
upstream_jobs 数组结构
下表显示了列中显示的 upstream_jobs 数组的结构:
| 物料名称 | 数据类型 | Description | 示例数据 |
|---|---|---|---|
job_id |
字符串 | 作业 ID。 | 12345 |
workspace_id |
字符串 | 工作区 ID。 | 6051921418418893 |
job_name |
字符串 | 作业显示名称。 | daily_refresh |
last_run_status |
字符串 | 最近运行的状态。 | SUCCESS |
run_page_url |
字符串 | Databricks 作业运行页的 URL。 | https://.../runs/123 |
下游影响信息
在记录的结果表中,该列 downstream_impact 具有以下 struct 字段:
| 领域 | 类型 | Description |
|---|---|---|
impact_level |
int | 介于 1 和 4 之间的整数值,指示数据质量问题的严重性。 较高的值表示更大的中断。 |
num_downstream_tables |
int | 可能受已确定问题影响的下游表的数量。 |
num_queries_on_affected_tables |
int | 在过去 30 天内引用受影响表和下游表的查询总数。 |
示例查询
在运行之前,请将参数值替换为自己的值。
获取架构中的所有当前事件
WITH latest_rows AS (
SELECT
*,
ROW_NUMBER() OVER (
PARTITION BY table_id
ORDER BY event_time DESC
) AS rn
FROM
system.data_quality_monitoring.table_results
WHERE
catalog_name = "c"
AND schema_name = "s"
)
SELECT *
FROM latest_rows
WHERE
rn = 1
AND status = "Unhealthy"
获取架构中具有较高下游影响的所有事件表
WITH latest_rows AS (
SELECT
*,
ROW_NUMBER() OVER (
PARTITION BY table_id
ORDER BY event_time DESC
) AS rn
FROM
system.data_quality_monitoring.table_results
WHERE
catalog_name = "c"
AND schema_name = "s"
)
SELECT *
FROM latest_rows
WHERE rn = 1
AND downstream_impact.impact_level >= 3
获取数据库模式中目前受到新鲜度问题影响的所有表格
WITH latest_rows AS (
SELECT
*,
ROW_NUMBER() OVER (
PARTITION BY table_id
ORDER BY event_time DESC
) AS rn
FROM
system.data_quality_monitoring.table_results
WHERE
catalog_name = "c"
AND schema_name = "s"
)
SELECT *
FROM latest_rows
WHERE rn = 1
AND freshness.status = "Unhealthy"
获取表的所有历史记录
SELECT *
FROM system.data_quality_monitoring.table_results
WHERE
catalog_name = "c"
AND schema_name = "s"
AND table_name = "t"