在 Spark 的 DAG 中识别昂贵的读取

进入 DAG

假设你正在查看费用高的任务,首先我们需要获取执行读取阶段的ID。 在这里,我们可以看到阶段 ID 为 194:

阶段 ID

现在,我们需要访问 SQL DAG。 向上滚动到作业页面顶部,然后单击 关联的 SQL 查询

SQL ID

现在应该会看到 DAG。 如果没有,请稍微滚动一下,应该能看到它。

SQL DAG

在某些情况下,可以遵循 DAG 并查看数据的来源。 在其他情况下,请查找你记下的阶段 ID:

在 DAG 中的 SQL 阶段

然后,你需要查找“扫描”节点。 在本例中,我们很容易判断我们正在读取一个名为 transactions 的表:

DAG 中的 扫描

在某些情况下,您可能需要单击或将鼠标悬停在节点上,以获取您正在读取的数据的位置。