简介

2 分钟

你和你的数据工程师团队希望专注于真正重要的事项：调整数据，使其准备好业务。这意味着转换和聚合它，为 BI、数据科学和机器学习做好准备。但是，在到达那里之前，你仍无法确定数据实际驻留的位置，这些数据分散在数据湖和数据仓库中。随后便出现了这样的需求：支持用于新用例的流式管道，启用生成式 AI 项目，并管理编排，同时还需处理版本控制、CI/CD 以及部署基础设施。添加数据质量检查、治理和发现，挑战只会增加。除此之外，还有运营的艰辛工作——手动编码回填、管理依赖关系、分区、检查点和重试——当你真正想要的只是提供可靠的数据时。

这就是生成和运行数据管道如此困难的原因。发展缓慢，劳动密集型，管道脆弱，容易出错，延迟波及业务。运营复杂性导致停机、浪费的资源和工程工作。批处理和流式处理通常是相互孤立的，适应有关延迟、成本和服务等级协议（SLA）的新要求显得非常僵化和昂贵。

Lakeflow 声明性管道的关系图。

借助 Lakeflow 声明性管道，你和你的团队可以让这些头痛抛在脑后。可以专注于编写和管理转换逻辑，而不是与业务流程和基础结构搏斗。它是 Databricks Lakehouse 平台中的框架，用于以 声明性 方式生成和运行数据管道。结果：干净可靠的数据管道，交付工作量更少，置信度更高。

Lakeflow 声明性管道提供了多种功能，可用于简化数据工程任务和增强数据基础结构的可靠性。可以直接在管道代码中定义数据质量规则和期望。系统实时监视数据质量，提供对数据完整性的可见性和控制。使用变更数据捕获 (CDC)，除了处理无序事件之外，它还会自动处理插入、更新和删除。

反馈

此页面是否有帮助？