简介

已完成

你和你的数据工程师团队希望专注于真正重要的事项:调整数据,使其准备好业务。 这意味着转换和聚合它,为 BI、数据科学和机器学习做好准备。 但是,在到达那里之前,你仍无法确定数据实际驻留的位置,这些数据分散在数据湖和数据仓库中。 随后便出现了这样的需求:支持用于新用例的流式管道,启用生成式 AI 项目,并管理编排,同时还需处理版本控制、CI/CD 以及部署基础设施。 添加数据质量检查、治理和发现,挑战只会增加。 除此之外,还有运营的艰辛工作——手动编码回填、管理依赖关系、分区、检查点和重试——当你真正想要的只是提供可靠的数据时。

这就是生成和运行数据管道如此困难的原因。 发展缓慢,劳动密集型,管道脆弱,容易出错,延迟波及业务。 运营复杂性导致停机、浪费的资源和工程工作。 批处理和流式处理通常是相互孤立的,适应有关延迟、成本和服务等级协议(SLA)的新要求显得非常僵化和昂贵。

Lakeflow 声明性管道的关系图。

借助 Lakeflow 声明性管道,你和你的团队可以让这些头痛抛在脑后。 可以专注于编写和管理转换逻辑,而不是与业务流程和基础结构搏斗。 它是 Databricks Lakehouse 平台中的框架,用于以 声明性 方式生成和运行数据管道。 结果:干净可靠的数据管道,交付工作量更少,置信度更高。

Lakeflow 声明性管道提供了多种功能,可用于简化数据工程任务和增强数据基础结构的可靠性。 可以直接在管道代码中定义数据质量规则和期望。 系统实时监视数据质量,提供对数据完整性的可见性和控制。 使用变更数据捕获 (CDC),除了处理无序事件之外,它还会自动处理插入、更新和删除。