简介

已完成

Azure Databricks 是一个基于云的数据平台,将 数据工程、数据科学和机器学习 的最佳功能汇集在一个统一的工作区中。 它基于 Apache Spark 构建,使组织能够轻松地实时处理、分析和可视化大量数据。

Azure Databricks 概述图表。

通过连接到各种 数据源(从 Azure SQL 数据库、Amazon S3 和 Google Cloud Storage 等云提供商到 SAP 和 Oracle 等企业系统),Azure Databricks 可以轻松地从任何位置集成和转换数据。

引入数据后,跨 销售、营销、运营、财务、人力资源和可持续性 的团队可以使用 Databricks 进行高级分析、机器学习、商业智能和 AI 驱动的见解。

Azure Databricks 的核心是帮助组织:

  • 集成 来自多个源的数据
  • 用工程化的方法处理原始数据并转换为可用格式
  • 使用治理和安全性高效地存储和管理数据
  • 应用 实时分析、机器学习和 AI 模型
  • 促成 更好的业务决策和成果

Data Lakehouse

Data Lakehouse 是一种数据管理方法,结合了数据湖和数据仓库的优势。 它提供可缩放的存储和处理,使组织能够处理各种工作负载,例如机器学习和商业智能,而无需依赖单独的断开连接的系统。 通过集中数据,湖仓支持单一可信任源,减少重复成本,并确保信息实时更新。

许多湖仓遵循分层设计模式,数据在处理的不同阶段逐步得到改进、丰富和优化。 这种分层方法(通常称为 奖牌体系结构)将数据组织成相互构建的阶段,从而更轻松地管理和有效使用。

Databricks湖仓使用这两个关键技术:

  • Delta Lake:支持 ACID 事务和架构强制执行的优化存储层。
  • Unity 目录:适用于数据和 AI 的统一精细治理解决方案。