Apache Spark 概述

Apache Spark 是支持 Azure Databricks 中的计算群集和 SQL 仓库的技术。

本页概述了本节中的文档。

开始

开始在 Databricks 上使用 Apache Spark。

主题 Description
Azure Databricks 上的 Apache Spark 获取有关 Azure Databricks 上的 Apache Spark 的常见问题的解答。
教程:使用 Apache Spark 数据帧加载和转换数据 请按照在 Python、R 或 Scala 中使用 Spark 数据帧的分步指南进行操作,以便进行数据加载和转换。
PySpark 基础知识 通过演练简单示例,了解使用 PySpark 的基础知识。

其他资源

浏览其他 Spark 功能和文档。

主题 Description
在 Azure Databricks 上设置 Spark 配置属性 设置 Spark 配置属性以自定义计算环境中的设置并优化性能。
结构化数据流 阅读结构化流式处理(准实时处理引擎)的概述。
使用 Spark UI 诊断成本和性能问题 了解如何使用 Spark UI 对 Spark 作业进行性能优化、调试和成本优化。
在 Azure Databricks 上使用 Apache Spark MLlib 使用 Spark MLlib 和与常用 ML 框架集成的分布式机器学习。

Spark API

使用您首选的编程语言与 Spark 进行合作。

主题 Description
Apache Spark API 参考 Apache Spark 的 API 参考概述,包括针对受支持语言的 Spark SQL、数据帧操作和 RDD 操作的参考链接汇总。
PySpark 将 Python 与 Spark 配合使用,包括 PySpark 基础知识、自定义数据源和特定于 Python 的优化。
Spark 上的 Pandas API 利用熟悉的 pandas 语法和 Spark 的可伸缩性进行分布式数据处理。
适用于 Spark 的 R 使用 SparkR 和 sparklyr 在 R 和 Spark 上工作,以便进行统计计算和数据分析。
Spark 的 Scala 使用 Scala 和 Spark 的本机 API 以及类型安全性来构建高性能的 Spark 应用程序。