Apache Spark 是支持 Azure Databricks 中的计算群集和 SQL 仓库的技术。
本页概述了本节中的文档。
开始
开始在 Databricks 上使用 Apache Spark。
| 主题 | Description |
|---|---|
| Azure Databricks 上的 Apache Spark | 获取有关 Azure Databricks 上的 Apache Spark 的常见问题的解答。 |
| 教程:使用 Apache Spark 数据帧加载和转换数据 | 请按照在 Python、R 或 Scala 中使用 Spark 数据帧的分步指南进行操作,以便进行数据加载和转换。 |
| PySpark 基础知识 | 通过演练简单示例,了解使用 PySpark 的基础知识。 |
其他资源
浏览其他 Spark 功能和文档。
| 主题 | Description |
|---|---|
| 在 Azure Databricks 上设置 Spark 配置属性 | 设置 Spark 配置属性以自定义计算环境中的设置并优化性能。 |
| 结构化数据流 | 阅读结构化流式处理(准实时处理引擎)的概述。 |
| 使用 Spark UI 诊断成本和性能问题 | 了解如何使用 Spark UI 对 Spark 作业进行性能优化、调试和成本优化。 |
| 在 Azure Databricks 上使用 Apache Spark MLlib | 使用 Spark MLlib 和与常用 ML 框架集成的分布式机器学习。 |
Spark API
使用您首选的编程语言与 Spark 进行合作。
| 主题 | Description |
|---|---|
| Apache Spark API 参考 | Apache Spark 的 API 参考概述,包括针对受支持语言的 Spark SQL、数据帧操作和 RDD 操作的参考链接汇总。 |
| PySpark | 将 Python 与 Spark 配合使用,包括 PySpark 基础知识、自定义数据源和特定于 Python 的优化。 |
| Spark 上的 Pandas API | 利用熟悉的 pandas 语法和 Spark 的可伸缩性进行分布式数据处理。 |
| 适用于 Spark 的 R | 使用 SparkR 和 sparklyr 在 R 和 Spark 上工作,以便进行统计计算和数据分析。 |
| Spark 的 Scala | 使用 Scala 和 Spark 的本机 API 以及类型安全性来构建高性能的 Spark 应用程序。 |