简介

1 分钟

在当今世界，数据以令人难以置信的速度和规模生成。考虑社交媒体活动、在线购物、金融交易，甚至智能设备中的传感器。需要处理和分析所有这些信息才能提取见解。传统系统（如 Hadoop MapReduce）曾经是 go-to 解决方案，但它们往往与速度作斗争，因为它们在很大程度上依赖于将中间结果写入磁盘。

Apache Spark 旨在克服此限制。它是一个开源分布式计算系统，可在许多计算机上处理大量数据，同时尽可能多地保留在内存中（RAM）。这种设计选择使 Spark 既快速又可缩放，能够处理笔记本电脑上的小型数据集到大型群集上的 PB 级数据。

反馈

此页面是否有帮助？