简介
在当今世界,数据以令人难以置信的速度和规模生成。 考虑社交媒体活动、在线购物、金融交易,甚至智能设备中的传感器。 需要处理和分析所有这些信息才能提取见解。 传统系统(如 Hadoop MapReduce)曾经是 go-to 解决方案,但它们往往与速度作斗争,因为它们在很大程度上依赖于将中间结果写入磁盘。
Apache Spark 旨在克服此限制。 它是一个开源分布式计算系统,可在许多计算机上处理大量数据,同时尽可能多地保留在内存中(RAM)。 这种设计选择使 Spark 既快速又可缩放,能够处理笔记本电脑上的小型数据集到大型群集上的 PB 级数据。