Inleiding

Voltooid

In de huidige wereld worden gegevens gegenereerd met een ongelooflijke snelheid en schaal. Denk na over sociale mediaactiviteit, online winkelen, financiƫle transacties of zelfs sensoren in slimme apparaten. Al deze informatie moet worden verwerkt en geanalyseerd om inzichten te extraheren. Traditionele systemen, zoals Hadoop MapReduce, waren ooit de go-to oplossingen, maar ze worstelden vaak met snelheid omdat ze sterk afhankelijk waren van het schrijven van tussenliggende resultaten naar schijf.

Apache Spark is ontworpen om deze beperking te overwinnen. Het is een opensource, gedistribueerd computingsysteem dat grote hoeveelheden gegevens op veel computers verwerkt en zoveel mogelijk geheugen (RAM) bewaart. Deze ontwerpkeuze maakt Spark zowel snel als schaalbaar, waardoor alles kan worden verwerkt, van kleine gegevenssets op uw laptop tot petabytes aan gegevens op enorme clusters.