Waarom Spark het toekomstige big data-platform is

2026

Inhoudsopgave:

Wat is Apache Spark?

Apache Hadoop is al lange tijd de basis voor big data-applicaties en wordt beschouwd als het basisdataplatform voor alle big-data-gerelateerde aanbiedingen. In-memory-database en -berekening wint echter aan populariteit vanwege snellere prestaties en snelle resultaten. Apache Spark is een nieuw framework dat in-memory-mogelijkheden gebruikt om snelle verwerking te leveren (bijna 100 keer sneller dan Hadoop). Het Spark-product wordt dus steeds vaker gebruikt in een wereld van big data, en vooral voor snellere verwerking.

Webinar: De kracht van suggestie: hoe een gegevenscatalogus analisten machtigt

Registreer hier

Wat is Apache Spark?

Apache Spark is een open-source framework voor het snel en eenvoudig verwerken van grote hoeveelheden gegevens (big data). Het is geschikt voor analysetoepassingen op basis van big data. Spark kan worden gebruikt met een Hadoop-omgeving, standalone of in de cloud. Het werd ontwikkeld aan de Universiteit van Californië en later aangeboden aan de Apache Software Foundation. Het behoort dus tot de open-sourcecommunity en kan zeer kosteneffectief zijn, waardoor amateur-ontwikkelaars verder gemakkelijk kunnen werken. (Zie Wat is de invloed van open source op het Apache Hadoop-ecosysteem voor meer informatie over de open source van Hadoop?)

Het hoofddoel van Spark is dat het ontwikkelaars een toepassingsraamwerk biedt dat werkt rond een gecentreerde gegevensstructuur. Spark is ook extreem krachtig en heeft de aangeboren mogelijkheid om snel enorme hoeveelheden gegevens in een korte tijd te verwerken, waardoor het extreem goede prestaties biedt. Dit maakt het een stuk sneller dan wat naar verluidt zijn naaste concurrent, Hadoop, zou zijn.