Inhoudsopgave:
Iedereen heeft het over Hadoop, de hippe nieuwe technologie die zeer wordt gewaardeerd door ontwikkelaars en die misschien de wereld (opnieuw) kan veranderen. Maar wat is het eigenlijk? Is het een programmeertaal? Een database? Een verwerkingssysteem? Een Indiase theemuts?
Het brede antwoord: Hadoop is al deze dingen (behalve de theemuts) en meer. Het is een softwarebibliotheek die een programmeerraamwerk biedt voor goedkope, nuttige verwerking van een ander modern modewoord: big data.
Waar kwam Hadoop vandaan?
Apache Hadoop maakt deel uit van het Foundation Project van de Apache Software Foundation, een organisatie zonder winstoogmerk wiens missie het is om "software te leveren voor het algemeen belang". Als zodanig is de Hadoop-bibliotheek gratis open-source software die beschikbaar is voor alle ontwikkelaars.
De onderliggende technologie die Hadoop aandrijft, is eigenlijk uitgevonden door Google. Vroeger had de niet zo gigantische zoekmachine een manier nodig om de enorme hoeveelheden gegevens die ze via internet verzamelden te indexeren en om te zetten in betekenisvolle, relevante resultaten voor zijn gebruikers. Omdat er niets op de markt beschikbaar was dat aan hun vereisten kon voldoen, bouwde Google hun eigen platform.
Die innovaties werden uitgebracht in een open-sourceproject genaamd Nutch, dat Hadoop later als basis gebruikte. In wezen past Hadoop de kracht van Google toe op big data op een manier die betaalbaar is voor bedrijven van elke omvang.
Hoe werkt Hadoop?
Zoals eerder vermeld, is Hadoop niet één ding - het zijn veel dingen. De softwarebibliotheek die Hadoop is, bestaat uit vier primaire onderdelen (modules) en een aantal add-on-oplossingen (zoals databases en programmeertalen) die het gebruik in de praktijk verbeteren. De vier modules zijn:- Hadoop Common: dit is de verzameling algemene hulpprogramma's (de gemeenschappelijke bibliotheek) die Hadoop-modules ondersteunt.
- Hadoop Distributed File System (HDFS): een robuust gedistribueerd bestandssysteem zonder beperkingen voor opgeslagen gegevens (wat betekent dat gegevens gestructureerd of ongestructureerd en schematisch kunnen zijn, waarbij veel DFS's alleen gestructureerde gegevens opslaan) die high-throughput-toegang biedt met redundantie ( Met HDFS kunnen gegevens op meerdere machines worden opgeslagen, dus als de ene computer uitvalt, blijft de beschikbaarheid behouden via de andere machines).
- Hadoop YARN: Dit framework is verantwoordelijk voor taakplanning en clusterresourcebeheer; het zorgt ervoor dat de gegevens voldoende verspreid zijn over meerdere machines om redundantie te behouden. YARN is de module die van Hadoop een betaalbare en kostenefficiënte manier maakt om big data te verwerken.
- Hadoop MapReduce: dit op YARN gebaseerde systeem, gebouwd op Google-technologie, voert parallelle verwerking uit van grote datasets (gestructureerd en ongestructureerd). MapReduce is ook te vinden in de meeste grote gegevensverwerkingskaders van vandaag, inclusief MPP- en NoSQL-databases.
Hardware die de hoeveelheid verwerkingskracht aankan die nodig is om met big data te werken, is op zijn zachtst gezegd duur. Dit is de echte innovatie van Hadoop: de mogelijkheid om enorme hoeveelheden verwerkingskracht te verdelen over meerdere, kleinere machines, elk met zijn eigen gelokaliseerde berekening en opslag, samen met ingebouwde redundantie op applicatieniveau om storingen te voorkomen.
Wat doet Hadoop?
Eenvoudig gezegd, Hadoop maakt big data toegankelijk en bruikbaar voor iedereen.
Vóór Hadoop deden bedrijven die big data gebruikten dit meestal met relationele databases en enterprise data warehouses (die enorme hoeveelheden dure hardware gebruiken). Hoewel deze tools geweldig zijn voor het verwerken van gestructureerde gegevens - dat wil zeggen gegevens die al op een beheersbare manier zijn gesorteerd en georganiseerd - was de capaciteit voor het verwerken van ongestructureerde gegevens extreem beperkt, zo veel dat deze praktisch niet bestond. Om bruikbaar te zijn, moesten gegevens eerst worden gestructureerd zodat ze netjes in tabellen zouden passen.
Het Hadoop-raamwerk verandert die eis en doet dat goedkoop. Met Hadoop kunnen enorme hoeveelheden gegevens van 10 tot 100 gigabytes en hoger, zowel gestructureerd als ongestructureerd, worden verwerkt met gewone (basis) servers.
Hadoop biedt potentiële big data-applicaties voor bedrijven van elke omvang, in elke branche. Het open-source raamwerk stelt financieringsmaatschappijen in staat om geavanceerde modellen voor portfolio-evaluatie en risicoanalyse te creëren, of online retailers om hun zoekantwoorden te verfijnen en klanten te wijzen op producten die ze eerder zullen kopen.
Met Hadoop zijn de mogelijkheden echt onbegrensd.