Inhoudsopgave:
- Hoe is Hadoop begonnen?
- Wat is er zo belangrijk aan Hadoop?
- Wat staat Schema op lezen?
- Wat is Hive?
- Wat voor gegevens analyseert Hadoop?
- Kun je een echt voorbeeld van Hadoop geven?
- Is Hadoop al verouderd of verandert het gewoon?
Wat is Hadoop? Het is een gele speelgoedolifant. Niet wat je verwachtte? Hoe zit dit: Doug Cutting - mede-maker van dit open-source softwareproject - leende de naam van zijn zoon die toevallig zijn speelgoedolifant Hadoop noemde. Kortom, Hadoop is een softwareframework ontwikkeld door de Apache Software Foundation dat wordt gebruikt om gegevensintensieve, gedistribueerde computing te ontwikkelen. En het is een belangrijk onderdeel in een ander modewoord dat lezers nooit genoeg kunnen krijgen van: big data. Hier zijn zeven dingen die u moet weten over deze unieke, vrij gelicentieerde software.
Hoe is Hadoop begonnen?
Twaalf jaar geleden bouwde Google een platform om de enorme hoeveelheden gegevens te manipuleren die het verzamelde. Zoals het bedrijf vaak doet, heeft Google zijn ontwerp voor het publiek beschikbaar gesteld in de vorm van twee papers: Google File System en MapReduce.
Tegelijkertijd werkten Doug Cutting en Mike Cafarella aan Nutch, een nieuwe zoekmachine. De twee worstelden ook met het omgaan met grote hoeveelheden gegevens. Toen kregen de twee onderzoekers lucht van de papieren van Google. Dat gelukkige kruispunt veranderde alles door Cutting en Cafarella te introduceren in een beter bestandssysteem en een manier om de gegevens bij te houden, wat uiteindelijk leidde tot de oprichting van Hadoop.
Wat is er zo belangrijk aan Hadoop?
Tegenwoordig is het verzamelen van gegevens eenvoudiger dan ooit. Al deze gegevens bieden veel kansen, maar er zijn ook uitdagingen:- Enorme hoeveelheden gegevens vereisen nieuwe verwerkingsmethoden.
- De gegevens die worden vastgelegd, hebben een ongestructureerde indeling.
Vervolgens moesten ze ongestructureerde gegevens of gegevens in formaten aanpakken die standaard relationele databasesystemen niet konden verwerken. Cutting en Cafarella hebben Hadoop ontworpen om met elk type gegevens te werken: gestructureerd, ongestructureerd, afbeeldingen, audiobestanden, zelfs tekst. Deze whitepaper van Cloudera (Hadoop integrator) legt uit waarom dit belangrijk is:
-
"Door al je gegevens bruikbaar te maken, niet alleen wat er in je databases staat, kun je met Hadoop verborgen relaties ontdekken en antwoorden onthullen die altijd net buiten bereik zijn. Je kunt meer beslissingen nemen op basis van harde gegevens, in plaats van ingevingen, en kijk bij volledige gegevenssets, niet alleen voorbeelden en samenvattingen. "
Wat staat Schema op lezen?
Zoals eerder vermeld, is een van de voordelen van Hadoop de mogelijkheid om ongestructureerde gegevens te verwerken. In zekere zin is dat 'het blik op de weg schoppen'. Uiteindelijk hebben de gegevens een soort structuur nodig om ze te analyseren.
Dat is waar schema op lezen in het spel komt. Schema bij het lezen is de melding van het formaat waarin de gegevens zich bevinden, waar de gegevens kunnen worden gevonden (onthoud dat de gegevens verspreid zijn over verschillende servers) en wat er met de gegevens moet gebeuren - geen eenvoudige taak. Er is gezegd dat het manipuleren van gegevens in een Hadoop-systeem de vaardigheden vereist van een bedrijfsanalist, een statisticus en een Java-programmeur. Helaas zijn er niet veel mensen met die kwalificaties.
Wat is Hive?
Als Hadoop zou slagen, moest het werken met de gegevens worden vereenvoudigd. Dus het open-source publiek ging aan de slag en creëerde Hive:-
"Hive biedt een mechanisme om structuur op deze gegevens te projecteren en de gegevens op te vragen met behulp van een SQL-achtige taal genaamd HiveQL. Tegelijkertijd stelt deze taal traditionele programmeurs / reductiemakers in staat om hun aangepaste mappers en reductiemiddelen in te pluggen wanneer het ongemakkelijk is of inefficiënt om deze logica in HiveQL uit te drukken. "
Hive maakt het beste van twee werelden mogelijk: databasepersoneel dat bekend is met SQL-opdrachten kan de gegevens manipuleren en ontwikkelaars die bekend zijn met het schema tijdens het leesproces kunnen nog steeds aangepaste zoekopdrachten maken.
Wat voor gegevens analyseert Hadoop?
Webanalyse is het eerste waar ik aan denk, het analyseren van weblogs en webverkeer om websites te optimaliseren. Facebook houdt bijvoorbeeld zeker van webanalyses en gebruikt Hadoop om de terabytes aan gegevens te sorteren die het bedrijf verzamelt.
Bedrijven gebruiken Hadoop-clusters om risicoanalyses, fraudedetectie en klantensegmentatie uit te voeren. Nutsbedrijven gebruiken Hadoop om sensorgegevens van hun elektriciteitsnet te analyseren, waardoor ze de productie van elektriciteit kunnen optimaliseren. Grote bedrijven zoals Target, 3M en Medtronics gebruiken Hadoop om de productdistributie, bedrijfsrisicobeoordelingen en klantensegmentatie te optimaliseren.
Universiteiten worden ook in Hadoop geïnvesteerd. Brad Rubin, een universitair hoofddocent aan de Universiteit van St. Thomas Graduate Programs in Software, zei dat zijn Hadoop-expertise helpt bij het sorteren van de overvloedige hoeveelheden gegevens die zijn verzameld door onderzoeksgroepen aan de universiteit.
Kun je een echt voorbeeld van Hadoop geven?
Een van de bekendere voorbeelden is de TimesMachine. De New York Times heeft een verzameling TIFF-afbeeldingen op de hele pagina van de krant, bijbehorende metagegevens en artikeltekst van 1851 tot 1922 voor een bedrag van terabytes aan gegevens. NYT's Derek Gottfrid, met behulp van een EC2 / S3 / Hadoop-systeem en gespecialiseerde code:-
"Opgenomen 405.000 zeer grote TIFF-afbeeldingen, 3, 3 miljoen artikelen in SGML- en 405.000 xml-bestanden die artikelen toewijzen aan rechthoekige gebieden in de TIFF's. Deze gegevens zijn geconverteerd naar een meer webvriendelijke 810.000 PNG-afbeeldingen (miniaturen en volledige afbeeldingen) en 405.000 JavaScript-bestanden. "
Met behulp van servers in de Amazon Web Services-cloud zei Gottfrid dat ze alle benodigde gegevens voor de TimesMachine in minder dan 36 uur konden verwerken.
Is Hadoop al verouderd of verandert het gewoon?
Hadoop bestaat nu al meer dan tien jaar. Dat zegt velen dat het achterhaald is. Een expert, Dr. David Rico, heeft gezegd dat "IT-producten van korte duur zijn. In hondenjaren zijn de producten van Google ongeveer 70, terwijl Hadoop 56 is."
Er is misschien een waarheid in wat Rico zegt. Het lijkt erop dat Hadoop een ingrijpende revisie doormaakt. Om er meer over te weten te komen, nodigde Rubin me uit voor een bijeenkomst van de gebruikersgroep Twin Cities en het onderwerp van discussie was Inleiding tot YARN:
-
"Apache Hadoop 2 bevat een nieuwe MapReduce-engine, die een aantal voordelen heeft ten opzichte van de vorige implementatie, waaronder betere schaalbaarheid en brongebruik. De nieuwe implementatie is gebaseerd op een algemeen resource managementsysteem voor het draaien van gedistribueerde applicaties genaamd YARN."