Huis trends Hoe hadoop helpt bij het oplossen van het big data-probleem

Hoe hadoop helpt bij het oplossen van het big data-probleem

Inhoudsopgave:

Anonim

Big data is … nou ja … groot in omvang! Hoeveel gegevens precies kunnen worden geclassificeerd als big data is niet erg duidelijk, dus laten we ons niet in dat debat laten verzanden. Voor een klein bedrijf dat gewend is om met gegevens in gigabytes om te gaan, zou 10 TB aan gegevens GROOT zijn. Voor bedrijven als Facebook en Yahoo zijn petabytes echter groot.


Alleen al de grootte van big data maakt het onmogelijk (of op zijn minst onbetaalbaar) om het op te slaan in traditionele opslag zoals databases of conventionele filers. We hebben het over de kosten om gigabytes aan gegevens op te slaan. Het gebruik van traditionele opslagfilers kan veel geld kosten om big data op te slaan.


Hier zullen we kijken naar big data, de uitdagingen en hoe Hadoop ze kan helpen oplossen. Allereerst de grootste uitdagingen voor big data.


Big data is ongestructureerd of semi-gestructureerd

Veel big data is ongestructureerd. Click-loggegevens voor streamen kunnen er bijvoorbeeld uitzien als:


tijdstempel, user_id, pagina, referrer_page


Gebrek aan structuur maakt relationele databases niet geschikt om big data op te slaan. Bovendien kunnen niet veel databases miljarden rijen met gegevens opslaan.

Het heeft geen zin om big data te bewaren als we het niet kunnen verwerken

Big data opslaan is een onderdeel van het spel. We moeten het verwerken om er intelligentie uit te halen. Traditionele opslagsystemen zijn behoorlijk "dom" in de zin dat ze alleen bits opslaan. Ze bieden geen verwerkingskracht.


Het traditionele gegevensverwerkingsmodel heeft gegevens opgeslagen in een opslagcluster, die voor verwerking naar een rekencluster wordt gekopieerd. De resultaten worden teruggeschreven naar het opslagcluster.


Dit model werkt echter niet helemaal voor big data omdat het kopiëren van zoveel data naar een rekencluster te tijdrovend of onmogelijk kan zijn. Dus wat is het antwoord?


Een oplossing is om big data op hun plaats te verwerken, zoals in een opslagcluster dat verdubbelt als een rekencluster.


Zoals we hierboven hebben gezien, tart big data traditionele opslag. Hoe gaan we om met big data?

Hoe Hadoop het big data-probleem oplost

Hadoop is gebouwd om op een cluster van machines te draaien

Laten we beginnen met een voorbeeld. Laten we zeggen dat we veel foto's moeten opslaan. We beginnen met een enkele schijf. Wanneer we een enkele schijf overschrijden, kunnen we een paar schijven op een machine gebruiken. Wanneer we alle schijven op een enkele machine maximaal gebruiken, moeten we een aantal machines krijgen, elk met een aantal schijven.


Dit is precies hoe Hadoop is gebouwd. Hadoop is ontworpen om vanaf het begin op een cluster van machines te draaien.



Hadoop-clusters schalen horizontaal

Meer opslag- en rekenkracht kan worden bereikt door meer knooppunten toe te voegen aan een Hadoop-cluster. Dit elimineert de noodzaak om steeds krachtigere en duurdere hardware te kopen.


Hadoop kan ongestructureerde / semi-gestructureerde gegevens verwerken

Hadoop hanteert geen schema voor de gegevens die het opslaat. Het kan willekeurige tekst en binaire gegevens verwerken. Dus Hadoop kan ongestructureerde gegevens gemakkelijk verwerken.


Hadoop-clusters bieden opslag en computergebruik

We hebben gezien hoe afzonderlijke opslag- en verwerkingsclusters niet geschikt zijn voor big data. Hadoop-clusters bieden echter opslag en gedistribueerde computing in één.

De business case voor Hadoop

Hadoop biedt opslag voor big data tegen redelijke kosten

Big data opslaan met traditionele opslag kan duur zijn. Hadoop is gebouwd rond standaard hardware, dus het kan redelijk grote opslag bieden voor een redelijke prijs. Hadoop is in het veld gebruikt op petabyteschaal.


Een studie van Cloudera suggereerde dat ondernemingen gewoonlijk ongeveer $ 25.000 tot $ 50.000 per terabyte per jaar uitgeven. Met Hadoop dalen deze kosten tot enkele duizenden dollars per terabyte per jaar. Naarmate hardware goedkoper en goedkoper wordt, blijven deze kosten dalen.


Hadoop zorgt voor het vastleggen van nieuwe of meer gegevens

Soms leggen organisaties een type gegevens niet vast omdat het te duur was om het op te slaan. Aangezien Hadoop opslag biedt tegen redelijke kosten, kan dit type gegevens worden vastgelegd en opgeslagen.


Een voorbeeld hiervan is kliks van websiteklikken. Omdat het volume van deze logboeken erg hoog kan zijn, hebben niet veel organisaties deze vastgelegd. Met Hadoop is het nu mogelijk om de logs vast te leggen en op te slaan.


Met Hadoop kunt u gegevens langer opslaan

Om de hoeveelheid opgeslagen gegevens te beheren, zuiveren bedrijven periodiek oudere gegevens. Alleen logboeken van de afgelopen drie maanden konden bijvoorbeeld worden opgeslagen, terwijl oudere logboeken werden verwijderd. Met Hadoop is het mogelijk om de historische gegevens langer op te slaan. Hiermee kunnen nieuwe analyses worden uitgevoerd op oudere historische gegevens.


Neem bijvoorbeeld kliklogboeken van een website. Een paar jaar geleden werden deze logboeken voor een korte periode opgeslagen om statistieken zoals populaire pagina's te berekenen. Met Hadoop is het nu mogelijk om deze kliklogboeken voor langere tijd op te slaan.


Hadoop biedt schaalbare analyses

Het heeft geen zin om al deze gegevens op te slaan als we ze niet kunnen analyseren. Hadoop biedt niet alleen gedistribueerde opslag, maar ook gedistribueerde verwerking, wat betekent dat we een grote hoeveelheid gegevens parallel kunnen verwerken. Het rekenraamwerk van Hadoop heet MapReduce. MapReduce is bewezen op de schaal van petabytes.


Hadoop biedt uitgebreide analyses

Native MapReduce ondersteunt Java als primaire programmeertaal. Andere talen zoals Ruby, Python en R kunnen ook worden gebruikt.


Het schrijven van aangepaste MapReduce-code is natuurlijk niet de enige manier om gegevens in Hadoop te analyseren. Er is een kaartreductie op hoger niveau beschikbaar. Een tool met de naam Pig neemt bijvoorbeeld Engels zoals een taal voor de gegevensstroom en vertaalt deze in MapReduce. Een ander hulpmiddel, Hive, neemt SQL-vragen aan en voert ze uit met MapReduce.


BI-tools (Business Intelligence) kunnen een nog hoger niveau van analyse bieden. Er zijn ook hulpmiddelen voor dit type analyse.


Deze inhoud is overgenomen uit "Hadoop Illuminated" van Mark Kerzner en Sujee Maniyam. Het is beschikbaar gesteld via Creative Commons Attribution-NonCommercial-ShareAlike 3.0 Unported License.

Hoe hadoop helpt bij het oplossen van het big data-probleem