Huis audio Wat is Hadoop precies? de theorie van een cynicus

Wat is Hadoop precies? de theorie van een cynicus

Inhoudsopgave:

Anonim

Alles dat te mooi lijkt om waar te zijn, is dat meestal. Dat kan het geval zijn met Apache Hadoop, het veelbesproken open-sourceproject waar iedereen over blijft praten. Dus wat is precies dit ding? Goede vraag!

Experts twijfelachtig

Analist Mark Madsen van Third Nature spijkerde het een tijdje terug in een pittig stuk op InsideAnalysis.com: "Wat Hadoop is. Wat Hadoop niet." Als iemand die weet hoe hij echte oplossingen moet ontwerpen en deze vervolgens daadwerkelijk moet implementeren, moet zijn advies niet worden genegeerd.


Maar er stroomt hier een diepere stroming, en de tijd is nabij om de wortels van deze fascinerende flora te ontgraven, om te zien of we geen perspectief kunnen krijgen op wat er op macroniveau gebeurt. Immers, leveranciers blijven zeggen dat het heel belangrijk is, en er zijn zoveel deelnemers.

Gebruik de Committers! (?)

Drie bedrijven bezitten momenteel het grootste deel van de opkomende markt van Hadoop: Cloudera, Hortonworks en MapR. Op een recente, vrij omstreden briefing via de Boulder BI Brain Trust (#BBBT) maakte Jim Walker van Hortonworks deze merkwaardige opmerking:


"Je kunt de techniek niet vooruitbrengen als je geen committers in dienst hebt!"


Nog een keer?


Klinkt dit niet als iets dat Senator Palpatine in een Star Wars-film zou kunnen zeggen?


Sen Palpatine: "Gebruik de committers!"

Nabijgelegen Minion: "Maar, mijnheer! Denk aan de kinderen!"


Voor de leek die gewoon dingen voor elkaar wil krijgen, zijn committers mensen die toegewijd zijn aan een bepaald open-sourceproject. De Apache Foundation heeft strikte protocollen waarmee hun projecten vooruit gaan, wat vaak een goede zaak is.


Dat gezegd hebbende, Walkers commentaar verdient onderzoek. Een puntige vraag (met het risico speelplaatsdagen op te roepen) zou zijn: is dat een belofte of een bedreiging? Zegt hij dat Hortonworks gewoon hun bal zou pakken en naar huis zou gaan?

Samenwerking of competitie?

De interessante of paradoxale invalshoek hier is dat naar verluidt de meeste committers in het Hadoop-team (ongeveer 30 of zo in totaal) afkomstig zijn van Hortonworks en Cloudera - die concurrenten zijn. Dit is een zeer merkwaardig geval van concurrentie.


Wat is er aan de hand? Hier is een weloverwogen gok: Hadoop dankt zijn bekendheid grotendeels aan een slim plan bedacht door een groep durfkapitalisten en ingenieurs uit Silicon Valley die in wezen proberen hun weddenschappen tegen Oracle af te dekken.


Het algemene idee is om de markt te voeden met een fundament van code dat kan worden verbeterd en versterkt door een vloot van ontwikkelaars die idealiter in de loop van de tijd allerlei hulpmiddelen voor gegevensbeheer, inclusief databaseproducten, zullen creëren. De VC's kunnen op een dag investeren en uitbetalen. Maar er zijn enkele serieuze uitdagingen in het spel.


Zoals alle monolithische ondernemingen bevindt Oracle zich vaak in het vizier van menig kleinere speler. En wie wil er nou niet een deel van hun geestdodende inkomsten? Alleen al in het laatste kwartaal boekte Oracle ~ $ 9 miljard. Maar Big Red uitdagen en verslaan zijn twee heel verschillende realiteiten.

Gratis webcast: wat is Hadoop en waar gaat het naartoe?

Volg Eric Kavanagh, Robin Bloor en Techopedia voor een discussie over hoe Hadoop enorm verschilt van Linux of SOA, en waarom de toekomst grotendeels ongeschreven blijft.

Verpakkingsproblemen

Het ding over Hadoop is per se dat het op geen enkele manier een verpakte oplossing is. Het is eerder een complexe verzameling modules waarmee hoogwaardige programmeurs enorme parallelle verwerkingsalgoritmen kunnen gebruiken om zeer specifieke dingen te doen. Maar er is geen mooie gebruikersinterface en de handleidingen zijn brutaal.


Voeg die uitdaging toe aan deze uitdaging: u hebt ook zakenmensen nodig die op zijn minst een algemeen begrip hebben van wat het kan doen. Die mensen moeten ideeën kunnen bedenken over hoe het kan worden gebruikt en vervolgens communiceren met de ontwikkelaars, die vervolgens toepassingen moeten produceren, testen, implementeren en ondersteunen.


Door deze dans te orkestreren verdienen Cloudera en Hortonworks veel van hun geld. Het probleem is dat de meeste oplossingen die via deze methode worden gecreëerd, uniek zijn en zich meestal richten op operationele systemen in tegenstelling tot analytische. Vertaling? Zulke dingen lenen zich niet echt voor verpakte softwareproducten.

Verpakkingsrendabiliteit!

Dat brengt ons terug naar Oracle. Larry Ellison en de jongens maken hun hooiverkoopdatabase-technologie, hardware, services en (wacht erop …) verpakte software. Cloudera heeft dit blijkbaar ontdekt, vandaar hun focus op Impala. Maar Hortonworks?


Hun model lijkt meer op dat van RedHat, de mensen die een miljard dollar bedrijf hebben gebouwd bovenop het Linux-besturingssysteem. Nary een grote leverancier in de enterprise software-industrie schrijft niet voor Linux, het besturingssysteem waarmee IBM Microsoft op weg ging. Maar Hadoop is geen Linux, niet bij lange na.


Dr. Geoffrey Malafsky, een voormalige nanotechnoloog voor de Amerikaanse marine, nu datawetenschapper bij Phasic Systems en het PSIKORS-instituut, distilleert de Hadoop-waardepropositie als volgt:

    "Hadoop is geweldig voor zoeken, zeer grote trendanalyses voor stochastische resultaten, en waarschijnlijk een aantal zeer goedkope slimme parallelle verwerking van dingen zoals mijn ex-vrouw vroeger deed: kwantummechanische golffunctieberekening van vaste toestand en chemische reacties. Deze echte wetenschap vertrouwt erop op supercomputers en enigszins overgeschakeld naar parallelle verwerking, maar het is een harde verandering van programmeerbenadering. Jonge, slimme, energieke afgestudeerde studenten zullen degenen zijn die dit mogelijk maken. Ik vermoed dat onderzoekssubsidies in deze richting beginnen te gaan voor een aantal krachtige computationele -toepassingen."

U zult merken dat dat niet zoiets klinkt als data warehousing, business intelligence, data-integratie of zelfs big data. Het klinkt als supercomputing. En om een ​​interessante reden zijn de werelden van high-performance computing en business intelligence nooit echt op een zinvolle manier in botsing gekomen of samengevoegd.

Lange weg vooruit voor Hortonworks en Cloudera

En hier is het echt slechte nieuws voor Hortonworks en mogelijk Cloudera. De grote leveranciers zoals IBM en SAP en Oracle en Teradata - om het zachtjes uit te drukken en Dire Straits te citeren: "Die jongens zijn niet dom!" Drie en meer jaar geleden ontwikkelden ze allemaal serieuze Hadoop-strategieën.


Centraal in deze plannen staan ​​het soort dingen dat zakelijke gebruikers verwachten: grafische gebruikersinterfaces, drag-and-drop functionaliteit, modellering- en ontdekkingstools, workflow, governance, beveiliging; kortom, alle stukjes en beetjes die bedrijfssoftware bruikbaar maken. En natuurlijk hebben deze grote leveranciers enorme installaties.


Natuurlijk hebben Cloudera en Hortonworks beide goede zaken gedaan, maar slechts een fractie van wat die grote spelers elk jaar krijgen. Reken maar uit hoeveel de uitdagers hun klanten in rekening brengen, vergeleken met hoeveel hun overhead waarschijnlijk is, en het beeld is niet zo rooskleurig. Toegegeven, dat is de norm voor software in een vroeg stadium, maar toch …

De toekomst van Hadoop?

Dus, kunnen we de klassieke golf van acquisities zien, zoals we die in de achten hadden, toen IBM Cognos kocht, Oracle Hyperion kreeg en SAP BusinessObjects pakte? Misschien, maar de nieuwe kinderen in dit blok hebben geen Hadoop; ze lenen het gewoon. En hoe veelbelovend YARN en Tez ook mogen zijn, de releasecycli lijken achter te blijven bij wat de zware hitters produceren.


Onlangs merkte een insider in de branche op dat de politiek bij Apache een ernstig knelpunt kan zijn. Dit is niet zo verwonderlijk, vooral als je de betrokken dollars bekijkt - er is een grote motivatie voor innovators om het rijk te maken. En heeft iemand opgemerkt hoe Chrome Firefox de laatste tijd qua functionaliteit en bruikbaarheid lijkt te hebben overtroffen? Gesloten bron, iemand?


Eén ding is zeker: deze game zal op een aantal interessante manieren worden gespeeld. Ja, de zoogdieren (lees: kleine verkopers) kunnen de dinosauriërs vaak ontlopen; maar er zijn nog steeds alligators en krokodillen over de hele wereld; en als je op onverwachts stuit, ontdek je misschien gewoon hoe scherp die tanden kunnen zijn. Een paar crocs samen kunnen zelfs een olifant of twee neerhalen.

Wat is Hadoop precies? de theorie van een cynicus