Q:
Hoe kan ik Hadoop leren gebruiken om big data te analyseren?
EEN:De Apache-softwareset, bekend als Hadoop, wordt een zeer populaire bron voor het omgaan met big data-sets. Dit type softwareframework voor gegevensverwerking is gebouwd om gegevens op specifieke manieren te helpen verzamelen, op basis van ontwerpen die sommige soorten gegevensprojecten efficiënter kunnen maken. Dat gezegd hebbende, Hadoop is slechts een van de vele tools voor het verwerken van grote gegevenssets.
Een van de eerste en meest elementaire manieren om meer te weten te komen over big data-analyse met Hadoop is het begrijpen van enkele topcomponenten van Hadoop en wat het doet. Deze omvatten een Hadoop YARN "resource management platform" dat kan worden toegepast op bepaalde soorten netwerkconfiguraties, evenals een Hadoop MapReduce-set functies die van toepassing zijn op big data-sets. Er is ook een Hadoop gedistribueerd bestandssysteem (HDFS), dat helpt gegevens op te slaan op gedistribueerde systemen zodat deze snel en efficiënt kunnen worden geïndexeerd of opgehaald.
Bovendien kunnen degenen die meer bekend willen zijn met Hadoop kijken naar individuele gepubliceerde bronnen voor professionals die de software op een relatabel niveau toelichten. Dit voorbeeld van Chris Stucchio op een persoonlijke blog biedt een uitstekende reeks punten over Hadoop en gegevensschaal. Een van de belangrijkste afhaalrestaurants is dat Hadoop vaker wordt gebruikt dan nodig is, en misschien niet de beste oplossing voor een individueel project. Door dit soort bronnen te bekijken, kunnen professionals meer vertrouwd raken met de details van het gebruik van Hadoop in een bepaald scenario. Stucchio biedt ook metaforen voor het relateren van de functies van Hadoop aan specifieke fysieke taken. Hier is het voorbeeld het tellen van het aantal boeken in een bibliotheek, terwijl een Hadoop-functie die bibliotheek kan opsplitsen in secties, die individuele tellingen biedt die zijn samengevoegd tot één gezamenlijk gegevensresultaat.
Een meer diepgaande manier waarop professionals meer te weten kunnen komen over Hadoop en de toepassing ervan op big data is via specifieke trainingsbronnen en programma's. Het online leerbedrijf Cloudera, een prominente aanbieder van trainingssessies op afstand, heeft bijvoorbeeld een aantal interessante opties voor het gebruik van Hadoop en vergelijkbare soorten gegevensverwerking.