Inhoudsopgave:
Big data, de pakkende naam voor enorme hoeveelheden gestructureerde, ongestructureerde of semi-gestructureerde gegevens, is notoir moeilijk vast te leggen, op te slaan, te beheren, te delen, te analyseren en te visualiseren, althans met behulp van traditionele database- en softwareapplicaties. Daarom hebben big data-technologieën het potentieel om enorme hoeveelheden gegevens effectief en efficiënt te beheren en verwerken. En het is Apache Hadoop die het framework en de bijbehorende technologieën biedt om grote datasets op verschillende computers op een gedistribueerde manier te verwerken. Dus om big data echt te begrijpen, moet je een beetje begrijpen over Hadoop. Hier zullen we een kijkje nemen op de toptermen die u zult horen met betrekking tot Hadoop - en wat ze betekenen.
Webinar: Big Iron, Meet Big Data: Mainframe-gegevens bevrijden met Hadoop & Spark Registreer hier |
Maar eerst een kijkje in hoe Hadoop werkt
Voordat u naar het Hadoop-ecosysteem gaat, moet u twee fundamentele dingen duidelijk begrijpen. De eerste is hoe een bestand wordt opgeslagen in Hadoop; de tweede is hoe opgeslagen gegevens worden verwerkt. Alle Hadoop-gerelateerde technologieën werken voornamelijk op deze twee gebieden en maken het gebruiksvriendelijker. (Bekijk de basisprincipes van Hadoop in Hoe Hadoop het big data-probleem helpt oplossen.)
Nu op naar de voorwaarden.