ETL (extraheren, transformeren en laden) is een van de belangrijkste processen in big data-analyse - en tegelijkertijd kan het een van de grootste knelpunten zijn. (Ga voor meer informatie over big data naar 5 Nuttige big data-cursussen die u online kunt volgen.)
De reden dat ETL zo belangrijk is, is dat de meeste gegevens die een bedrijf verzamelt, in ruwe vorm niet gereed zijn om een analyseoplossing te verwerken. Om een analyseoplossing inzichten te geven, moeten de onbewerkte gegevens worden geëxtraheerd uit de applicatie waar deze zich momenteel bevindt, omgezet in een indeling die een analyseprogramma kan lezen en vervolgens in het analyseprogramma zelf worden geladen.
Dit proces is analoog aan koken. Uw onbewerkte ingrediënten zijn uw onbewerkte gegevens. Ze moeten worden geëxtraheerd (gekocht in een winkel), getransformeerd (gekookt) en vervolgens geladen (verguld), voordat ze kunnen worden geanalyseerd (geproefd). De moeilijkheid en kosten kunnen onvoorspelbaar schalen - het is gemakkelijk om zelf kaas te maken, maar veel moeilijker om een gastronomisch menu voor 40 personen te maken tijdens een diner. Onnodig te zeggen dat een fout op elk moment uw maaltijd onverteerbaar kan maken.