Inhoudsopgave:
- Gegevens uit verschillende bronnen Moeilijk te verbinden en in kaart te brengen
- Hadoop-experts proberen gegevens samen te voegen
Hadoop is een geweldige plek om gegevens te ontladen voor analytische verwerking of om grotere volumes van een enkele gegevensbron te modelleren die niet mogelijk zijn met bestaande systemen. Naarmate bedrijven echter gegevens uit vele bronnen naar Hadoop brengen, is er een toenemende vraag naar de analyse van gegevens uit verschillende bronnen, wat uiterst moeilijk te realiseren kan zijn. Dit bericht is het eerste in een driedelige serie waarin wordt uitgelegd met welke problemen organisaties te maken hebben bij het proberen verschillende gegevensbronnen en -typen binnen Hadoop te analyseren en hoe deze uitdagingen kunnen worden opgelost. Het bericht van vandaag richt zich op de problemen die optreden bij het combineren van meerdere interne bronnen. De volgende twee posten leggen uit waarom deze problemen toenemen in complexiteit, omdat externe gegevensbronnen worden toegevoegd, en hoe nieuwe benaderingen helpen om ze op te lossen.
Gegevens uit verschillende bronnen Moeilijk te verbinden en in kaart te brengen
Gegevens uit verschillende bronnen hebben verschillende structuren waardoor het moeilijk is om gegevenstypen met elkaar te verbinden en in kaart te brengen, zelfs gegevens uit interne bronnen. Het combineren van gegevens kan bijzonder moeilijk zijn als klanten meerdere rekeningnummers hebben of een organisatie heeft overgenomen of samengevoegd met andere bedrijven. In de afgelopen jaren hebben sommige organisaties geprobeerd om data-ontdekking of data science-toepassingen te gebruiken om gegevens van meerdere bronnen die in Hadoop zijn opgeslagen te analyseren. Deze benadering is problematisch omdat het veel giswerk vergt: gebruikers moeten beslissen welke externe sleutels moeten worden gebruikt om verschillende gegevensbronnen te verbinden en veronderstellingen maken bij het maken van overlays met gegevensmodellen. Deze gissingen zijn moeilijk te testen en vaak onjuist wanneer ze op schaal worden toegepast, wat leidt tot foutieve gegevensanalyse en wantrouwen van de bronnen.
Hadoop-experts proberen gegevens samen te voegen
Daarom hebben organisaties die gegevens over verschillende gegevensbronnen willen analyseren hun toevlucht genomen tot het inhuren van Hadoop-experts om aangepaste, bronspecifieke scripts te maken om gegevenssets samen te voegen. Deze Hadoop-experts zijn meestal geen experts op het gebied van gegevensintegratie of entiteitsresolutie, maar ze doen hun best om aan de onmiddellijke behoeften van de organisatie te voldoen. Deze experts gebruiken doorgaans Pig of Java om harde en snelle regels te schrijven die bepalen hoe gestructureerde gegevens uit specifieke bronnen kunnen worden gecombineerd, bijvoorbeeld overeenkomende records op basis van een rekeningnummer. Nadat een script voor twee bronnen is geschreven en er een derde bron moet worden toegevoegd, moet het eerste script worden weggegooid en moet een nieuw script worden ontworpen om drie specifieke bronnen te combineren. Hetzelfde gebeurt als een andere bron wordt toegevoegd, enzovoort. Deze aanpak is niet alleen inefficiënt, maar mislukt ook wanneer deze op schaal wordt toegepast, kan randgevallen slecht verwerken, kan resulteren in een groot aantal dubbele records en voegt vaak veel records samen die niet moeten worden gecombineerd.