Inhoudsopgave:
- Betrek alle bedrijfsonderdelen bij een big data-initiatief
- Evalueer alle infrastructuurmodellen voor big data-implementatie
- Overweeg traditionele gegevensbronnen in big data-planning
- Overweeg een consistente set gegevens
- Verspreid de gegevens
- Vertrouw nooit op een enkele big data-analysebenadering
- Begin geen big big data-initiatief voordat je klaar bent
- Gebruik gegevens niet op zichzelf
- Negeer gegevensbeveiliging niet
- Negeer het prestatiegedeelte van big data-analyse niet
Big data is veelbelovend voor alle soorten industrieën. Als deze big data effectief en efficiënt worden gebruikt, kan dit een aanzienlijke invloed hebben op de besluitvorming en analyse. Maar het voordeel van big data kan alleen worden bereikt als het op een gestructureerde manier wordt beheerd. De best practices van big data worden geleidelijk vastgesteld, maar er zijn al enkele duidelijke do's en don'ts als het gaat om implementatie.
De volgende richtlijnen zijn gebaseerd op praktische ervaring en kennis die is opgedaan in real-life projecten. Hier zijn mijn belangrijkste big data do's en don'ts.
Betrek alle bedrijfsonderdelen bij een big data-initiatief
Een big data-initiatief is geen geïsoleerde en onafhankelijke activiteit en de betrokkenheid van alle bedrijfsonderdelen is een must om echte waarde en inzicht te krijgen. Big data kan organisaties helpen grote hoeveelheden data te benutten en inzicht te krijgen in het gedrag van klanten, evenementen, trends, voorspellingen, enz. Dit is niet mogelijk met een data snapshot, die slechts een deel van het volledige volume van de gegevens verwerkt in big data. Als gevolg hiervan concentreren bedrijven zich steeds meer op alle soorten gegevens die afkomstig zijn van alle mogelijke wegen / bedrijfsonderdelen om het juiste patroon te begrijpen.Evalueer alle infrastructuurmodellen voor big data-implementatie
De hoeveelheid gegevens en het beheer ervan is een grote zorg voor elk big data-initiatief. Omdat big data omgaat met petabytes aan data, is de enige oplossing om dat te beheren het gebruik van datacenters. Tegelijkertijd moet rekening worden gehouden met de kostencomponent voordat een opslagfaciliteit wordt geselecteerd en voltooid. Cloudservices zijn vaak de beste keuze, maar de services van verschillende cloudomgevingen moeten worden geëvalueerd om de juiste te bepalen. Aangezien opslag een van de belangrijkste componenten is bij elke big data-implementatie, is het een factor die zeer zorgvuldig moet worden geëvalueerd in elk big data-initiatief. (Krijg een ander perspectief in de Big Data-uitdaging van vandaag komt voort uit variëteit, niet uit volume of snelheid.)Overweeg traditionele gegevensbronnen in big data-planning
Er zijn verschillende bronnen van big data en het aantal bronnen neemt ook met de dag toe. Deze enorme hoeveelheid gegevens wordt gebruikt als input voor de verwerking van big data. Als gevolg hiervan denken sommige bedrijven dat traditionele gegevensbronnen nutteloos zijn. Dit is niet waar, omdat deze traditionele gegevens een kritieke component zijn voor het succes van elk big data-verhaal. Traditionele gegevens bevatten waardevolle informatie, dus deze moet worden gebruikt in combinatie met andere grote gegevensbronnen. De werkelijke waarde van big data kan alleen worden afgeleid als alle gegevensbronnen (traditioneel en niet-traditioneel) in aanmerking worden genomen. (Meer informatie in Take That, Big Data! Waarom kleine data een grotere impact kunnen hebben.)Overweeg een consistente set gegevens
In een big data-omgeving komen gegevens uit verschillende bronnen. Het formaat, de structuur en de soorten gegevens variëren van bron tot bron. Het belangrijkste is dat de gegevens niet worden opgeschoond als het gaat om uw big data-omgeving. Dus voordat u de inkomende gegevens vertrouwt, moet u de consistentie controleren door herhaalde observatie en analyse. Zodra de consistentie van gegevens is bevestigd, kan deze worden behandeld als een consistente set metagegevens. Het vinden van een consistente set metadata door zorgvuldige observatie van het patroon is een essentiële oefening in elke big data-planning.Verspreid de gegevens
De hoeveelheid gegevens is een grote zorg wanneer we een verwerkingsomgeving overwegen. Vanwege de enorme hoeveelheid gegevens waarmee big data te maken heeft, is verwerking op één server niet mogelijk. De oplossing is een Hadoop-omgeving, een gedistribueerde computeromgeving die draait op standaardhardware. Het geeft de kracht van snellere verwerking op meerdere knooppunten. (Meer informatie in 7 dingen om te weten over Hadoop.)Vertrouw nooit op een enkele big data-analysebenadering
Er zijn verschillende technologieën beschikbaar voor het verwerken van big data. De basis van alle big data-technologieën is Apache Hadoop en MapReduce. Daarom is het belangrijk om de juiste technologie voor het juiste doel te evalueren. Enkele van de belangrijke benaderingen van analyse zijn voorspellende analyse, prescriptieve analyse, tekstanalyse, stroomgegevensanalyse, enz. Selectie van de juiste methode / aanpak is belangrijk om het gewenste doel te bereiken. Het is het beste om te voorkomen dat u op een enkele benadering vertrouwt, maar om verschillende benaderingen te onderzoeken en de perfecte match voor uw oplossing te selecteren.Begin geen big big data-initiatief voordat je klaar bent
Het wordt altijd aanbevolen om te beginnen met kleine stappen voor elk big data-initiatief. Begin dus met pilootprojecten om expertise op te doen en ga dan voor de daadwerkelijke implementatie. Het potentieel van big data is zeer indrukwekkend, maar de echte waarde kan alleen worden bereikt als we onze fouten verminderen en meer expertise opdoen.Gebruik gegevens niet op zichzelf
Grote gegevensbronnen zijn verspreid over ons en ze worden elke dag groter. Het is belangrijk om al deze gegevens te integreren om correcte analyse-uitvoer te krijgen. Er zijn verschillende tools op de markt beschikbaar voor data-integratie, maar deze moeten vóór gebruik goed worden geëvalueerd. Integratie van big data is een complexe taak omdat de gegevens uit verschillende bronnen een ander formaat hebben, maar het is zeer noodzakelijk om een goed analyseresultaat te krijgen.Negeer gegevensbeveiliging niet
Gegevensbeveiliging is een belangrijke overweging bij de planning van big data. In eerste instantie (voordat gegevens worden verwerkt) bevinden de gegevens zich in petabytes, dus de beveiliging is niet strikt geïmplementeerd. Maar na enige verwerking krijgt u een subset van gegevens die enig inzicht biedt. Op dit punt wordt gegevensbeveiliging essentieel. Hoe meer de gegevens worden verwerkt en verfijnd, hoe waardevoller ze vaak worden voor een organisatie. Deze nauwkeurig afgestemde outputgegevens zijn intellectueel eigendom en moeten worden beveiligd. Gegevensbeveiliging moet worden geïmplementeerd als onderdeel van de levenscyclus van big data.Negeer het prestatiegedeelte van big data-analyse niet
De output van big data-analyse is alleen nuttig als het goede prestaties levert. Big data biedt meer inzichten op basis van de verwerking van een enorme hoeveelheid gegevens met een hogere snelheid. Daarom is het essentieel om het effectief en efficiënt te beheren. Als de prestaties van big data niet zorgvuldig worden beheerd, zal dit problemen veroorzaken en de hele inspanning zinloos maken.
In onze discussie hebben we ons gericht op de do's en don'ts van big data-initiatieven. Big data is een opkomend gebied en als het gaat om implementatie, zijn veel bedrijven nog in de planningsfase. Het is essentieel om best practices voor big data te begrijpen om risico's en fouten te minimaliseren. De discussiepunten zijn afgeleid van live projectervaringen, dus het geeft enkele richtlijnen voor het succesvol maken van een big data-strategie.