Huis Het-Business Gegevens, groot en klein: waar is de echte waarde?

Gegevens, groot en klein: waar is de echte waarde?

Inhoudsopgave:

Anonim

Big data is een algemeen woord dat wordt gebruikt om te verwijzen naar de verwerking van grote hoeveelheden gegevens. We begrijpen allemaal dat hoe groter het gegevensvolume, hoe complexer het wordt. Traditionele databaseoplossingen slagen er vaak niet in om grote hoeveelheden gegevens goed te beheren vanwege hun complexiteit en grootte. Daarom is het beheren van grote hoeveelheden gegevens en het verkrijgen van echt inzicht een uitdagende taak. Hetzelfde "waarde" -concept is ook van toepassing op kleine gegevens.

Hoe big data wordt gebruikt

Conventionele databaseoplossingen op basis van het RDBMS-concept kunnen transactiegegevens zeer goed beheren en worden veel gebruikt in verschillende toepassingen. Maar als het gaat om het verwerken van een grote set gegevens (gegevens die zijn gearchiveerd en die in terabytes of petabytes zijn), mislukken deze database-oplossingen vaak. Deze gegevenssets zijn te groot en passen meestal niet in de architectuur van traditionele databases. Tegenwoordig is big data een kosteneffectieve aanpak geworden voor het verwerken van grotere gegevenssets. Vanuit organisatorisch oogpunt kan het gebruik van big data worden onderverdeeld in de volgende categorieën, waarin de echte waarde van big data ligt:

  • Analytisch gebruik

    Analisten van big data hebben veel belangrijke verborgen aspecten van data onthuld die te duur zijn om te verwerken. Als we bijvoorbeeld de trendbelang van studenten voor een bepaald nieuw onderwerp moeten controleren, kunnen we dit doen door de dagelijkse aanwezigheidsgegevens en andere sociale en geografische feiten te analyseren. Deze feiten worden vastgelegd in de database. Als we niet op een efficiënte manier toegang hebben tot deze gegevens, kunnen we de resultaten niet zien.

  • Nieuwe producten inschakelen

    In het recente verleden zijn veel nieuwe webbedrijven, zoals Facebook, big data gaan gebruiken als oplossing om nieuwe producten te lanceren. We weten allemaal hoe populair Facebook is - het heeft met succes een krachtige gebruikerservaring voorbereid met behulp van big data.

Waar is de echte waarde?

Verschillende big data-oplossingen verschillen in de manier waarop ze gegevens opslaan, maar uiteindelijk slaan ze allemaal gegevens op in een platte bestandsstructuur. Over het algemeen bestaat Hadoop uit het bestandssysteem en enkele gegevensabstracties op besturingssysteemniveau. Dit omvat een MapReduce-engine en het Hadoop Distributed File System (HDFS). Een eenvoudig Hadoop-cluster bevat een hoofdknooppunt en meerdere werkknooppunten. Het hoofdknooppunt bestaat uit het volgende:

  • Task Tracker
  • Job Tracker
  • Naam Knooppunt
  • Gegevensknooppunt
Het werkknooppunt bestaat uit het volgende:
  • Task Tracker
  • Gegevensknooppunt

Sommige implementaties hebben alleen het gegevensknooppunt. Het gegevensknooppunt is het werkelijke gebied waar de gegevens zich bevinden. HDFS slaat grote bestanden op (in het bereik van terabytes tot petabytes) verdeeld over meerdere machines. De betrouwbaarheid van gegevens op elk knooppunt wordt bereikt door de gegevens over alle hosts te repliceren. De gegevens zijn dus beschikbaar, zelfs wanneer een van de knooppunten niet beschikbaar is. Dit helpt bij het bereiken van een snellere reactie op vragen. Dit concept is erg handig in het geval van grote applicaties zoals Facebook. Als gebruiker krijgen we bijvoorbeeld vrijwel onmiddellijk een reactie op ons chatverzoek. Overweeg een scenario waarbij een gebruiker lang moet wachten tijdens het chatten. Als het bericht en het daaropvolgende antwoord niet onmiddellijk worden bezorgd, hoeveel mensen zullen deze chathulpmiddelen dan daadwerkelijk gebruiken?

Terugkerend naar de Facebook-implementatie, als de gegevens niet over de clusters worden gerepliceerd, is het niet mogelijk om een ​​aantrekkelijke implementatie te hebben. Hadoop verdeelt de gegevens over machines in een groter cluster en slaat bestanden op als een reeks blokken. Deze blokken hebben dezelfde grootte behalve het laatste blok. De grootte van het blok en de replicatiefactor kunnen naar behoefte worden aangepast. Bestanden in HDFS volgen strikt de eenmaal-schrijfbenadering en kunnen daarom slechts door één gebruiker tegelijk worden geschreven of bewerkt. Beslissingen met betrekking tot replicatie van blokken worden genomen door het naamknooppunt. Het naamknooppunt ontvangt rapporten en pulsreacties van elk van de gegevensknooppunten. De pulsresponsies zorgen voor de beschikbaarheid van het bijbehorende dataknooppunt. Het rapport bevat de details van de blokken op het gegevensknooppunt.


Een andere big data-implementatie, Cassandra, maakt ook gebruik van een soortgelijk distributieconcept. Cassandra verspreidt gegevens op basis van geografische locatie. Daarom zijn de gegevens in Cassandra gescheiden op basis van de geografische locatie van het gegevensgebruik.

Soms heeft kleine data een groter (en minder duur) effect

Volgens Rufus Pollock van de Open Knowledge Foundation heeft het geen zin om hype rond big data te creëren, terwijl kleine data nog steeds de plaats is waar de echte waarde ligt.


Zoals de naam al doet vermoeden, is kleine gegevens een set gegevens die wordt getarget op basis van een grotere set gegevens. Kleine gegevens zijn bedoeld om de focus te verleggen van gegevensgebruik en het is ook bedoeld om de trend van de richting van grote gegevens tegen te gaan. De kleine data-aanpak helpt bij het verzamelen van gegevens op basis van specifieke vereisten met minder inspanning. Als gevolg hiervan is het de efficiëntere bedrijfspraktijk bij het implementeren van business intelligence.


In de kern draait het concept van kleine gegevens om bedrijven die resultaten vereisen die verdere acties vereisen. Deze resultaten moeten snel worden opgehaald en de daaropvolgende actie moet ook onmiddellijk worden uitgevoerd. Zo kunnen we het soort systemen elimineren dat vaak wordt gebruikt in big data-analyse.


Over het algemeen, als we enkele van de specifieke systemen overwegen die nodig zijn voor big data-acquisitie, zou een bedrijf kunnen investeren in het opzetten van veel serveropslag, geavanceerde high-end servers en de nieuwste datamining-applicaties gebruiken om verschillende gegevensbits te verwerken, inclusief datums en tijden van gebruikersacties, demografische informatie en andere informatie. Deze volledige gegevensset wordt verplaatst naar een centraal gegevensmagazijn, waar complexe algoritmen worden gebruikt om de gegevens te sorteren en te verwerken voor weergave in de vorm van gedetailleerde rapporten.


We weten allemaal dat deze oplossingen veel bedrijven hebben geholpen op het gebied van schaalbaarheid en beschikbaarheid; er zijn organisaties die vinden dat het toepassen van deze benaderingen aanzienlijke inspanningen vereist. Het is ook waar dat in sommige gevallen vergelijkbare resultaten worden bereikt met behulp van een minder robuuste dataminingstrategie.


Kleine gegevens bieden organisaties een manier om zich terug te trekken van een obsessie met de nieuwste en nieuwste technologieën die meer geavanceerde bedrijfsprocessen ondersteunen. Bedrijven die kleine gegevens promoten, beweren dat het vanuit zakelijk oogpunt belangrijk is om hun middelen op een efficiënte manier te gebruiken, zodat overbesteding aan technologie tot op zekere hoogte kan worden vermeden.


We hebben veel gesproken over big data en small data-realiteit, maar we moeten begrijpen dat het selecteren van het juiste platform (big data of small data) voor het juiste gebruik het belangrijkste onderdeel van de hele oefening is. En de waarheid is dat big data veel voordelen kan bieden, maar dat dit niet altijd het beste is.

Gegevens, groot en klein: waar is de echte waarde?