Huis audio Waarom hadoop een perfecte match is voor genoomsequencing

Waarom hadoop een perfecte match is voor genoomsequencing

Inhoudsopgave:

Anonim

Klinische genomics is een fascinerend onderwerp, waar mensen werken aan geavanceerde technologieën om snelle en nauwkeurige resultaten te verwerken. Er zijn veel genoomsequencers beschikbaar op de markt, en ze produceren petabytes aan sequentiegegevens, en de groei in sequencing zal in de nabije toekomst exabytes aan gegevens produceren. Hier is Hadoop het perfecte platform voor het verwerken van complexe genomics-workflow. Hadoop kan enorme hoeveelheden informatie opslaan en sorteren en kan ook een zinvolle analyse maken. (Om een ​​idee te krijgen van hoeveel gegevens dit echt inhoudt, leest u Bits, bytes en hun multiples begrijpen.)

Het heden en de toekomst van Genomics

Tegenwoordig heeft genoommapping zijn hoogtepunt in ontwikkeling bereikt. Veel mensen die betrokken zijn bij de genomics-industrie barsten van nieuwsgierigheid en naarmate er zich nieuwe kansen voordoen, is betere technologie de behoefte van het uur. Genoomsequencing is een zeer repetitieve en resource-intensieve taak. Alleen al in 2013 werd ongeveer 15 petabyte aan gegevens geproduceerd, en alleen door 2.000 sequencers. Deze verbazingwekkende hoeveelheid omvatte 300 KB aan genoomgegevens van de mens. Met deze snelheid van gegevensproductie kan worden geschat dat tegen 2018 ongeveer één exabyte aan gegevens zal worden geproduceerd. Dit komt door de groei van sequencers, die meer en meer gegevens per run zullen produceren. Een andere reden is de komst van extreem krachtige en goedkope genoomsequencingmachines. Sinds 2008 is de prijs van deze machines gestaag gedaald. Dit komt door krachtige machines van de volgende generatie die de markt in zijn gegaan.

De behoeften van de Genome Mapping Industry

Complexe algoritmen worden gebruikt voor het verwerken van de gegevens die zijn verzameld uit het menselijk genoom. Vervolgens moet deze informatie worden opgeslagen. Het kan in de toekomst worden herzien voor vergelijking met de originele gegevens. De taak van het verwerken en opslaan van 100 GB aan gegevens is niet al te moeilijk, vooral wanneer u het doet met de krachtige machines die in de sequencing centra worden gebruikt. Studies tonen aan dat deze hoeveelheid gegevens in slechts ongeveer 1.000 CPU-uren kan worden verwerkt, dus het is heel eenvoudig. Met deze snelheid van technische vooruitgang is het duidelijk dat de genoomindustrie binnenkort duizenden gigabytes in slechts enkele seconden zal verwerken.

Waarom hadoop een perfecte match is voor genoomsequencing