Huis Hardware Big iron, ontmoet big data: bevrijd mainframe data met hadoop en spark

Big iron, ontmoet big data: bevrijd mainframe data met hadoop en spark

Anonim

Door Techopedia Staff, 2 juni 2016

Afhaalmaaltijden: het Hadoop-ecosysteem wordt op mainframes gebruikt om big data snel en efficiënt te verwerken.

Je bent momenteel niet ingelogd. Log in of meld je aan om de video te bekijken.

Eric Kavanagh: Oké dames en heren, het is donderdag om vier uur Eastern en tegenwoordig betekent dit natuurlijk dat het tijd is voor Hot Technologies. Ja inderdaad, mijn naam is Eric Kavanagh. Ik zal je moderator zijn voor het webseminar van vandaag. Het is goed spul, mensen, "Big Iron, Meet Big Data" - ik hou gewoon van die kop - "Mainframe-gegevens bevrijden met Hadoop en Spark." We gaan het hebben over oud ontmoet nieuw. Wauw! We dekken het spectrum van alles waar we het over hebben gehad in de laatste 50 jaar van enterprise IT. Vonk ontmoet mainframe, ik vind het geweldig.

Er is echt een plekje in het jouwe en genoeg in mij. Het is een warm jaar. We praten over populaire onderwerpen in deze serie omdat we echt proberen mensen te helpen bepaalde disciplines, bepaalde ruimtes te begrijpen. Wat betekent het bijvoorbeeld om een ​​analytisch platform te hebben? Wat betekent het om big data te bevrijden van mainframes? Wat betekent al dit spul? We proberen u te helpen specifieke soorten technologieën te begrijpen, waar ze in de mix passen en hoe u er gebruik van kunt maken.

We hebben vandaag twee analisten en dan natuurlijk Tendü Yogurtçu van Syncsort. Ze is een visionair in onze ruimte, erg blij dat ze vandaag online is, met onze eigen Dez Blanchfield en Dr. Robin Bloor. Ik zal alleen een paar snelle woorden zeggen. De ene is dat, mensen, jullie een grote rol spelen in dit proces, dus wees niet verlegen en stel goede vragen. We willen hen graag bereiken tijdens de Q&A component van de webcast, die meestal aan het einde van de show is. En alles wat ik te zeggen heb is dat we veel goede inhoud hebben, dus ik ben opgewonden om te horen wat deze jongens te zeggen hebben. En daarmee ga ik het overhandigen aan Dez Blanchfield. Dez, de vloer is van jou, haal hem weg.

Dez Blanchfield: Bedankt Eric, en iedereen bedankt voor je aanwezigheid vandaag. Dus ik word behoorlijk opgewonden als ik de kans krijg om te praten over een van mijn favoriete dingen ter wereld, mainframes. Ze krijgen tegenwoordig niet veel liefde. Mijn mening is dat het mainframe het originele big data-platform was. Sommigen beweren dat ze destijds de enige computer waren en dat is een redelijk punt om te maken, maar nu zijn ze al meer dan 60 jaar echt de machinekamer van wat big data de laatste tijd populair is geworden. En ik ga je meenemen op een korte reis waarom ik denk dat dat het geval is.

We hebben een reis in de technologie-hardwarestapels gezien in de context van mainframes verschuiven van het beeld dat u nu op het scherm ziet. Dit is een oud FACOM-mainframe, een van mijn favorieten. We hebben ons verplaatst naar de grote ijzeren fase, de late jaren negentig en de dot-com boom. Dit is de Sun Microsystems E10000. Dit ding was een absoluut monster met 96 CPU's. Oorspronkelijk 64, maar het zou kunnen worden opgewaardeerd met 96 CPU's. Elke CPU kan 1.024 threads uitvoeren. Elke thread kan tegelijkertijd een toepassingssnelheid hebben. Het was gewoon monsterlijk en het voedde de dot-com-boom echt. Dit zijn alle grote eenhoorns zoals we ze noemen, nu zijn we actief, en niet alleen de grote ondernemingen, sommige van de grote websites.

En toen kwamen we bij dit gemeenschappelijke standaard-pc-basisproductmodel. We hebben gewoon veel goedkope machines aan elkaar vastgebonden en we hebben een cluster gemaakt en we hebben de grote ijzeren uitdaging en wat big data werd, benaderd, met name in de vorm van het Hadoop-project dat de open source-zoekmachine Nutch opleverde. En we hebben in wezen het mainframe nagebootst en veel kleine CPU's aan elkaar gelijmd en in staat zijn om als L-paden te werken en in de vorm van afzonderlijke taken of delen van taken uit te voeren en ze waren op veel manieren behoorlijk effectief. Goedkoper als je kleiner begon, maar veel van deze grote clusters zijn altijd duurder geworden dan een mainframe.

Mijn mening over deze dingen is dat in de haast van de dot-com boom tot wat Web 2.0 werd en nu eenhoorns achtervolgt, we zijn vergeten dat dit platform nog steeds veel van onze grootste missiekritieke systemen aandrijft. Als we nadenken over wat er op de mainframe-platforms draait. Het zijn heel veel big data, met name het gegevenswerkpaard, maar zeker big data. Traditionele bedrijfs- en overheidssystemen zoals bankieren en vermogensbeheer en verzekeringen in het bijzonder, gebruiken we allemaal elke dag.

Luchtvaartboekingsystemen en vluchtbeheersystemen, met name vluchtbeheer waar realtime kritiek is. Bijna elke staat en federale overheid heeft ooit een mainframe gehad en steevast hebben ze die nog steeds. Detailhandel en productie. Een deel van de oude software die er zojuist is geweest en nooit is verdwenen. Gaat gewoon door met productie-omgevingen en zeker op schaal. Medische systemen. Defensiesystemen, zeker verdedigingssystemen.

De afgelopen weken heb ik veel artikelen gelezen over het feit dat sommige van de raketcontrolesystemen allemaal nog op oude mainframes draaien waarvoor ze moeite hebben om onderdelen te vinden. Ze zoeken uit hoe ze kunnen upgraden naar nieuwe mainframes. Transport- en logistieke systemen. Dit klinkt misschien niet als de sexy onderwerpen, maar dit zijn de onderwerpen waar we dagelijks mee te maken hebben. En sommige zeer grote telecommunicatie-omgevingen worden nog steeds op mainframe-platforms uitgevoerd.

Als je nadenkt over de soorten gegevens die er zijn, zijn ze allemaal missiekritisch. Het zijn echt belangrijke platforms en platforms die we elke dag als vanzelfsprekend beschouwen en maken het leven op veel manieren mogelijk. Dus wie gebruikt er nog steeds een mainframe en wie zijn al die mensen die deze grote platforms vasthouden en al deze gegevens bewaren? Welnu, zoals ik hier zei, geloof ik dat het gemakkelijk is om voor de gek te worden gehouden door de verschuiving van de media van groot ijzer naar rekken met gangbare standaardclusters of goedkope pc's of x86-machines, door te denken dat het mainframe is overleden en is verdwenen. Maar de gegevens zeggen dat het mainframe nooit is verdwenen en in feite is het hier om te blijven.

Uit het onderzoek dat ik hier de afgelopen weken heb samengesteld, is gebleken dat 70 procent van de gegevens van ondernemingen, met name grote ondernemingen, zich nog steeds op een mainframe van een of andere vorm bevindt. Eenenzeventig procent van de Fortune 500's draait nog steeds ergens kernbedrijfssystemen op mainframes. In feite hebben we hier in Australië een aantal organisaties met een datacenter midden in een stad. Het is een echte ondergrondse computer, en het aantal mainframes dat er gewoon draait, tikt en doet zijn werk graag. En heel weinig mensen weten dat er, als ze door de straten lopen, recht onder hun voeten in een bepaald deel van de stad, een enorm datacenter vol mainframes is. Tweeënnegentig van de 100 banken over de hele wereld, dat wil zeggen de top 100 banken, hebben nog steeds banksystemen op mainframes. Drieëntwintig van de top 25 retailketens over de hele wereld gebruiken mainframes om hun retailmanagementsystemen nog steeds in EIP- en BI-platforms te gebruiken.

Interessant is dat 10 van de top 10 verzekeraars hun platformen nog steeds op mainframe draaien en hun cloudservices op mainframe aandrijven. Als u een webinterface of een mobiele app gebruikt ergens waar middleware een interface is, die in feite met iets heel zwaar en groots aan de achterkant praat.

Ik vond nog steeds meer dan 225 nationale en lokale overheidsinstanties die op mainframe-platforms actief waren. Ik weet zeker dat daar veel redenen voor zijn. Misschien hebben ze niet het budget om nieuw ijzer te overwegen, maar dat is een enorme voetafdruk van zeer grote omgevingen die op mainframe draaien met een aantal zeer kritische gegevens. En zoals ik al eerder zei, draaien de meeste landen nog steeds hun belangrijkste verdedigingssystemen op mainframe. Ik weet zeker dat ze daar op veel manieren proberen weg te komen, maar daar ga je.

In 2015 heeft IDC een onderzoek uitgevoerd en 350 van de ondervraagde CIO's meldden dat ze nog steeds groot ijzer hadden en beheren in de vorm van mainframes. En het viel me op dat het waarschijnlijk is dat het meer is dan het aantal grootschalige Hadoop-clusters die momenteel wereldwijd in productie zijn - een interessant statistiekje daar. Ik ga door en valideer dat, maar het was een groot aantal. Driehonderdvijftig CIO's melden dat ze nog een of meer mainframes in productie hebben.

Vorig jaar 2015 gaf IBM ons de machtige Z13, de 13e iteratie van hun mainframe-platform. De media werden hier helemaal gek van, omdat ze verbaasd waren dat IBM nog steeds mainframes maakte. Toen ze de motorkap optilden en een kijkje namen naar wat er onder zat, realiseerden ze zich dat het eigenlijk te vergelijken was met bijna elk modern platform waar we enthousiast over waren geworden in de vorm van big data, Hadoop en zeker de clusters. Dit ding draaide Spark en nu Hadoop native. Je zou er duizenden en duizenden Linux-machines op kunnen draaien en het zag eruit en voelde als elk ander cluster. Het was nogal een verbazingwekkende machine.

Een aantal organisaties heeft deze dingen overgenomen en in feite heb ik wat gegevens verzameld over hoeveel van deze machines het opnemen. Nu was ik van mening dat de 3270-tekstterminal al geruime tijd werd vervangen door webbrowsers en mobiele apps en dat er veel gegevens zijn die dat ondersteunen. Ik denk dat we nu een tijdperk ingaan waarin we ons hebben gerealiseerd dat deze mainframes niet verdwijnen en dat er een aanzienlijke hoeveelheid gegevens op staat. Dus wat we nu doen, is eenvoudigweg toevoegen wat ik off-the-shelf analysetools noem. Dit zijn geen op maat gemaakte apps. Dit zijn dingen die op maat worden gemaakt. Dit zijn dingen die je vrij letterlijk gewoon in een verpakte doos kunt kopen en op je mainframe kunt aansluiten en wat analyses kunt doen.

Zoals ik al eerder zei, het mainframe bestaat al meer dan 60 jaar. Als we bedenken hoe lang dat is, is dat langer dan de carrière van de meeste levende IT-professionals. En in feite waarschijnlijk zelfs een deel van hun leven. In 2002 verkocht IBM 2.300 mainframes. In 2013 groeide dat uit tot 2.700 mainframes. Dat is 2.700 verkopen van mainframes in één jaar in 2013. Ik kon geen nauwkeurige gegevens over 2015 krijgen, maar ik veronderstel dat het snel de bijna 3.000 verkochte eenheden per jaar in 2015, 2013 benadert. En ik kijk ernaar uit om dat te bevestigen.

Met de release van de Z13, de 13e iteratie van een mainframe-platform, waarvan ik denk dat ze ongeveer 1, 2 of 1, 3 miljard dollar heeft gekost om helemaal opnieuw te ontwikkelen, dat wil zeggen IBM, hier is een machine die eruit ziet en aanvoelt als elke andere cluster die we hebben vandaag de dag, en runnen native Hadoop en Spark. En kan zeker worden verbonden met van andere analyse- en big data-tools of steevast worden verbonden met een van uw bestaande of nieuwe Hadoop-clusters. Ik ben van mening dat het opnemen van het mainframeplatform in uw big data-strategie een must is. Als je er een hebt, heb je natuurlijk veel gegevens en wil je erachter komen hoe je die daar kunt krijgen. En ze worden achtergelaten om op vele manieren stof te verzamelen, mentaal en emotioneel wat de zakenwereld betreft, maar ze zijn er om te blijven.

Connectiviteit en interfaces voor al uw analysehulpmiddelen met door mainframes gehoste gegevens zouden een belangrijk onderdeel van uw onderneming moeten zijn, en met name de plannen voor big data van de overheid. En steevast merkt de software ze nu op, bekijkt ze goed en realiseert zich wat er in deze dingen zit en verbindt ze die een beetje inzicht beginnen te krijgen en een beetje een gevoel krijgen voor wat er eigenlijk onder de motorkap zit. En daarmee ga ik het overhandigen aan mijn beste collega, Dr. Robin Bloor en hij zal toevoegen aan die kleine reis. Robin, haal het weg.

Robin Bloor: Nou, bedankt. Oké, aangezien Dez het nummer van het mainframe heeft gezongen, zal ik ingaan op wat ik denk dat er gebeurt in termen van de oude mainframe-wereld en de nieuwe Hadoop-wereld. Ik denk dat de grote vraag hier is, hoe beheer je al die gegevens? Het is niet mijn mening dat het mainframe wordt uitgedaagd met betrekking tot zijn big data-capaciteit - de big data-capaciteit is extreem, zoals Dez heeft opgemerkt, het is zeer capabel. Eigenlijk kun je er Hadoop-clusters op plaatsen. Waar het wordt uitgedaagd is in termen van zijn ecosysteem en ik zal daar een beetje op ingaan.

Hier is wat positionering van het mainframe. Het heeft hoge instapkosten en wat er eigenlijk in het verleden is gebeurd, sinds het midden van de jaren 90, toen de populariteit van de mainframes begon te dalen, heeft het de neiging om zijn low-end te verliezen, die mensen die goedkope mainframes hadden gekocht en het was niet is niet echt bijzonder economisch voor die mensen. Maar hoger eigenlijk in het middenbereik en het hoge bereik van het mainframe was het nog steeds, en aantoonbaar eigenlijk, ongelooflijk goedkoop computergebruik.

Het moet gezegd worden gered door Linux omdat Linux geïmplementeerd op een mainframe het natuurlijk mogelijk maakte om alle Linux-applicaties te draaien. Veel Linux-applicaties gingen erheen voordat big data zelfs maar een woord was, of twee woorden denk ik. Het is eigenlijk een redelijk uitstekend platform voor private cloud. Daarom kan het deelnemen aan hybride cloud-implementaties. Een van de problemen is dat mainframevaardigheden schaars zijn. De mainframevaardigheden die er zijn, worden in feite ouder, in die zin dat mensen jaar na jaar de sector verlaten om met pensioen te gaan en alleen worden vervangen in termen van het aantal mensen. Dus dat is een probleem. Maar het is nog steeds goedkoop computergebruik.

Het gebied waar het wordt uitgedaagd is natuurlijk dit hele Hadoop-gedoe. Dat is een foto van Doug Cutting met de originele Hadoop-olifant. Het Hadoop-ecosysteem is en blijft het dominante big data-ecosysteem. Het biedt een betere schaalvergroting dan het mainframe daadwerkelijk kan bereiken en het is veel goedkoper als datastore. Het Hadoop-ecosysteem evolueert. De beste manier om hierover na te denken is wanneer een bepaald hardwareplatform eenmaal is gedomineerd en de besturingsomgeving daarmee dominant wordt, waarna het ecosysteem tot leven komt. En dat gebeurde met het IBM-mainframe. Nou, gebeurde later met de Digital VAX, gebeurde met de servers van Sun, gebeurde met Windows, gebeurde met Linux.

En wat er is gebeurd, is dat het ecosysteem, dat ik altijd als een soort gedistribueerde omgeving voor gegevens beschouw, of er graag aan denk, in een ongelooflijk tempo evolueert. Ik bedoel, als je alleen de verschillende indrukwekkende bijdragen noemt die open source zijn, Spark, Flink, Kafka, Presto, en dan voeg je daar enkele databases aan toe, de NoSQL- en SQL-mogelijkheden die nu op Hadoop zitten. Hadoop is het meest actieve ecosysteem dat er echt bestaat, zeker in bedrijfscomputers. Maar als u het als een database wilt behandelen, is het op dit moment gewoon niet te vergelijken met wat ik meestal als echte databases beschouw, vooral in de datawarehouse-ruimte. En dat verklaart tot op zekere hoogte het succes van een aantal grote NoSQL-databases die niet op Hadoop draaien zoals CouchDB enzovoort.

Als datameer heeft het een veel rijker ecosysteem dan enig ander platform en het zal daar niet van worden verdrongen. Het ecosysteem is niet alleen het open-source ecosysteem. Er is nu een dramatisch aantal softwareleden met producten die fundamenteel zijn gebouwd voor Hadoop of zijn geïmporteerd in Hadoop. En ze hebben zojuist een ecosysteem gecreëerd dat er niets is dat ermee kan concurreren in termen van zijn breedte. En dat betekent echt dat het het platform is geworden voor big data-innovatie. Maar naar mijn mening is het nog steeds onvolwassen en we kunnen lange discussies voeren over wat wel en niet operationeel volwassen is met Hadoop, maar ik denk dat de meeste mensen die naar dit specifieke gebied kijken zich er terdege van bewust zijn dat Hadoop tientallen jaren achterloopt op het mainframe in termen van operationele capaciteit.

Het zich ontwikkelende datameer. Het datameer is per definitie een platform en als je denkt dat er nu een datalaag in bedrijfscomputing is, is het heel gemakkelijk om het te zien in termen van de vaste databases plus het datameer waaruit de datalaag bestaat. Data lake-toepassingen zijn talrijk en gevarieerd. Ik heb hier een diagram dat gewoon de verschillende gegevens doorwerkt die moeten worden gedaan als je Hadoop als een verzamelgebied gebruikt of Hadoop en Spark als een verzamelgebied. En u hebt alles in huis - datalijn, gegevensopruiming, metadatabeheer, metadatadetectie - het kan voor ETL zelf worden gebruikt, maar vereist vaak ETL om de gegevens binnen te brengen. Stamgegevensbeheer, zakelijke definities van gegevens, servicebeheer van wat er gebeurt in Hadoop, levenscyclusbeheer van gegevens en ETL vanuit de Hadoop, en je hebt ook directe analysetoepassingen die je op Hadoop kunt uitvoeren.

En daarom is het zeer krachtig geworden en waar het met succes is geïmplementeerd en geïmplementeerd, normaal gesproken heeft het op zijn minst een verzameling van dit soort applicaties er bovenop. En de meeste van die toepassingen, met name de toepassingen waarover ik ben ingelicht, zijn momenteel niet beschikbaar op het mainframe. Maar je zou ze op het mainframe kunnen uitvoeren, op een Hadoop-cluster dat in een partitie van het mainframe liep.

Naar mijn mening wordt het datameer het natuurlijke verzamelgebied voor snelle databaseanalyses en voor BI. Het wordt de plaats waar u de gegevens opneemt, of het nu bedrijfsgegevens of externe gegevens zijn, ermee knoeien totdat het, laten we zeggen, schoon genoeg is om te gebruiken en goed gestructureerd is om te gebruiken en vervolgens door te geven. En dit alles staat nog in de kinderschoenen.

Het idee, naar mijn mening, van co-existentie van mainframe / Hadoop, het eerste is dat het onwaarschijnlijk is dat grote bedrijven het mainframe verlaten. De indicaties die ik onlangs heb gezien, impliceren in feite dat er een stijgende investering is in het mainframe. Maar ze gaan het Hadoop-ecosysteem ook niet negeren. Ik zie cijfers van 60 procent van grote bedrijven die Hadoop gebruiken, ook al zijn veel van hen eigenlijk alleen maar prototypes en experimenten.

Het raadsel is dan: "Hoe maak je deze twee dingen naast elkaar?" Omdat ze gegevens moeten delen. Gegevens die in het datameer worden gebracht, moeten ze naar het mainframe overbrengen. Gegevens die zich op het mainframe bevinden, moeten mogelijk naar het gegevensmeer of via het gegevensmeer gaan om te worden samengevoegd met andere gegevens. En dat gaat gebeuren. En dat betekent dat het snelle gegevensoverdracht / ETL-mogelijkheden vereist. Het is onwaarschijnlijk dat werkbelastingen dynamisch worden gedeeld in, laten we zeggen, een mainframe-omgeving of met iets in een Hadoop-omgeving. Het worden gegevens die worden gedeeld. En het merendeel van de gegevens zal onvermijdelijk op Hadoop verblijven, simpelweg omdat het daarvoor het goedkoopste platform is. En de end-to-end analytische verwerking zal daar waarschijnlijk ook verblijven.

Samenvattend moeten we uiteindelijk denken in termen van een bedrijfsdatalaag, die voor veel bedrijven het mainframe zal omvatten. En die gegevenslaag moet proactief worden beheerd. Anders zullen de twee niet goed naast elkaar bestaan. Ik kan de bal teruggeven aan jou Eric.

Eric Kavanagh: Nogmaals, Tendü, ik heb je net tot presentator gemaakt, dus neem het mee.

Tendü Yogurtçu: Bedankt, Eric. Bedankt dat ik mocht komen. Hallo iedereen. Ik zal het hebben over de Syncsort-ervaring met de klanten met betrekking tot hoe we de gegevens als een actief in de organisatie zien, van mainframe tot big data op analyseplatforms. En ik hoop dat we aan het einde van de sessie ook tijd hebben om vragen van het publiek te hebben, want dat is echt het meest waardevolle deel van deze webcasts.

Alleen voor mensen die niet weten wat Syncsort doet, is Syncsort een softwarebedrijf. We bestaan ​​al meer dan 40 jaar. Begonnen aan de mainframe-kant en onze producten variëren van mainframe tot Unix tot big data-platforms, inclusief Hadoop, Spark, Splunk, zowel lokaal als in de cloud. Onze focus is altijd geweest op dataproducten, dataverwerking en data-integratieproducten.

Onze strategie met betrekking tot big data en Hadoop is echt vanaf de eerste dag onderdeel geworden van het ecosysteem. Als eigenaren van leveranciers die zich echt hebben gericht op gegevensverwerking met zeer lichte motoren, dachten we dat er een grote kans was om mee te doen aan Hadoop om een ​​gegevensverwerkingsplatform te worden en deel uit te maken van deze volgende generatie datawarehouse-architectuur voor de organisatie. Sinds 2011 leveren we een bijdrage aan de open-source Apache-projecten, beginnend met MapReduce. Stonden in de top tien van Hadoop versie 2 en namen daadwerkelijk deel aan meerdere projecten, waaronder Spark-pakketten. Sommige van onze connectoren worden gepubliceerd in Spark-pakketten.

We maken gebruik van onze zeer lichte dataverwerkingsengine, die volledig op platte bestanden gebaseerde metadata is en heel goed past bij de gedistribueerde bestandssystemen zoals Hadoop Distributed File System. En we benutten ons erfgoed op het mainframe, onze expertise met algoritmen bij het uitbrengen van onze big data-producten. En we werken nauw samen met de grote leveranciers, grote spelers hier, waaronder Hortonworks, Cloudera, MapR, Splunk. Hortonworks heeft onlangs aangekondigd dat ze ons product zullen verkopen voor ETL onboarding met Hadoop. Met Dell en Cloudera hebben we een zeer nauwe samenwerking die ook ons ​​ETL-product doorverkoopt als onderdeel van hun big data-apparaat. En met Splunk publiceren we eigenlijk een mainframe-telemetrie en beveiligingsgegevens in Splunk-dashboards. We hebben een hecht partnerschap.

Waar denkt elke leidinggevende op C-niveau aan? Het is echt: "Hoe maak ik gebruik van mijn gegevensactiva?" Iedereen heeft het over big data. Iedereen heeft het over Hadoop, Spark, het volgende computerplatform dat me kan helpen zakelijke flexibiliteit te creëren en nieuwe transformatieve toepassingen te openen. Nieuwe marktkansen. Elke leidinggevende denkt: "Wat is mijn datastrategie, wat is mijn data-initiatief en hoe zorg ik ervoor dat ik mijn concurrentie niet blijf en de komende drie jaar nog steeds op deze markt zit?" zie dit terwijl we met onze klanten spreken, zoals we met ons wereldwijde klantenbestand spreken, wat vrij groot is, zoals u zich kunt voorstellen, aangezien we al een tijdje bestaan.

Terwijl we met al deze organisaties spreken, zien we dit ook in de technologiestapel in de verstoring die met Hadoop plaatsvond. Het is echt om aan deze vraag naar gegevens als een actief te voldoen. Gebruikmaken van alle gegevens die een organisatie heeft. En we hebben de enterprise datawarehouse-architectuur zodanig zien evolueren dat Hadoop nu het nieuwe middelpunt van de moderne data-architectuur is. En de meeste van onze klanten, of het nu gaat om financiële diensten, of het nu gaat om verzekeringen, de telco van retail, de initiatieven zijn meestal ofwel vinden we dat Hadoop als een service of data als een service. Omdat iedereen probeert de gegevensactiva beschikbaar te maken voor hun externe klanten of interne klanten. En in sommige organisaties zien we initiatieven zoals bijna een datamarkt voor hun klanten.

En een van de eerste stappen om dat te bereiken, is het creëren van een enterprise data hub. Soms noemen mensen het een datameer. Het creëren van deze enterprise data hub is eigenlijk niet zo eenvoudig als het klinkt omdat het echt toegang tot en het verzamelen van vrijwel alle gegevens in de onderneming vereist. En die gegevens zijn nu afkomstig van alle nieuwe bronnen, zoals mobiele sensoren en legacy-databases, en bevinden zich in batchmodus en in streamingmodus. Gegevensintegratie is altijd een uitdaging geweest, met het aantal en de verscheidenheid aan gegevensbronnen en de verschillende afleveringsstijlen, of het nu in batch of streaming in realtime is, het is nu nog uitdagender in vergelijking met vijf jaar geleden, tien jaar geleden. We noemen het soms: "Het is niet meer de ETL van je vader."

Dus we praten over de verschillende gegevensactiva. Omdat ondernemingen proberen de nieuwe gegevens, de gegevens die ze van de mobiele apparaten verzamelen, te begrijpen, of het nu de sensoren in een autofabrikant zijn of de gebruikersgegevens voor een mobiel gamingbedrijf, moeten ze vaak verwijzen naar de meest kritieke gegevensactiva in de onderneming, bijvoorbeeld klantinformatie. Deze meest kritieke gegevensactiva leven vaak op het mainframe. Correlatie van mainframegegevens met deze opkomende nieuwe bronnen, verzameld in de cloud, verzameld via mobiel, verzameld op de productielijn van een Japans autobedrijf, of internet of things-toepassingen, moet deze nieuwe gegevens begrijpen door te verwijzen naar hun oude datasets. En die oude datasets staan ​​vaak op het mainframe.

En als deze bedrijven dat niet kunnen, niet kunnen profiteren van de mainframegegevens, dan is er een gemiste kans. Dan is de data als een service, of het benutten van alle enterprise data, niet echt een oplossing voor de meest kritieke activa in de organisatie. Er is ook het telemetrie- en beveiligingsgegevensgedeelte, omdat vrijwel alle transactionele gegevens op het mainframe staan.

Stel je voor dat je naar een geldautomaat gaat, ik denk dat een van de aanwezigen een bericht naar de deelnemers hier heeft gestuurd voor het beschermen van het banksysteem, wanneer je je kaart veegt dat transactiegegevens vrijwel overal op het mainframe staan. En het beveiligen en verzamelen van de beveiligingsgegevens en telemetriegegevens van mainframes en deze beschikbaar maken via Splunk-dashboards of andere, Spark, SQL, wordt nu kritischer dan ooit, vanwege het volume van de gegevens en de verscheidenheid aan gegevens.

Skill sets is een van de grootste uitdagingen. Omdat je enerzijds een snel veranderende big data-stack hebt, weet je niet welk project gaat overleven, welk project niet gaat overleven, moet ik ontwikkelaars van Hive of Pig inhuren? Moet ik investeren in MapReduce of Spark? Of het volgende, Flink, zei iemand. Moet ik investeren in een van deze computerplatforms? Aan de ene kant is het een uitdaging om het snel veranderende ecosysteem bij te houden, en aan de andere kant heb je deze verouderde gegevensbronnen. De nieuwe vaardigheden komen niet echt overeen en je hebt misschien een probleem omdat die middelen mogelijk met pensioen gaan. Er is een grote kloof in de vaardigheden van mensen die deze oude datastacks begrijpen en die de opkomende technologiestack begrijpen.

De tweede uitdaging is het bestuur. Wanneer u echt toegang hebt tot alle bedrijfsgegevens op verschillende platforms, hebben we klanten die hun bezorgdheid uiten: "Ik wil niet dat mijn gegevens terechtkomen. Ik wil niet dat mijn gegevens op meerdere plaatsen worden gekopieerd, omdat ik de meerdere kopieën zoveel mogelijk wil vermijden. Ik wil end-to-end toegang hebben zonder het daar in het midden te laten belanden. ”Het beheren van deze gegevens wordt een uitdaging. En het andere is dat als je toegang hebt tot gegevens die knelpunten vormen, als je de meeste van je gegevens in de cloud verzamelt en toegang krijgt tot oude gegevens en ernaar verwijst, de netwerkbandbreedte een probleem wordt, een clusterplatform. Er zijn veel uitdagingen met betrekking tot dit big data-initiatief en geavanceerde analyseplatforms en toch alle bedrijfsgegevens benutten.

Wat Syncsort aanbiedt, is dat we 'gewoon de beste' worden genoemd, niet omdat we gewoon de beste zijn, maar onze klanten noemen ons echt gewoon de beste in het benaderen en integreren van mainframegegevens. We ondersteunen alle gegevensindelingen van het mainframe en stellen deze beschikbaar voor de analyse van big data. Of dat nu op Hadoop of Spark is of op het volgende computerplatform. Omdat onze producten echt de complexiteit van het computerplatform isoleren. Je bent, als ontwikkelaar, potentieel aan het ontwikkelen op een laptop, je richt je op de datapijplijn en wat zijn de datapreparaten, de stappen om deze data te maken voor de analyse, de volgende fase, en neem dezelfde applicatie in MapReduce of neem die dezelfde applicatie rond in Spark.

We hebben onze klanten daarbij geholpen toen YARN beschikbaar kwam en zij hun applicaties moesten verplaatsen van MapReduce versie 1 naar YARN. We helpen hen hetzelfde te doen met Apache Spark. Ons product, nieuwe release 9, werkt ook met Spark en wordt geleverd met een dynamische optimalisatie die deze applicaties isoleert voor toekomstige computerframeworks.

We hebben dus toegang tot mainframegegevens, of het nu VSAM-bestanden zijn, DB2 of telemetriegegevens, zoals SMF-records of Log4j of syslogs, die moeten worden gevisualiseerd via Splunk-dashboards. En terwijl dat gebeurt, omdat de organisatie gebruik kan maken van hun bestaande data engineer- of ETL-vaardigheden, wordt de ontwikkeltijd aanzienlijk verkort. In feite was er met Dell en Cloudera een onafhankelijke benchmark gesponsord en die benchmark was gericht op ontwikkeltijd die nodig is als u handcodering uitvoert of andere tools zoals Syncsort gebruikt, en het was ongeveer 60, 70 procent reductie in de ontwikkeltijd . Het overbruggen van de vaardigheidskloof tussen groepen, tussen die databestandhosts, en ook die databestandhosts in termen van de mensen.

Meestal spreekt het big data-team, of het data-ingestapteam, of het team dat deze gegevens moet ontwikkelen als een service-architectuur, niet noodzakelijkerwijs met het mainframe-team. Ze willen die interactie bijna in veel van de organisaties minimaliseren. Door die kloof te dichten zijn we vooruitgegaan. En het belangrijkste onderdeel is echt het hele proces beveiligen. Omdat er in de onderneming veel vereisten zijn wanneer u met dit soort gevoelige gegevens te maken heeft.

In sterk gereguleerde sectoren zoals verzekeringen en banken vragen onze klanten: “U biedt deze mainframe datatoegang en dat is geweldig. Kun je me ook aanbieden om dit EBCDIC-gecodeerde recordformaat in het originele formaat te bewaren zodat ik aan mijn auditvereisten kan voldoen? ”Dus laten we Hadoop en Apache Spark de mainframegegevens begrijpen. U kunt de gegevens in het oorspronkelijke recordformaat houden, uw verwerkings- en niveausverdelercomputerplatform uitvoeren en als u dat terug moet zetten, kunt u aantonen dat het record niet is gewijzigd en het recordformaat niet is gewijzigd, kunt u voldoen aan de wettelijke vereisten .

En de meeste organisaties, terwijl ze de datahub of datameer creëren, proberen dit ook met een enkele klik te doen om metadata van honderden schema's in een Oracle-database te kunnen toewijzen aan Hive-tabellen of ORC- of parketbestanden noodzakelijk wordt. We verzenden tools en we bieden tools om dit een eenstaps gegevenstoegang te maken, automatisch genereren van taken of de gegevensbeweging en automatisch genereren van taken om de datamapping te maken.

We hebben gesproken over het connectiviteitsgedeelte, de compliance, de governance en de gegevensverwerking. En onze producten zijn zowel op locatie als in de cloud beschikbaar, wat het echt heel eenvoudig maakt omdat de bedrijven niet hoeven na te denken over wat er het komende jaar of twee gaat gebeuren als ik besluit om volledig in public cloud versus hybride te gaan omgeving, omdat sommige van de clusters mogelijk op locatie of in de cloud worden uitgevoerd. En onze producten zijn beschikbaar op Amazon Marketplace, op EC2, Elastic MapReduce en ook in een Docker-container.

Om het af te ronden, dus we hebben genoeg tijd voor Q&A, het gaat echt om toegang tot, integratie van en naleving van het gegevensbeheer, maar dit alles eenvoudiger te maken. En terwijl dit eenvoudiger wordt, "eenmaal ontwerpen en overal implementeren" in echte zin vanwege onze open-sourcebijdragen, draait ons product native in Hadoop-gegevensstroom en native met Spark, waardoor de organisaties worden geïsoleerd van het snel veranderende ecosysteem. En het bieden van een enkele datapijplijn, een enkele interface, zowel voor batch als streaming.

En dit helpt organisaties ook om soms deze frameworks te evalueren, omdat u misschien daadwerkelijk applicaties wilt maken en gewoon op MapReduce versus Spark wilt draaien en het zelf wilt zien, ja, Spark heeft deze belofte en biedt alle vooruitgang op het gebied van iteratieve algoritmen voor het beste machine learning en voorspellende analysetoepassingen werken met Spark. Kan ik mijn streaming- en batchworkloads ook laten uitvoeren op dit computerraamwerk? U kunt verschillende computerplatforms testen met behulp van onze producten. En de dynamische optimalisatie, of u nu op een zelfstandige server, op uw laptop, in Google Cloud versus Apache Spark draait, is echt een waardevol voorstel voor onze klanten. En het werd echt gedreven door de uitdagingen die ze hadden.

Ik zal slechts één van de casestudy's behandelen. Dit is Guardian Life Insurance Company. En het initiatief van Guardian was echt om hun gegevensactiva te centraliseren en beschikbaar te maken voor hun klanten, de tijd voor gegevensvoorbereiding te verkorten en ze zeiden dat iedereen het heeft over gegevensvoorbereiding die 80 procent van de totale pijplijn voor gegevensverwerking kostte en ze zeiden dat het eigenlijk 75 tot 80 procent voor hen en ze wilden die gegevensvoorbereiding, transformatietijden en time-to-market voor analyseprojecten verminderen. Creëer die flexibiliteit terwijl ze nieuwe gegevensbronnen toevoegen. En die gecentraliseerde gegevenstoegang beschikbaar maken voor al hun klanten.

Hun oplossing, inclusief Syncsort-producten, is op dit moment dat ze een Amazon Marketplace-achtige datamarkt hebben die wordt ondersteund door een datameer, dat eigenlijk Hadoop is, en NoSQL-database. En ze gebruiken onze producten om alle gegevens naar het datameer te brengen, inclusief DB2 op mainframe, inclusief VSAM-bestanden op mainframe, en de database legacy-gegevensbronnen en de nieuwe gegevensbronnen. En als gevolg daarvan hebben ze de herbruikbare gegevensmiddelen gecentraliseerd die doorzoekbaar, toegankelijk en beschikbaar zijn voor hun klanten. En ze zijn echt in staat om de nieuwe gegevensbronnen toe te voegen en hun klanten veel sneller en efficiënter te bedienen dan voorheen. En de analyse-initiatieven vorderen zelfs meer aan de voorspellende kant. Dus ik zal pauzeren en ik hoop dat dit nuttig was en als je vragen hebt over een van de gerelateerde onderwerpen, ben je van harte welkom.

Eric Kavanagh: Tuurlijk, en Tendü, ik zal er gewoon een ingooien. Ik kreeg een opmerking van een publiekslid met de opmerking: "Ik vind dit ontwerp een keer leuk, implementeer het overal." "Kun je een beetje ingaan op hoe dat waar is? Ik bedoel, wat heb je gedaan om dat soort behendigheid mogelijk te maken en is er belasting? Zoals wanneer we het bijvoorbeeld hebben over virtualisatie, is er altijd een beetje belasting op prestaties. Sommige mensen zeggen twee procent, vijf procent 10 procent. Wat u hebt gedaan om het ontwerp eenmaal mogelijk te maken, overal te implementeren - hoe doet u het en is er belasting verbonden aan de prestaties?

Tendü Yogurtçu: Natuurlijk, bedankt. Nee, omdat we, in tegenstelling tot sommige andere leveranciers, niet echt Hive of Pig of een andere code genereren die niet in onze zoekmachines voorkomt. Dit is waar onze open-sourcebijdragen een grote rol speelden, omdat we heel nauw hebben samengewerkt met Hadoop-leveranciers, Cloudera, Hortonworks en MapR en vanwege onze open-sourcebijdragen, draait onze motor eigenlijk als onderdeel van de stroom, als onderdeel van de Hadoop-stroom, als onderdeel van de vonk.

Wat dat ook vertaalt, we hebben deze dynamische optimalisatie. Dit was iets dat kwam doordat onze klanten werden uitgedaagd met computerraamwerken. Toen ze met een aantal van de applicaties in productie gingen, kwamen ze terug en zeiden: "Ik stabiliseer gewoon mijn Hadoop-cluster, stabiliseer op MapReduce YARN versie 2, MapReduce versie 2, en mensen praten dat MapReduce dood is, Spark is het volgende, en sommige mensen zeggen dat Flink het volgende zal zijn, hoe ga ik hier mee om? '

En die uitdagingen werden ons echt zo duidelijk, we hebben geïnvesteerd in het hebben van deze dynamische optimalisatie die we intelligente uitvoering noemen. Tijdens runtime, wanneer de taak, wanneer deze gegevenspijplijn wordt ingediend, op basis van het cluster, of het Spark is, of het MapReduce is of een zelfstandige Linux-server, beslissen we hoe we deze taak, native in onze engine, als onderdeel daarvan uitvoeren Hadoop of Spark gegevensstroom. Er is geen overhead omdat alles wordt gedaan via deze dynamische optimalisatie die we hebben en alles wordt ook gedaan omdat onze engine zo native is geïntegreerd vanwege onze open-source bijdragen. beantwoordt dat jouw vraag?

Eric Kavanagh: Ja, dat is goed. En ik wil daar nog een vraag opwerpen, en dan Dez, misschien trekken we jou en Robin ook mee. Ik kreeg zojuist een hilarische opmerking van een van onze aanwezigen. Ik zal het lezen omdat het echt heel pittig is. Hij schrijft: "Het lijkt erop dat in de geschiedenis van de dingen HEET" - snap je? Zoals IoT - "is dat hoe meer je probeert iets te 'vereenvoudigen' dat echt complex is, vaker wel dan niet hoe eenvoudiger het lijkt te doen, hoe er wordt meer hangende touw geleverd. Denk aan databasequery's, explosies, multi-threading, etc. ”Kun je een opmerking maken over deze paradox waarnaar hij verwijst? Eenvoud versus complexiteit, en wat gebeurt er eigenlijk onder de covers?

Tendü Yogurtçu: Natuurlijk. Ik vind dat een zeer geldig punt. Wanneer je dingen vereenvoudigt en deze optimalisaties doet, op een manier onder de dekens, moet iemand die complexiteit nemen van wat er moet gebeuren, toch? Als u iets verlamt of als u besluit hoe u een bepaalde taak uitvoert met betrekking tot het computerraamwerk, is er natuurlijk een deel van de taak dat wordt gepusht, of het nu aan de gebruikerskant is, menucodering of aan de motoroptimalisatie. Er is een deel van dat, door de gebruikerservaring te vereenvoudigen, er een enorm voordeel is wat betreft het kunnen benutten van vaardigheden die in de onderneming bestaan.

En je kunt die paradox een beetje verzachten, die uitdaging van: "Ja, maar ik heb geen controle over alles wat er gebeurt onder de kap, onder de motorkap in die motor, " door dingen bloot te stellen aan de meer geavanceerde gebruikers als ze wil dat soort controle hebben. Door ook te investeren in enkele van de soorten onderhoudsmogelijkheden. Meer operationele metadata kunnen aanbieden, meer operationele gegevens, zoals in het voorbeeld dat deze deelnemer gaf, voor een SQL-query en met draaiende motor. Ik hoop dat antwoorden.

Eric Kavanagh: Ja, dat klinkt goed. Dez, haal het weg.

Dez Blanchfield: ik wil heel graag wat meer inzicht krijgen in je voetafdruk in de open- sourcebijdragen en de reis die je hebt gemaakt vanuit je traditionele, langdurige ervaring in mainframe en de eigen wereld en dan de verschuiving naar bijdragen aan open source en hoe dat plaatsvond. En het andere dat ik graag wil begrijpen, is de mening die je ziet dat bedrijven, niet alleen IT-afdelingen, maar bedrijven nu rekening houden met datahubs of datameren zoals mensen nu zeggen en of ze deze trend van slechts één enkele, geconsolideerde datameer of of we gedistribueerde datameren zien en mensen tools gebruiken om ze samen te stellen?

Tendü Yogurtçu: Natuurlijk. Voor de eerste was dat een zeer interessante reis, als een softwarebedrijf, een van de eersten na IBM. Maar nogmaals, alles begon met onze evangelisten die naar Hadoop keken. We hadden databedrijven zoals ComScore, zij waren een van de eersten die Hadoop overnamen omdat ze digitale gegevens over de hele wereld verzamelden en 90 dagen aan gegevens niet konden bewaren tenzij ze een datawarehouse van tien miljoen dollar in hun milieu. Ze begonnen naar Hadoop te kijken. Daarmee begonnen we ook naar Hadoop te kijken.

En toen we een beslissing namen en erkenden dat Hadoop echt het dataplatform van de toekomst wordt, kwamen we ook tot het inzicht dat we hier geen toneelstuk in kunnen spelen, een succesvol stuk hierin, tenzij we waren een onderdeel van het ecosysteem. En we werkten heel nauw samen met Hadoop-verkopers, met Cloudera, Hortonworks, MapR, enz. We begonnen echt met hen te praten omdat partnerschap erg belangrijk wordt om de waarde van een leverancier te valideren en zorgt er ook voor dat we gezamenlijk naar de onderneming kunnen gaan en bieden iets meer betekenis. Het vereiste veel opbouw van relaties omdat we niet bekend waren bij de open source-projecten van Apache, maar we hadden grote steun van deze Hadoop-leveranciers, moet ik zeggen.

We begonnen samen te werken en naar de hub te kijken, hoe we waarde kunnen brengen zonder zelfs onze eigen software in de ruimte. Dat was belangrijk. Het gaat niet alleen om het plaatsen van enkele API's waarop uw product kan draaien, het is om te kunnen zeggen dat ik hierin zal investeren, omdat ik geloof dat Hadoop een platform van de toekomst wordt, dus door te investeren in de bronnen die we wilden maken zeker dat het volwassen wordt en klaar is voor de onderneming. We kunnen zelfs enkele gebruiksscenario's inschakelen die niet beschikbaar waren vóór onze bijdragen. Dat komt het hele ecosysteem ten goede en we kunnen die partnerschappen heel nauw ontwikkelen.

Het heeft behoorlijk wat tijd gekost. We zijn begonnen met bijdragen in 2011 en 2013, op 21 januari - ik herinner me de datum omdat die datum onze grootste bijdrage was, wat betekent dat we onze producten vanaf dat moment algemeen beschikbaar kunnen hebben - het heeft behoorlijk wat tijd gekost om die relaties te ontwikkelen, tonen de waarde, partners worden ontwerppartners met de leveranciers en met de committers in de open-sourcecommunity. Maar het was heel leuk. Het was voor ons als bedrijf erg de moeite waard om deel uit te maken van dat ecosysteem en een geweldig partnerschap te ontwikkelen.

De tweede vraag over de datahub / datameer, ik denk dat wanneer we deze gegevens in de meeste gevallen als een service-implementatie zien, ja, het misschien clusters zijn, fysiek enkele of meerdere clusters, maar het is meer conceptueel dan die ene plek worden voor alle gegevens. Omdat we in sommige organisaties grote clusterimplementaties op locatie zien, maar ze hebben ook clusters, bijvoorbeeld in de openbare cloud, omdat sommige van de gegevens die uit online secties worden verzameld, echt in de cloud worden bewaard. Het is mogelijk om een ​​enkele datapijplijn te hebben die u eigenlijk beide kunt gebruiken, en ze te gebruiken als een enkele datahub, één datameer, wordt belangrijk. Niet noodzakelijk alleen de fysieke plaats, maar het hebben van die datahub en datameer over clusters, over geografieën en misschien op locatie en cloud zal zeer kritisch zijn, denk ik. Vooral vooruit. Dit jaar begonnen we steeds meer cloud-implementaties te zien. Het is geweldig. De eerste helft van dit jaar tot nu toe hebben we veel cloudimplementaties gezien.

Eric Kavanagh: Oké, cool. En Robin, heb je nog vragen? Ik weet dat we nog maar een paar minuten over hebben.

Robin Bloor: Oké, ik kan haar een vraag stellen. Het eerste wat me opkwam is dat er veel opwinding was over Kafka en ik was geïnteresseerd in je mening over Kafka en hoe je integreert met de manier waarop mensen Kafka gebruiken?

Tendü Yogurtçu: Natuurlijk. Ja, Kafka wordt behoorlijk populair. Bij onze klanten zien we dat dat een soort van de datatransportlaag is en zagen we dat de data eigenlijk een bus is. Een van onze klanten gebruikte bijvoorbeeld een soort consumptiegegevens die in deze Kafka werden gepusht tussen meerdere, zoals duizenden online gebruikers, en die kunnen classificeren en doorsturen.

Nogmaals, Kafka is een gegevensbus naar de verschillende gebruikers van deze gegevens. Classificeer sommige geavanceerde gebruikers versus niet-zo-geavanceerde gebruikers en doe iets anders in de datapijplijn. Hoe we integreren met Kafka is eigenlijk dat ons product DMX-h een betrouwbare consument wordt, een zeer efficiënte, betrouwbare consument voor Kafka. Het kan de gegevens lezen en dit is niet anders dan het lezen van gegevens uit een andere gegevensbron voor ons. We geven gebruikers de mogelijkheid om het venster te beheren, hetzij in termen van de benodigde tijd of het aantal berichten dat ze van de Kafka-bus kunnen gebruiken. En dan kunnen we ook die gegevens verrijken terwijl deze door ons product gaan en teruggeduwd worden naar Kafka. We hebben dit getest. We hebben het vergeleken bij de klant. Ook gecertificeerd door Confluent. We werken nauw samen met de Confluent-jongens en het is zeer krachtig en gemakkelijk te gebruiken. Nogmaals, daar veranderen de API's, maar u hoeft zich geen zorgen te maken, omdat het product dat echt behandelt als gewoon een andere gegevensbron, een streaming gegevensbron. Het is best leuk om met ons product en Kafka te werken.

Robin Bloor: Oké, ik heb nog een vraag die gewoon een soort algemene zakelijke vraag is, maar ik ken Syncsort al lang en je hebt altijd de reputatie gehad en buitengewoon snelle software geleverd voor ETL en de mainframe-wereld. Is het zo dat het grootste deel van uw bedrijf nu wordt overgedragen aan Hadoop? Is het zo dat je op een of andere manier je bedrijf nogal dramatisch hebt verspreid vanuit de mainframe-wereld?

Tendü Yogurtçu: Onze mainframeproducten draaien nog steeds 50 procent van de mainframes wereldwijd. We hebben dus een zeer sterke mainframeproductlijn naast wat we doen op het gebied van big data en het Hadoop-einde. En we zitten nog steeds in de meeste IT-vereenvoudigings- of optimalisatieprojecten, omdat er één uiteinde is dat u in uw mainframegegevens in de big data Multex-platforms wilt kunnen benutten en alle bedrijfsgegevens wilt benutten, maar er zijn ook zeer kritische transactieworkloads die nog steeds op het mainframe draait en we bieden die klanten de manieren om die applicaties echt efficiënter te maken, draaien in de zIIP-engine zodat ze niet zoveel verwerkingscycli verbruiken en MIPS, waardoor ze kosteneffectief zijn.

We blijven investeren in de mainframeproducten en spelen daadwerkelijk in deze ruimte waar mensen van mainframe big iron naar big data gaan en de productlijn overspannen ook over die platforms. Dus we hoeven niet per se de hele onderneming naar één kant te verplaatsen, we blijven zeer succesvolle zaken aan beide kanten hebben. En de acquisities zijn ook een grote focus voor ons. Naarmate dit gegevensbeheer en de gegevensverwerkingsruimte voor de grote dataplatforms evolueren, zijn we ook toegewijd om heel wat gratis acquisities te doen.

Robin Bloor: Nou, ik denk dat ik je niet kan vragen wat ze zijn, want je zou het me niet mogen vertellen. Ik ben benieuwd of je veel implementaties van Hadoop of Spark op het mainframe hebt gezien of dat dit een zeer zeldzaam iets is.

Tendü Yogurtçu: We hebben er geen gezien. Daar is meer vraag over. Ik denk dat Hadoop op mainframe weinig zin had vanwege het soort kernstructuur. Spark op mainframe is echter behoorlijk betekenisvol en Spark is echt heel goed met machine learning en voorspellende analyses en het hebben van een aantal van die applicaties met mainframe-gegevens is volgens mij behoorlijk zinvol. We hebben nog niemand dat zien doen, maar het is echt de use case die deze dingen aandrijft. Als uw use case als bedrijf die mainframegegevens meer brengt en integreert met de rest van de datasets in het big data-platform, is dat één verhaal. Het vereist toegang tot de mainframegegevens van het big data Multex-platform omdat het onwaarschijnlijk is dat u uw gegevenssets uit open systemen haalt en terughaalt naar het mainframe. Als u echter enkele mainframegegevens hebt die u gewoon wilt verkennen en een beetje gegevensverkenningsontdekking wilt doen, wat geavanceerde AI en geavanceerde analyses wilt toepassen, is Spark misschien een goede manier om op die manier op het mainframe te draaien.

Eric Kavanagh: En hier is nog een vraag van het publiek, eigenlijk nog twee. Ik zal je een tag-team vraag geven, dan zullen we afronden. Een deelnemer vraagt: "Integreert IBM uw open-sourcebijdragen in zijn openbare cloud-ecosysteem, met andere woorden, de Bluemix?" En een andere deelnemer maakte een heel goed punt en merkte op dat Syncsort geweldig is om groot ijzer levend te houden voor degenen die al hebben, maar als bedrijven afzien van nieuwe mainframes ten gunste van wat hij CE noemt, cloud alles, dat het waarschijnlijk zal afnemen, maar merkt op dat jullie echt goed zijn in het verplaatsen van gegevens door besturingssystemen tot een gigabyte per seconde te omzeilen. Kun je een beetje praten over je kernkracht, zoals hij al zei, en of IBM je spullen integreert in Bluemix?

Tendü Yogurtçu: Met IBM zijn we al partners van IBM en hebben we discussies gevoerd over hun datacloudservices die het product aanbieden. Onze open-sourcebijdragen staan ​​open voor iedereen die er gebruik van wil maken. Een deel van de mainframe-connectiviteit is ook beschikbaar in Spark-pakketten, dus niet alleen IBM. Iedereen kan die benutten. In de Bluemix hebben we daar nog niets specifieks aan gedaan. En vind je het erg om de tweede vraag te herhalen?

Eric Kavanagh: Ja, de tweede vraag ging over je kerngebied van functionaliteit door de jaren heen, die echt de knelpunten van ETL aanpakte en dat is duidelijk iets dat jullie nog steeds zullen doen als mainframes, nou, theoretisch blijf weg, hoewel Dez's punt is nog steeds een beetje schommelen en rollen daar. Maar de deelnemer merkte zojuist op dat Syncsort erg goed is in het verplaatsen van gegevens door besturingssystemen te omzeilen en tot een gigabyte per seconde. Kun je daar gewoon iets over zeggen?

Tendü Yogurtçu: Ja, dat echt algehele hulpbronnenefficiëntie onze kracht is geweest en de schaalbaarheid en prestaties onze kracht. We sluiten geen compromissen, vereenvoudigen heeft veel betekenissen, we sluiten geen compromissen. Toen mensen in 2014 over Hadoop begonnen te praten, keken veel organisaties aanvankelijk niet echt naar prestaties. Ze zeiden: "Oh, als er iets gebeurt, kan ik nog een paar knooppunten toevoegen en het komt wel goed, prestaties zijn niet mijn vereiste."

Terwijl we het hadden over de beste prestaties omdat we al native draaien, hadden we niet eens een paar van de eerste hikjes die Hive had met meerdere MapReduce-taken en overhead bij het starten ervan. Mensen zeiden ons: "Oh, dat is niet mijn zorg, maak je daar nu geen zorgen over."

Toen we in 2015 kwamen, is dat landschap veranderd omdat sommige van onze klanten de opslagcapaciteit in hun productieclusters al hadden overschreden. Het werd erg belangrijk voor hen om te zien wat Syncsort te bieden heeft. Als u gegevens uit een database of mainframe neemt en in een parketformaat in de clusters schrijft, of u nu landt en op het podium staat en een andere transformatie uitvoert of gewoon de inflight-transformatie en het doelbestandformaat uitvoert, heeft het verschil gemaakt omdat u bespaart van opslag, bespaart u vanuit de netwerkbandbreedte, bespaart u vanuit de werkbelasting op het cluster omdat u geen extra taken uitvoert. Die sterke punten die we spelen in termen van zeer bewust zijn, voelen we de hulpbronnenefficiëntie onder onze huid, zo lijkt het.

Dat is hoe we het beschrijven. Het is van cruciaal belang voor ons. We nemen het niet als vanzelfsprekend aan. We hebben het nooit als vanzelfsprekend beschouwd, dus we zullen sterk blijven met die invloed in Apache Spark of het volgende computerraamwerk. Dat blijft onze focus. En wat betreft het stuk gegevensverplaatsing en gegevenstoegang, is dit absoluut een van onze sterke punten en hebben we toegang tot DB2- of VSAM-gegevens op de mainframes in de context van Hadoop of Spark.

Eric Kavanagh: Nou, dat is een geweldige manier om de webcast te beëindigen, mensen. Heel erg bedankt voor je tijd en aandacht. Bedankt, Tendü en Syncsort, voor het binnenkomen van de briefingruimte en het betreden van de ronde, zoals ze zeggen. Veel geweldige vragen van het publiek. Het is een steeds veranderende omgeving daar, mensen. We zullen deze Hot Tech archiveren zoals we dat met alle anderen doen. U kunt ons vinden op insideanalysis.com en techopedia.com. Meestal gaat het over een dag omhoog. En daarmee gaan we u vaarwel zeggen, mensen. Heel erg bedankt. We zullen snel met je praten. Wees voorzichtig. Tot ziens.

Big iron, ontmoet big data: bevrijd mainframe data met hadoop en spark