Huis audio Hoe is het schrapen van gegevens voor machine learning het meest arbeidsintensieve knelpunt sinds handmatige gegevensinvoer bij oudere migratie?

Hoe is het schrapen van gegevens voor machine learning het meest arbeidsintensieve knelpunt sinds handmatige gegevensinvoer bij oudere migratie?

Anonim

Q:

Hoe is het schrapen van gegevens voor machine learning het meest arbeidsintensieve knelpunt sinds handmatige gegevensinvoer bij oudere migratie?

EEN:

Een van de praktische problemen die bedrijven kunnen tegenkomen bij het starten van een machine learning (ML) -project is de uitdaging om de initiële trainingsdatasets te verwerven. Dit kunnen arbeidsintensieve processen zijn zoals webschrapen of andere gegevensschrapen.

De termen web scraping en data scraping verwijzen grotendeels naar geautomatiseerde activiteit door computersoftware, maar voor veel ML-projecten zullen er gevallen zijn waarin computers niet de verfijning hebben om de juiste gerichte gegevens te verzamelen, dus het zal moeten worden gedaan "met de hand." Dit zou je 'human web / data scraping' kunnen noemen, en het is een ondankbare klus. Het gaat meestal om uitgaan en zoeken naar gegevens of afbeeldingen om het ML-programma via trainingssets te 'voeden'. Het is vaak behoorlijk iteratief, waardoor het vervelend, traag en veeleisend werk is.

Gratis download: machine learning en waarom het ertoe doet

Gegevens schrapen voor ML-trainingssets vertegenwoordigt een uniek problematisch knelpunt bij machine learning, deels omdat zoveel van het andere werk zeer conceptueel is en niet repetitief. Veel mensen kunnen een geweldig idee bedenken voor een nieuwe app die taken op het gebied van machine learning uitvoert, maar de bouten en moeren en het praktische werk kunnen een stuk moeilijker zijn. Vooral het delegeren van het samenstellen van de trainingssets kan een van de moeilijkste onderdelen van een ML-project zijn, zoals volledig is onderzocht in het tv-programma "Silicon Valley" van Mike Judge. In een aflevering van seizoen vier pest een startende ondernemer eerst een partner om het arbeidsintensieve werk te doen, en probeert het vervolgens door te geven aan studenten door het te vermommen als een huiswerkopdracht.

Dit voorbeeld is leerzaam omdat het laat zien hoe onprettig en schijnbaar onbelangrijk het handmatig gegevens schrapen is. Het laat echter ook zien dat dit proces nodig is voor een breed scala aan machine learning-producten. Hoewel de meeste mensen een hekel hebben aan gegevensinvoer, moeten de trainingssets op een of andere manier worden samengesteld. Experts in het proces raden vaak aan om een ​​webschraperservice te gebruiken - in wezen gewoon dit zeer arbeidsintensieve werk uitbesteden aan externe partijen, maar dat kan gevolgen hebben voor de veiligheid en andere problemen veroorzaken. Wanneer het handmatig verzamelen van gegevens intern wordt uitgevoerd, moet er opnieuw een voorziening worden getroffen voor wat vaak een zeer handmatig en tijdrovend proces is.

In sommige opzichten lijkt het "schrapen van menselijke gegevens" voor machine learning op de handmatige gegevensinvoer die soms moest worden gedaan bij legacy-migratie. Naarmate de cloud steeds populairder werd en bedrijven hun processen en workflows in de cloud plaatsten, ontdekten sommigen dat ze de praktische aspecten van hoe ze hun bedrijfsgegevens van een geïsoleerd legacy-systeem in native applicaties in de cloud konden krijgen, niet hadden gewerkt. Als gevolg hiervan ondervonden sommige mensen die anders datawetenschappers of creatieve mensen met essentiële IT-vaardigheden waren, vervelende taken voor gegevensinvoer.

Hetzelfde zal waarschijnlijk gebeuren met machine learning. Je zou een datawetenschapper kunnen horen klagen dat "ik een creatief persoon ben" of "ik ben aan de ontwikkelingskant" - maar iemand moet het vuile werk doen.

Nogmaals, als de creatieve stroom niet wordt geëvenaard door een praktische beoordeling van workflowdelegatie, zal er een mismatch zijn in hoe de taakafhandeling wordt geleid. Wanneer een bedrijf geen mensen heeft om gegevens te verzamelen bij het verzamelen van gegevenssets, mist het een belangrijk onderdeel van de procedureketen voor een succesvol project. Het is de moeite waard om dit in gedachten te houden wanneer een bedrijf probeert een idee goed te maken dat is gebaseerd op het ontwikkelen van nieuwe toepassingen voor machine learning.

Hoe is het schrapen van gegevens voor machine learning het meest arbeidsintensieve knelpunt sinds handmatige gegevensinvoer bij oudere migratie?