Huis audio Waarom zouden sommige machine learning-projecten enorme aantallen acteurs vereisen?

Waarom zouden sommige machine learning-projecten enorme aantallen acteurs vereisen?

Anonim

Q:

Waarom zouden sommige machine learning-projecten enorme aantallen acteurs vereisen?

EEN:

Als u denkt aan machine learning, denkt u vaak aan bekwame datawetenschappers die werken aan toetsenborden in computerruimtes. Er is een extreme nadruk op kwantitatieve analyse en algoritmen. Veel van deze programma's hebben niet veel directe context in de echte wereld - tenminste, dat zouden velen denken.

Sommige van de meest baanbrekende programma's voor machinaal leren van vandaag maken echter gebruik van echte legers van menselijke acteurs op straat, in winkels en overal waar ze menselijke basisactiviteiten kunnen modelleren, zoals wandelen, werken of winkelen.

Gratis download: machine learning en waarom het ertoe doet

Een artikel in Wired van Tom Simonite illustreert dit heel goed met de toepasselijke titel 'Om AI slimmer te maken, voeren mensen oneven laagbetaalde taken uit.'

Aan de hand van het voorbeeld van korte video's die zijn genomen in een Whole Foods-supermarkt, benadrukt Simonite het soort werk dat zal helpen een deel van de volgende fase van machine learning op te bouwen.

Dit leidt tot de vraag waarom al deze mensen zich bezig houden met het filmen van zichzelf in korte en eenvoudige video's die acties beschrijven die even rudimentair zijn als het bewegen van een arm of been.

Het antwoord werpt enig licht op waar machine learning is en waar het naartoe gaat.

"Onderzoekers en ondernemers willen AI zien begrijpen en handelen in de fysieke wereld", schrijft Simonite, waarin hij uitlegt waarom hij en anderen zwerven met camera's. “Vandaar dat werknemers scènes in supermarkten en huizen moeten spelen. Ze genereren het instructiemateriaal om algoritmen over de wereld en de mensen erin te onderwijzen. ”

Zoals vele experts zullen opmerken, zijn enkele van de grootste grenzen van machine learning beeldverwerking en natuurlijke taalverwerking. Dit zijn extreem kwantitatieve procedures - met andere woorden, er is geen breed spectrum van inputs zoals er zijn in "performante" real-world omgevingen. In plaats daarvan gebruiken de machine learning-programma's visuele en audiogegevens op zeer specifieke manieren om modellen te bouwen. Bij beeldverwerking worden functies gekozen uit een (eindig) gezichtsveld. Voor NLP assembleert het fonemen.

Verder gaan dan deze specifieke invoercategorieën omvat iets dat je de "beeld- en spraakkloof" zou kunnen noemen - door verder te gaan dan dingen zoals beeldverwerking en spraakherkenning, ga je naar gebieden waar computers op verschillende manieren analytisch moeten zijn. De trainingssets zullen fundamenteel anders zijn.

Betreed het leger van videografen. Bij sommige van deze nieuwe machine learning-projecten zijn de kleinste ideeën over menselijke activiteiten de trainingsets. In plaats van te worden opgeleid om te zoeken naar functies en randen en pixels die samenkomen in classificatietaken, gebruiken computers in plaats daarvan trainingsvideo's om te beoordelen hoe verschillende soorten actie eruit zien.

Het belangrijkste is wat ingenieurs met deze gegevens kunnen doen wanneer deze worden verzameld en geladen en wanneer de computer erop wordt getraind. U zult snel de resultaten op verschillende gebieden zien - dit zal bijvoorbeeld bewaking uiterst effectief maken. Computers kunnen in het gezichtsveld "zien" wat mensen doen en dat toepassen op gebieden zoals marketing en verkoop, of misschien, in sommige gevallen, overheidsagentschap of strafrecht.

De vertakkingen leggen ook enig licht op het debat tussen maximale voordelen en privacyvragen. Veel van het gebruik van deze video's zal modellen voor machinaal leren bouwen die voor surveillance werken - maar hoe zit het met mensen die niet willen worden onderzocht? Wanneer deze nieuwe machine learning-programma's in de openbare ruimte worden ingezet, wat zijn dan de rechten van het individu en waar wordt die lijn getrokken?

In elk geval gebruiken bedrijven dit soort menselijke en videobronnen om echt te graven in een aantal volgende niveaus van machine learning-vooruitgang waarmee computers daadwerkelijk kunnen herkennen wat er om hen heen gebeurt, in plaats van alleen afbeeldingen te classificeren of te werken met de fonemen van toespraak. Dit is een buitengewoon interessante en controversiële ontwikkeling in kunstmatige intelligentie, en een die zijn aandacht verdient in de technische media en daarbuiten.

Waarom zouden sommige machine learning-projecten enorme aantallen acteurs vereisen?