Q:
Waarom is machinebias een probleem bij machine learning?
EEN:Deze vraag kan op twee verschillende manieren worden beantwoord. Ten eerste, waarom is het probleem van machinebias, zoals in, waarom bestaat het in machine-leerprocessen?
Machine learning, hoewel verfijnd en complex, is tot op zekere hoogte beperkt op basis van de datasets die het gebruikt. De constructie van de gegevenssets brengt inherente vertekening met zich mee. Net als in de media, waar weglatingen en opzettelijke keuzes voor inclusie een bepaalde vertekening kunnen vertonen, moeten in de machine learning de gegevenssets die worden gebruikt worden onderzocht om te bepalen welke vorm van vertekening bestaat.
Gratis download: machine learning en waarom het ertoe doet |
Het is bijvoorbeeld een veel voorkomend probleem voor technologietesten en ontwerpprocessen om een voorkeur voor het ene type gebruiker te tonen boven een ander. Een groot voorbeeld is het genderverschil in de techwereld.
Waarom maakt dit een verschil en waarom is het van toepassing op machine learning?
Omdat een gebrek aan bestaande vrouwen in een testomgeving kan leiden tot een geproduceerde technologie die minder gebruiksvriendelijk is voor een vrouwelijk publiek. De manier waarop sommige experts dit beschrijven is dat zonder bestaande vrouwelijke testen, het eindproduct de input van vrouwelijke gebruikers mogelijk niet herkent - het beschikt misschien niet over de tools om vrouwelijke identiteiten te herkennen of om adequaat om te gaan met de input van vrouwen.
Hetzelfde geldt voor verschillende etnische groepen, mensen van verschillende religies of elk ander soort demografie. Zonder de juiste gegevens werken de machine learning-algoritmen niet correct voor een bepaalde gebruikersset, zodat inclusieve gegevens opzettelijk moeten worden toegevoegd aan de technologie. In plaats van alleen primaire gegevenssets te nemen en inherente bias te versterken, moeten menselijke handlers echt naar het probleem kijken.
Een ander voorbeeld is een machine learning machine die baan- en salarisinformatie verzamelt en resultaten uitspuwt. Als die inherente gegevensset niet wordt geanalyseerd, zal de machine de bias versterken. Als het merkt dat mannen de overgrote meerderheid van de uitvoerende functies bekleden en het machine-leerproces bestaat uit het filteren van de onbewerkte gegevensverzameling en het retourneren van overeenkomstige resultaten, zal het resultaten opleveren die een mannelijke voorkeur tonen.
Het tweede deel van de vraag betreft waarom deze vertekening zo schadelijk is. Zonder adequaat toezicht en testen kunnen nieuwe technologieën ons gevoel van inclusie en gelijkheid schaden, niet helpen. Als een nieuw technisch product wordt uitgerold dat gezichten met een lichtere huid herkent, maar geen gezichten met een donkere huid, kan dit leiden tot oplopende etnische spanningen en het gevoel dat het bedrijf in kwestie niet gevoelig is voor diversiteit. Als een machine learning algoritme de bias in de datasets reproduceert en verhoogt, zal kunstmatige intelligentie zijn stem toevoegen aan de menselijke stemmen en menselijke tendensen die al bestaan in het sociale systeem die de ene groep mensen bevoordelen boven een andere.
De beste manier om hiermee om te gaan, is door goed naar de onderliggende gegevenssets te kijken, functieselectie te gebruiken, variabele invoer toe te voegen en de onbewerkte gegevenssets zelf te manipuleren, en de echte kracht van machine learning te vergroten met opzettelijke menselijke bewerking van gegevens, om een resultaat dat geweldige analytische kracht levert, maar ook enkele van die menselijke inzichten die computers nog niet kunnen repliceren.