Q:
Wat is een eenvoudige manier om bias en variantie in machine learning te beschrijven?
EEN:Er zijn een aantal ingewikkelde manieren om vooringenomenheid en variantie in machine learning te beschrijven. Velen van hen gebruiken aanzienlijk complexe wiskundige vergelijkingen en laten door middel van grafieken zien hoe specifieke voorbeelden verschillende hoeveelheden van zowel vertekening als variantie vertegenwoordigen.
Hier is een eenvoudige manier om bias, variantie en de bias / variantie-afweging in machine learning te beschrijven.
In de kern is vertekening een te vereenvoudiging. Het kan belangrijk zijn om enige aanname of veronderstelde fout toe te voegen aan de definitie van bias.
Als een zeer bevooroordeeld resultaat niet fout was - als het om het geld ging - zou het zeer nauwkeurig zijn. Het probleem is dat het vereenvoudigde model een fout bevat, dus het is niet op de roos - de significante fout wordt steeds herhaald of zelfs versterkt terwijl het machine learning-programma werkt.
De eenvoudige definitie van variantie is dat de resultaten te verspreid zijn. Dit leidt vaak tot overcomplexiteit van het programma en problemen tussen test- en trainingssets.
Hoge variantie betekent dat kleine veranderingen grote veranderingen in output of resultaten veroorzaken.
Een andere manier om variantie eenvoudig te beschrijven, is dat er te veel ruis in het model zit, waardoor het voor het machine learning-programma moeilijker wordt om het echte signaal te isoleren en te identificeren.
Een van de eenvoudigste manieren om vooringenomenheid en variantie te vergelijken, is om te suggereren dat machineleertechnici een dunne lijn moeten volgen tussen te veel vooringenomenheid of te simplificatie en te veel variantie of overcomplexiteit.
Een andere manier om dit goed weer te geven is met een vierkwadrantenkaart die alle combinaties van hoge en lage variantie toont. In het kwadrant low bias / low variiance worden alle resultaten verzameld in een nauwkeurig cluster. In een resultaat met een hoge bias / lage variantie worden alle resultaten verzameld in een onnauwkeurige cluster. In een resultaat met een lage bias / hoge variantie zijn de resultaten verspreid over een centraal punt dat een nauwkeurig cluster zou vertegenwoordigen, terwijl in een resultaat met een hoge bias / hoge variantie de gegevenspunten zowel verspreid als collectief onnauwkeurig zijn.