Q:
Waarom vermindert zakken in machine learning de variantie?
EEN:Bootstrap-aggregatie of "bagging" in machine learning vermindert de variantie door geavanceerdere modellen van complexe gegevenssets te bouwen. In het bijzonder creëert de verpakkingsmethode subsets die vaak overlappen om de gegevens op een meer betrokken manier te modelleren.
Een interessant en eenvoudig idee van het toepassen van zakken is om een reeks willekeurige monsters te nemen en het eenvoudige gemiddelde te extraheren. Maak vervolgens met dezelfde set voorbeelden tientallen subsets die zijn gebouwd als beslissingsbomen om de uiteindelijke resultaten te manipuleren. Het tweede gemiddelde moet een beter beeld geven van hoe die individuele steekproeven zich qua waarde tot elkaar verhouden. Hetzelfde idee kan worden toegepast op elke eigenschap van elke set gegevenspunten.
Gratis download: machine learning en waarom het ertoe doet |
Aangezien deze benadering de ontdekking consolideert in meer gedefinieerde grenzen, vermindert dit de variantie en helpt het bij overfitting. Denk aan een spreidingsdiagram met enigszins verdeelde datapunten; door een bagging-methode te gebruiken, "krimpen" de ingenieurs de complexiteit en oriënteren ze de detectielijnen naar soepeler parameters.
Sommigen praten over de waarde van zakken als "verdeel en heers" of een soort van "geassisteerde heuristieken." Het idee is dat door middel van ensemble-modellering, zoals het gebruik van willekeurige forests, degenen die bagging als techniek gebruiken, gegevensresultaten kunnen verkrijgen die minder verschillen. In termen van minder complexiteit, kan zakken ook helpen bij overfitting. Denk aan een model met te veel datapunten: zeg maar een connect-the-dots met 100 niet-uitgelijnde dots. De resulterende visuele datalijn is gekarteld, dynamisch, vluchtig. Vervolgens "strijken" de variantie door sets evaluaties samen te stellen. Bij het leren van ensembles wordt vaak gedacht dat dit samengaat met verschillende "zwakke leerlingen" om een "sterk leerzaam" samenwerkingsresultaat te bieden. Het resultaat is een vloeiendere, meer omlijnde gegevenslijn en minder wilde variantie in het model.
Het is gemakkelijk om te zien hoe het idee van zakken kan worden toegepast op IT-systemen van ondernemingen. Bedrijfsleiders willen vaak een "vogelperspectief" van wat er gaande is met producten, klanten, enz. Een overfitted model kan minder verteerbare gegevens opleveren, en meer "verspreide" resultaten, waarbij zakken een model kunnen "stabiliseren" en het nuttiger kunnen maken om eindgebruikers te maken.