Q:
Hoe maakt max pooling AlexNet een geweldige technologie voor beeldverwerking?
EEN:In AlexNet, een innovatief convolutioneel neuraal netwerk, wordt het concept van max pooling ingevoegd in een complex model met meerdere convolutionele lagen, deels om te helpen bij het aanpassen en stroomlijnen van het werk dat het neurale netwerk doet bij het werken met afbeeldingen met wat experts noemen een "niet-lineaire downsampling-strategie."
AlexNet wordt algemeen beschouwd als een vrij groot CNN, het heeft de 2012 ILSVRC (ImageNet Large-Scale Visual Recognition Challenge) gewonnen, die wordt gezien als een keerpunt voor machine learning en vooruitgang van het neurale netwerk (sommigen noemen het de "Olympische Spelen" van computer vision ).
In het kader van het netwerk, waar training is opgesplitst in twee GPU's, zijn er vijf convolutionele lagen, drie volledig verbonden lagen en een aantal maximale pooling-implementatie.
In essentie neemt max pooling de "pool" van outputs van een verzameling neuronen en past deze toe op de waarden van een volgende laag. Een andere manier om dit te begrijpen is dat een max pooling-benadering waarden kan consolideren en vereenvoudigen om het model beter te passen.
Max pooling kan helpen bij het berekenen van verlopen. Je zou kunnen zeggen dat het "de rekenlast vermindert" of "overfitting kleiner maakt" - door downsampling grijpt max pooling aan wat "dimensionaliteitsreductie" wordt genoemd.
Dimensionaliteitreductie gaat over het probleem van een overgecompliceerd model dat moeilijk door een neuraal netwerk kan worden geleid. Stel je een complexe vorm voor, met veel kleine gekartelde contouren en elk klein stukje van deze lijn voorgesteld door een gegevenspunt. Met vermindering van de dimensionaliteit helpen de ingenieurs het machine learning-programma om uit te zoomen of minder datapunten te samplen, om het model als geheel eenvoudiger te maken. Dat is de reden waarom, als je naar een maximale poollaag en de uitvoer ervan kijkt, je soms een eenvoudiger pixelatie ziet die overeenkomt met een strategie voor het verminderen van de dimensionaliteit.
AlexNet gebruikt ook een functie genaamd rectified linear units (ReLU), en max pooling kan complementair zijn aan deze techniek bij het verwerken van afbeeldingen via het CNN.
Experts en betrokkenen bij het project hebben overvloedige visuele modellen, vergelijkingen en andere details opgeleverd om de specifieke build van AlexNet te laten zien, maar in algemene zin kunt u denken aan max pooling als coalescerende of consoliderende output van meerdere kunstmatige neuronen. Deze strategie maakt deel uit van de algehele build van het CNN, dat synoniem is geworden met geavanceerde machinevisiekwaliteit en beeldclassificatie.