La couche de pooling remplace la sortie du réseau à certaines positions en
dérivant une statistique récapitulative des sorties voisines. Cela contribue à
réduire la taille spatiale de la représentation, diminuant ainsi la quantité
requise de calculs et de poids. L'opération de pooling est effectuée sur
chaque tranche de la représentation individuellement.
Il existe plusieurs fonctions de pooling telles que la moyenne du voisinage
rectangulaire, la norme L2 du voisinage rectangulaire et une moyenne
pondérée en fonction de la distance par rapport au pixel central.
Cependant, le processus le plus populaire est le max pooling, qui rapporte
la sortie maximale du voisinage.
Si nous avons une carte d'activation de taille W x W x D, un noyau de
pooling de taille spatiale F et un pas S, alors la taille du volume de sortie
peut être déterminée par la formule suivante :
Wout = (W-F)/S + 1
Cela produira un volume de sortie de taille Wout x Wout x D.
Dans tous les cas, le pooling offre une certaine invariance de translation,
ce qui signifie qu'un objet serait reconnaissable indépendamment de
l'endroit où il apparaît sur l'image.
Couche Entièrement Connectée
Les neurones de cette couche ont une connectivité complète avec tous les
neurones de la couche précédente et de la couche suivante, comme on
peut le voir dans les Réseaux de Neurones Entièrement Connectés
(FCNN) classiques. C'est pourquoi elle peut être calculée comme
d'habitude par une multiplication de matrices suivie d'un effet de biais.
La couche entièrement connectée aide à établir la correspondance entre la
représentation en entrée et la sortie.