4
Où α est le vecteur contenant chacun des paramètres αjkl de la jème entrée du kème neurone de
la lème couche. La couche d’entrée (l = 0) n’est pas paramétrée, elle ne fait que distribuer les entrées sur
tous les neurones de la couche suivante.
Un théorème dit de « approximation universelle » montre que cette structure élémentaire à une
seule couche cachée est bien suffisante pour prendre en compte les problèmes classiques de
modélisation ou apprentissage statistique. En effet, toute fonction régulière peut être approchée
uniformément avec une précision arbitraire et dans un domaine fini de l’espace de ses variables, par un
réseau de neurones comportant une couche de neurones cachés en nombre fini possédant tous la même
fonction d’activation et un neurone de sortie linéaire.
De façon usuelle et en régression (Y quantitative), la dernière couche est constituée d’un seul
neurone muni de la fonction d’activation identité tandis que les autres neurones (couche cachée) sont
munis de la fonction sigmoïde. En classification binaire, le neurone de sortie est muni également de la
fonction sigmoïde tandis que dans le cas d’une discrimination à m classes (Y qualitative), ce sont m
neurones avec fonction sigmoïde, un par classe, qui sont considérés en sortie. Ainsi, en régression avec un
perceptron à une couche cachée de q neurones et un neurone de sortie, cette fonction s’écrit :
Y = φ(x; α, β) = β0 + β 0 z
avec
zk = f (αk0 + αk 0x); k = 1, . . ., q.
L’APPRENTISSAGE :
L’apprentissage est une phase du développement d’un réseau de neurones durant laquelle le
comportement du réseau est modifié jusqu’à l’obtention du comportement désiré.
Pour les PMC en utilise un apprentissage supervisé : technique d'apprentissage automatique où
l'on cherche à produire automatiquement des règles à partir d'une base de données d'apprentissage
contenant des « exemples » (en général des cas déjà traités et validés).
Le problème de l’apprentissage dans les perceptrons multicouches est de connaitre la contribution de
chaque poids dans l’erreur globale du réseau. L’algorithme de rétro-propagation de l’erreur permet de
faire cela.
Dans le Perceptron multicouche à rétro propagation, les neurones d'une couche sont reliés à la
totalité des neurones des couches adjacentes. Ces liaisons sont soumises à un coefficient altérant l'effet
de l'information sur le neurone de destination. Ainsi, le poids de chacune de ces liaisons est l'élément clef
du fonctionnement du réseau : la mise en place d'un Perceptron multicouche pour résoudre un problème
passe donc par la détermination des meilleurs poids applicables à chacune des connexions inter-
neuronales. Ici, cette détermination s'effectue au travers d'un algorithme de rétro propagation.
ALGORITHME DE RETRO PROPAGATION :
Présentation d'un motif d'entraînement au réseau.
Comparaison de la sortie du réseau avec la sortie ciblée.
Calcul de l'erreur en sortie de chacun des neurones du réseau.
Calcul, pour chacun des neurones, de la valeur de sortie qui aurait été correcte.