
4 
 
Où α est le vecteur contenant chacun des paramètres αjkl de la jème entrée du kème neurone de 
la lème couche. La couche d’entrée (l = 0) n’est pas paramétrée, elle ne fait que distribuer les entrées sur 
tous les neurones de la couche suivante. 
Un théorème dit de « approximation universelle » montre que cette structure élémentaire à une 
seule couche cachée est bien suffisante pour prendre en compte les problèmes classiques de 
modélisation ou apprentissage statistique. En effet, toute fonction régulière peut être approchée 
uniformément avec une précision arbitraire et dans un domaine fini de l’espace de ses variables, par un 
réseau de neurones comportant une couche de neurones cachés en nombre fini possédant tous la même 
fonction d’activation et un neurone de sortie linéaire. 
De façon usuelle et en régression (Y quantitative), la dernière couche est constituée d’un seul 
neurone muni de la fonction d’activation identité tandis que les autres neurones (couche cachée) sont 
munis de la fonction sigmoïde. En classification binaire, le neurone de sortie est muni également de la 
fonction sigmoïde tandis que dans le cas d’une discrimination à m classes (Y qualitative), ce sont m 
neurones avec fonction sigmoïde, un par classe, qui sont considérés en sortie. Ainsi, en régression avec un 
perceptron à une couche cachée de q neurones et un neurone de sortie, cette fonction s’écrit : 
Y = φ(x; α, β) = β0 + β 0 z  
avec  
zk = f (αk0 + αk 0x); k = 1, . . ., q. 
L’APPRENTISSAGE : 
L’apprentissage est une phase du développement d’un réseau de neurones durant laquelle le 
comportement du réseau est modifié jusqu’à l’obtention du comportement désiré. 
Pour les PMC en utilise un apprentissage supervisé : technique d'apprentissage automatique où 
l'on cherche à produire automatiquement des règles à partir d'une base de données d'apprentissage 
contenant des « exemples » (en général des cas déjà traités et validés). 
Le problème de l’apprentissage dans les perceptrons multicouches est de connaitre la contribution de 
chaque poids dans l’erreur globale du réseau. L’algorithme de rétro-propagation de l’erreur permet de 
faire cela. 
Dans le Perceptron multicouche à rétro propagation, les neurones d'une couche sont reliés à la 
totalité des neurones des couches adjacentes. Ces liaisons sont soumises à un coefficient altérant l'effet 
de l'information sur le neurone de destination. Ainsi, le poids de chacune de ces liaisons est l'élément clef 
du fonctionnement du réseau : la mise en place d'un Perceptron multicouche pour résoudre un problème 
passe donc par la détermination des meilleurs poids applicables à chacune des connexions inter-
neuronales. Ici, cette détermination s'effectue au travers d'un algorithme de rétro propagation. 
ALGORITHME DE RETRO PROPAGATION : 
 Présentation d'un motif d'entraînement au réseau. 
 Comparaison de la sortie du réseau avec la sortie ciblée. 
 Calcul de l'erreur en sortie de chacun des neurones du réseau. 
 Calcul, pour chacun des neurones, de la valeur de sortie qui aurait été correcte.