2.
Propriété fondamentale des réseaux de neurones
2.1. Les réseaux de neurones sont des approximateurs universels
Étant donnée une fonction non linéaire suffisamment régulière dans une région
W
de l’espace des
entrées, et étant donnée une précision fixée, il existe un réseau de neurones non bouclé, ayant la
structure représentée sur la Figure 1, avec un nombre fini de neurones cachés, qui est capable
d’approcher la fonction donnée avec la précision donnée dans
W
.
Ce théorème est simplement un théorème d’existence, qui n’indique pas comment on peut trouver
ce réseau!; ce problème sera abordé plus loin, dans la section consacrée à l’apprentissage.
2.2. Les réseaux de neurones sont des approximateurs parcimonieux
La parcimonie est la propriété mathématique qui donne aux réseaux de neurones tout leur intérêt
pratique, notamment en modélisation et en commande!: les réseaux de neurones quoi sont non
linéaires par rapport à leurs paramètres (notamment les réseaux de neurones décrits dans les
paragraphes précédents) nécessitent un plus petit nombre de paramètres, pour atteindre une
précision donnée, que les approximateurs traditionnels tels que les polynômes, les fonctions
splines, les séries de Fourier, etc. Plus précisément, le nombre de paramètres varie linéairement
avec le nombre d’entrées, tandis qu’il varie exponentiellement avec le nombre d’entrées pour les
approximateurs usuels. Les réseaux de neurones sont donc avantageux dès que le procédé que
l’on cherche à modéliser à plus de deux entrées.
2.3. Réseaux de neurones et régression non linéaire
Les réseaux de neurones ne sont pratiquement jamais utilisés pour réaliser l’approximation d’une
fonction connue. Dans la très grande majorité des applications, les réseaux de neurones sont
utilisés pour réaliser une modélisation ou régression non linéaire. À cet effet, on réalise des
mesures, en nombre fini, des entrées et des sorties du processus que l’on cherche à modéliser. Ces
mesures sont évidemment entachées de bruit, ou affectées par des perturbations non mesurées.
On suppose que les résultats des mesures peuvent être valablement modélisées par la somme
d’une fonction inconnue, dite fonction de régression, et d’une variable aléatoire de moyenne
nulle. La modélisation consiste alors à approcher la fonction de régression inconnue à l’aide de
fonctions paramétrées (par exemple des réseaux de neurones) dont on ajuste les paramètres lors
d’un processus dit d’apprentissage.
Comme le nombre de mesures à effectuer sur le processus doit être plus grand que le nombre de
paramètres du modèle à ajuster, la parcimonie des réseaux de neurones a une conséquence
pratique très importante!: pour obtenir une précision de modélisation donnée, un modèle non