LES RÉSEAUX DE NEURONES POUR LA MODÉLISATION DES
PROCÉDÉS INDUSTRIELS:
DU RUBAN ADHÉSIF AU SOUDAGE PAR POINTS
Gérard DREYFUS
École Supérieure de Physique et de Chimie Industrielles (ESPCI)
Laboratoire d’Électronique
10, rue Vauquelin
F - 75005 PARIS (France)
[email protected] - http://www.neurones.espci.fr
INTRODUCTION
Bien que les réseaux de neurones tirent leur origine de la neurobiologie, ils doivent être
considérés comme des outils mathématiques et statistiques, dont l’intérêt industriel ne doit rien à
la biologie. Dans cette présentation, nous résumons brièvement les propriétés fondamentales des
réseaux de neurones ainsi que les raisons pour lesquelles ils sont utiles en modélisation de
procédés industriels. Nous décrivons ensuite trois applications des réseaux de neurones en
modélisation.
PROPRIÉTÉ FONDAMENTALE DES RÉSEAUX DE NEURONES
1.
Définitions
Un neurone est une fonction non linéaire, paramétrée, bornée!; typiquement, on utilise
un neurone à fonction sigmoïde :
y= th wixi
i=1
n+1
, où les { xi, i = 1 à n} sont les
variables, xn+1 = 1, et les {wi, i = 1 à n} sont les paramètres de la fonction y. Il faut
remarquer que y est non linéaire par rapport aux variables et par rapport aux
paramètres, ce qui a des conséquences importantes.
Un réseau de neurones non bouclé est une combinaison linéaire des fonctions
«!neurones!» (appelées neurones «!cachés!») décrites ci-dessus. Pour la modélisation,
on utilise typiquement un réseau de neurones non bouclé de la forme :
g=wNc+1+wjth wjixi
i=1
n+1
j=1
Nc
NC est le nombre de «!neurones cachés!». La Figure 1 représente un réseau de
neurones non bouclé!; cette représentation graphique est commode mais trompeuse
car elle suggère qu’un réseau de neurones est un objet physique (un circuit
électronique par exemple)!: dans l’immense majorité des applications, les réseaux de
neurones sont réalisés par des programmes écrits dans des langages quelconques,
exécutés sur des machines traditionnelles.
Figure 1
Un réseau de neurones non bouclé muni de n variables d’entrée, Nc neurones cachés, et un
neurone de sortie linéaire (c’est-à-dire un neurone qui réalise une somme pondérée de ses entrées,
sans non-linéarité)
Un réseau de neurones bouclé (ou réseau récurrent) est une équation récurrente non
linéaire, qui peut être soit sous forme «!entrée-sortie!» :
g k + 1 =f
RN g k ,g k – 1 ,..., g k n,uk
,
soit sous forme d’état:
xk+ 1 =fRN xk,uk
g k+ 1 =gRN xk+ 1
n
est l’ordre du réseau, x(k) est le vecteur d’état (de dimension
n
pour un réseau
d’ordre
n
), u(k) et le vecteur d’entrée, et k désigne l’instant kT (T est la période
d’échantillonnage). fRN et gRN sont des fonctions non linéaires réalisées par des réseaux
de neurones non bouclés.
2.
Propriété fondamentale des réseaux de neurones
2.1. Les réseaux de neurones sont des approximateurs universels
Étant donnée une fonction non linéaire suffisamment régulière dans une région
W
de l’espace des
entrées, et étant donnée une précision fixée, il existe un réseau de neurones non bouclé, ayant la
structure représentée sur la Figure 1, avec un nombre fini de neurones cachés, qui est capable
d’approcher la fonction donnée avec la précision donnée dans
W
.
Ce théorème est simplement un théorème d’existence, qui n’indique pas comment on peut trouver
ce réseau!; ce problème sera abordé plus loin, dans la section consacrée à l’apprentissage.
2.2. Les réseaux de neurones sont des approximateurs parcimonieux
La parcimonie est la propriété mathématique qui donne aux réseaux de neurones tout leur intérêt
pratique, notamment en modélisation et en commande!: les réseaux de neurones quoi sont non
linéaires par rapport à leurs paramètres (notamment les réseaux de neurones décrits dans les
paragraphes précédents) nécessitent un plus petit nombre de paramètres, pour atteindre une
précision donnée, que les approximateurs traditionnels tels que les polynômes, les fonctions
splines, les séries de Fourier, etc. Plus précisément, le nombre de paramètres varie linéairement
avec le nombre d’entrées, tandis qu’il varie exponentiellement avec le nombre d’entrées pour les
approximateurs usuels. Les réseaux de neurones sont donc avantageux dès que le procédé que
l’on cherche à modéliser à plus de deux entrées.
2.3. Réseaux de neurones et régression non linéaire
Les réseaux de neurones ne sont pratiquement jamais utilisés pour réaliser l’approximation d’une
fonction connue. Dans la très grande majorité des applications, les réseaux de neurones sont
utilisés pour réaliser une modélisation ou régression non linéaire. À cet effet, on réalise des
mesures, en nombre fini, des entrées et des sorties du processus que l’on cherche à modéliser. Ces
mesures sont évidemment entachées de bruit, ou affectées par des perturbations non mesurées.
On suppose que les résultats des mesures peuvent être valablement modélisées par la somme
d’une fonction inconnue, dite fonction de régression, et d’une variable aléatoire de moyenne
nulle. La modélisation consiste alors à approcher la fonction de régression inconnue à l’aide de
fonctions paramétrées (par exemple des réseaux de neurones) dont on ajuste les paramètres lors
d’un processus dit d’apprentissage.
Comme le nombre de mesures à effectuer sur le processus doit être plus grand que le nombre de
paramètres du modèle à ajuster, la parcimonie des réseaux de neurones a une conséquence
pratique très importante!: pour obtenir une précision de modélisation donnée, un modèle non
linéaire par rapport à ses paramètres (un réseau de neurones par exemple) nécessite un plus petit
nombre de mesures qu’un modèle linéaire par rapport à ses paramètres, donc non parcimonieux,
tels qu’un polynôme.
Contrairement à une idée reçue, les réseaux de neurones ne sont donc pas des modèles sur-
paramétrés!; bien au contraire, ils sont parcimonieux en nombre de paramètres.
L’APPRENTISSAGE DES RESEAUX DE NEURONES POUR LA MODÉLISATION ET
LA COMMANDE
L’apprentissage des réseaux de neurones est la procédure algorithmique par laquelle les
paramètres {wi} du modèle sont estimés, à partir des mesures des entrées et des sorties
correspondantes du processus. Durant l’apprentissage, on cherche à minimiser la fonction de coût
des moindres carrés, c’est-à-dire la somme des carrés des erreurs de modélisation pour tous les
exemples utilisés pour l’apprentissage (ou ensemble d’apprentissage). Contrairement à la
méthode des moindres carrés ordinaires, cette minimisation ne se réduit à la résolution d’un
système linéaire (les équations canoniques)!: comme les réseaux de neurones ne sont pas linéaires
par rapport à leurs paramètres, la fonction de coût des moindres carrés n’est pas quadratique par
rapport à ceux-ci. On doit donc avoir recours à des méthodes d’optimisation dites méthodes de
gradient, du second ordre de préférence, telles que la méthode de Levenberg-Marquardt [Press
1988]. Pour cela, il faut calculer le gradient de la fonction de coût par rapport aux paramètres du
réseau de neurones, ce qui peut se faire de manière économique en temps de calcul par un
algorithme dit de rétropropagation (voir par exemple [Dreyfus 2002]). Cette complexité
supplémentaire, par rapport à l’apprentissage des modèles linéaires par rapport aux paramètres
tels que les polynômes, est le prix que l’on paie pour bénéficier de la parcimonie.
L’apprentissage des réseaux de neurones bouclés est plus complexe que celui des réseaux de
neurones non bouclés!: la méthode optimale d’apprentissage dépend de l’influence du bruit sur le
processus. La procédure optimale est différente selon que le bruit présent dans les données est un
bruit de sortie, un bruit d’état, ou les deux à la fois. Ces questions sont décrites en détail dans
[Dreyfus 2002]
LA SÉLECTION DE MODÈLE
La sélection de modèle est une étape cruciale dans la conception d’un réseau de neurones, comme
pour tout modèle non linéaire. En effet, il faut obtenir un modèle qui possède une complexité
suffisante pour s’ajuster aux données, mais pas une complexité excessive. Un modèle qui est trop
simple, c’est-à-dire qui possède un trop petit nombre de neurones cachés, donc de paramètres, n’a
pas la complexité nécessaire pour refléter la complexité du processus à modéliser!; en revanche,
un modèle trop complexe, qui possède un nombre excessif de paramètres, risque de souffrir de
surajustement, car il peut profiter des degrés de liberté en excès pour s’ajuster au bruit présent
dans les données, au lieu de rendre compte uniquement de l’aspect déterministe du processus que
l’on cherche à modéliser. Le concepteur de modèle doit donc trouver le meilleur compromis entre
complexité et parcimonie. Une méthodologie complète de conception et de sélection de modèle,
fondée sur l’estimation des leviers, a été proposée récemment et mise en œuvre dans plusieurs
applications. Le levier d’une mesure (utilisée pour l’apprentissage) est la fraction des degrés de
liberté du modèle (c’est-à-dire du nombre de paramètres de celui-ci) qui est utilisée pour ajuster
le modèle à ce point. Un modèle qui consacre une partie importante de ses degrés de liberté à
s’ajuster à un ou plusieurs points spécifiques de la base d’apprentissage est susceptible de
s’ajuster localement au bruit présent dans ces mesures : il doit donc être rejeté [Monari 2002].
DE LA MODÉLISATION «!BOÎTE NOIRE!» À LA MODÉLISATION SEMI-PHYSIQUE
Classiquement, on utilise les réseaux de neurones comme modèles «!boîtes noires!», qui sont
conçus exclusivement par apprentissage à partir de mesures, en ne tenant aucun compte
d’éventuelles connaissances a priori qui, néanmoins, peuvent être et sont généralement
disponibles. Les paramètres de ces réseaux, obtenus après apprentissage, n’ont aucune
signification physique et ne peuvent pas être interprétés. La modélisation semi-physique constitue
une alternative très puissante à la modélisation «!boîte noire!»!: elle permet au concepteur du
modèle de prendre en considération, outre les mesures, toutes les connaissances expertes
disponibles, concernant le processus à modéliser, qui se présentent sous forme d’équations
algébriques ou différentielles. On peut ainsi combiner les avantages des deux approches!: la
souplesse des modèles conçus par apprentissage et la lisibilité et l’intelligibilité des modèles de
connaissances. Cette technique a été mise en œuvre dans plusieurs applications [Ploix 1997,
Oussar 2001].
QUELQUES APPLICATIONS DES RÉSEAUX DE NEURONES EN MODÉLISATION
DE PROCESSUS
1.
Une illustration de la parcimonie des réseaux de neurones!: la prédiction
de la température de liquidus de verres industriels
La formulation de matériaux industriels est un domaine d’excellence des réseaux de neurones!: il
s’agit en effet de prédire des propriétés physiques (mécaniques, électroniques,
thermodynamiques, etc.) ou chimiques (température d’ébullition, solubilité, etc.) en fonction de
leur composition. Pour des propriétés et des matériaux importants, il existe des bases de données
issues d’expériences industrielles ou universitaires!: on peut donc utiliser les capacités de
régression non linéaire parcimonieuse des réseaux de neurones pour effectuer ces prédictions.
1 / 13 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !