Etude des algorithmes de construction d’architecture des réseaux de neurones.
La définition de l’architecture du réseau de neurones multicouches pour la résolution d’un
problème donné reste un problème ouvert. Outre les méthodes génétiques (D.Curran et O’Rior-
dan, 2002), ce problème est souvent résolu en utilisant deux approches : la première consiste à
ajouter successivement des neurones et des connexions à une petite architecture, la deuxième
quant à elle consiste à supprimer des neurones et des connexions d’une architecture initiale
maximale. Ces deux approches ont souvent comme inconvénient le temps d’apprentissage
élevé et imprévisible.
Les domaines d’application des réseaux de neurones sont multiples (Dreyfus et al., 2002) :
la biologie moléculaire (analyse des séquences d’ADN (Shavlik et Towell., 1994)), prédiction,
classification, traitement d’images, le génie logiciel (estimation des coûts de logiciel (S.Mbarki
et al., 2004)), etc. Aucune explication ne justifie à notre connaissance la définition des architec-
tures utilisées. Pour les problèmes de classification en particulier, plusieurs méthodes ont été
développées et sont proposées dans la littérature (J.Yang et al., 1999; Yang et al., 1996; Parekh
et al., 1997b). On peut classer ces méthodes en deux catégories : celles qui construisent l’archi-
tecture en utilisant un ensemble de connaissances de domaine (exemple de KBANN (Shavlik et
Towell., 1994)) et les autres qui définissent cette architecture sans aucune connaissance (J.Yang
et al., 1999; Parekh et al., 1997b; Yang et al., 1996; Parekh et al., 1995). Les algorithmes de
construction des réseaux de neurones artificiels que nous avons rencontrés dans la littérature
produisent des réseaux ayant les caractéristiques suivantes (Parekh et al., 1995, 1997a, 2000) :
architecture minimale, habile à trouver le compromis entre les mesures de performances telles
que le temps d’apprentissage, habilité à généraliser, . . .etc. Ces méthodes constructives de ré-
seau de neurones diffèrent par les facteurs suivants (Parekh et al., 1997a, 2000) : restriction des
entrées (type de données en entrée), circonstances d’ajout d’une nouvelle unité, initialisation
des poids de connexion de cette unité et son apprentissage.
Dans ce travail, notre intérêt porte sur les méthodes de recherche d’architecture des ré-
seaux de neurones multicouches feed-forward (les informations circulent des entrées vers les
sorties, sans retour) pour la résolution des problèmes de classification. Les principaux para-
mètres de mesure de performance traités sont : la taille du réseau (nombre de neurones, nombre
de couches...), la complexité en temps et la capacité de généralisation. Certaines méthodes de
recherche d’architecture de réseaux de neurones ont été évaluées sur des données de taille re-
lativement petite et la qualité des résultats varie d’un ensemble de données à l’autre (Parekh
et al., 1997a). D’autre part, une comparaison théorique des ces algorithmes n’a pas à notre
connaissance été faite. Notre étude portera essentiellement sur la comparaison de ces algo-
rithmes d’après les mesures de performances citées ci-dessus et des résultats expérimentaux
sur les données tirées de la base UCI (Newmann et al., 1998). Les opérations supplémentaires
de prétraitement de données telles que projection, binarisation, la normalisation et autres ne
seront pas abordées dans cette étude.
Le reste du papier est organisé comme suit : la section suivante présente les réseaux de
neurones multicouches, et quelques notions (définitions et apprentissage) liées aux réseaux
de neurones multicouches ; la troisième section recense les algorithmes de construction d’ar-
chitecture neuronale. Les analyses expérimentales et théoriques feront l’objet de la quatrième
section.