APPRENTISSAGE ET GENERALISATION PAR DES RESEAUX DE NEURONES : ETUDE DE NOUVEAUX ALGORITHMES CONSTRUCTIFS Juan Manuel Torres Moreno Septembre 22, 1997 CEA/Grenoble Département de Recherche Fondamentale sur la Matière Condensée/SPSMS/Groupe Théorie 17 rue des Martyrs 38054 Grenoble Cedex 9 PLAN 1. INTRODUCTION CLASSIFICATION ET RESEAUX DE NEURONES 2. L’ALGORITHME D’APPRENTISSAGE MINIMERROR 3. DEUX ALGORITHMES CONSTRUCTIFS MONOPLAN ET NETLINES 4. CONCLUSION ET PERSPECTIVES LA CLASSIFICATION Classification. Assignation d’une classe à un objet à partir de ses propriétés spécifiques. Exemples · Classification des visages · des données médicales · de caractères manuscrits · de spectres... Apprentissage. Processus d’adaptation des paramètres d’un système pour donner une réponse désirée face à une entrée ou stimulation externe. Données. Paires { Entrées-Sortie } sous une forme vectoriel. r ξ = ξ1,ξ2 ,...,ξ N = EXEMPLE τ = ±1 Ensemble d’apprentissage. P couples de N entrées (binaires ou réelles) rµ µ L = ξ , τ ; µ = 1,..., P LA GENERALISATION But de l’apprentissage... Classer de nouveaux exemples (dont on ne connaît pas la classe) qui n’appartienent pas a l’ensemble d’apprentissage. Mesure de l’erreur de généralisation ε g = Nb. total de bien classés Nb. total d'exemples RESEAUX DE NEURONES Ensemble d’unités (neurones) interconnectées par des POIDS, qui traitent l’information d’une source externe. Réseau feedforward à deux couches cachées Un RN avec une seule couche cachée peut approcher toute fonction des entrées, mais le nombre d’unités cachées nécessaires est inconnu... Deux méthodes Architecture fixe : Backprop et variations Architecture constructive : Algorithmes incrémentaux • Nombre de couches et d’unités fixés : apprentissage des poids. • Nombre d’unités et poids déterminés par apprentissage. • Détermination de la taille du réseau par essai et erreur. (Élagage éventuel). • Commencer avec une unité, et introduire successivement des neurones cachés. LE PERCEPTRON ζ Sortie w1 w2 ξ1 ξ2 wN w3 ξ3 ... ξN Entrées • Les N entrées ξi ; i=1,..., N • Les N poids wi ; i=1,..., N • La sortie r ξ = ( ξ0, ξ1,..., ξN ) r w = ( w0, w1,..., wrN ) r ζ = signe( w⋅ξ ) ξ0 ≡ 1 = BIAIS LA STABILITE r r µ µ γµ ≡ w r ⋅ξ τ w >0 γµ = bien classé < 0 mal classé Distance (avec signe) de l’exemple µ à l’hyperplan séparateur. Une grande stabilité positive assure une certaine robustesse de la réponse du neurone. FONCTION DE COUT • Mesure d’erreur. P r E(w) = ∑ Θ( − γ µ ) Θ( x) = µ =1 1 si x > 0 0 autrement Mais Θ n’est pas dérivable... Pour des unités binaires, il existe algorithmes d’apprentissage : • L’algorithme standard du perceptron • L’algorithme Pocket Problèmes • L’algorithme standard converge seulement si l’ensemble L est linéairement séparable • Pour l’algorithme Pocket, il faut atteindre un temps suffisamment long... L’ALGORITHME MINIMERROR Minimise la fonction de coût : µ V (γ µ ) = 1 1− tanh γ 2 2T P r E(w) = ∑ V (γ µ ) ; µ =1 γ = Stabilité T = Température 1.00 0.75 V=[1 - tanh ( γ/2T))]/2 V( γ ; T) 0.50 0.25 0.00 -4 -3 -2 -1 0 γ /T 1 2 3 4 L’ALGORITHME MINIMERROR Minimise la fonction de coût T = Température γ = Stabilité Rôle de T : T → 0 ⇒ V échelon : compte les erreurs T finie ⇒ V est dérivable... A T finie on peut utiliser une descente en gradient... r r r w(t +1) = w(t) + δw(t) r ∂E δw(t) = − ε r ∂w 1 ∂E ∂V = =− r ∑ r ∂w ∂w 4T µ rµ ξ ∑ µ cosh 2 µ τ µ γ 2T 1.00 0.75 V'=1/cosh² ( γ/2T) V'( γ ; T) 0.50 0.25 0.00 -4 -3 -2 -1 0 1 2 3 4 γ/T • Propriété : utiliser l’information des exemples dans une fenêtre de largueur 2T Minimisation de la fonction de coût : P 1 C = ∑ 1− tanh γ µ / 2T 2 µ=1 r r r γ µ = τµ w ⋅ ξµ / w : stabilité des entrées (γµ>0 exemple bien appris, γµ ≤0 autrement) Minimisation : gradient simple + recuit déterministe Propriétés Trouver automatiquement un perceptron qui : r • Si L={ ξµ ,τµ } est LS ⇒ probabilité de généralisation maximale • Si non ⇒ probabilité d’erreur d’apprentissage minimale Minimerror vs. algorithme standard du Perceptron 120 N=20 Minimerror-L Perceptron 100 80 Epoques 60 40 20 α= P N Taille réduite de l’ensemble d’apprentissage 0 2 4 6 8 10 α=P/N 120 N=50 Minimerror-L Perceptron 100 80 Epoques 60 40 Moyennes sur 30 ensembles d’apprentissage 20 0 0 2 4 6 8 10 α = P/N 120 N=100 Minimerror-L Perceptron 100 80 Epoques 60 40 20 0 0 2 4 6 α = P/N 8 10 INFLUENCE DE T N=2 P=200 ( β=1/T ) Non L.S. 0.5 τ=+1 τ=-1 β+=2.5 β+=5.0 β+=10.0 β+=58.2 ξ2 0.0 -0.5 -0.5 0.0 ξ1 0.5 f=12 f=10 f=7 f=6 ALGORITHMES CONSTRUCTIFS A partir de perceptrons simples... ζ = signe ( ξ w) w1 w2 ξ2 ξ1 wN w3 ... ξ3 ξN Bâtir un réseau de neurones... ζ Sortie σ1 H Unités cachées ... N Entrées ξ1 ξ2 ξ3 ξN ζ Sortie Wj σ2 σ1 H Unités cachées ... σH wi j ... N Entrées ξ1 ξ2 ξ3 ξN L’ALGORITHME CONSTRUCTIF MONOPLAN♣ Il construit un RN feedforward ... • Réseau à une seule couche cachée de neurones binaires • Apprentissage par des perceptrons simples avec MINIMERROR rµ • Les étatsr appris constituent les représentations internes (RI) σ des entrées ξµ • Les RI sont un codage comprimé (binaire) qui permet d’extraire de règles. • Les poids w sont la définition de frontières (ou morceaux de frontières) entre classes. ♣ Torres-Moreno et Gordon, ESANN’95 pp 365-370 MONOPLAN ET LE XOR Problème : Malgré sa simplicité, Monoplan peut avoir certains problèmes quand les entrées sont réelles... Solution de Monoplan... Solution compatible avec le théorème de convergence (Martinez et Stève 1992 ; Gordon 1996) Problèmes : Trop d’unités cachées... Mauvaise généralisation. L’ALGORITHME NETLINES Idée : corriger les erreurs à la sortie et non dans la couche cachée... NetLines trouve des RI fidèles : deux entrées de classes différentes ont des RI différentes... et linéairement séparables ! Problèmes artificiels • La parité de N entrées. • Les problèmes de Monk’s. • Les formes d’ondes (Breiman). Classification de spectres • Classification de données de sonar (Sejnowski). Aide au diagnostic médical • Diagnostic de cancer du sein (Wisconsin university). • Diagnostic du diabètes (indiens Pima). Autres problèmes... • La base de données Iris (Fisher). • Le problème de 2 domaines ou plus Le problème du Sonar (Sejnowski) ♣ Discriminer entre échos des mines ou de pierres d 2 2 1 1 0 0 P=104 N=60 µ -1 -1 -2 -2 (a) Training Set (b) µ µ τ =+1 µ τ =−1 τ =+1 µ τ =−1 -3 -3 0 40 80 µ 120 160 εt=0 200 0 εg=0.22 ♣ 40 80 µ 120 160 200 εt=0 Neural Processing Letters (1997) à paraître. Diagnostic de cancer du sein Problème Données médicales de 683 prélèvements cytologiques, plus 16 cas avec l’attribut 6 manquant♣. Attributs 1 2 3 4 5 6 7 8 9 Épaisseur de l’échantillon Uniformité de la taille Uniformité de la forme Adhésion marginale Taille cellule épithéliale Noyaux Chromatine terne Nucleoli normal Mitose Normalisation des données : (ξµ i − xi µ ξ i ← σ ) ; xi 2 1 P µ = P ∑ ξi ; σ µ =1 1 P µ = P ∑ ξi − x i µ =1 ( ) 2 Apprentissage N P Classes Distribution Ensembles 9 attributs ∈ [1,10] 75, 160 et 525 {bénin, malin} 65.5% bénin, 34.5% malin 50 au hasard Généralisation Taille de la base G = 608,523 et 158 respect. Type de test Holdout Diagnostic du cancer du sein♣ 0.06 Br east cancer (a) Retropropagation 0.05 3 NetLines (P=160) l’erreur (sans court circuits) 5 7 1 : H=4+2 0.04 εg de Minimer r or (P=75) 2 6 0.03 2 : H=4+4 3 : H=8 + 4 MonoPlane (P=160) Retropropagation de l’erreur (court circuits) 0.02 1 4 : H=4+2 4 0.01 5 : H=4+4 NetLines MonoPlane 6 : H=8+4 0.00 10 100 7 Cascade Correlation Number of weights ♣ Neural Computation (1997) à paraître. Rprop 10 tests, 2 couches cachées : L. Prechelt: Report 21/94 Fakultät für Informatik, Universität Karlsruhe, Germany (1994) Glocal, C.Correlation : J. Depenau: Proc. of the World Congress on Neural Networks, Washington. Vol.1, pp. 587-590 (1995). W. H. Wolberg and O. L. Mangasarian: Proc.of the National Academy of Sciences 87, 9193-9196 (1990). Diagnostic de diabète Problème Données médicales de 768 cas des indiens Pima (National Institute of Diabetes ♣ and Digestive and Kidney Diseases) . Attributs Apprentissage 1 Nombre de fois prégnant 2 Concentration de glucose 2 heures après d’un test oral de tolérance 3 Pression diastolique de la sang (mmHg) 4 Épaisseur de peau dans triceps (mm) 5 2 heures sérum insuline (mu U/ml) 6 Indice de la masse du corps (kg/m2) 7 Fonction de prédisposition au diabète 8 Âge (années) Normalisation des données: ( ξiµ − ξiµ ← σ xi ); 1 P 1 P xi = ∑ ξiµ ; σ 2 = ∑ ξiµ − xi P µ =1 P µ =1 ( 2 ) N P Classes Distribution Ensembles 8 attributs ∈ ℜ 576 {oui, non} 65.1% non, 34.9% oui 50 au hasard Généralisation Taille de la base G = 192 Type de test Holdout Diagnostic de diabètes♣ 0.30 Indians Pima Diabetes 0.28 3 0.26 εg 6 1 Rprop 2+2 No shortcut 2 Rprop 4+4 No shortcut 3 Rprop 16+8 No shortcut 4 Rprop 2+2 shortcut 5 Rprop 4+4 shortcut 6 Rprop 16+8 shortcut 1 0.24 4 NetLines 2 5 0.22 Choix entre 12 architectures differentes: 0.20 1 couche cachée: H=2,4,8,16,24,32 2 couches cachées: 2+2,4+2,4+4,8+4,8+8,16+8 0.18 10 100 Number of weights ♣ Neural Computation (1997) à paraître. Rprop 10 tests: L. Prechelt: Report 21/94 Fakultät für Informatik, Universität Karlsruhe, Germany (1994) NetLines : 50 ensembles d’apprentissage Données en http://www.ics.uci.edu//~mlearn/MLRepository.html Formes d’ondes de Breiman♣ Problème r Classement d’ondes x appartenant à 3 classes. 0≤u≤1: variable aléatoire de distribution uniforme. r ε : bruit gaussien de distribution N(0,1) 14% : Borne inférieure à l’erreur de généralisation (Bayes). Définition r r r r Classe1: x = u h1 + (1-u) h2 + ε r r r r Classe2: x = u h1 + (1-u) h3 + ε r r r r Classe3: x = u h2 + (1-u) h3 + ε Ondes de base h1(t), h2(t) et h3(t) t=1,...,21 h1(t) 1 7 13 h2(t) 21 1 9 h3(t) 15 21 1 5 6 11 17 21 Apprentissage N P Classes Distribution Ensembles 21 valeurs ∈ ℜ 300 {1,2,3} ≈ 33% par classe 10 bases Généralisation Taille de la base Type de test G = 5000 Holdout Solution L • 3 réseaux, dédiés à la séparation d’une classe par rapport aux deux autres Réseau 1 Réseau 2 Réseau 3 Vote Sortie • Classe attribuée à chaque exemple par Vote Formes d’ondes de Breiman♣ Méthode* 0 0.26 Br eiman's Wavefor ms 4 0.24 MonoPlane (WTA) 6 0.22 5 1 0.20 εg 7 0.18 8 2 3 0.16 1 2 3 4 5 6 7 8 Disc. linéaire Standard du Perceptron Retropropagation Algorithme génétique Disc. quadratique Fenêtres de Parzen K plus proches voisins Constraint Minimerror NetLines (Vote) 0.14 Theor etical limit 10 100 1000 10000 100000 Number of par ameter s • 11 ensembles: SYMENU (article collectif, O. Gascuel coordonateur des travaux) 5èmes Journées Nationales du PRC-IA (Nancy), Teknea, 29-76, 1995. • Données en ftp://blanche.polytechnique.fr/pub/Symenu/Bases/ ♣ Neural Computation (1997) à paraître. Perspectives... Minimerror-S • Même fonction de coût E • Même type de recuit déterministe. • Stabilité sphérique λ : τ=+1 τ=−1 ξ2 r r 2 2 µ λ = (ξ − w ) − ρ τ µ 2 ξ 2 1/2 ρ |λ | w 1 ξ 1 1/2 | λ| ξ1 1 2 λ >0; λ <0 Algorithme NetSphères • Même heuristique que NETLINES • Entraînement par Minimerror-S • Neurones cachées sphériques • Neurone de sortie linéaire CONCLUSION • Présentation de l’algorithme MINIMERROR : Perceptrons binaires, Recuit déterministe + descente en gradient • Deux nouveaux algorithme constructifs : MONOPLAN (entrées binaires) et NETLINES (entrées réelles) • Tests sur nos algorithmes : réalistes et académiques • Perspectives : réseaux de neurones hybrides (hypersphères + hyperplans) Si l’homme est neuronal, le neurone lui, est inhumain