Apprentissage et generalisation par des reseaux de

publicité
APPRENTISSAGE ET GENERALISATION PAR
DES RESEAUX DE NEURONES : ETUDE DE
NOUVEAUX ALGORITHMES CONSTRUCTIFS
Juan Manuel Torres Moreno
Septembre 22, 1997
CEA/Grenoble
Département de Recherche Fondamentale sur la Matière Condensée/SPSMS/Groupe Théorie
17 rue des Martyrs 38054 Grenoble Cedex 9
PLAN
1. INTRODUCTION
CLASSIFICATION ET RESEAUX DE NEURONES
2. L’ALGORITHME D’APPRENTISSAGE MINIMERROR
3. DEUX ALGORITHMES CONSTRUCTIFS
MONOPLAN ET NETLINES
4. CONCLUSION ET PERSPECTIVES
LA CLASSIFICATION
Classification. Assignation d’une classe à un objet à
partir de ses propriétés spécifiques.
Exemples
· Classification des visages
· des données médicales
· de caractères manuscrits
· de spectres...
Apprentissage. Processus d’adaptation des
paramètres d’un système pour donner une réponse
désirée face à une entrée ou stimulation externe.
Données. Paires { Entrées-Sortie } sous une forme
vectoriel.
r

ξ =  ξ1,ξ2 ,...,ξ N   = EXEMPLE


τ = ±1

Ensemble d’apprentissage. P couples de N
entrées (binaires ou réelles)
rµ µ 
L = ξ , τ ; µ = 1,..., P




LA GENERALISATION
But de l’apprentissage...
Classer de nouveaux exemples (dont on ne
connaît pas la classe) qui n’appartienent pas a
l’ensemble d’apprentissage.
Mesure de l’erreur de
généralisation
ε g = Nb. total de bien classés
Nb. total d'exemples
RESEAUX DE NEURONES
Ensemble d’unités (neurones) interconnectées par des POIDS, qui traitent
l’information d’une source externe.
Réseau feedforward à deux couches
cachées
Un RN avec une seule couche cachée peut approcher toute fonction des
entrées, mais le nombre d’unités cachées nécessaires est inconnu...
Deux méthodes
Architecture fixe :
Backprop et variations
Architecture constructive :
Algorithmes incrémentaux
• Nombre de couches et d’unités
fixés : apprentissage des poids.
• Nombre d’unités et poids
déterminés par apprentissage.
• Détermination de la taille du
réseau par essai et erreur.
(Élagage éventuel).
• Commencer avec une unité, et
introduire successivement des
neurones cachés.
LE PERCEPTRON
ζ
Sortie
w1
w2
ξ1
ξ2
wN
w3
ξ3
...
ξN
Entrées
• Les N entrées ξi ; i=1,..., N
• Les N poids
wi ; i=1,..., N
• La sortie
r
ξ = ( ξ0, ξ1,..., ξN )
r
w = ( w0, w1,..., wrN )
r
ζ = signe( w⋅ξ )
ξ0 ≡ 1 = BIAIS
LA STABILITE
r r
µ µ
γµ ≡ w
r ⋅ξ τ
w
>0
γµ = 
bien classé
< 0 mal classé




Distance (avec signe) de l’exemple µ à
l’hyperplan séparateur.
Une grande stabilité positive assure une certaine
robustesse de la réponse du neurone.
FONCTION DE COUT
• Mesure d’erreur.
P
r
E(w) = ∑ Θ( − γ µ )
Θ( x) =
µ =1
1 si x > 0
0 autrement





Mais Θ n’est pas dérivable...
Pour des unités binaires, il existe algorithmes
d’apprentissage :
• L’algorithme standard du perceptron
• L’algorithme Pocket
Problèmes
• L’algorithme standard converge seulement
si l’ensemble L est linéairement séparable
• Pour l’algorithme Pocket, il faut atteindre
un temps suffisamment long...
L’ALGORITHME MINIMERROR
Minimise la fonction de coût :
µ


V (γ µ ) = 1  1− tanh γ
2 
2T
P
r
E(w) = ∑ V (γ µ ) ;
µ =1
γ = Stabilité
T = Température
1.00
0.75
V=[1 - tanh ( γ/2T))]/2
V(
γ ; T)
0.50
0.25
0.00
-4
-3
-2
-1
0
γ /T
1
2
3
4






L’ALGORITHME MINIMERROR
Minimise la fonction de coût
T = Température
γ = Stabilité
Rôle de T :
T → 0 ⇒ V échelon : compte les erreurs
T finie ⇒ V est dérivable...
A T finie on peut utiliser une descente en
gradient...
r
r
r
w(t +1) = w(t) + δw(t)
r
∂E
δw(t) = − ε r
∂w
1
∂E
∂V
=
=−
r ∑ r
∂w
∂w
4T
µ
rµ
ξ
∑
µ cosh

2 


µ
τ
µ
γ 
2T 
1.00
0.75
V'=1/cosh² ( γ/2T)
V'(
γ ; T)
0.50
0.25
0.00
-4
-3
-2
-1
0
1
2
3
4
γ/T
• Propriété : utiliser l’information des
exemples dans une fenêtre de largueur 2T
Minimisation de la fonction de coût :
P 
1
C = ∑ 1− tanh γ µ / 2T  
2 µ=1

r r
r
γ µ = τµ w ⋅ ξµ / w : stabilité des entrées
(γµ>0 exemple bien appris, γµ ≤0 autrement)
Minimisation : gradient simple + recuit déterministe
Propriétés
Trouver automatiquement
un perceptron qui :
r
• Si L={ ξµ ,τµ } est LS ⇒ probabilité de généralisation maximale
• Si non ⇒ probabilité d’erreur d’apprentissage minimale
Minimerror vs. algorithme standard du Perceptron
120
N=20
Minimerror-L
Perceptron
100
80
Epoques 60
40
20
α=
P
N
Taille réduite de
l’ensemble
d’apprentissage
0
2
4
6
8
10
α=P/N
120
N=50
Minimerror-L
Perceptron
100
80
Epoques 60
40
Moyennes sur 30
ensembles
d’apprentissage
20
0
0
2
4
6
8
10
α = P/N
120
N=100
Minimerror-L
Perceptron
100
80
Epoques 60
40
20
0
0
2
4
6
α = P/N
8
10
INFLUENCE DE T
N=2
P=200
( β=1/T )
Non L.S.
0.5
τ=+1
τ=-1
β+=2.5
β+=5.0
β+=10.0
β+=58.2
ξ2
0.0
-0.5
-0.5
0.0
ξ1
0.5
f=12
f=10
f=7
f=6
ALGORITHMES CONSTRUCTIFS
A partir de perceptrons simples...
ζ = signe ( ξ w)
w1
w2
ξ2
ξ1
wN
w3
...
ξ3
ξN
Bâtir un réseau de neurones...
ζ
Sortie
σ1
H Unités cachées
...
N Entrées
ξ1
ξ2
ξ3
ξN
ζ
Sortie
Wj
σ2
σ1
H Unités cachées
...
σH
wi j
...
N Entrées
ξ1
ξ2
ξ3
ξN
L’ALGORITHME CONSTRUCTIF MONOPLAN♣
Il construit un RN feedforward ...
• Réseau à une seule couche cachée de neurones binaires
• Apprentissage par des perceptrons simples avec MINIMERROR
rµ
• Les étatsr appris constituent les représentations internes (RI) σ des
entrées ξµ
• Les RI sont un codage comprimé (binaire) qui permet
d’extraire de règles.
• Les poids w sont la définition de frontières
(ou morceaux de frontières) entre classes.
♣ Torres-Moreno et Gordon, ESANN’95 pp 365-370
MONOPLAN ET LE XOR
Problème : Malgré sa simplicité, Monoplan peut
avoir certains problèmes quand les entrées sont
réelles...
Solution de Monoplan...
Solution compatible avec le théorème de convergence
(Martinez et Stève 1992 ; Gordon 1996)
Problèmes :
Trop d’unités cachées... Mauvaise généralisation.
L’ALGORITHME NETLINES
Idée : corriger les erreurs à la sortie et non dans la couche cachée...
NetLines trouve des RI fidèles : deux entrées de classes différentes
ont des RI différentes...
et linéairement séparables !
Problèmes artificiels
• La parité de N entrées.
• Les problèmes de Monk’s.
• Les formes d’ondes (Breiman).
Classification de spectres
• Classification de données de sonar (Sejnowski).
Aide au diagnostic médical
• Diagnostic de cancer du sein (Wisconsin university).
• Diagnostic du diabètes (indiens Pima).
Autres problèmes...
• La base de données Iris (Fisher).
• Le problème de 2 domaines ou plus
Le problème du Sonar (Sejnowski) ♣
Discriminer entre échos des mines ou de pierres
d
2
2
1
1
0
0
P=104 N=60
µ
-1
-1
-2
-2
(a)
Training Set
(b)
µ
µ
τ =+1
µ
τ =−1
τ =+1
µ
τ =−1
-3
-3
0
40
80
µ
120
160
εt=0
200
0
εg=0.22
♣
40
80
µ
120
160
200
εt=0
Neural Processing Letters (1997) à paraître.
Diagnostic de cancer du sein
Problème
Données médicales de 683 prélèvements cytologiques, plus 16 cas avec
l’attribut 6 manquant♣.
Attributs
1
2
3
4
5
6
7
8
9
Épaisseur de l’échantillon
Uniformité de la taille
Uniformité de la forme
Adhésion marginale
Taille cellule épithéliale
Noyaux
Chromatine terne
Nucleoli normal
Mitose
Normalisation des données :
(ξµ
i − xi
µ
ξ
i
←
σ
)
;
xi
2
1 P
µ
= P ∑ ξi ; σ
µ =1
1 P
µ
= P ∑ ξi − x i
µ =1
(
)
2
Apprentissage
N
P
Classes
Distribution
Ensembles
9 attributs ∈ [1,10]
75, 160 et 525
{bénin, malin}
65.5% bénin, 34.5% malin
50 au hasard
Généralisation
Taille de la base G = 608,523 et 158 respect.
Type de test
Holdout
Diagnostic du cancer du sein♣
0.06
Br east cancer (a)
Retropropagation
0.05
3
NetLines (P=160)
l’erreur
(sans
court
circuits)
5
7
1 : H=4+2
0.04
εg
de
Minimer r or (P=75)
2
6
0.03
2 : H=4+4
3 : H=8 + 4
MonoPlane (P=160)
Retropropagation de l’erreur (court circuits)
0.02
1
4 : H=4+2
4
0.01
5 : H=4+4
NetLines
MonoPlane
6 : H=8+4
0.00
10
100
7 Cascade Correlation
Number of weights
♣
Neural Computation (1997) à paraître.
Rprop 10 tests, 2 couches cachées : L. Prechelt: Report 21/94 Fakultät für Informatik, Universität Karlsruhe, Germany (1994)
Glocal, C.Correlation : J. Depenau: Proc. of the World Congress on Neural Networks, Washington. Vol.1, pp. 587-590 (1995).
W. H. Wolberg and O. L. Mangasarian: Proc.of the National Academy of Sciences 87, 9193-9196 (1990).
Diagnostic de diabète
Problème
Données médicales de 768 cas des indiens Pima (National Institute of Diabetes
♣
and Digestive and Kidney Diseases) .
Attributs
Apprentissage
1 Nombre de fois prégnant
2 Concentration de glucose 2 heures
après d’un test oral de tolérance
3 Pression diastolique de la sang (mmHg)
4 Épaisseur de peau dans triceps (mm)
5 2 heures sérum insuline (mu U/ml)
6 Indice de la masse du corps (kg/m2)
7 Fonction de prédisposition au diabète
8 Âge (années)
Normalisation des données:
( ξiµ −
ξiµ ←
σ
xi
);
1 P
1 P
xi = ∑ ξiµ ; σ 2 = ∑ ξiµ − xi
P µ =1
P µ =1
(
2
)
N
P
Classes
Distribution
Ensembles
8 attributs ∈ ℜ
576
{oui, non}
65.1% non, 34.9% oui
50 au hasard
Généralisation
Taille de la base G = 192
Type de test
Holdout
Diagnostic de diabètes♣
0.30
Indians Pima Diabetes
0.28
3
0.26
εg
6
1 Rprop 2+2 No shortcut
2 Rprop 4+4 No shortcut
3 Rprop 16+8 No shortcut
4 Rprop 2+2 shortcut
5 Rprop 4+4 shortcut
6 Rprop 16+8 shortcut
1
0.24
4
NetLines
2
5
0.22
Choix entre 12 architectures differentes:
0.20
1 couche cachée: H=2,4,8,16,24,32
2 couches cachées: 2+2,4+2,4+4,8+4,8+8,16+8
0.18
10
100
Number of weights
♣
Neural Computation (1997) à paraître.
Rprop 10 tests: L. Prechelt: Report 21/94 Fakultät für Informatik, Universität Karlsruhe, Germany (1994)
NetLines : 50 ensembles d’apprentissage
Données en http://www.ics.uci.edu//~mlearn/MLRepository.html
Formes d’ondes de Breiman♣
Problème
r
Classement d’ondes x appartenant à 3 classes.
0≤u≤1: variable aléatoire de distribution
uniforme.
r
ε
: bruit gaussien de distribution N(0,1)
14% : Borne inférieure à l’erreur de
généralisation (Bayes).
Définition
r
r
r
r
Classe1: x = u h1 + (1-u) h2 + ε
r
r r
r
Classe2: x = u h1 + (1-u) h3 + ε
r
r r
r
Classe3: x = u h2 + (1-u) h3 + ε
Ondes de base h1(t), h2(t) et h3(t) t=1,...,21
h1(t)
1
7
13
h2(t)
21
1
9
h3(t)
15
21
1 5
6
11
17 21
Apprentissage
N
P
Classes
Distribution
Ensembles
21 valeurs ∈ ℜ
300
{1,2,3}
≈ 33% par classe
10 bases
Généralisation
Taille de la base
Type de test
G = 5000
Holdout
Solution
L
• 3 réseaux, dédiés à la séparation
d’une classe par rapport aux
deux autres
Réseau 1
Réseau 2
Réseau 3
Vote
Sortie
• Classe attribuée à chaque
exemple par Vote
Formes d’ondes de Breiman♣
Méthode*
0
0.26
Br eiman's Wavefor ms
4
0.24
MonoPlane (WTA)
6
0.22
5
1
0.20
εg
7
0.18
8
2 3
0.16
1
2
3
4
5
6
7
8
Disc. linéaire
Standard du Perceptron
Retropropagation
Algorithme génétique
Disc. quadratique
Fenêtres de Parzen
K plus proches voisins
Constraint
Minimerror
NetLines (Vote)
0.14
Theor etical limit
10
100
1000
10000
100000
Number of par ameter s
• 11 ensembles: SYMENU (article collectif, O. Gascuel coordonateur des travaux) 5èmes Journées
Nationales du PRC-IA (Nancy), Teknea, 29-76, 1995.
• Données en ftp://blanche.polytechnique.fr/pub/Symenu/Bases/
♣
Neural Computation
(1997) à paraître.
Perspectives...
Minimerror-S
• Même fonction de coût E
• Même type de recuit déterministe.
• Stabilité sphérique λ :
τ=+1
τ=−1
ξ2
r r
2
2  µ
λ = (ξ − w ) − ρ  τ
µ
2
ξ
2 1/2
ρ
|λ |
w





1
ξ
1 1/2
| λ|
ξ1
1
2
λ >0; λ <0
Algorithme NetSphères
• Même heuristique que NETLINES
• Entraînement par Minimerror-S
• Neurones cachées sphériques
• Neurone de sortie linéaire

CONCLUSION
• Présentation de l’algorithme MINIMERROR :
Perceptrons binaires,
Recuit déterministe + descente en gradient
• Deux nouveaux algorithme constructifs :
MONOPLAN (entrées binaires) et NETLINES (entrées réelles)
• Tests sur nos algorithmes : réalistes et académiques
• Perspectives : réseaux de neurones hybrides
(hypersphères + hyperplans)
Si l’homme est neuronal, le neurone lui,
est inhumain
Téléchargement