RBF

publicité
Plan
• Les réseaux de neurones
– Historique
– Définitions
– Réseaux « usuels »
• Le réseau RBF
– Introduction
– Paramètres
• RBF et Mushroom
–
–
–
–
Paramètres
Algorithme
Résultats
Optimisations
Les réseaux de neurones
Les réseaux de neurones
Historique (1)
• 1940 : Alan TURING : Machine de Turing
• 1943 : Warren McCULLOCH & Walter PITTS (neurobiologistes
US) : Modèle de neurone.
• 1948 : von Neuman : Les réseaux d’automates
• 1949 : Donald HEBB : Hypothèse de l'efficacité synaptique, notion
de mémoire associative, premières règles d'apprentissage.
• 1960 : Franck ROSENBLATT et Bernard WIDROW créent le
Perceptron et Adaline.
3
Les réseaux de neurones
Historique (2)
• 1969 : Marvin MINSKY et Seymour PAPERT : Analyse théorique
des capacités de calcul des réseaux à base de perceptrons. Mise en
évidence de fortes limitations.
• Stagnation des recherches sur les réseaux neuromimétiques :
Report des efforts sur l'Intelligence Artificielle.
• Années 1980 : Stephen GROSSBERG et Teuvo KOHONEN :
Découvrent de nouvelles voies : auto-organisation des réseaux et
processus d'adaptation. Renaissance du Connexionnisme.
4
Les réseaux de neurones
Historique (3)
• John HOPFIELD : Analogies avec la Mécanique Statistique.
Comportement de systèmes constitués d'un grand nombre d'éléments
simples interagissant fortement. Application des nombreux résultats
de la physique théorique au connexionisme.
• Machine de BOLTZMANN et Perceptron Multi-Couches
(PMC) : Mécanismes d'apprentissage performants.
• Evolution des ordinateurs : simulation de modèles complexes.
On est donc passé d’un point de vue biologique à
un point de vue mathématique et informatique.
5
Les réseaux de neurones
Définitions (1)
Neurone :
Sorte d’automate qui se compose d’entrées, d’une sortie et d’une
fonction des entrées vers la sortie.
x1
W1
y=f(W1X1 + … + WnXn)
f
xn
Wn
Fonction d’activation
Poids d’une connexion
Connexion
6
Les réseaux de neurones
Définitions (2)
Réseau de neurones :
• Interconnexion d’éléments simples (neurones)
• Graphe orienté (connexions)
• Echange d’information via ces connexions
• Calcul distribué et coopératif
ENTREE
…
…
SORTIE
…
7
Les réseaux de neurones
Définitions (3)
Réseau de neurones (suite) :
C’est le renforcement ou l’affaiblissement de certaine connexion qui
adapte la ‘ structure ’ du réseau pour donner des réponses différentes.
Chaque neurone est paramétrable et, afin d’obtenir un réseau
intéressant, on modifie ces paramètres pour adapter les calculs qu’ils
effectuent.
Tout ceci crée une caractéristique des réseau de neurone :
l’apprentissage (et l’oubli).
8
Les réseaux de neurones
Définitions (4)
Apprentissage supervisé :
• Mode d'apprentissage le plus courant.
• Consiste à évaluer les poids synaptiques (poids des connexions) qui
minimisent l’erreur globale sur une ‘ Base d’apprentissage ’.
• Cette ‘ Base d’apprentissage ’ est une série d’entrée au réseau
desquelles on connaît les sorties associées.
• Exemples : Perceptron, Adaline
9
Les réseaux de neurones
Définitions (5)
Apprentissage non-supervisé :
• Mode d’apprentissage moins intuitif.
• Correspond au cas où il n’est pas possible d’avoir une ‘ Base
d’apprentissage ’.
• Dans ce cas, on présente les entrées au réseau et on le laisse évoluer
librement jusqu’à ce qu’il se stabilise.
• Exemples : Cartes de Kohonen
10
Les réseaux de neurones
Les réseaux « usuels » (1)
Les premiers modèles de neurones étaient caractérisés par une
fonction d'activation à seuil simple (binaire : 0=inactif, 1=actif).
Le déclenchement de l'activité intervient si la somme des excitations
dépasse un certain seuil propre au neurone.
Fonction seuil :
f(x) = 1, si x > SEUIL.
f(x) = 0, sinon.
11
Les réseaux de neurones
Les réseaux « usuels » (2)
Le modèle binaire a été rapidement perfectionné, mais l'effet de
seuil reste souvent recherché.
Un neurone est d'autant plus actif qu'il est excité (fonction monotone
croissante) et un neurone ne peut être actif au-delà d'une certaine
valeur (fonction bornée).
Fonction linéaire bornée :
f(x) = -1 ou 1,
au-delà des bornes.
f(x) = A*x, sinon.
12
Les réseaux de neurones
Les réseaux « usuels » (3)
Lorsque la fonction d'activation est dérivable, il est possible d'utiliser
des algorithmes d'apprentissage performants, basés sur la recherche
d'un minimum de la fonction d'erreur, notamment la "rétropropagation du gradient" pour les PMC.
Une fonction est Sigmoïde lorsqu'elle est monotone croissante,
dérivable et bornée. Ce type de fonction combine l'avantage de l'effet
de seuil et de la dérivabilité. Les fonctions sigmoïdes sont donc très
utilisées.
13
Les réseaux de neurones
Les réseaux « usuels » (4)
Fonction sigmoïde exponentielle :
f(x) = 1 / (1+EXP(-x))
Dérivée :
f'(x) = f(x)*(1-f(x))
Fonction sigmoïde tangentielle :
f(x) = TANH(x)
Dérivée :
f'(x) = 1-F(x)²
14
Le réseau RBF
Le réseau RBF
Introduction (1)
Modèle proposé par :
• Powell (1985)
• Broomhead et Lowe (1988)
• Moody et Darken (1989)
• Pooggio et Girosi (1990)
RBF ?
→ Radial Basis Function
16
Le réseau RBF
Introduction (2)
Le réseau RBF est un réseau de neurones supervisé. Il s’agit d’une
‘ spécialisation ’ d’un PMC.
Un RBF est constitué uniquement de 3 couches :
• La couche d’entrée : elle retransmet les inputs sans distorsion.
• La couche RBF : couche cachée qui contient les neurones RBF.
• La couche de sortie : simple couche qui contient une fonction
linéaire.
Chaque couche est ‘ fully connected ’ à la suivante.
17
Le réseau RBF
Introduction (3)
ENTREE
…
SORTIE
…
n
N
Chaque neurone RBF contient une gaussienne qui est centrée sur un points de
l’espace d’entrée.
Pour une entrée donnée, la sortie du neurone RBF est la hauteur de la gaussienne
en ce point.
La fonction gaussienne permet aux neurones de ne répondre qu’à une petite région
de l’espace d’entrée, région sur laquelle la gaussienne est centrée.
18
Le réseau RBF
Introduction (4)
Fonction gaussienne :
f(x) = EXP(x² / (2* Beta²))
19
Le réseau RBF
Introduction (5)
W1
W2
W3
ENTREE
…
N
SORTIE =  w j s j
…
j 1
WN
n
N
La sortie du réseau est simplement une combinaison linéaire des
sorties des neurones RBF multipliés par le poids de leur connexion
respective.
20
Le réseau RBF
Paramètres (1)
Il y a 4 paramètres principaux à régler dans un réseau RBF :
• Le nombre de neurones RBF (nombre de neurones dans l’unique
couche cachée).
• La position des centres des gaussiennes de chacun des neurones.
• La largeur de ces gaussiennes.
• Le poids des connexions entre les neurones RBF et le(s)
neurone(s) de sortie.
Tout modification d’un de ces paramètres entraîne directement un
changement du comportement du réseau.
21
Le réseau RBF
Paramètres (2)
Le nombre de neurones RBF (N) et la position des gaussiennes sont
deux paramètres intimement liés.
Deux optiques s’offrent à nous :
• soit I n’est pas trop grand et alors N=I ;
• soit I est trop grand et on choisi N<<I (avec I, le nombre d’élément
dans la base d’apprentissage).
22
Le réseau RBF
Paramètres (3)
Nombre et position avec N=I :
Dans ce cas-ci (le plus simple), le nombre de neurones RBF
est égal au nombre d’exemples soumis au réseau.
Chacune des gaussiennes est alors centrée sur un des
exemples.
23
Le réseau RBF
Paramètres (4)
Nombre et position avec N<<I :
Dans ce cas-ci, le nombre de neurones RBF devient un
véritable paramètre. Il n’existe pas de méthode pour le
déterminer. Il s’agit donc de trouver le nombre de
‘ centroïdes ’ adéquat lié au problème donné.
Un fois le nombre de centroïdes choisi, il faut déterminer leur
position. Pour ce faire, il existe aussi plusieurs techniques ...
24
Le réseau RBF
Paramètres (5)
Choix de la position des centroïdes avec N<<I :
Une première méthode consiste à choisir aléatoirement les
centroïdes parmi les exemples soumis au réseau.
Cette approche n’est pas mauvaise puisque, statistiquement,
les centroïdes seront représentatifs de la distribution des
exemples.
Mais cette technique n’est pas optimale non plus car il est
possible de choisir des centroïdes très mal placés.
25
Le réseau RBF
Paramètres (6)
Choix de la position des centroïdes avec N<<I :
Une autre solution, permettant d’obtenir les meilleurs
résultats, est de sélectionner les centroïdes via une
quantification vectorielle (Learning Vector Quantization :
LVQ). Cette solution permettra de d’obtenir la meilleure
répartition des centroïdes possible.
Beaucoup proposent aussi d’appliquer une carte autoorganisatrice de Kohonen afin de choisir les centres.
26
Le réseau RBF
Paramètres (7)
Une fois tous les centres Cj choisis, il faut déterminer la largeur (ß)
des gaussiennes. Une règle empirique consiste à prendre :
ß=
d
M
avec M = nombre de centroïdes et
d = max ||ci - cj||, 1≤ i,j ≤ M
si on choisit un ß égal pour toutes les gaussiennes.
Mais rien n’impose de prendre la même valeur de ß pour chaque
centroïde. Dans
ce cas, un autre règle nous dit :
N
1
ßj =
||xi - cj||

N 8 i 1
27
Le réseau RBF
Paramètres (8)
Une fois le nombre et la position des centroïdes et la largeur des
gaussiennes fixés, les poids de chacune des connexions (RBF-output)
peut être calculé par l’équation matricielle suivante :
 f (|| x1  c1 ||)
 f (|| x  c ||)
2
1


...

 f (|| xN  c1 ||)
avec
...
...
...
...
f (|| x1  cM ||)   w1   y1 
f (|| x2  cM ||)   w2   y2 

 ...  ... 
...
   
f (|| xN  cM ||)   wM   y N 
f(x) = EXP(x² / (2* ß²)) , la gaussienne.
la matrice colonne Y, les output attendus
M, le nombre de centroïdes
N, le nombre d’exemples dans la base d’apprentissage
28
Le réseau RBF
Paramètres (9)
Enfin, un fois l’apprentissage effectué, la partie test peut
commencer. Elle se résume aussi en une équation matricielle :
 f (|| ti  c1 ||)
avec
...
 w1 



f (|| ti  cM ||) ...   Output_tes t
 wM 
f(x) = EXP(x² / (2* ß ²)) , la gaussienne.
la matrice colonne W, les poids des connexions (RBF-output)
M, le nombre de centroïdes
ti, le ième élément de la ‘ base de test ’
29
RBF et Mushroom
RBF et Mushroom
Paramètres (1)
Nombre et position des centroïdes :
Dans un premier temps → cas le plus simple : N = I
Mais double matrice[][] = new double[6500][6500]
… Java = <out of memory> !!!
Rappel : 8124 champignions, 80 % d’apprentissage (6500) et
20 % de test (1624).
Donc, mauvaise idée.
31
RBF et Mushroom
Paramètres (2)
Nombre et position des centroïdes :
Deuxième approche → N<<I
Choix aléatoire dans la ‘ base d ’apprentissage ’ ou LVQ ?
Premièrement avec le choix aléatoire car plus facile à
implémenter et temps de calcul plus rapide.
Grande boucle avec choix aléatoire des centroïdes (de 10 à
200).
Et double matrice[][] = new double[6500][200]
… Java = OK ! (ouf)
32
RBF et Mushroom
Paramètres (3)
Largeur des gaussiennes :
Dans un premier temps, tous les gaussiennes ont la même
largeur, cas le plus simple.
ß=
d
M
Les poids des connexions n’ont donc plus qu’à être calculés par
l’équation matricielle vue avant.
33
RBF et Mushroom
Algorithme (1) (Code en Annexe1)
1. Choix des centroïde
• Reprendre les informations du fichier texte.
• Déterminer les cordonnées des centroïdes (choix aléatoire (entre 10 et 200) dans
la ‘ base d’apprentissage ’).
2. Définir la largeur des gaussiennes
• maximum des distances entre les centroïdes / racine carrée du nombre de
centroïdes.
3. Création de la matrice phy
• Création de la matrice des distances (6500 * le nombre de centroïdes).
• Appliquer la gaussienne à chaque éléments de cette matrice de distance.
34
RBF et Mushroom
Algorithme (2)
4. Résolution de l'équation matricielle pour obtenir les poids
• Résolution du système [Matrice_Phy][poids_inconnus]=[output_apprentissage]
(cf. JNL).
• Récupérer la matrice des poids (nombre de centroïdes(de 10 à 200)*1).
5. Test
• Pour chaque exemple de test :
– Calcul de la matrice des distances entre l’exemple et les centroïdes (1* le
nombre de centroides).
– Appliquer la gaussienne à cette matrice.
– Résolution du système [Matrice_Phy][poids_connus]=X (cf. JNL).
– Appliquer une fonction qui détermine si l’output (X) est 1 ou 0.
– Comparer cet output (X) avec l'output attendu
• Calculer le taux d'erreur globale.
35
RBF et Mushroom
Résultats
L’algorithme est arrivé à un maximum de bonne classification de
94,5 % avec un nombre de centroïdes de 140.
Soit +/- 1/50 de la ‘ base d ’apprentissage ’.
Rem : essai avec plus de centroïdes (500) et différents ß, mais pas de
meilleurs résultats … bien au contraire.
36
RBF et Mushroom
Optimisations
Deux optimisations permettraient certainement d’obtenir encore
de meilleurs résultats :
• Définir un ß différents pour chaque gaussienne. Celui-ci serait
approprié à chacune d’entre elles.
• Ne plus choisir aléatoirement les centroïdes mais les fixés
grâce à un LVQ (code en Annexe2).
37
Bibliographie
•
•
•
•
•
•
http://www.web-datamining.net/publications/dossiers/neural/histor.asp
http://eric.univ-lyon2.fr/~oteytaud/CONNEX/connex.html
http://home.alex.tuxfamily.org/neuro/neurones.html
http://www.scico.u-bordeaux2.fr/~corsini/Pedagogie/ANN/main/node9.html
http://www.cogs.susx.ac.uk/users/jianfeng/RBF.ppt
Cette présentation, mes codes et le package JNL sont disponibles sous
forme électronique sur ma page Web : http://info.fundp.ac.be/~hvanpete
38
Téléchargement