(W) + - Deptinfo

publicité
APPRENTISSAGE 2
Définition
On suppose que :
• Les données sont des réalisations d’un vecteur aléatoire X dans Rn qui est
défini par la densité de probabilité p(x).
• A chaque observation x est associée un vecteur Y dans Rp qui se réalise
suivant la densité de probabilité conditionnelle p(y/x).
• L’apprentissage consiste à ajuster les paramètres W, pour une famille de
fonctions F(x,W)w , en minimisant l’erreur d’apprentissage calculée sur
un ensemble de N exemples : D = (x1, y1), (x2, y2), …, (xN , yN)
1
ED (W ) 
N
N

i 1
yi  F  xi ,W

Mais la fonction F(x,W*) ne minimise pas nécessairement
l’erreur en généralisation qui est définie par :
Egene(W )   y  F x,W  px p y xdxdy
2
2
Résultat 1
Soit :
( x ) 
 yp  y / x dy  E  y / x 
(x) représente la moyenne des réponses associées à x
On démontre le résultat suivant :
MinEgéné (W )  Min x   F x,W  px dx
2
Remarque. La meilleure fonction en généralisation est celle qui
approxime au mieux (x)
Egéné et (x) sont inconnus. Dans la pratique, on cherche à estimer
(x) à partir d ’un ensemble d’apprentissage D en minimisant ED.
La solution obtenue, par l’algorithme d’apprentissage, dépend alors de
l’ensemble d ’apprentissage D, elle sera notée F(x, wD).
Problème de la régression
- Déterminer F(x,WD) à partie de l’ensemble d’apprentissage D
(de taille N).
- Pour un x donné, la valeur de F(x,WD) est une variable
aléatoire, on peut calculer sa moyenne et sa variance.
2
F
(
x
,
W
)

E
(
Y
/
x
)
- L’expression
représente la précision de
D
l’approximation au point x et pour un ensemble
d’apprentissage D donné.
L’expression :
2
MSE( x)   F ( x,WD )  E(Y / x) p( D)dD
Représente la précision moyenne de l’approximation au point x,
lorsque l’on réalise un apprentissage sur un ensemble de taille N.
Décomposition Biais Variance
Résultat 2. On démontre la relation suivante :

MSE( x)  ED [ F ( x,WD )]  E (Y / x)  ED F ( x,WD )  ED ( F ( x,WD )
2
BIAIS
2
VARIANCES
Remarque. Le biais et la variance ont tendance à évoluer d’une
manière opposée :
- Quand le Biais diminue la variance augmente,
- Quand la Variance diminue le biais augmente.
Un bon compromis entre le Biais et la Variance permet de
minimiser MSE(x).

Exemple :
Modèle F1 : petit biais et grande variance
Modèle F2 : Grand biais et petite variance
F1
di
Modèle F2
k
k
Apprentissage : Le choix du modèle
Une méthode adoptée consiste, pour une base d’apprentissage App de
taille N fixée, de considérer une suite emboîtée de suite de k espaces de
fonctions :
F1

F2

………..

Fk-1  Fk
Ayant des « complexités » croissantes.




Si l’on dispose d’un algorithme d’apprentissage qui minimise l’erreur
quadratique ainsi qu’une base de teste T, on pourra procéder de la
manière suivante :
- Pour tout i de 1 à k appliquer l’algorithme d’apprentissage sur la famille
Fi ce qui permet de choisir une fonction fi* de Fi .
- Calculer, pour tout i de 1 à k, l’erreur en teste de la fonction fi*.
-Choisir, la fonction fi* pour laquelle l’erreur en teste est la plus petite.
Choix du meilleur réseau
MLP
Recherche de compromis Biais-variance
Méthodes de régularisation formelle
– Introduction d’un terme de pénalité dans la fonction de
coût.
– Stopper la convergence avant convergence.
– Bruitage des données
Méthodes de régularisation structurelle
- Poids partagés (TDNN, Masques,….)
- Supprimer des poids (ou des variables)
Introduction d’un terme de pénalité dans la
fonction de coût.
On cherche à minimiser : El(W) = ED(W) + l R(W)
- ED(W) l’erreur quadratique sur l’ensemble
d’apprentissage D
- R(W) une fonction qui dépend des paramètres W
 l est un paramètre à déterminer et qui permet de faire le
compromis entre les 2 termes ED et R.
Deux exemples :
(Weight decay)
R(W )   wi2
i
et
 wi2

 2

w

R(W )    0
2

w
i
i 
1 2 

w0 

Exemple : weight decay
l trop petit
l trop grand
l optimal
Arrêt de l’apprentissage
Early Stopping
Le nombre effectif de paramètres est petit au début de l’apprentissage
et croit avec le nombre d’itérations
Réseau multi couche avec 4 cellules cachées
Apprentissage
Erreur Totale
Biais
Variance
Log(temps)
Évolution de la fonction pendant l’apprentissage
• Durant l’apprentissage, la « complexité » de la fonction augmente.
• Problème : Stopper l’apprentissage de manière à minimiser J(Test, ).
Apprentissage avec bruit
Étant donné une base d’apprentissage D = {x1, x2, …, xN}
A chaque ensemble (xi,yi) on lui associe q exemples :
(xi +ek , yi) k=1,2, …, q
Les ek correspondent à des tirages indépendants suivant la loi normale
N(0,s2I).
On forme ainsi une base d ’apprentissage D’ ayant N*q éléments.
L’apprentissage du réseau MLP sur D’ correspond à une régularisation
admettant s comme paramètre de régularisation.
Méthodes de suppression de poids
Estimation de la variation de la fonction coût lorsqu’un
poids wi est supprimé du réseau : pertinence du poids
wi
Algorithme général
1) Faire une phase d'apprentissage
2) Calculer la pertinence de chaque poids
4) Supprimer le poids le moins pertinent
5) Recommencer en 1) tant qu'un certain critère d'arrêt
n'est pas satisfait.
Méthodes de suppression de poids
Exemple : OBD
La pertinence d’un poids est estimée à partir de la
formule de Taylor :
E
1
2E
E  
wi  
 O( w2i )
2 i j wi w j
i wi
i
En un minimum local le premier terme de droite est nul.
Si en plus on suppose que la matrice Hessienne est
diagonale on obtient la mesure de pertinence:
OBD( wi ) 
1 2
2 wi
2E
 2wi
Sélection de variables
VHS : exemple de calcule de la pertinence
Pour tout poids wij
j
ij 
Calculer :
wij
i
wij
 wik
k predesseurdei 
Pour toute cellule i de la couche de sortie faire Si=1
Calculer par rétro-propagation les Sj des autres cellules
en utilisant la formule de récurrence suivante :
sj 
 ij si
i successeurde j 
Téléchargement