APPRENTISSAGE 2 Définition On suppose que : • Les données sont des réalisations d’un vecteur aléatoire X dans Rn qui est défini par la densité de probabilité p(x). • A chaque observation x est associée un vecteur Y dans Rp qui se réalise suivant la densité de probabilité conditionnelle p(y/x). • L’apprentissage consiste à ajuster les paramètres W, pour une famille de fonctions F(x,W)w , en minimisant l’erreur d’apprentissage calculée sur un ensemble de N exemples : D = (x1, y1), (x2, y2), …, (xN , yN) 1 ED (W ) N N i 1 yi F xi ,W Mais la fonction F(x,W*) ne minimise pas nécessairement l’erreur en généralisation qui est définie par : Egene(W ) y F x,W px p y xdxdy 2 2 Résultat 1 Soit : ( x ) yp y / x dy E y / x (x) représente la moyenne des réponses associées à x On démontre le résultat suivant : MinEgéné (W ) Min x F x,W px dx 2 Remarque. La meilleure fonction en généralisation est celle qui approxime au mieux (x) Egéné et (x) sont inconnus. Dans la pratique, on cherche à estimer (x) à partir d ’un ensemble d’apprentissage D en minimisant ED. La solution obtenue, par l’algorithme d’apprentissage, dépend alors de l’ensemble d ’apprentissage D, elle sera notée F(x, wD). Problème de la régression - Déterminer F(x,WD) à partie de l’ensemble d’apprentissage D (de taille N). - Pour un x donné, la valeur de F(x,WD) est une variable aléatoire, on peut calculer sa moyenne et sa variance. 2 F ( x , W ) E ( Y / x ) - L’expression représente la précision de D l’approximation au point x et pour un ensemble d’apprentissage D donné. L’expression : 2 MSE( x) F ( x,WD ) E(Y / x) p( D)dD Représente la précision moyenne de l’approximation au point x, lorsque l’on réalise un apprentissage sur un ensemble de taille N. Décomposition Biais Variance Résultat 2. On démontre la relation suivante : MSE( x) ED [ F ( x,WD )] E (Y / x) ED F ( x,WD ) ED ( F ( x,WD ) 2 BIAIS 2 VARIANCES Remarque. Le biais et la variance ont tendance à évoluer d’une manière opposée : - Quand le Biais diminue la variance augmente, - Quand la Variance diminue le biais augmente. Un bon compromis entre le Biais et la Variance permet de minimiser MSE(x). Exemple : Modèle F1 : petit biais et grande variance Modèle F2 : Grand biais et petite variance F1 di Modèle F2 k k Apprentissage : Le choix du modèle Une méthode adoptée consiste, pour une base d’apprentissage App de taille N fixée, de considérer une suite emboîtée de suite de k espaces de fonctions : F1 F2 ……….. Fk-1 Fk Ayant des « complexités » croissantes. Si l’on dispose d’un algorithme d’apprentissage qui minimise l’erreur quadratique ainsi qu’une base de teste T, on pourra procéder de la manière suivante : - Pour tout i de 1 à k appliquer l’algorithme d’apprentissage sur la famille Fi ce qui permet de choisir une fonction fi* de Fi . - Calculer, pour tout i de 1 à k, l’erreur en teste de la fonction fi*. -Choisir, la fonction fi* pour laquelle l’erreur en teste est la plus petite. Choix du meilleur réseau MLP Recherche de compromis Biais-variance Méthodes de régularisation formelle – Introduction d’un terme de pénalité dans la fonction de coût. – Stopper la convergence avant convergence. – Bruitage des données Méthodes de régularisation structurelle - Poids partagés (TDNN, Masques,….) - Supprimer des poids (ou des variables) Introduction d’un terme de pénalité dans la fonction de coût. On cherche à minimiser : El(W) = ED(W) + l R(W) - ED(W) l’erreur quadratique sur l’ensemble d’apprentissage D - R(W) une fonction qui dépend des paramètres W l est un paramètre à déterminer et qui permet de faire le compromis entre les 2 termes ED et R. Deux exemples : (Weight decay) R(W ) wi2 i et wi2 2 w R(W ) 0 2 w i i 1 2 w0 Exemple : weight decay l trop petit l trop grand l optimal Arrêt de l’apprentissage Early Stopping Le nombre effectif de paramètres est petit au début de l’apprentissage et croit avec le nombre d’itérations Réseau multi couche avec 4 cellules cachées Apprentissage Erreur Totale Biais Variance Log(temps) Évolution de la fonction pendant l’apprentissage • Durant l’apprentissage, la « complexité » de la fonction augmente. • Problème : Stopper l’apprentissage de manière à minimiser J(Test, ). Apprentissage avec bruit Étant donné une base d’apprentissage D = {x1, x2, …, xN} A chaque ensemble (xi,yi) on lui associe q exemples : (xi +ek , yi) k=1,2, …, q Les ek correspondent à des tirages indépendants suivant la loi normale N(0,s2I). On forme ainsi une base d ’apprentissage D’ ayant N*q éléments. L’apprentissage du réseau MLP sur D’ correspond à une régularisation admettant s comme paramètre de régularisation. Méthodes de suppression de poids Estimation de la variation de la fonction coût lorsqu’un poids wi est supprimé du réseau : pertinence du poids wi Algorithme général 1) Faire une phase d'apprentissage 2) Calculer la pertinence de chaque poids 4) Supprimer le poids le moins pertinent 5) Recommencer en 1) tant qu'un certain critère d'arrêt n'est pas satisfait. Méthodes de suppression de poids Exemple : OBD La pertinence d’un poids est estimée à partir de la formule de Taylor : E 1 2E E wi O( w2i ) 2 i j wi w j i wi i En un minimum local le premier terme de droite est nul. Si en plus on suppose que la matrice Hessienne est diagonale on obtient la mesure de pertinence: OBD( wi ) 1 2 2 wi 2E 2wi Sélection de variables VHS : exemple de calcule de la pertinence Pour tout poids wij j ij Calculer : wij i wij wik k predesseurdei Pour toute cellule i de la couche de sortie faire Si=1 Calculer par rétro-propagation les Sj des autres cellules en utilisant la formule de récurrence suivante : sj ij si i successeurde j