Précis introductif à l’apprentissage statistique Matthieu Geist Supélec - groupe de recherche IMS-MaLIS 2013 - 2014 ii Précisions bibliographiques La théorie de l’apprentissage statistique selon Vapnik est résumée dans l’article [14] et développée dans les livres [12] (sans démonstrations) et [13] (avec démonstrations). Une bonne introduction à ce domaine est donnée par [1] : l’étude y est restreinte aux classifieurs binaires, mais d’autres mesures de capacité que la dimension de Vapnik-Chervonenkis y sont abordées. La section du cours où la richesse de l’espace d’hypothèse est mesurée à l’aide des nombres de couverture est très largement inspirée de l’article de Cucker et Smale [3]. Le lien entre régularisation et machines à vecteur support se trouve par exemple dans [6] (on y trouvera également des pointeurs vers des discussions sur le fait que les SVM ne peuvent pas vraiment être justifiées en terme de minimisation structurelle du risque, ainsi que sur la dimension VC réelle de l’espace d’hypothèses considéré pour cette approche). L’algorithme KRLS (Kernel Recursive Least-Squares) a été publié dans [5]. La régularisation `1 a été introduite parallèlement dans les communautés statistique [11] et de traitement du signal [2]. La présentation qui en en faite en cours est plus proche de l’algorithme LARS (Least Angle Regression) [4]. Enfin, l’algorithme RFWR (Receptive Field Weighted Regression) a été introduit dans [10]. Le lecteur intéressé par d’autres algorithmes peut se référer à [7], excellent ouvrage sur l’apprentissage machine. iii iv Table des matières 1 Introduction 1.1 Une introduction informelle à l’apprentissage . . . . . . . . . . . 1.1.1 Qu’est-ce que l’apprentissage statistique ? . . . . . . . . . 1.1.2 Un simple algorithme de régression . . . . . . . . . . . . . 1.1.3 Un simple algorithme de classification . . . . . . . . . . . 1.2 Une introduction plus formelle . . . . . . . . . . . . . . . . . . . 1.2.1 Formalisation du problème . . . . . . . . . . . . . . . . . 1.2.2 Fonction de régression et classifieur de Bayes . . . . . . . 1.2.3 Risque empirique, les grandes questions de l’apprentissage 2 Apprentissage statistique 2.1 Rappels et inégalités de concentration . . . . . . . . . 2.1.1 Loi des grands nombres . . . . . . . . . . . . . 2.1.2 Inégalités de concentration . . . . . . . . . . . 2.1.3 Retour à la minimisation du risque empirique . 2.2 CNS du principe de l’ERM . . . . . . . . . . . . . . . 2.2.1 Notion classique de pertinence et sa limite . . . 2.2.2 Pertinence stricte (non-triviale) . . . . . . . . . 2.2.3 Convergence uniforme à un et deux côtés . . . 2.2.4 Le théorème clé de la théorie de l’apprentissage 2.3 L’approche de Vapnik . . . . . . . . . . . . . . . . . . 2.3.1 Restriction du cadre de travail . . . . . . . . . 2.3.2 Retour sur le cas simple . . . . . . . . . . . . . 2.3.3 Le cas infini dénombrable . . . . . . . . . . . . 2.3.4 CNS de CV uniforme . . . . . . . . . . . . . . 2.3.5 Un détour par le cas continu . . . . . . . . . . 2.3.6 Les trois jalons de l’apprentissage . . . . . . . . 2.3.7 La dimension VC (Vapnik-Chervonenkis) . . . 2.3.8 Une borne sur le risque . . . . . . . . . . . . . 2.3.9 Minimisation structurelle du risque . . . . . . . 2.4 L’approche de Cucker et Smale . . . . . . . . . . . . . 2.4.1 Cadre de travail . . . . . . . . . . . . . . . . . 2.4.2 Notations et rappels . . . . . . . . . . . . . . . 2.4.3 Nombre de couverture . . . . . . . . . . . . . . 2.4.4 Quelques bornes de couverture . . . . . . . . . v . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 1 2 4 4 4 7 9 . . . . . . . . . . . . . . . . . . . . . . . . 13 13 13 14 16 18 18 20 21 22 26 26 27 28 29 31 33 35 37 40 42 42 42 43 45 vi 3 Apprentissage algorithmique 3.1 ERM et régularisation . . . . . . . . . . . . . . 3.1.1 Minimisation du risque empirique . . . . 3.1.2 Choix de l’espace d’hypothèses . . . . . 3.1.3 Vers les approches non-paramétriques . 3.2 Quelques approches non-paramétriques . . . . . 3.2.1 Kernel Recursive Least-Squares (KRLS) 3.2.2 LASSO . . . . . . . . . . . . . . . . . . 3.2.3 RFWR . . . . . . . . . . . . . . . . . . TABLE DES MATIÈRES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 49 49 52 53 54 54 62 66 Table des figures 1.1 1.2 1.3 Exemples de fonctions de perte. . . . . . . . . . . . . . . . . . . . . . . . . . Illustration du sur-apprentissage. . . . . . . . . . . . . . . . . . . . . . . . . Illustration de la pertinence du principe de l’ERM. . . . . . . . . . . . . . . 7 11 12 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 Problème causé par la dépendance de fN aux données. . . Non-équivalence des limites (pertinence, contre-exemple). Trivialité de la pertinence classique. . . . . . . . . . . . . Exemple de fonction de classification. . . . . . . . . . . . . Illustration de l’idée de projection de H sur z1 . . . zN . . . . Qz1 ...zN est le sous-ensemble des sommets d’un cube. . . . -net. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Croissance de la fonction GH (N ). . . . . . . . . . . . . . . Un seul paramètre et dimension VC infinie. . . . . . . . . . . . . . . . . . 17 20 20 26 29 30 32 36 37 3.1 3.2 3.3 Exemple de chemin de régularisation. . . . . . . . . . . . . . . . . . . . . . . Illustration du modèle de régression de RFWR. . . . . . . . . . . . . . . . . Modèle d’inférence de RFWR. . . . . . . . . . . . . . . . . . . . . . . . . . . 66 66 67 vii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . viii TABLE DES FIGURES Chapitre 1 Introduction Ce chapitre introduit la notion d’apprentissage statistique, de façon informelle dans un premier temps (via le rappel d’algorithmes d’apprentissage supervisé classiques et des questions qu’ils posent), de façon plus formelle dans un second temps (via la formalisation du modèle d’estimation de fonction et la définition des notions de risques). 1.1 1.1.1 Une introduction informelle à l’apprentissage Qu’est-ce que l’apprentissage statistique ? L’apprentissage statistique peut être vu comme une formalisation ou une théorisation du domaine du Machine Learning (traduit en français par apprentissage numérique, apprentissage automatique ou encore apprentissage artificiel, selon les auteurs). La terme de machine learning admet plusieurs définitions, mais toutes sous-tendent l’idée d’inférer quelque chose à partir d’exemples (numériques), d’améliorer la qualité de cette inférence avec le nombre d’exemples, ainsi que la capacité à généraliser à de nouvelles situations 1 . On distingue usuellement trois types d’apprentissage : apprentissage supervisé : les exemples fournis sont sous la forme de couples entréesortie (xi , yi ), avec xi l’entrée et yi la sortie. L’objectif est d’inférer la sortie y pour une nouvelle entrée x. Si yi ∈ {−1, 1} (voire plus généralement yi ∈ N) on parlera de classification, si yi ∈ R on parlera de régression. C’est le type d’apprentissage auquel on s’intéressera principalement dans ce manuscrit ; apprentissage non-supervisé : les exemples fournis ne sont que des entrées xi . L’objectif est alors de résumer l’espace des xi possibles (ce qui regroupe notamment l’estimation de densité, la quantification vectorielle, ou encore comment diviser un groupe hétérogène de données en sous-groupes homogènes) ; apprentissage par renforcement : les exemples fournis sont sous la forme de transitions (si , ai , ri , si+1 ) où s dénote l’état d’un système dynamique, a une action que l’on peut lui appliquer et r une récompense. L’objectif est celui du contrôle optimal, plus particulièrement dans ce paradigme d’inférer quelle action appliquer pour une configuration donnée du système dynamique à contrôler, ce de façon à maximiser un gain futur dont la récompense est une information locale. 1. Cette capacité à généraliser à de nouvelles situations suggère que l’apprentissage par coeur est une mauvaise chose. Nous le vérifierons mathématiquement plus tard. 1 2 CHAPITRE 1. INTRODUCTION L’apprentissage statistique tel que traité dans ce cours est une formalisation ou théorisation de l’apprentissage supervisé, qui sera donc notre centre d’intérêt dans ce document. Toutefois, notons qu’il peut s’avérer être une “boîte à outils” utile pour les autres types d’apprentissage. Par exemple, en apprentissage non-supervisé l’analyse du problème d’estimation de densité peut être traitée avec les outils que nous introduisons dans la suite [12]. Même en apprentissage par renforcement il existe quelques travaux récents [8] (une difficulté majeure étant que l’hypothèse que les exemples observés sont indépendants, fondamentale par la suite, ne tient évidemment pas dans le cadre du contrôle). L’apprentissage (supervisé donc) induit deux aspects complémentaires : apprentissage algorithmique : il s’agit de proposer des algorithmes qui infèrent une sortie y pour une entrée x donnée, après avoir été entraînés sur une base d’exemples {(xi , yi )1≤i≤N } ; apprentissage statistique : il s’agit d’étudier de façon théorique les garanties offertes, ce de la façon la plus générale possible. Rappelons également que l’apprentissage supervisé se subdivise souvent en classification et régression, suivant la nature des sorties. Formellement, la classification peut être vue comme un cas particulier de la régression (car N ⊂ R). Cependant, on peut tirer parti de cette spécificité pour une analyse plus simple ansi que pour des propositions algorithmiques plus ad hoc. Nous conserverons donc cette distinction. De façon générale, il est intéressant de recourir à l’apprentissage car il n’est pas toujours possible de coder “en dur” toutes les situations possibles. Cela permet également de s’affranchir de (ou de réduire) la compréhension de la physique sous-jacente. Par exemple, l’automatique (au sens classique) et l’apprentissage par renforcement traitent le même problème, à savoir le contrôle optimal d’un système dynamique. Cependant, le paradigme plus général de l’apprentissage par renforcement permet de considérer des problèmes plus variés, comme l’apprentissage de stratégie optimale dans des jeux par exemple. Notons que dans le cadre de l’automatique, on peut avoir recours à l’identification de modèle ou de système à partir de données, ce qui est par définition du machine learning. Une approche par apprentissage permet aussi d’obtenir des comportements adaptatifs (on peut citer google, les filtres anti-spam, la reconnaissance de parole, detexify 2 , etc). Parmi les exemples d’application du machine learning, on peut citer la reconnaissance de visage, la reconnaissance de caractères manuscrits, l’apprentissage d’un mapping entre activité cérébrale et sémantique (de la lecture de pensées !), des stratégies optimales pour des jeux (comme le backgammon par exemple), la cartographie wifi d’un bâtiment, de façon générale l’identification de systèmes, etc. 1.1.2 Un simple algorithme de régression : les moindres carrés Plaçons nous dans un cadre applicatif. Soient : – yi un indicateur de progression du diabète (par exemple obtenu grâce à un examen médical coûteux) ; T – xi = x1,i . . . xp,i un ensemble de p indicateurs physiologiques, plus faciles et moins coûteux à mesurer. 2. http://detexify.kirelabs.org/classify.html 1.1. UNE INTRODUCTION INFORMELLE À L’APPRENTISSAGE 3 Supposons qu’un modèle linéaire lie les entrées aux sorties : yi = p X wj xj,i = wT xi , w = w1 . . . w p T ∈ Rp . (1.1) j=1 La question qui se pose alors est la suivante : comment calculer, à partir d’un ensemble de N mesures {(xi , yi )1≤i≤N }, le vecteur de paramètres w “qui convienne” ? Les moindres carrés sont une réponse (parmi d’autres) à cette question. Une première chose est de quantifier la solution que l’on cherche, dans ce cas la minimisation de l’erreur quadratique sur le base des exemples : wN = argmin JN (w) avec JN (w) = w∈Rp N X (yi − wT xi )2 . (1.2) i=1 Les moindres carrés cherchent donc à minimiser la somme des carrés des erreurs entre les observations yi et les prédictions associées wT xi . Ce critère peut avoir une interprétation physique (minimisation de l’énergie de l’erreur), mais d’autres critères tout aussi légitimes pourraient être envisagés, comme la minimisation de la somme des valeurs absolues de ces mêmes erreurs. La solution recherchée étant quantifiée, il reste à la calculer. Le résultat est donné par la proposition suivante. T Proposition 1 (Solution des moindres carrés). Supposons que la matrice N i=1 xi xi est de rang p. La solution des moindres carrés, définie par l’équation (1.2), est donnée par : P wN = N X xi xiT !−1 N X i=1 xi yi . (1.3) i=1 Démonstration. La fonction JN (w) est convexe, ce qui implique l’unicité du minimum. Nous le calculons en annulant le gradient. ∇w JN (w) = 0 ⇔ ∇w ⇔ −2 N X i=1 N X (yi − wT xi )2 = 0 (1.4) xi (yi − xiT ω) = 0 (1.5) i=1 ⇔ wN = N X i=1 xi xiT !−1 N X xi yi . (1.6) i=1 On calcule donc wN simplement, mais plusieurs questions naturelles se posent : – l’hypothèse d’un modèle linéaire est-elle légitime ? Que se passe-t-il si cette dernière n’est pas satisfaite ? – quelle est la qualité de l’apprentissage ? En fonction de N , le nombre d’exemples ? – dans quelle mesure avoir une erreur faible sur la base d’entraînement peut-il nous garantir une bonne inférence ? Autrement dit, pour JN (wN ) petit (voire pour le cas limite JN (wN ) = 0), aura-t-on une bonne prédiction y pour un nouveau x ? L’apprentissage statistique tente de répondre formellement et généralement à ce type de questions. 4 CHAPITRE 1. INTRODUCTION 1.1.3 Un simple algorithme de classification : les k plus proches voisins Plaçons nous à nouveau dans un contexte applicatif. Soient : – xi ∈ MR (32) un ensemble de matrices binaires de taille 32 × 32, chacune représentant un chiffre manuscrit compris entre 0 et 9 ; – yi ∈ {0 . . . 9} la valeur du chiffre représenté par xi . Nous souhaitons ici entraîner un classifieur qui pour une nouvelle image x infère le chiffre représenté, autrement dit le label y associé. Une solution possible est donnée par l’algorithme des k plus proches voisins : pour une nouvelle image x donnée, on regarde les k images les plus proches dans la base d’entraînement, puis on associe le label majoritaire parmi ces k images. Plus formellement, choisissons k le nombre de voisins à considérer et d une métrique (distance entre images), nous avons à disposition la base d’exemple {(xi , yi )1≤i≤N }. Soient une nouvelle image x à labéliser : 1. on ordonne la base d’exemple, c’est-à-dire qu’on calcule i1 , i2 , . . . , iN tels que : d(x, xi1 ) ≤ d(x, xi2 ) ≤ · · · ≤ d(x, xiN ); (1.7) 2. on calcule le nombre de voisins présentant le j ème label, c’est-à-dire que pour j ∈ {0 . . . 9}, on calcule nj défini par : nj = Card ({i ∈ {i1 . . . ik }|yi = j}) ; (1.8) 3. on associe le label majoritaire : y = argmax nj . (1.9) j∈{0...9} Ce simple algorithme soulève quelques questions naturelles : – comment choisir le nombre de voisins k et la métrique d ? – l’approche est-elle légitime (notons qu’elle ne se base pas sur une fonction de coût comme les moindres carrés, même si cela peut se montrer a posteriori) ? A-t-on des garanties de “bonne” inférence ? Quelle est l’influence du nombre d’exemples N ? Nous retrouvons globalement les mêmes questions que pour les moindres carrés, traitées par le domaine de l’apprentissage statistique que nous introduisons à présent plus formellement. 1.2 1.2.1 Une introduction plus formelle Formalisation du problème Nous avons défini informellement l’apprentissage supervisé comme étant le problème d’inférer une sortie pour une entrée donnée, connaissant une base d’exemples formée de couples entrée-sortie différents. Nous allons à présent définir cette problématique plus formellement. Le modèle d’estimation de fonction Pour définir plus formellement l’apprentissage à partir d’exemples, nous nous donnons : – un générateur aléatoire de vecteurs x ∈ X, échantillonnés indépendamment à partir d’une distribution fixe mais inconnue P (x) ; 1.2. UNE INTRODUCTION PLUS FORMELLE 5 – un superviseur, ou oracle, qui pour chaque entrée x retourne une sortie y ∈ Y , échantillonnée selon la distribution conditionnelle P (y|x), également fixe mais inconnue ; – une machine capable d’implémenter un ensemble de fonctions, c’est-à-dire que nous définissons un espace d’hypothèses H = {f : X → Y } ⊂ Y X . Le problème de l’apprentissage supervisé peut alors être défini comme choisir f ∈ H qui prédise “au mieux” (selon un certain critère, voir la suite) les réponses de l’oracle. La sélection de f se fait à partir d’une base d’entraînement {(x1 , y1 ) . . . (xN , yN )} composée de N exemples i.i.d. (indépendants, identiquement distribués) échantillonnés selon la distribution jointe P (x, y) = P (y|x)P (x). Quelques exemples d’espaces d’hypothèse Avant d’aller plus avant, donnons quelques exemples d’espaces d’hypothèses : prédictions linéaires : c’est l’espace d’hypothèses considéré pour l’exemple des moindres carrés section 1.1.2. Supposons que Y = R et X = Rn , l’espace d’hypothèses associé est défini par : n o H = fw : X → Y, fw (x) = wT x + b, w ∈ Rn , b ∈ R ; (1.10) Dans ce cas, on peut identifier H à Rn+1 ; polynômes de degré 2 : Supposons que Y = R et X = Rn , en notant x = x1 . . . xn l’espace d’hypothèse est défini par : n o H = fw : x → w1 x21 + w2 x1 x2 + w3 x1 x3 + . . . ; T (1.11) Réseaux à bases radiales (ou RBFN pour Radial Basis Function Networks) : l’idée sous-jacente de ce type d’espace est que l’on peut représenter une grande variété de fonctions sous la forme d’un mélange de gaussiennes. On choisit a priori p vecteurs µi ∈ Rn (les centres des gaussiennes) et p matrices symétriques définies positives Σi (les matrices de variance-covariance associées). L’espace d’hypothèses associé est alors défini par : ( H= p X ) 1 fw : x → wi exp − (x − µi )T Σ−1 i (x − µi ) + b . 2 i=1 (1.12) Dans ce cas, on peut identifier identifier H à Rp ; Perceptrons multi-couche : considérons un perceptron multi-couche dont l’architecture est fixée (a priori). Les paramètres à apprendre sont les poids des connexions synaptiques, ce qui définit (informellement) l’espace d’hypothèses suivant : H = {fw : x → MLP(x; w)} . (1.13) Notons que c’est le premier exemple d’espace d’hypothèse où il y a une dépendance non-linéaire aux paramètres (dès qu’il y a au moins une couche cachée). , 6 CHAPITRE 1. INTRODUCTION RKHS (Reproducing Kernel Hilbert Space) : soit {(xi , yi )1≤i≤N } la base d’entraînement et K un noyau de Mercer 3 , l’espace d’hypothèses correspondant est : ( H= fw : x → N X ) wi K(x, xi ) . (1.14) i=1 Ces quelques exemples parmi d’autres sont les plus usuels. Problème de la minimisation du risque Jusqu’à présent, nous avons modélisé le problème de l’apprentissage à partir d’exemples, mais sans spécifier formellement ce que signifie prédire “au mieux” les réponses de l’oracle. Pour cela, nous introduisons la fonction de perte (loss function) L(y, f (x)) qui mesure l’erreur entre la réponse y de l’oracle pour une entrée x et la prédiction f (x) de la machine pour cette même entrée. Nous définissons le risque réel (ou risque théorique) par : Z L(y, f (x))dP (x, y). R(f ) = (1.15) X×Y Autrement dit, nous intégrons la fonction de perte sur l’espace des possibles, en tenant compte de la fréquence d’occurence des exemples. L’objectif de l’apprentissage supervisé pourrait donc être de trouver la fonction f0 de H qui minimise ce risque : f0 = argmin R(f ). (1.16) f ∈H Cependant, la distribution P (x, y) est inconnue ; la seule information disponible est contenue dans la base d’exemples. Quelques exemples de fonctions de perte Avant de poursuivre, nous donnons quelques exemples de fonctions de perte, certaines étant illustrées figure 1.1 : – la perte `2 , utilisée en régression, est le carré de la différence entre l’observation et la prédiction : L(y, f (x)) = (y − f (x))2 . (1.17) C’est celle qui est utilisée dans les moindres carrés ; – la perte `1 , utilisée en régression, est la valeur absolue de la différence entre l’observation et la prédiction : L(y, f (x)) = |y − f (x)|. (1.18) Contrairement à la perte `2 , même en supposant un espace d’hypothèses linéaire en les paramètres, elle ne permet pas de résolution analytique ; 3. Nous reviendrons plus formellement sur cette notion à la fin du cours, mais un noyau de Mercer est une fonction bilinéaire, symétrique et définie positive, qui peut être vue comme la généralisation fonctionnelle des matrices symétriques définies positives. Quelques exemples sont le produit scalaire euclidien, K(u, v) = uT v, le noyau polynomial, K(u, v) = (uT v + c)n , avec c ∈ R et n ∈ N ou encore le noyau gaussien, K(u, v) = exp(− 21 (u − v)T Σ−1 (u − v)), avec Σ matrice symétrique définie positive de dimension ad hoc. 1.2. UNE INTRODUCTION PLUS FORMELLE 7 Figure 1.1 – Quelques exemples de fonctions de perte (`2 à gauche, `1 au milieu et sensible à droite). – la perte -sensible ( > 0), également utilisée en régression, est similaire : ( L(y, f (x)) = |y − f (x)| où |y| = 0 si |y| < |y| − sinon . (1.19) – la perte binaire, utilisée en classification, est le complémentaire de la fonction de Kronecker : ( 1 si f (x) 6= y L(y, f (x)) = . (1.20) 0 sinon – la perte SVM (sous-jacente aux machines à vecteur support, comme son nom l’indique), également utilisée en classification (avec y ∈ {−1; 1}), est définie comme suit : ( L(y, f (x)) = |1 − yf (x)|+ où x+ = x si x > 0 0 sinon . (1.21) Ainsi, le problème posé par l’apprentissage statistique est celui de la minimisation du risque sous les contraintes suivantes : – f ∈ H (restriction à l’espace d’hypothèse) ; – P (x, y) est inconnue, l’unique information disponible se trouve dans les exemples. Avant de prendre en compte ces contraintes, nous allons tout de même nous intéresser à la minimisation exacte du risque dans deux cas importants, l’un de régression et l’autre de classification. 1.2.2 Fonction de régression et classifieur de Bayes Dans cette section, nous déterminons les solutions exactes du problème de minimisation du risque réel, sans contrainte, pour les pertes `2 et binaire. Fonction de régression La fonction de régression (à ne pas confondre avec la régression) est la solution du problème de minimisation du risque théorique sous perte `2 (sans contrainte sur l’espace d’hypothèses, connaissant la distribution jointe P (x, y)). Elle est donnée par la proposition suivante. Proposition 2 (Fonction de régression). La fonction de régression, définie par Z r = argmin f (y − f (x))2 dP (x, y), (1.22) 8 CHAPITRE 1. INTRODUCTION est en fait l’espérance conditionnelle : Z r(x) = E[y|x] = ydP (y|x). (1.23) Démonstration. Posons ∆f (x) = f (x) − r(x). Nous avons : Z R(f ) = Z = Z = (y − f (x))2 dP (x, y) (1.24) (y − ∆f (x) − r(x))2 dP (x, y) (y − r(x))2 dP (x, y) + Z (1.25) (∆f (x))2 dP (x, y) − 2 Z ∆f (x)(y − r(x))dP (x, y). (1.26) Le terme R Z ∆f (x)(y − r(x))dP (x, y) est nul : ∆f (x)(y − r(x))dP (x, y) = Z Z ∆f (x){ (y − r(x))dP (y|x)}dP (x). | {z (1.27) } =0 Le terme (y − r(x))2 dP (x, y) ne dépend pas de f . Ainsi, nous avons : R Z argmin R(f ) = argmin f (∆f (x))2 dP (x, y) = r. (1.28) f Connaissant l’oracle, en considérant une perte `2 et sans contrainte sur l’espace d’hypothèses, la meilleure prédiction possible est donc l’espérance conditionnelle (la variabilité intrinsèque de l’oracle pouvant s’interpréter comme du bruit). Classifieur de Bayes La classifieur de Bayes est la solution du problème de minimisation du risque théorique sous perte binaire (sans contrainte sur l’espace d’hypothèses, connaissant la distribution jointe P (x, y)). Notons que cela suppose des observations binaires, c’est-à-dire Y = {0, 1}. Il est donné par la proposition suivante. Proposition 3 (Classifieur de Bayes). Soit L0/1 la perte binaire définie equation (1.20). Le classifieur de Bayes, défini par Z b = argmin L0/1 (y, f (x))dP (x, y), (1.29) f est en fait la partie entière de l’espérance conditionnelle : ( b(x) = [r(x)] = 1 si E[y|x] > 0, 5 0 sinon . (1.30) 1.2. UNE INTRODUCTION PLUS FORMELLE 9 Démonstration. Notons χ le symbole de Kronecker. Nous avons : Z R(f ) = Z = L0/1 (y, f (x))dP (x, y) (1.31) {L0/1 (y, f (x))dP (y|x)}dP (x) (1.32) R(f |x)dP (x) (1.33) Z = avec R(f |x) = χf (x)6=0 P (0|x) + χf (x)6=1 P (1|x). (1.34) Pour minimiser R(f ), il est suffisant de minimiser R(f |x), ∀x. Si f (x) = 0, nous avons R(f |x) = P (1|x). Si f (x) = 1, nous avons R(f |x) = P (0|x). Ainsi : ( argmin R(f |x) = f f : x → 1 si P (1|x) > P (0|x) f : x → 0 sinon . (1.35) Or, travaillant dans le cas binaire, nous avons que P (1|x) = 0 × P (0|x) + 1 × P (1|x) = r(x) et P (0|x) = 1 − r(x), donc : ∀x, argmin R(f |x) = [r(x)]. (1.36) f On en conclut aisément que argminf R(f ) = b. Notons que l’algorithme des k plus proches voisins présenté précédemment est en fait une approximation du classifieur de Bayes. Conclusion Dans les deux cas étudiés, on trouve l’optimal assez facilement, mais : – d’une part on n’est pas assuré que r ∈ H, cela dépend de l’espace d’hypothèse ; – on ne connaît bien sûr par l’oracle P (y|x). Il faut donc se reposer sur les données (ce qui est prévisible, pour de l’apprentissage à partir d’exemples). 1.2.3 Risque empirique et les grandes questions de l’apprentissage statistique Rappelons l’expression du risque réel, pour une fonction de perte L quelconque : Z R(f ) = L(y, f (x))dP (x, y). (1.37) Posons les notations suivantes : z = (x, y) et Q(z, f ) = L(y, f (x)). (1.38) Nous pouvons réécrire le risque réel, en notant toujours f0 son minimiseur : Z R(f ) = Q(z, f )dP (z), f0 = argmin R(f ). f ∈H (1.39) 10 CHAPITRE 1. INTRODUCTION Nous avons vu que le risque réel ne peut être calculé, même en levant les restrictions sur l’espace d’hypothèses, l’oracle n’étant évidemment pas connu. Il est alors naturel d’introduire un risque empirique RN (f ), construit sur la base d’exemples {z1 . . . zN } échantillonnés de façon i.i.d. selon P (z) : N 1 X RN (f ) = Q(zi , f ), N i=1 fN = argmin RN (f ). (1.40) f ∈H Lorsque le nombre d’exemples tend vers l’infini, il est légitime d’espérer une convergence du risque empirique vers le risque réel ; nous verrons par la suite sous quelles conditions cela se vérifie. Le lecteur attentif aura noté que l’algorithme des moindres carrés calcule fN dans le cas d’une perte `2 , pour l’espace d’hypothèses des prédictions linéaires. Notons également R∗ le risque optimal (sans contraindre f à H) : f ∗ = argmin R(f ) et R∗ = R(f ∗ ). (1.41) f Rappelons que f ∗ est respectivement la fonction de régression et le classifieur de Bayes pour les pertes `2 et binaire. En pratique, ce qu’on peut calculer c’est fN et RN (fN ), la question qui se pose naturellement est de savoir si ce sont de bonnes approximations de f0 et R(f0 ), voire de f ∗ et R(f ∗ ). Biais et variance Considérons la décomposition suivante : R(fN ) − R∗ | {z } risque de fN - risque optimal = R(f0 ) − R∗ | {z } erreur d’approximation + R(fN ) − R(f0 ) | {z (1.42) } erreur d’estimation Notons que les trois termes R(fN ) − R∗ , R(f0 ) − R∗ et R(fN ) − R(f0 ) sont par définition tous positifs ou nuls. Nous avons décomposé la différence entre le risque réel de la fonction minimisant le risque empirique et le risque optimal en la somme de deux termes : – l’erreur d’approximation (également appelée biais inductif ) est un terme d’erreur qui mesure à quel point l’espace d’hypothèse choisi H permet d’approcher la cible f ∗ , qui est le mieux que l’on puisse espérer. Ce terme dépend de H, mais pas des données ; – l’erreur d’estimation (également appelée variance) est une quantité aléatoire (à travers sa dépendance aux données) qui mesure combien fN est proche de f0 , l’optimal sur H. Estimer l’erreur d’approximation est généralement difficile, dans la mesure où l’on n’a aucune information sur la cible f ∗ . Ainsi, en apprentissage statistique et dans la suite de ce cours, nous nous concentrons sur l’erreur d’estimation. Notons également que seule la quantité fN peut être calculée en pratique, son risque théorique R(fN ) ne peut l’être, la distribution jointe P (x, y) étant inconnue. Autre décomposition utile Considérons une autre décomposition, liant risque réel et risque empirique de fN : R(fN ) = RN (fN ) + (R(fN ) − RN (fN )) (1.43) 1.2. UNE INTRODUCTION PLUS FORMELLE 11 Figure 1.2 – Exemple de sur-apprentissage. Le modèle génératif des observations est un polynôme de degré 2 bruité (figure de gauche), et l’espace d’hypothèse est trop riche (respectivement aux 4 exemples disponibles). Le modèle appris est représenté sur la figure de droite. Le risque empirique est nul (il est possible de faire passer un polynôme de degré 4 par ces 4 points), mais le risque réel est grand (hormis ces 4 points, l’inférence est très mauvaise). Si on peut approcher ou borner le second terme, R(fN ) − RN (fN ), l’inégalité résultante permettrait d’estimer le risque réel de fN à partir de la connaissance de son risque empirique. Remarque (Sur-apprentissage). On peut très bien avoir un risque empirique nul (RN (fN ) = 0) et un risque réel R(fN ) grand. Pour cela, considérons l’exemple simple illustré figure 1.2. Soit un modèle génératif des observations basé sur un polynôme de degré 2 bruité, c’est à dire y = x2 + n où n est un bruit gaussien (centrée, de faible variance). Supposons disposer de 4 observations (représentées par les croix sur la figure) et choisissons comme espace d’hypothèse H l’ensemble des polynômes de degré 4. Comme on peut toujours faire passer un tel polynôme par ces 4 points, le risque empirique est nul : R4 (f4 ) = 0. Cependant, le risque réel (qui quantifie la ressemblance du modèle appris au modèle génératif) est très grand. Ce problème classique est connu sous le nom de sur-apprentissage (ou overfitting). Pour résumer Pour résumer, il y a trois types de résultats intéressants : – borne d’erreur : R(fN ) ≤ RN (fN ) + B(N, H). (1.44) Ce type de résultat permet d’estimer le risque réel à partir des données uniquement ; – borne d’erreur sur H : R(fN ) ≤ R(f0 ) + B 0 (N, H). (1.45) Ce type de borne quantifie à quel point l’algorithme est “optimal”, étant donnée la restriction à l’espace d’hypothèses H ; – borne d’erreur absolue : R(fN ) ≤ R∗ + B 00 (N, H). (1.46) Ce type de résultat quantifie à quel point l’algorithme est “optimal” dans l’absolu. Comme annoncé précédemment, nous nous intéresserons surtout aux deux premiers types de bornes. 12 CHAPITRE 1. INTRODUCTION Figure 1.3 – Illustration de la pertinence du principe de minimisation du risque empirique. L’apprentissage statistique vu par Vapnik Vladimir Vapnik, qui est l’un des fondateurs de l’apprentissage statistique et dont les travaux ont très fortement inspiré ce cours, résume la théorie de l’apprentissage en quatre points (qui reprennent sensiblement ce que l’on a vu jusqu’à présent) : 1. sous quelles conditions le principe de minimisation du risque empirique (ou ERM pour empirical risk minimization) est-il pertinent (voir illustration figure 1.3) ? Plus formellement, sous sous quelles conditions vérifie-t-on que : P – R(fN ) −→ R(f0 ) (convergence en probabilités de la solution de l’ERM vers l’optiN →∞ mal sur H) ? P – RN (fN ) −→ R(f0 ) (convergence en probabilités du risque empirique vers le risque N →∞ réel minimal) ? 2. à quelle vitesse converge-t-on (rappelons que nous travaillons en échantillons finis, nous ne nous intéressons donc pas uniquement aux résultats asymptotiques) ? Autrement dit, quelle est la capacité de généralisation de notre machine ? 3. comment contrôler cette vitesse, ou cette capacité de généralisation (nous verrons que cela se fait en jouant sur la structure de H) ? 4. comment construire des algorithmes qui contrôlent pratiquement ces taux de vitesse de convergence ou de généralisation ? Une grande partie de la suite de ce cours tentera de répondre à tout ou partie de ces questions. Chapitre 2 Apprentissage statistique Dans ce chapitres, nous répondons en partie aux questions posées par Vapnik, en nous basant principalement sur les travaux qu’il a mené avec Chervonenkis, mais également sur des approches alternatives (travaux de Cucker et Smale ici, mais d’autres cadres existent). Avant cela, nous (r)appelons quelques outils mathématiques utiles pour la suite. 2.1 2.1.1 (R)appels : loi des grands nombres et inégalités de concentration Loi des grands nombres Nous commençons par rappeler la notion de convergence en probabilités ainsi que la loi (faible) des grands nombres. Définition 1 (Convergence en probabilités). Soit (Xn )n∈N une suite de variables aléatoires réelles. On dit qu’elle converge en probabilités vers la variable aléatoire X si ∀ > 0, P (|Xn − X| > ) −→ 0, n→∞ (2.1) et on note : P Xn −→ X. n→∞ (2.2) Pour des vecteurs aléatoires, on considère une convergence en probabilités composante par composante. Proposition 4 (Loi faible des grands nombres). Soit (Xn )n∈N une suite de variables aléatoires, i.i.d. (indépendantes identiquement distribuées), de moyenne µ, alors n 1X P Xi −→ µ, n i=1 n→∞ c’est-à-dire : ∀ > 0, P (| n 1X Xi − µ| > ) −→ 0. n→∞ n i=1 (2.3) (2.4) Démonstration. Nous l’admettons pour l’instant, c’est un corollaire de l’inégalité de BienayméTchebitchev que nous voyons plus tard. 13 14 CHAPITRE 2. APPRENTISSAGE STATISTIQUE A ce point, on peut se demander quel est le rapport avec notre problème. Pour répondre à cette question, fixons f ∈ H et rappelons les risques réel et empirique : Z R(f ) = Q(z, f )dP (z) et RN (f ) = N 1 X Q(zi , f ). N i=1 (2.5) Or z est une variable aléatoire, donc Q(z, f ) également. Les éléments z1 , z2 . . . zN de la base d’entraînement sont une suite de variables aléatoires i.i.d., donc les Q(zi , f ) également. On peut ainsi réécrire R(f ) = E[Q(z, f )] (2.6) et RN (f ) est une variable aléatoire. La loi faible des grands nombres nous donne alors (rappelons que f est fixée) : Z N 1 X P Q(zi , f ) −→ Q(z, f )dP (z), N →∞ N i=1 (2.7) autrement dit : ∀ > 0, P (|RN (f ) − R(f )| > ) −→ 0. N →∞ (2.8) Cela indique qu’avec suffisamment d’échantillons, pour une fonction donnée, le risque empirique est une bonne approximation du risque réel. Cependant, deux remarques d’importance doivent être faites à ce niveau : – c’est un résultat asymptotique, on souhaiterait quelque chose de plus fin (fonction de N , le nombre d’exemples) ; – ce résultat est valable pour une fonction f fixée, mais ça ne nous donne pas la condiP tion de pertinence du principe de minimisation du risque empirique (R(fN )−→R(f0 ) P et RN (fN )−→R(f0 )), qui suppose que la fonction même varie (fN étant elle-même une variable aléatoire). 2.1.2 Inégalités de concentration Une inégalité de concentration est une indication de la concentration d’une variable aléatoire autour de sa moyenne, et par extension une indication de la concentration d’une somme de variables aléatoires autour de sa moyenne, ce qui permet d’obtenir des versions quantitatives (non asymptotiques) de la loi des grands nombres. Nous allons présenter quelques unes de ces inégalités (en démontrant les plus simples). Proposition 5 (Inégalité de Markov). Soit X une variable aléatoire intégrable, on a : E[|X|] , c P (|X| ≥ c) ≤ ∀c > 0. (2.9) Démonstration. Ce résultat se montre en développant E[|X|] : Z E[|X|] = |X|dP = Z |X|dP + |X|<c ≥ Z |X|dP Z |X|dP (2.10) |X|≥c (2.11) |X|≥c ≥c Z |X|≥c dP = cP (|X| ≥ c). (2.12) 2.1. RAPPELS ET INÉGALITÉS DE CONCENTRATION 15 Proposition 6 (Inégalité de Bienaymé-Tchebychev). Soit X une variable aléatoire de carré intégrable, on a : Var(X) P (|X − E[X]| ≥ c) ≤ . (2.13) c2 Démonstration. En utilisant l’inégalité de Markov, nous avons : P (|X − E[X]| ≥ c) = P ((X − E[X])2 ≥ c2 ) 1 Var(X) ≤ 2 E[(X − E[X])2 ] = . c c2 (2.14) (2.15) Proposition 7 (Version quantitative de la loi faible des grands nombres). Soit (Xn )n∈N une suite de variables aléatoires i.i.d., de moyenne µ et de variance σ 2 . Alors : P (| n 1X σ2 Xi − µ| ≥ ) ≤ 2 , n i=1 n ∀ > 0. (2.16) Démonstration. C’est un corollaire immédiat de l’inégalité précédente. Posons Sn = n1 ni=1 Xi , 2 nous avons évidemment que E[Sn ] = µ et Var(Sn ) = σn (l’hypothèse d’indépendance étant nécessaire pour cette dernière égalité). Le résultat s’obtient alors en appliquant BienayméTchebychev à Sn . P La loi faible des grands nombres est une conséquence directe de cette dernière inégalité, qui en est une version quantitative. Ce résultat peut être présenter sous une forme alternative. Introduisons 0 < δ ≤ 1, σ2 égalisons le au membre de droite (c’est-à-dire δ = n 2 ), nous obtenons : n 1X σ P (| Xi − µ| ≥ √ ) ≤ δ, n i=1 nδ (2.17) ce qui peut également s’exprimer comme suit. Proposition 8 (Borne PAC). Soit (Xn )n∈N une suite de variables aléatoires i.i.d., de moyenne µ et de variance σ 2 . Soit 0 < δ ≤ 1. Avec une probabilité d’au moins 1 − δ, on a | n 1X σ Xi − µ| ≤ avec = √ . n i=1 nδ (2.18) C’est ce qu’on appelle une borne PAC (probablement approximativement correcte) : avec une probabilité donnée, on est garanti de faire une erreur d’au plus , ce terme étant d’autant plus petit que la variance est faible et que le nombre d’échantillons est grand. Si l’on souhaite une faible erreur avec forte probabilité, il faut que le nombre d’échantillons soit d’autant plus grand. Avant de poursuivre, voyons encore deux inégalités (que nous ne démontrerons pas, mais qui seront utiles pour la suite). Proposition 9 (Inégalité de Hoeffding). Soient X1 . . . Xn des variables aléatoires i.i.d., de moyenne µ et de support compact, c’est-à-dire : ∃M > 0, |Xi − µ| ≤ M presque sûrement. (2.19) 16 CHAPITRE 2. APPRENTISSAGE STATISTIQUE Alors : n 1X n2 P (| Xi − µ| > ) ≤ 2 exp − n i=1 2M 2 ! , ∀ > 0. (2.20) On obtient ici quelque chose de potentiellement plus fin que la précédente inégalité. Proposition 10 (Inégalité de Bernstein). Soient X1 . . . Xn des variables aléatoires i.i.d., de moyenne µ, de variance σ 2 et de support compact, c’est-à-dire : ∃M > 0, Alors : |Xi − µ| ≤ M presque sûrement. n n2 1X Xi − µ| > ) ≤ 2 exp − P (| , n i=1 2(σ 2 + 31 M ) (2.21) ! ∀ > 0. (2.22) La connaissance de la variance peut donc permettre d’affiner la borne. 2.1.3 Retour à la minimisation du risque empirique Soit f ∈ H fixée, appliquons l’inégalité de Hoeffding à RN (f ) et R(f ) (en supposant la condition de support compact vérifiée, ce qui revient à choisir H tel que la perte soit bornée) : ! N 2 . (2.23) P (|RN (f ) − R(f )| > ) ≤ 2 exp − 2M 2 En inversant (comme nous l’avons fait précédemment pour obtenir la première borne PAC), avec une probabilité d’au moins 1 − δ nous avons : s |RN (f ) − R(f )| ≤ M soit encore : 2 ln 2δ , N (2.24) s 2 ln 2δ . (2.25) N Nous obtenons donc une borne de la forme pressentie section 1.2.3. Cependant, nous avons considéré une fonction f fixée et la probabilité 1 − δ est respectivement à l’échantillonnage des données (voir ci-après). Si la fonction dépend des données (ce qui est trivialement le cas si l’on considère fN ), ce résultat ne s’applique plus. R(f ) ≤ RN (f ) + M Limitation : que se passe-t-il ? Nous faisons donc face à une limitation que nous allons tenter d’expliquer plus avant. Que nous dit Hoeffding dans ce cas ? Fixons N , la taille de la base d’exemples. Pour chaque fonction fixée f ∈ H, il existe une ensemble E de bases d’entraînement (de taille N ) pour lesquelles on a s R(f ) − RN (f ) ≤ M 2 ln 2δ , n (2.26) et cet ensemble E a une mesure P (E) ≥ 1 − δ. Cependant, il est primordial de noter que cet ensemble E dépend de f . En conséquence, pour une famille d’exemples effectivement observés, seules certaines fonctions de H satisferont cette inégalité. Nous illustrons ceci 2.1. RAPPELS ET INÉGALITÉS DE CONCENTRATION 17 Figure 2.1 – Sur cette figure, R est le vrai risque et RN le risque empirique pour deux familles d’exemples différentes (en bleu et rouge respectivement). Pour une fonction f donnée, la fluctuation de RN (f ) autour de R(f ) est contrôlée par l’inégalité de Hoeffding. D’un autre côté, fN dépend du jeu de données et la fluctuation de ce jeu ne peut pas être contrôlée par Hoeffding. sur la figure 2.1. Le risque réel est une courbe fixée. Chaque jeu de données (chaque base d’exemples) génère une courbe de risque empirique différente. Hoeffding garantit que pour une fonction f donnée (une abscisse fixée sur cette figure), 90% (par exemple) des courbes de risques empiriques possibles s’éloigneront d’au plus une certaine quantité de la courbe de risque réel. Si l’on considère une nouvelle fonction f 0 (une nouvelle abscisse), ces mêmes courbes de risques empiriques peuvent s’éloigner de plus de de celle du risque réel (quantitativement, on aura toujours 90% des courbes qui s’éloignent d’au plus , mais ce ne seront pas les mêmes). Minimiser le risque empirique, c’est-à-dire calculer fN , revient sur cette figure à considérer une abscisse aléatoire. Hoeffding ne peut donc s’appliquer directement. Vers une solution : des bornes uniformes Ainsi, si les inégalités de concentration sont un outil utile pour le problème que nous nous posons, elles ne sont pas suffisantes. Un pas en avant vers la solution consiste à considérer des bornes uniformes. En effet, avant de voir les données, on ne peut pas savoir quelle fonction l’algorithme va choisir (c’est-à-dire fN ), l’idée est donc de considérer une borne uniforme du type : R(fN ) − RN (fN ) ≤ sup (R(f ) − RN (f )) (2.27) f ∈H Si on peut borner le membre de droite ou lui appliquer la loi des grands nombres, nous aurons une condition suffisante pour le principe de minimisation du risque empirique (nous montrerons d’ailleurs que c’est également une condition nécessaire). Nous cherchons donc une borne qui tienne simultanément pour toutes les fonctions de l’espace d’hypothèses. Construisons en une dans un cas simple. Soient f1 et f2 deux fonctions de H. Introduisons les ensembles C1 et C2 définis par : Ci = {z1 . . . zN : |R(fi ) − RN (fi )| > }, i = 1, 2. (2.28) 18 CHAPITRE 2. APPRENTISSAGE STATISTIQUE L’ensemble Ci contient donc tous les “mauvais” exemples pour fi , c’est-à-dire ceux pour lesquels la borne échoue. D’après Hoeffding, nous avons pour i = 1, 2 N 2 P (Ci ) ≤ δ = 2 exp − 2M 2 ! . (2.29) Nous voulons mesurer combien d’exemples sont “mauvais” pour i = 1 ou i = 2 : P (C1 ∪ C2 ) ≤ P (C1 ) + P (C2 ) = 2δ. (2.30) On peut donc généraliser la borne. Supposons que H est de cardinal fini h, c’est-à-dire que H = {f1 . . . fh }, nous avons alors : P (∃f ∈ H : |R(f ) − RN (f )| > ) ≤ h X P (|R(fi ) − RN (fi )| > ) (2.31) i=1 N 2 ≤ 2h exp − 2M 2 ! . (2.32) Comme avant, nous inversons la probabilité : N 2 δ = 2h exp − 2M 2 s ! ⇔=M 2(ln(h) + ln( 2δ )) . N (2.33) 2(ln(h) + ln( 2δ )) , N (2.34) Ainsi, avec une probabilité d’au moins 1 − δ, on a : s ∀f ∈ H, R(f ) ≤ RN (f ) + M et donc plus particulièrement : s R(fN ) ≤ RN (fN ) + M 2(ln(h) + ln( 2δ )) . N (2.35) Le principe de minimisation du risque empirique peut donc être pertinent. Cependant, cela suppose pour l’instant que H soit de cardinal fini, ce qui est particulièrement contraignant. Dans la suite, nous allons dans un premier temps étudier les conditions nécessaires et suffisantes de pertinence du principe de minimisation du risque empirique, et dans un second temps étudier des mesures plus fines de la taille d’un espace d’hypothèses (dimension de Vapnik-Chervonenkis et nombre de couverture) qui nous permettront d’obtenir des bornes plus réalistes. 2.2 2.2.1 Conditions nécessaires et suffisantes du principe de minimisation du risque empirique Notion classique de pertinence et sa limite Commençons par définir la notion de pertinence (illustrée figure 1.3), au sens classique. 2.2. CNS DU PRINCIPE DE L’ERM 19 Définition 2 (Pertinence classique). Nous disons que le principe de minimisation du risque empirique est pertinent pour la famille de fonctions Q(z, f ), f ∈ H, et pour la distribution de probabilités P (z), si les deux séquences suivantes convergent en probabilité vers la même limite : P R(fN ) −→ R(f0 ), (2.36) RN (fN ) −→ R(f0 ). (2.37) N →∞ P N →∞ En d’autres termes, le principe de l’ERM est pertinent si il fournit une séquence de fonctions Q(z, fN ), N = 1, 2, . . . , pour laquelle à la fois le risque empirique et le risque réel convergent vers la valeur minimum du risque (en se restreignant à l’espace d’hypothèses H). Non-équivalence des limites La convergence des deux séquences définissant la pertinence du principe de l’ERM ne sont pas équivalentes. Pour cela, nous allons construire un contre-exemple tel que P P R(fN )−→R(f0 ) et RN (fN )9R(f0 ). Soit z ∈ [0, 1] et Q(z, f ) des fonctions indicatrices (qui prennent deux valeur possibles, 0 ou 1). On définit H comme l’ensemble des fonctions qui vallent 1 partout sauf sur un nombre fini d’intervalles de mesures cumulées pour lesquels elles vallent 0, voir l’illustration figure 2.2. Soit P (z) la distribution uniforme sur [0, 1]. On a clairement que le risque empirique minimal est nul : ∀N , RN (fN ) = 0. En effet, soit un nombre fini de points z1 . . . zN . On peut prendre la fonction dont les intervalles où elle s’annule sont centrés en z1 . . . zN , chacun de largeur N (c’est un exemple parmi d’autres, une infinité de fonctions de H atteignant ce minimum). D’un autre côté, le risque réel est constant, identique pour toute fonction : ∀f ∈ H, Z R(f ) = Q(z, f )dP (z) = 1 − . (2.38) On a donc : P inf R(f ) − RN (fN ) = 1 − 9 0 N →∞ f ∈H P et inf R(f ) − R(fN ) = 0 −→ 0 f ∈H N →∞ (2.39) (2.40) Ceci montre le contre-exemple. Limite de la pertinence classique Le problème de cette définition de la pertinence au sens classique est qu’elle inclut des cas de pertinence triviaux, on ne peut donc pas s’en servir comme base de travail pour déterminer des conditions de pertinence de l’ERM. Avant d’en proposer une nouvelle définition, présentons un cas trivial de pertinence. Supposons que pour un ensemble de fonctions Q(z, f ), f ∈ H, le principe de l’ERM ne soit pas pertinent. On étend alors cet ensemble H avec une fonction φ(z) telle que inf f ∈H Q(z, f ) > φ(z), tel qu’illustré sur la figure 2.3. Il est clair qu’avec cet ensemble étendu, le principe de l’ERM est pertinent. En effet, pour toute distribution et tout nombre N d’observations, le minimum du risque empirique est atteint pour φ(z), qui est également le minimum du risque réel. 20 CHAPITRE 2. APPRENTISSAGE STATISTIQUE Figure 2.2 – Fonctions utilisées pour le contre-exemple montrant la non-équivalence des limites définissant le principe de pertinence classique. La somme des longueurs des intervalles à 0 vaut . Figure 2.3 – Trivialité de la pertinence classique. Ainsi, en travaillant avec cette définition, il faudrait vérifier au préalable les cas de pertinence triviale, par exemple s’il y a une fonction minimisante. Toutefois, on voudrait raisonner sur des propriétés plus générales de H (sa capacité, en quelque sorte une généralisation de la notion de cardinal), pas sur les fonctions particulières qui le peuplent. C’est pourquoi Vapnik a introduit une notion de pertinence stricte (non-triviale). 2.2.2 Pertinence stricte (non-triviale) Définition 3 (Pertinence stricte (Vapnik)). Nous disons que le principe de minimisation du risque empirique est strictement pertinent si pour l’ensemble des fonctions Q(z, f ), f ∈ H, et pour la distribution P (z), nous avons pour tout sous-ensemble H(c), c ∈ R, de H, défini par Z H(c) = f ∈ H : Q(z, f )dP (z) ≥ c , (2.41) la convergence suivante : P inf RN (f ) −→ f ∈H(c) inf R(f ). N →∞ f ∈H(c) (2.42) En d’autres termes, on impose que le minimum du risque empirique converge en probabilité vers le minimum du risque réel, ce pour tout sous-ensemble de H obtenu en enlevant les fonctions ayant un risque réel inférieur à c, pour tout c. Le cas de trivialité vu précédemment ne tient plus (avec c suffisamment grand, plus précisément c = supz φ(z), la fonction φ(z) n’est plus considérée). Par rapport à la pertinence classique, on est passé de deux conditions à une seule. La condition (2.42) est une généralisation de la condition (2.37), elle correspond au cas c = 2.2. CNS DU PRINCIPE DE L’ERM 21 −∞. On peut se demande légitimement si la condition (2.42) implique la condition (2.36), ce qui montrerait que la pertinence stricte généralise la pertinence classique. Le lemme suivant répond affirmativement à cette question. Lemme 1. Si le principe de l’ERM est strictement pertinent, alors : P R(fN ) −→ inf R(f ). (2.43) N →∞ f ∈H Démonstration. Notons R0 = R(f0 ) = inf f ∈H R(f ). Soit > 0 quelconque, considérons l’ensemble H(R0 + ) : H(R0 + ) = {f ∈ H : R(f ) ≥ R0 + }. (2.44) Choisissons (suffisamment petit) tel que H(R0 + ) ne soit pas vide. On a supposé la pertinence stricte, donc avec c = −∞ on retrouve : P RN (fN ) −→ R0 . (2.45) N →∞ De façon équivalente, nous avons donc : lim P RN (fN ) ≥ R0 + N →∞ 2 =0 (2.46) D’autre part, par définition de H(R0 + ) et par pertinence stricte, nous avons : P inf f ∈H(R0 +) RN (f ) −→ inf N →∞ f ∈H(R0 +) R(f ) ≥ R0 + , (2.47) donc, de façon équivalente : lim P N →∞ inf RN (f ) ≥ R0 + 2 f ∈H(R0 +) ! = 1. (2.48) Les équations (2.46) et (2.48) impliquent que : lim P (fN ∈ H(R0 + )) = 0. N →∞ (2.49) Cela signifie donc, par définition de H(R0 + ) et car R0 est l’optimum, que pour N assez grand, nous avons : R0 ≤ R(fN ) ≤ R0 + . (2.50) Ceci permet de conclure : P R(fN ) −→ R(f0 ). N →∞ 2.2.3 (2.51) Convergence uniforme à un et deux côtés Nous avons eu l’intuition à la fin de la section 2.1.3 que la pertinence du principe de l’ERM était liée à la convergence du supremum supf ∈H |R(f ) − RN (f )|. Vapnik le prouve. Introduisons d’abord les concepts de convergence uniforme. 22 CHAPITRE 2. APPRENTISSAGE STATISTIQUE Définition 4 (Convergence uniforme à deux côtés). Soit z1 . . . zN . . . une suite de variables aléatoires, soit P (z) la distribution associée, soit H notre espace d’hypothèses. On définit le process empirique à deux côtés (c’est une suite aléatoire) par : ξ N Z N 1 X = sup Q(z, f )dP (z) − Q(zi , f ) = sup |R(f ) − RN (f )| . f ∈H N f ∈H i=1 (2.52) On dit qu’il y a convergence uniforme à deux côtés si : ∀ > 0, P (ξ N > ) −→ 0. N →∞ (2.53) Définition 5 (Convergence uniforme à un côtés). Soit z1 . . . zN . . . une suite de variables aléatoires, soit P (z) la distribution associée, soit H notre espace d’hypothèses. On définit le process empirique à un côté par : N ξ+ = sup f ∈H Z N 1 X Q(z, f )dP (z) − Q(zi , f ) N i=1 ! = sup (R(f ) − RN (f ))+ + (2.54) f ∈H ( avec (u)+ = u si u > 0 0 sinon . (2.55) On dit qu’il y a convergence uniforme à un côté si : ∀ > 0, N P (ξ+ > ) −→ 0. N →∞ (2.56) Notons que la convergence uniforme à un côté a un intérêt certain ici. En effet, on cherche à minimiser le risque réel, pas à le maximiser, le problème n’est pas symétrique. 2.2.4 Le théorème clé de la théorie de l’apprentissage Ce théorème, du à Vapnik, montre qu’il y a pertinence stricte du principe de l’ERM si et seulement si on a une convergence uniforme à un côté (condition suffisante, mais également nécessaire). Théorème 1 (Théorème Clé de Vapnik). Supposons qu’il existe deux constantes a et A telles que pour toute fonction Q(z, f ), f ∈ H, et pour une distribution donnée P (z), l’inégalité suivante soit vraie : a≤ Z Q(z, f )dP (z) ≤ A. (2.57) Alors les deux points suivants sont équivalents : 1. pour la distribution P (z), le principe de minimisation du risque empirique est strictement pertinent sur l’ensemble des fonctions Q(z, f ), f ∈ H ; 2. pour la distribution P (z), il y a convergence uniforme à un côté sur l’ensemble des fonctions Q(z, f ), f ∈ H. Démonstration. Commençons par montrer que 1 ⇒ 2. Rappelons la définition de H(c) : Z H(c) = {f ∈ H : R(f ) = Q(z, f )dP (z) ≥ c}. (2.58) 2.2. CNS DU PRINCIPE DE L’ERM 23 Par hypothèse, le principe de l’ERM est strictement pertinent sur Q(z, f ), f ∈ H, donc ∀c ∈ [a, A] nous avons : Z N 1 X P Q(zi , f ) −→ inf Q(z, f )dP (z). N →∞ f ∈H(c) f ∈H(c) N i=1 inf (2.59) Soit > 0. On construit une séquence finie a1 . . . an telle que : |ai+1 − ai | < , 2 a1 = a, an = A. (2.60) Notons Tk l’événement suivant : Z N 1 X Q(zi , f ) < inf Q(z, f )dP (z) − . 2 f ∈H(ak ) N f ∈H(ak ) i=1 inf (2.61) D’après (2.59), nous avons : P (Tk ) −→ 0. (2.62) N →∞ Notons T l’union de ces événements : n [ T = Tk . (2.63) k=1 Comme n est fini et que (2.62) est vrai pour tout k, nous avons : P (T ) = P ( n [ Tk ) ≤ k=1 n X k=1 P (Tk ) −→ 0. (2.64) N →∞ Notons A l’événement suivant : Z sup f ∈H N 1 X Q(zi , f ) Q(z, f )dP (z) − N i=1 ! > . (2.65) + Supposons que A se réalise (sinon, c’est soit que est trop grand, soit que c’est gagné). Alors il existe f + tel que : Z N 1 X Q(z, f )dP (z) − > Q(zi , f + ). N i=1 + (2.66) D’après f + , on choisit k ∈ {1 . . . n} tel que : f + ∈ H(ak ) Z et Q(z, f + )dP (z) − ak < . 2 (2.67) (2.68) Ce k existe forcément, dans la mesure où f + ∈ H et |ai+1 − ai | < 2 , ∀i. C’est plus précisément le plus grand k tel que f + ∈ H(ak ) et f + ∈ / H(ak+1 ). Pour cet ensemble H(ak ), par définition nous avons : Z inf f ∈H(ak ) Q(z, f )dP (z) ≥ ak , (2.69) 24 CHAPITRE 2. APPRENTISSAGE STATISTIQUE donc : Z Q(z, f + )dP (z) − Z inf f ∈H(ak ) Q(z, f )dP (z) < . 2 (2.70) Ainsi, pour la fonction f + choisie et l’ensemble H(ak ) correspondant nous avons : Q(z, f )dP (z) − > 2 Z inf f ∈H(ak ) Z Q(z, f + )dP (z) − d’après (2.70) (2.71) > N 1 X Q(zi , f + ) d’après (2.66) N i=1 (2.72) ≥ N 1 X Q(zi , f ) car f + ∈ H(ak ). f ∈H(ak ) N i=1 (2.73) inf Donc l’événement Tk a lieu, donc T : A ⊂ Tk ⊂ T, (2.74) d’où : P P (A) < P (T ) −→ 0. (2.75) N →∞ Ceci est exactement la convergence à un côté : P (sup (R(f ) − RN (f )) > )+ −→ 0. f ∈H (2.76) N →∞ Montrons à présent que 2 ⇒ 1. Supposons maintenant qu’on ait la convergence uniforme à un côté, montrons que la pertinence stricte a lieu, c’est-à-dire que pour tout c et pour tout : lim P N →∞ ! Z N 1 X Q(zi , f ) > = 0. Q(z, f )dP (z) − inf inf f ∈H(c) f ∈H(c) N (2.77) i=1 Notons A l’événement d’intérêt : ( A= ) Z N 1 X z1 . . . zN : inf Q(z, f )dP (z) − inf Q(zi , f ) > . f ∈H(c) f ∈H(c) N (2.78) i=1 L’événement A est l’union de deux événements A1 et A2 , A = A1 ∪ A2 , définis par : ( A1 = Z z1 . . . zN : inf f ∈H(c) ( et A2 = Z z1 . . . zN : inf f ∈H(c) N 1 X Q(z, f )dP (z) + < inf Q(zi , f ) f ∈H(c) N i=1 (2.79) N 1 X Q(z, f )dP (z) − > inf Q(zi , f ) . f ∈H(c) N i=1 (2.80) ) ) L’objectif est de borner la probabilité de l’événement A. Commencons par noter que P (A) ≤ P (A1 )+P (A2 ). Supposons que l’événement A1 se réalise. D’autre part, il existe une fonction f1 telle que : Z Z (2.81) Q(z, f1 )dP (z) < inf Q(z, f )dP (z) + . 2 f ∈H(c) 2.2. CNS DU PRINCIPE DE L’ERM 25 On a donc : Z Q(z, f1 )dP (z) + < inf 2 f ∈H(c) Z Q(z, f )dP (z) + par def. de f1 N 1 X Q(zi , f ) car A1 se réalise f ∈H(c) N i=1 (2.83) N 1 X Q(zi , f1 ). N i=1 (2.84) < inf < (2.82) On a donc, par imbrication des inégalités et grâce à la loi des grands nombres (qui s’applique car f1 ne dépend pas de N ) : Z N 1 X Q(zi , f1 ) − Q(z, f )dP (z) > N i=1 2 P (A1 ) ≤ P ! −→ 0. N →∞ (2.85) Supposons maintenant que A2 se réalise. D’autre part, il existe une fonction f2 telle que : N N 1 X 1 X Q(zi , f2 ) < inf Q(zi , f ) + . N i=1 2 f ∈H(c) N i=1 (2.86) N N 1 X 1 X Q(zi , f2 ) + < inf Q(zi , f ) + par def. de f2 N i=1 2 f ∈H(c) N i=1 (2.87) On a donc : Z < inf f ∈H(c) Q(z, f )dP (z) car A2 se réalise (2.88) Z < Q(z, f2 )dP (z) (2.89) Attention, la fonction f2 dépend de N , il faut donc être plus fin que lorsqu’on travaillait sur A1 . Nous utilisons la convergence uniforme à un côté pour conclure : Z P (A2 ) < P N 1 X Q(z, f2 )dP (z) − Q(zi , f2 ) > N i=1 2 Z < P sup f ∈H ! (2.90) N 1 X Q(z, f )dP (z) − Q(zi , f ) N i=1 ! + > −→ 0. 2 N →∞ (2.91) Nous pouvons donc conclure : P (A) ≤ P (A1 ) + P (A2 ) −→ 0. N →∞ (2.92) Ceci montre la pertinence stricte, et conclue donc la démonstration du théorème. Ce théorème est le “théorème clé” selon Vapnik car il montre que toute analyse doit être une analyse dans le pire des cas. Il reste à trouver des conditions nécessaires et suffisantes de convergence uniforme (c’est l’objet des parties suivantes, nous verrons qu’elles sont liées en quelque sorte à la structure de H). Avant, nous donnons un corollaire important (quoique immédiat). En effet, en pratique, on souhaite obtenir ce type de résultat sans tenir compte d’une densité particulière P (car si l’on peut jouer sur l’espace d’hypothèses, cette densité est imposée par le problème, et l’on voudrait un résultat relativement universel). 26 CHAPITRE 2. APPRENTISSAGE STATISTIQUE Figure 2.4 – Exemple de fonction de classification. Corollaire 1. Supposons qu’il existe deux constantes a et A telles que pour toute fonction Q(z, f ), f ∈ H, et pour toute distribution P ∈ P, l’inégalité suivante soit vraie : a≤ Z Q(z, f )dP (z) ≤ A. (2.93) Alors les deux points suivants sont équivalents : 1. pour chaque distribution de P, le principe de minimisation du risque empirique est strictement pertinent sur l’ensemble des fonctions Q(z, f ), f ∈ H ; 2. pour chaque distribution de P, il y a convergence uniforme à un côté sur l’ensemble des fonctions Q(z, f ), f ∈ H. 2.3 2.3.1 L’approche de Vapnik Restriction du cadre de travail Nous allons maintenant nous restreindre au cas des fonctions indicatrices (qui prennent pour valeur 0 ou 1). Les résultats présentés dans cette section sont généralisables au cas réel, mais le cas binaire (d’application typique la classification) simplifie sensiblement l’analyse. Nous allons même nous restreindre à la fonction de perte binaire, ce qui simplifie quelques démonstrations (mais les résultats sont généralisables aux autres fonctions de pertes). Nous avons donc : – un générateur aléatoire de vecteurs x, tirés selon la distribution P (x), fixe mais inconnue ; – un oracle, qui pour x tire y ∈ {0, 1} selon la distribution P (y|x), fixe mais inconnue ; – un espace d’hypothèses H = {f : X → Y }. Par exemple, un espace d’hypothèses possible est l’ensemble des fonctions de la forme f (x) = Γ(xT w + b) où Γ est la fonction de Heavyside et w et b sont des paramètres. Cela définit un hyperplan qui sépare les classifications +1/0, comme illustré figure 2.4. On cherche f de H à partir de N exemples i.i.d. tirés selon la distribution P (x, y) = P (y|x)P (x). On considère la fonction de perte binaire : ( L0/1 (y, f (x)) = 0 si y = f (x) 1 sinon , (2.94) que l’on peut aussi écrire en utilisant la fonction de Kronecker χ : L0/1 (y, f (x)) = χy6=f (x) . (2.95) 2.3. L’APPROCHE DE VAPNIK 27 Rappelons le risque réel associé : Z L0/1 (y, f (x))dP (x, y) = E[χy6=f (x) ] = P (f (x) 6= y). R(f ) = (2.96) Cette dernière expression du risque montre bien que ce que l’on cherche à minimiser, c’est la probabilité de se tromper. Rappelons également le risque empirique RN (f ) = 1 PN i=1 L(yi , f (xi )) ainsi que les notations z = (x, y) et Q(z, f ) = L0/1 (y, f (x)). N 2.3.2 Retour sur le cas simple (cardinal de H fini) Nous avons montré qu’il y avait pertinence stricte si et seulement si on avait convergence uniforme à un côté. La question naturelle qui se pose alors est : comment garantir une telle convergence ? Nous allons travailler sur la convergence uniforme à deux côtés (qui implique celle à un côté), c’est-à-dire ∀ > 0 : P Z ! N 1 X sup Q(z, f )dP (z) − Q(zi , f ) > −→ 0. N →∞ N f ∈H (2.97) i=1 Dans le cas où Q est une fonction indicatrice, cela revient à se poser la question de la convergence des fréquences vers les probabilités associées : ! P sup |P (Q(z, f ) > 0) − νN (Q(z, f ) > 0)| > f ∈H −→ 0. N →∞ (2.98) Rappelons l’inégalité de Hoeffding. Pour X1 . . . Xn i.i.d., de moyenne µ et de support compact, i.e. ∃M > 0 : |Xi − µ| ≤ M p.s. : n 1X | Xi − µ| > n i=1 ! P n2 ≤ 2 exp − 2M 2 ! . (2.99) L’inégalité de Chernoff que nous utiliserons par la suite en est un corollaire immédiat, spécialisé au cas de variables de Bernouilli. Proposition 11 (Inégalité de Chernoff). Soit X1 . . . Xn une suite de variables aléatoires i.i.d., suivant une loi de Bernouilli de moyenne µ, on a : n 1X | Xi − µ| > n i=1 ! P ≤ 2 exp −2n2 . (2.100) Démonstration. C’est une application directe de Hoeffding en considérant M = 12 . Supposons que le cardinal de H est fini, Card(H) = h. Nous pouvons écrire (la première inégalité se basant sur P (A ∪ B) ≤ P (A) + P (B)) : Z ! N 1 X P max Q(z, fk )dP (z) − Q(zi , fk ) > 1≤k≤h N i=1 ! h N Z X 1 X Q(zi , fk ) > ≤ P Q(z, fk )dP (z) − N i=1 k=1 ≤ 2h exp(−2N 2 ) = 2 exp N ln h − 22 N (Chernoff). (2.101) (2.102) (2.103) 28 CHAPITRE 2. APPRENTISSAGE STATISTIQUE Dans ce cas, pour avoir une convergence uniforme ∀ > 0, il suffit d’avoir ln h −→ 0. N N →∞ (2.104) Si H est de cardinal fini, c’est trivial. Sinon, il faut trouver une meilleure mesure de la taille (ou capacité, capacity en anglais) de l’espace d’hypothèses H. C’est ce que nous allons voir maintenant. 2.3.3 Une première tentative : le cas infini dénombrable Supposons que H soit de cardinal infini, mais dénombrable (i.e., identifiable à N). Soit f ∈ H fixée, d’après Chernoff on a ∀ > 0 : P (|RN (f ) − R(f )| > ) ≤ 2 exp(−2N 2 ). (2.105) On peut faire le même type d’inversion que précédemment en posant : δ = 2 exp(−2N 2 ) ⇔ = v u u ln 2 t δ 2N . (2.106) On a alors le corollaire immédiat (sous forme PAC), ∀0 < δ ≤ 1 : v u u ln 2 t δ ≤ δ. |R (f ) − R(f )| > P N 2N (2.107) De façon équivalente, en faisant de plus dépendre δ à f , avec une probabilité d’au moins 1 − δ(f ) on a v |RN (f ) − R(f )| < u u ln 2 t δ(f ) 2N . (2.108) D’autre part, dans le cas dénombrable, on a de façon générale P( ∞ [ Ai ) ≤ i=1 ∞ X P (Ai ), (2.109) i=1 et donc pour la borne qui nous intéresse : v u u ln 2 X t δ(f ) ≤ P δ(f ). ∃f ∈ H : |RN (f ) − R(f )| > 2N (2.110) f ∈H Supposons que l’ait a priori une distribution p(f ) sur les fonctions de H (qui traduise la P confiance que l’on a en les différentes fonctions d’être la solution du problème) : f ∈H p(f ) = 1 et 0 ≤ p(f ) ≤ 1. Posons δ(f ) = δp(f ), avec δ > 0 qui ne dépend plus de f . De façon immédiate, avec une probabilité 1 − δ on a : ∀f ∈ H, |RN (f ) − R(f )| < v u 2 u ln 1 + ln t δ p(f ) 2N (2.111) 2.3. L’APPROCHE DE VAPNIK 29 Figure 2.5 – Illustration de l’idée de projection de H sur z1 . . . zN . Notons que si Card(h) = h < ∞ et si p est uniforme, on retrouve le résultat du cas le plus 1 simple (ln( p(f ) ) = ln(h)). Il y a plusieurs conclusions à tirer de ce résultat. Premièrement, il est possible d’intégrer une connaissance a priori, via p, ce qui permet d’étendre la borne au cas infini dénombrable. D’autre part, si cet a priori est bon, on a des bornes serrées (knowledge improves bounds). Cependant, p est un a priori qui doit être fixé avant de voir les données. On ne peut pas “tricher” en le choisissant a posteriori. C’est donc une approche possible, mais qui ne fonctionne que si H est dénombrable (ce qui est une hypothèse forte), et qui demande d’avoir un a priori, ce qui peut également être fort contraignant. Dans la suite, nous n’aurons plus ces deux contraintes. 2.3.4 Conditions nécessaires et suffisantes de convergence uniforme L’idée de base Dans le cas général, l’espace d’hypothèse H n’est pas de cardinal fini, ni même dénombrable. Mais rappelons que nous travaillons sur des données. L’astuce consiste donc à “projeter” l’espace d’hypothèses sur la base d’exemples. Plus précisément, pour des exemples z1 . . . zN donnés, nous définissons : Qz1 ...zN = Q(z1 , f ) . . . Q(zN , f ) T :f ∈H . (2.112) Le cardinal de Qz1 ...zN représente le nombre de façons possibles dont les données z1 . . . zN peuvent être classifiées par les fonctions de H. Comme on considère des fonctions indicatrices (cas binaire), cet ensemble est toujours fini (de cardinal borné par 2N ), quelle que soit la taille de H. Nous illustrons cette idée sur la figure 2.5. Considérons comme espace d’hypothèses H les séparateurs linéaires dans le plan, identifiable à R2 . Il n’est donc pas dénombrable. Notons ei le vecteur unitaire (dont seule la ième composante n’est pas nulle et vaut 1). Sur la figure de gauche, nous avons trois points z1 , z2 et z3 , qui sont tous linéairement séparables. On a donc dans ce cas Qz1 ,z2 ,z3 = {e1 , e¯1 , e2 , e¯2 , e3 , e¯3 , 0, 1}. Tous les cas sont possibles et Card(Qz1 ,z2 ,z3 ) = 8 = 23 . C’est le cardinal maximum, mais on travaillerait tout de même avec un espace beaucoup plus petit (à comparer à H). Si l’on considère la figure du milieu, sur laquelle les trois points sont alignés, z2 n’est pas linéairement séparable. Dans ce cas, on a donc e2 ∈ / Qz1 ,z2 ,z3 et e¯2 ∈ / Qz1 ,z2 ,z3 . Dans ce cas, Card(Qz1 ,z2 ,z3 ) = 6 < 23 . Sur la figure 30 CHAPITRE 2. APPRENTISSAGE STATISTIQUE Figure 2.6 – Qz1 ...zN est le sous-ensemble des sommets d’un cube. de droite, nous avons 4 points, il est impossible de tous les séparer avec des séparateurs linéaires, par exemple e2 + e4 ∈ / Qz1 ...z4 . En fait, quelle que soit la distribution des points, avec H l’ensemble des séparateurs linéaires, on a nécessairement Card(Qz1 ...z4 ) < 24 (nous le verrons formellement et généralement plus tard). Entropies Nous allons maintenant définir des notions d’entropie. Soit une séquence arbitraire de N vecteurs z1 . . . zN de Z, on note : N H (z1 . . . zN ) = Card(Qz1 ...zN ). (2.113) La quantité N H (z1 . . . zN ) est donc le cardinal de Qz1 ...zN , qui est un sous-ensemble de l’ensemble des sommets d’un cube de dimension N , tel qu’illustré figure 2.6, donc trivialement N H (z1 . . . zN ) ≤ 2N . Définition 6 (Entropie aléatoire). On appelle la quantité H H (z1 . . . zN ) = ln N H (z1 . . . zN ) (2.114) l’entropie aléatoire de l’ensemble des fonctions indicatrices Q(z, f ), f ∈ H, sur la base z 1 . . . zN . Définition 7 (Entropie). On appelle la quantité H H H (N ) = E[ln N (z1 . . . zN )] = Z H H (z1 . . . zN )dP (z1 . . . zN ) (2.115) l’entropie de l’ensemble des fonctions indicatrices Q(z, f ), f ∈ H. Notons qu’en conséquence du caractère i.i.d. des exemples, nous avons P (z1 . . . zN ) = i=1 P (zi ). QN 2.3. L’APPROCHE DE VAPNIK 31 CNS de CV uniforme La notion d’entropie fournit une condition nécessaire et suffisante de convergence uniforme à deux côtés (notons qu’un résultat similaire peut être obtenu pour la convergence uniforme à un côté). Théorème 2 (Entropie et convergence uniforme). Pour s’assurer la convergence uniforme (à deux côtés) P Z ! N 1 X sup Q(z, f )dP (z) − Q(zi , f ) > −→ 0 N →∞ N f ∈H (2.116) i=1 sur l’ensemble des fonctions indicatrices Q(z, f ), f ∈ H, il est nécessaire et suffisant que : H H (N ) −→ 0. N N →∞ (2.117) Démonstration. Nous l’admettrons, elle constitue le chapitre 14 de l’ouvrage de Vapnik [13]. Le lecteur attentif aura noté que H H (N ) “joue le rôle” de Card(H) (rappelons que nous avions, dans le cas simple d’un espace d’hypothèse à cardinale fini, une convergence uniforme à la condition que lnNh −→ 0). Nous progressons, mais d’une part ce résultat N →∞ ne dit rien sur la vitesse de convergence, d’autre part il dépend de la distribution et de l’espace d’hypothèse (la dépendance à la distribution empêchant son usage pratique). Nous traiterons ces questions, mais avant faisons une petite digression sur le cas continu. 2.3.5 Un détour par le cas continu Plaçons nous dans le cas où Q(z, f ) prend des valeurs réelles, mais est bornée (ce qui est généralisable au cas non-borné, mais d’espérance finie). Nous supposons que : ∃C > 0 : ∀f ∈ H, |Q(z, f )| < C. (2.118) On peut utiliser la même idée que pour les fonctions indicatrices et projeter l’espace d’hypothèse sur la base d’exemples : Qz1 ...zN = T Q(z1 , f ) . . . Q(zN , f ) :f ∈H . (2.119) Le problème ici est que Qz1 ...zN ne peut plausiblement être de cardinal fini, ce qui a été notre argument principal dans le cas des fonctions indicatrices. Cependant, Qz1 ...zN est inclus dans un cube de côté 2C (l’inclusion étant généralement stricte), on peut en effectuer un maillage (dans l’idée de se ramener au cas discret) à l’aide d’un -net, défini ci-après et illustré figure 2.7. Définition 8 (-net, couverture et -net minimal). L’ensemble B est appelé -net de l’ensemble G si ∀g ∈ G, ∃b ∈ B : d(b, g) < , (2.120) ce qui suppose une métrique d. On dit que G admet une couverture par un -net fini si ∀ > 0, ∃B -net : Card(B ) < ∞. (2.121) On dit que le -net B∗ est minimal si il est fini et contient le nombre minimum d’éléments. 32 CHAPITRE 2. APPRENTISSAGE STATISTIQUE Figure 2.7 – -net : l’ensemble Qz1 ...zN (en rouge) est compris dans un cube de côté 2C, il est recouvert par un -net (en noir). L’idée est donc de fixer un > 0 et de travailler avec le maillage (discret et fini) qui recouvre le compacte Qz1 ...zN . Pour cela, nous introduisons les notions d’-entropie. Définition 9 (-entropie aléatoire). Soit une séquence arbitraire z1 . . . zN , soit > 0, on définit : N H (z1 . . . zN ; ) = Card(-net minimal de Qz1 ...zN ). (2.122) On appelle la quantité H H (z1 . . . zN ; ) = ln N H (z1 . . . zN ; ) (2.123) l’-entropie aléatoire de l’ensemble des fonctions bornées Q(z, f ), f ∈ H, sur la base z1 . . . zN . Définition 10 (-entropie). On appelle la quantité H H (N ; ) = E[ln N H (z1 . . . zN ; )] (2.124) l’-entropie de l’ensemble des fonctions bornées Q(z, f ), f ∈ H. On a donc des définitions semblables au cas des fonctions indicatrices, après s’être ramené au maillage de la “projection” de l’espace d’hypothèses sur les données. On a également une condition nécessaire et suffisante de convergence uniforme similaire. Théorème 3 (CNS de CV uniforme - cas continu). Pour s’assurer la convergence uniforme (à deux côtés) P Z ! N 1 X Q(zi , f ) > −→ 0 sup Q(z, f )dP (z) − N →∞ N f ∈H (2.125) i=1 sur l’ensemble des fonctions bornées Q(z, f ), f ∈ H, il est nécessaire et suffisant que : ∀ > 0, H H (N ; ) −→ 0. N →∞ N (2.126) 2.3. L’APPROCHE DE VAPNIK 33 Démonstration. Nous l’admettrons, elle constitue le chapitre 15 de l’ouvrage de Vapnik [13]. Ainsi, pour traiter le cas continu l’idée est d’introduire un maillage et d’effectuer un raisonnement discret, les mêmes remarques que pour le résultat sur les fonctions indicatrices peuvent être faites. A partir de maintenant, nous retravaillons sur les fonctions indicatrices. 2.3.6 Les trois jalons de la théorie de l’apprentissage (selon Vapnik) Premier jalon Nous considérons à nouveau les fonctions indicatrices. Rappelons la définition de l’entropie de l’ensemble des fonctions indicatrices Q(z, f ), f ∈ H : H H (N ) = E[ln N H (z1 . . . zN )] avec N H (z1 . . . zN ) = Card T Q(z1 , f ) . . . Q(zN , f ) (2.127) ,f ∈ H . (2.128) La condition nécessaire et suffisante de convergence uniforme (et donc de consistance stricte du principe de minimisation du risque empirique) est comme nous l’avons vu : H H (N ) −→ 0. N N →∞ (2.129) Cette équation est le premier jalon : toute machine minimisant le risque empirique devrait la satisfaire (sinon, le principe de l’ERM ne serait pas pertinent). Deuxième jalon Introduisons deux nouvelles notions, toujours liées au cardinal de l’espace d’hypothèses “projeté” sur les données. Définition 11 (Entropie recuite). L’entropie recuite (ou annealed entropy) est définie par : H Han (N ) = ln E[N H (z1 . . . zN )] . (2.130) Définition 12 (Fonction de croissance). La fonction de croissance (ou growth function) est définie par : GH (N ) = ln sup z1 ...zN N H (z1 . . . zN ) . (2.131) Nous avons un lien assez direct entre entropie, entropie recuite et fonction de croissance. Proposition 12. Nous avons les inégalités suivantes : H H H (N ) ≤ Han (N ) ≤ GH (N ) (2.132) Démonstration. La seconde inégalité est triviale et la première est une conséquence de l’inégalité de Jensen (si f convexe et X une variable aléatoire d’espérance finie, alors f (E[X]) ≤ E[f (X)]). 34 CHAPITRE 2. APPRENTISSAGE STATISTIQUE H Le premier jalon ( H N(N ) −→ 0) est une CNS pour la pertinence (stricte) du principe N →∞ de minimisation du risque empirique, mais il ne nous dit rien à propos de la vitesse de convergence du risque R(fN ) vers le risque minimal R(f0 ). Il est possible que le taux de convergence asymptotique soit arbitrairement lent, bien que le principe de l’ERM soit pertinent. La question est donc : sous quelles conditions le taux de convergence asymptotique est-il rapide ? Avant d’y répondre, il est nécessaire de spécifier ce que l’on entend par convergence rapide. On dit que le taux de convergence asymptotique est rapide si : ∃C > 0, ∃N0 > 0|∀N > N0 , P (R(fN ) − R(f0 ) > ) ≤ exp(−2 N C). (2.133) On voit donc que les inégalités de concentration sont un outil pour la convergence rapide. L’entropie recuite fournit une condition suffisante de convergence rapide (savoir si c’est également une condition nécessaire est une question de recherche ouverte). Théorème 4 (CS de CV rapide). Une condition suffisante de convergence rapide est : H (N ) Han −→ 0. N N →∞ (2.134) Démonstration. Nous admettons ce résultat. C’est le deuxième jalon de la théorie de l’apprentissage. Notons qu’étant donné le lien entre entropie et entropie recuite, c’est évidemment également une condition suffisante pour la convergence uniforme et donc la pertinence stricte du principe de l’ERM. Troisième jalon H déLes deux premiers jalons sont distribution-dépendants. En effet, H H (N ) et Han pendent de P . On peut se demander sous quelles conditions le principe de l’ERM est strictement pertinent pour toute distribution P . En effet, on souhaite construire des algorithmes d’apprentissage pouvant résoudre plusieurs problèmes différents (c’est-à-dire pouvant traiter différentes mesures de probabilité P ). Autrement dit, alors qu’on a le choix de l’espace d’hypothèse H, la distribution, elle, est imposée par le problème. La fonction de croissance fournit un tel résultat. Théorème 5. La condition nécessaire et suffisante de pertinence stricte pour toute mesure P (et condition suffisante pour une convergence rapide) est : GH (N ) −→ 0. N N →∞ (2.135) Démonstration. Nous admettons ce résultat. Le caractère suffisant de cette condition pour H (N ) ≤ GH (N ). la convergence rapide vient de Han C’est le troisième jalon de la théorie de l’apprentissage. 2.3. L’APPROCHE DE VAPNIK 35 Pour résumer Pour résumer, nous avons : H H (N ) | {z } CNS pert. stricte, P fixe H Han (N ) ≤ | {z } CS CV rapide, P fixe GH (N ) ≤ (2.136) | {z } CNS pert. stricte et CS CV rapide ∀P On a donc des mesures de la “richesse” d’un espace d’hypothèses moins contraignantes que le cardinal, mais elles dépendent toujours de N , la taille de la base d’entraînement (GH (N )), H (N )). Les résultats associés sont intéressants d’un point voire de la densité P (H H (N ) et Han de vue théorique, moins d’un point de vue pragmatique (comment s’assurer en pratique que les jalons sont effectivement vérifiés ?). On peut alors se demander s’il n’est pas possible d’avoir une mesure plus “générique” de la richesse d’un espace d’hypothèses. 2.3.7 La dimension VC (Vapnik-Chervonenkis) On cherche donc à mesure la richesse de H, de façon générique c’est-à-dire notamment indépendamment de la distribution P . Pour cela, on s’intéresse à la fonction de croissance (base du troisième jalon, qui est le seul qui permette de s’affranchir de la distribution), qui présente une structure particulière, précisée par le théorème suivant et illustré figure 2.8. Théorème 6 (Vapnik & Chervonenkis / Sauer / Shelah). La fonction de croissance d’un ensemble de fonctions indicatrices Q(z, f ), f ∈ H, satisfait nécessairement l’une des deux conditions : 1. soit GH (N ) est linéaire, GH (N ) = N ln 2, ∀N ∈ N∗ ; (2.137) 2. soit GH (N ) est sous-logarithmique à partir d’un certain rang, = N ln 2 GH (N ) ≤ h 1 + ln N h si N ≤ h si N > h , (2.138) où h est le plus grand entier tel que GH (N ) = N ln 2. Démonstration. Nous admettons ce résultats, qui peut comme les autres se trouver dans [13]. La fonction de croissance GH (N ) est donc soit linéaire, soit sous-logarithmique, cette structure particulière est à la base de la notion de dimension VC. Définition 13 (dimension VC). Si la fonction de croissance est telle que donnée par la condition (2.138), alors h est appelée dimension VC de l’ensemble des fonctions indicatrices Q(z, f ), f ∈ H. Si la fonction de croissance est linéaire, la dimension VC est infinie. La dimension VC est donc un concept lié à l’espace d’hypothèse mais indépendant du problème (de la distribution). On lie facilement le comportement asymptotique de la fonction de croissance à la dimension VC, GH (N ) −→ 0 ⇔ h < ∞, N N →∞ (2.139) 36 CHAPITRE 2. APPRENTISSAGE STATISTIQUE Figure 2.8 – Croissance de la fonction GH (N ). autrement dit une condition nécessaire et suffisante de pertinence stricte pour toute distribution P et une condition de convergence rapide, également pour toute distribution P , est que la dimension VC de l’espace d’hypothèses H soit finie. La dimension VC est donc un concept important, qui permet de caractériser un espace d’hypothèses (c’est la “généralisation” du cardinal dont nous discutons depuis un moment). Avant de l’illustrer à l’aide de quelques exemples, nous en donnons une définition alternative. Définition 14 (VC dimension -définition équivalente-). La dimension VC d’un ensemble de fonctions indicatrices Q(z, f ), f ∈ H, est le nombre maximum h de vecteurs z1 . . . zh qui peuvent être séparés de 2h façons différentes par les fonctions Q(z, f ) (pulvérisés shattered- par ce ensemble de fonctions). Si la pulvérisation est possible ∀N , la dimension VC est infinie. Etudions à présent quelques exemples de dimension VC. Soit H l’espace des séparateurs linéaires dans le plan, exemple déjà illustré figure 2.5 page 29. Avec un point, il est évident que 2 = 21 séparations sont possibles. Avec deux points, quelles que soient leurs dispositions, il y a 4 = 22 séparations possibles. Avec trois points, s’ils ne sont pas alignés comme sur l’exemple de la figure 2.5 au milieu, toutes les 8 = 23 séparations sont possibles. Par contre, si l’on considère quatre points, il existe des séparations impossibles. Par exemple, sur la figure 2.5 droite, il existe des séparations impossibles comme z1 = z3 = 0 et z2 = z4 = 1. Dans ce cas, le nombre de séparations possibles est strictement inférieur à 24 . La dimension VC est donc égale à 3. Cet exemple est généralisable : si l’on considère H l’ensemble de séparateurs linéaires dans Rn , sa dimension VC est égale à n + 1. On pourrait donc penser à partir de cet exemple que la dimension VC est liée aux nombres de paramètres à apprendre. Cela est vrai quand la dépendance à ces paramètres est linéaire, mais faux dans le cas général. Pour s’en convaincre, considérons l’espace d’hypothèses illustré figure 2.9 et défini par : H= nl m o (sin(tx))+ , t ∈ R . (2.140) Avec un tel espace de fonction, il est possible de pulvériser tout ensemble fini de points de R (il suffit de choisir t suffisamment grand). La dimension VC de cet espace d’hypothèses est donc infinie, bien qu’il n’y ait qu’un paramètre libre. Avant d’étudier les bornes sur le risque basées sur la dimension VC, faisons une petite digression sur le cas continu. 2.3. L’APPROCHE DE VAPNIK 37 Figure 2.9 – Un seul paramètre et dimension VC infinie. Définition 15 (Dimension VC pour les fonctions à valeurs réelles). Soit Q(z, f ), f ∈ H, un ensemble de fonctions à valeures réelles bornées par deux constantes a et A, ∀z, ∀f ∈ H, a ≤ Q(z, f ) ≤ A. (2.141) On construit l’ensemble des fonctions indicatrices I(z, f, β) = Γ(Q(z, f ) − β), f ∈H (2.142) où a<β<A (2.143) est une constante et ( Γ:u→ 0 1 si u < 0 sinon (2.144) est la fonction de Heavyside. La dimension VC des fonctions à valeurs réelles Q(z, f ), f ∈ H, est définie comme étant la dimension VC des fonctions indicatrices I(z, f, β), f ∈ H, β ∈]a, A[. Comme précédemment, les définitions sont étendues au cas continu en se ramenant au cas discret. Considérons par exemple la dimension VC de l’ensemble des fonctions linéaires, c’est-à-dire de la forme Q(z, f ) = αT z + b, z ∈ RN . (2.145) La dimension VC de cet ensemble est n + 1, c’est une conséquence directe de l’exemple précédent (séparateurs linéaires de Rn pour les fonctions indicatrices), en notant que remplacer b par b − β ne change rien. 2.3.8 Une borne sur le risque Nous avons donné précédemment des bornes sur le risque réel en fonction du risque empirique dans le cas où le cardinal de H est fini, voire au plus dénombrable. Nous allons étendre ces résultats à une borne qui dépend de la dimension VC, mesure plus générale de la richesse d’un espace d’hypothèses. 38 CHAPITRE 2. APPRENTISSAGE STATISTIQUE Théorème 7 (Vapnik-Chervonenkis). Soit 0 < δ ≤ 1, avec une probabilité d’au moins 1 − δ, on a s GH (2N ) + ln 2δ ∀f ∈ H, R(f ) ≤ RN (f ) + 2 2 . (2.146) N Démonstration. Pour montrer ce résultat, nous allons borner la quantité ! P sup (R(f ) − RN (f )) > (2.147) f ∈H Z =P sup f ∈H N 1 X Q(z, f )dP (z) − Q(zi , f ) N i=1 ! ! > , (2.148) l’idée étant bien sûr d’utiliser la “projection” de l’espace d’hypothèses sur les données. En effet, si l’on considère la quantité 1 X Q(zi , f ), N f ∈H (2.149) on ne doit pas passer en revue Card(H) possibilités (lorsque le cardinal a un sens), mais seulement N H (z1 . . . zN ) possibilités, quantité qui est finie (majorée par 2N ). On pourrait donc conclure en utilisant la borne sur l’union d’événements, comme nous l’avons déjà fait. Toutefois, nous avons également une dépendance à R, le risque réel, les choses ne sont donc pas si simples. Heureusement, il est possible de s’en sortir grâce au lemme dit 0 (f ) de symétrisation. L’idée est de remplacer le vrai risque R(f ) par une estimation RN calculé sur un jeu indépendant de données. C’est un astuce mathématique, il n’y a pas besoin d’avoir plus de données ; ce jeu indépendant est appelé échantillon “virtuel” ou ”fantôme” (ghost sample). 0 un échantillon fantôme, indépendant des données Lemme 2 (symétrisation). Soit z10 . . . zN z1 . . . zN . Soit N 1 X 0 RN (f ) = Q(zi0 , f ) (2.150) N i=1 le risque empirique associé. Alors on a : ∀ > 0 tel que N 2 ≥ 2 (2.151) ! P sup (R(f ) − RN (f )) > f ∈H ! ≤ 2P 0 sup RN (f ) − RN (f ) > f ∈H . 2 (2.152) Démonstration. Notons tout d’abord que de façon générale, nous avons (rappelons que chi est la fonction caractéristique) : P (X > t) = E[χ{X>t} ]. (2.153) sup (R(f ) − RN (f )) = R(gN ) − RN (gN ). (2.154) Notons gN la fonction qui vérifie f ∈H Bien sûr, gN dépend de z1 . . . zN . Notons également qu’on a de façon générale : si A ∧ B ⇒ C, alors χ{A∧B} ≤ χ{C} . (2.155) 2.3. L’APPROCHE DE VAPNIK 39 Retournons à gN et aux risques : 0 (g )≤ } = χ{R(g )−R (g )>}∧{R0 (g )−R(g )>− } χ{R(gN )−RN (gN )>} χ{R(gN )−RN N N N N N N N 2 2 0 (g )−R (g )> } . ≤ χ{RN N N N 2 (2.156) (2.157) Moyennons cette inégalité par rapport à l’échantillon fantôme : 0 (g )≤ } ] ≤ Ez 0 ...z 0 [χ{R0 (g )−R (g )> } ] χ{R(gN )−RN (gN )>} Ez10 ...zN0 [χ{R(gN )−RN (2.158) N N N 1 N N N 2 2 0 0 ⇔ χ{R(gN )−RN (gN )>} P 0 (R(gN ) − RN (gN ) ≤ ) ≤ P 0 (RN (gN ) − RN (gN ) > ). (2.159) 2 2 0 (indépendance du jeu fantôme par Notons que gN dépend z1 . . . zN , mais pas de z10 . . . zN rapport au jeu initial), on peut donc appliquer l’inégalité de Bienaymé Tchebichev : 0 P 0 (R(gN ) − RN (gN ) > ) ≤ 2 1 N Var(gN ) 2 2 ≤ 1 . N 2 (2.160) La dernière inégalité vient du fait que comme gN prend ses valeurs dans {0, 1}, on a nécessairement Var(gN ) ≤ 14 . On peut inverser cette probabilité : 1 0 P 0 (R(gN ) − RN (gN ) ≤ ) ≥ 1 − . 2 N 2 (2.161) En réinjectant cette inégalité, on obtient donc : χ{R(gN )−RN (gN )>} 1 − 1 N 2 0 ≤ P 0 (RN (gN ) − RN (gN ) > ). 2 (2.162) Moyennons ensuite par rapport à z1 . . . zN : 1 Ez1 ...zN [{χR(gN )−RN (gN )> }] 1 − N 2 0 (g )−R (g )> } ], ≤ Ez1 ...zN z10 ...zN0 [χ{RN N N N 2 (2.163) soit : 1 0 1 P (RN (gN ) − RN (gN ) > 2 ) 1 − N 2 0 ≤ 2P (RN (gN ) − RN (gN ) > ) 2 0 ≤ 2P (sup (RN (f ) − RN (f )) < ) 2 f ∈H P (R(gN ) − RN (gN ) > ) ≤ (2.164) (2.165) (2.166) Ceci montre le lemme. On peut donc montrer l’inégalité, cela revient principalement à utiliser le lemme de 40 CHAPITRE 2. APPRENTISSAGE STATISTIQUE symétrisation : ! sup (R(f ) − RN (f )) > P (2.167) f ∈H ≤ 2P 0 sup RN (f ) − RN (f ) > 2 f ∈H ! (2.168) d’après le lemme de symétrisation = 2P 0 RN (f ) − RN (f ) > 2 sup f ∈Qz 0 0 1 ...zN z1 ...zN (2.169) en considérant la “projection” sur les données 0 0 ≤2 sup N H (z1 . . . zN z10 . . . zN )P (RN (f ) − RN (f ) > ) 0 2 z1 ...zN z10 ...zN (2.170) car P (A ∪ B) ≤ P (A) + P (B) ≤4 N sup 0 z1 ...zN z10 ...zN H N 2 − 8 0 (z1 . . . zN z10 . . . zN ) exp ! (2.171) en utilisant Chernoff. En posant δ le membre de droite, en isolant puis en inversant, on retrouve le résultat tel qu’énoncé. H Notons que cette démonstration prouve également que G N(N ) est une condition suffisante de convergence rapide et de pertinence. On peut déduire un corollaire immédiat de ce théorème, en considérant plutôt la dimension VC. Corollaire 2. Soit h la dimension de Vapnik-Chervonenkis, soit N ≥ h, avec une probabilité d’au moins 1 − δ on a : s ∀f ∈ H, R(f ) ≤ RN (f ) + 2 2 N 2eN h ln h 2 δ + ln (2.172) Démonstration. Immédiat d’après la première définition de la dimension VC. Il existe pléthore d’autres bornes, nous nous contenterons de celle-ci. 2.3.9 Une (courte) introduction au principe de minimisation structurelle du risque Dans cette section nous donnons une brève introduction au principe de minimisation structurelle du risque, ou Structural Risk Minimization (SRM). Rappelons la borne sur le risque réel : v ∀f ∈ H, u u ln 2e + ln N 2 2 h R(f ) ≤ RN (f ) + 2t2 + ln N h N δ (2.173) Si le rapport Nh est grand, le second terme est petit, minimiser le risque empirique est raisonnable. Par contre, si ce rapport est petit, le second terme peut être grand et minimiser le risque empirique ne garantit past de minimiser le risque réel. L’idée de la minimisation 2.3. L’APPROCHE DE VAPNIK 41 structurelle du risque est de minimiser la borne entière en jouant à la fois sur le risque empirique et sur la structure (c’est une approche rigoureuse du problème de sur-apprentissage). En effet, c’est souvent N qui est imposé. On suppose ici que l’ensemble S = {Q(z, f ), f ∈ H} est muni d’une structure, c’est-àdire que S est composé de sous-ensembles Sk = {Q(z, f ), f ∈ Hk } tels que S1 ⊂ S2 ⊂ · · · ⊂ Sk ⊂ . . . et S = (2.174) [ Sj . (2.175) k En conséquence, on a la croissance des dimensions VC associées : h1 ≤ h2 ≤ · · · ≤ hk ≤ . . . (2.176) Le principe de minimisation du risque structurel consiste donc à choisir à la fois Hk et fN ∈ Hk de façon à minimiser toute la borne. On peut considérer comme exemple le problème de régression polynomiale. Supposons disposer de cinq points, observations bruitées d’un modèle génératif d’ordre 2 (voir par exemple la figure 1.2). La question est de savoir comment choisir le degré du polynôme pour effectuer la régression. Si l’on note Hk l’ensemble des polynômes de degré k, la dimension VC k (dénombrement du nombre de monômes pour un polynôme de degré k de n associée est Cn+k variables). Plus k sera grand, plus le risque empirique associé sera petit (voir nul). Appliquer le principe de minimisation structurelle du risque permet d’éviter le sur-apprentissage en évitant les modèles trop riches. Pourtant, cela ne nous dit rien sur le risque R(f0k ) − R∗ , où f0k = argmin R(f ), (2.177) f :Q(z,f )∈Sk qui peut croître. En effet, on contrôle mieux l’erreur d’estimation (la variance), mais avec un risque d’augmenter l’erreur d’approximation (biais inductif), sur laquelle on ne peut de toute façon pas dire grand chose a priori. C’est une forme de compromis entre biais et variance, qui apparaît également dans d’autres domaines. Pour résumer Nous avons introduit la théorie de l’apprentissage statistique telle que vue par Vapnik. Nous avons notamment vu que la pertinence stricte du principe de minimisation du risque empirique nécessitait de faire systématiquement une analyse dans le pire des cas (convergence uniforme). La dimension de Vapnik-Chervonenkis permet de mesurer la richesse d’un espace d’hypothèses donné, de façon très pragmatique, et elle est également un outil pour l’analyse en échantillon fini de l’ERM. Nous avons traité le cas des fonctions indicatrices et donné quelques pistes pour le cas réel. Cependant, d’autres approches sont possibles, d’autres mesures de la richesse d’un espace d’hypothèses envisageable. Nous allons en voir une. 42 CHAPITRE 2. APPRENTISSAGE STATISTIQUE 2.4 2.4.1 D’autres approches sont possibles : l’approche de Cucker et Smale Cadre de travail Cucker et Smale s’intéressent au cas de la régression, les fonctions considérées sont donc à valeurs réelles. On se donne donc : – un générateur aléatoire de vecteurs x, tirés selon P (x), distribution fixe mais inconnue ; – un oracle, qui pour x tire y ∈ R = Y selon P (y|x), distribution également fixe mais inconnue ; – un espace d’hypothèses H = {f : X → Y }. De plus, nous nous restreignons à la fonction de perte `2 : L(y, f (x)) = (y − f (x))2 . Comme d’habitude, on cherche à minimiser le risque réel, de minimiseur f0 : Z R(f ) = (y − f (x))2 dP (x, y), f0 = argmin R(f ). (2.178) f ∈H Cependant le risque réel n’est pas accessible, les distributions étant inconnues, on doit donc se reposer sur les données {(xi , yi )1≤i≤N }, i.i.d. et échantillonnées selon P (x, y) = P (y|x)P (x). Cela donne accès au risque empirique, de minimiseur fN : N 1 X RN (f ) = (yi − f (xi ))2 , N i=1 fN = argmin RN (f ). (2.179) f ∈H Le problème posé est donc le même que celui de Vapnik, mais le cadre est un peu plus restrictif (régression en considérant une perte `2 ) et l’approche est différente (on utilisera une autre mesure de la richesse d’un espace d’hypothèses, à savoir le nombre de couverture, ce qui modifie l’analyse). 2.4.2 Notations et rappels Rappelons que le risque réel est une espérance : Z R(f ) = (y − f (x))2 dP (x, y) = E[(y − f (x))2 ] = E[Q(z, f )]. (2.180) Nous pouvons définir une variance associée, qui sera utile plus tard : σ 2 (f ) = E[Q2 (z, f )] − (E[Q(z, f )])2 Z = (2.181) Z (y − f (x))4 dP (x, y) − ( (y − f (x))2 dP (x, y))2 . (2.182) Notons fP l’espérance conditionnelle, fP (x) = E[Y |X = x] = Z ydP (y|x), (2.183) nous avons déjà montré au début du cours que : Z R(f ) = (f (x) − fP (x))2 dP (x, y) + R(fP ). (2.184) 2.4. L’APPROCHE DE CUCKER ET SMALE 43 Le terme R(fP ) ne dépend pas de f , c’est donc une borne inférieure du risque ; R(fP ) représente en quelque sorte le conditionnement de l’oracle, ou encore l’incertitude intrinsèque de l’oracle, qui ne peut pas être réduite. Nous avons également vu la décomposition du risque réel du minimiseur empirique sous forme d’une somme biais/variance : R(fN ) − R∗ = R(fN ) − R(f0 ) + R(f0 ) − R∗ | {z variance } | {z (2.185) } biais inductif Le terme de biais inductif dépend de l’espace d’hypothèse H, mais pas des données. Le terme de variance, au contraire, est complètement lié aux données, c’est sur lui que nous allons travailler. Rappelons également l’inégalité de Bernstein. Soient X1 . . . Xn des variables aléatoires réelles i.i.d., de moyenne µ et de variance σ 2 , et telles que |Xi − µ| ≤ M presque sûrement. Alors, ∀ > 0, nous avons : P ! n 1 X 2 n . Xi − µ ≥ ≤ 2 exp − n 2 2 σ + 1M i=1 (2.186) 3 Dans la suite de cette section, nous allons borner le terme P (sup |RN (f ) − R(f )| > ) (2.187) f ∈H en utilisant l’inégalité de concentration de Bernstein et une mesure de la richesse de l’espace d’hypothèses appelé nombre de couverture. 2.4.3 Nombre de couverture (covering number) Définition 16 (Nombre de couverture). Soit S un espace métrique et s > 0. Le nombre de couverture N (S, s) est le nombre minimal l ∈ N tel qu’il existe l boules de rayon s qui couvrent S. Si S est un compact, le nombre de couverture est nécessairement fini. C’est cette quantité, N (S, s), que nous allons utiliser comme mesure de la richesse de H pour fournir des bornes sur le risque réel. Mais avant, nous en donnons un exemple dans un cas simple. Considérons comme espace d’hypothèses le cas usuel d’une représentation paramétrique linéaire, à laquelle on ajoute une contrainte sur la norme infinie : H = {fw : x → p X wi φi (x), kfw k∞ ≤ R}. (2.188) i=1 Il est clair que H ⊂ BR , où BR est la boule de rayon R de Rp . Nous allons estimer N (BR , η). Proposition 13 (Nombre de couverture d’une boule). Soit BR = {x ∈ Rp : kxk ≤ R}, (2.189) 4R . η (2.190) on a : ln N (BR , η) ≤ p ln 44 CHAPITRE 2. APPRENTISSAGE STATISTIQUE Démonstration. Commençons par définir quelques nombres d’analyse fonctionnelle. Soit S un espace métrique et k ≥ 1, nous définissons : k (S) = inf { > 0 : ∃ des boules fermées D1 . . . Dk de rayon couvrant S} (2.191) ϕk (S) = sup {δ > 0 : ∃x1 . . . xk+1 ∈ S : ∀i 6= j, d(xi , xj ) > 2δ} . (2.192) On peut noter immédiatement que k (S) ≤ η ⇔ N (S, η) ≤ k (2.193) et que pour R > 0 (en notant RS = {Rx : x ∈ S} la dilatation de S) : k (RS) = Rk (S). (2.194) Pour montrer le résultat qui nous intéresse (borne supérieure pour le nombre de couverture d’une boule), nous avons besoin du lemme suivant. Lemme 3. Les deux séries d’inégalités suivantes sont vraies : 1. encadrement de k par ϕk , ∀k ≥ 1, ϕk (S) ≤ k (S) ≤ 2ϕk (S); (2.195) 2. encadrement de k par k, pour B1 la boule unité, ∀k ≥ 1, k − p1 ≤ k (B1 ) ≤ 4(k + 1) − p1 . (2.196) Démonstration. Intéressons nous au premier jeu d’inégalités. Supposons que x1 . . . xk+1 soient les points qui vérifient le supremum induit par la définition de ϕk (S) : – k (S) définit k boules recouvrant S. On a nécessairement que i 6= j ⇒ d(xi , xj ) ≤ 2k (S), sinon il n’y aurait pas recouvrement. D’autre part, par définition, i 6= j ⇒ d(xi , xj ) > 2ϕ(S). Ceci montre que k (S) ≥ ϕk (S) ; – si on prend des boules D1 . . . Dk , de centres xi , de rayon 2ϕ(S), on recouvre forcément S, donc k (S) ≤ 2ϕk (S). Intéressons nous maintenant au second jeu d’inégalités. Notons tout d’abord que ϕk (B1 ) ≤ 1, ∀k ∈ N. Choisissons ρ tel que ρ < ϕk (B1 ). Il existe x1 . . . xk+1 tels que d(xi , xj ) > 2ρ pour 1 ≤ i 6= j ≤ k + 1. Posons Dj = xj + ρB1 , j = 1 . . . k + 1. Il est clair que i 6= j ⇒ Di ∩ Dj = ∅. Comme on travaille dans Rp , il existe une mesure ν, invariante aux translations et homogène de degré p respectivement aux homotéties (i.e., ν(λB) = λp ν(B)), typiquement ν la surface en deux dimensions, le volume en trois dimensions ou plus généralement la mesure euclidienne. Nous avons que Dj ⊂ B2 . En effet, pour x ∈ Dj , nous avons kxk ≤ kx−xj k+kxj k ≤ ρ+1 < 2. En conséquence, cela reste vrai pour l’union : Sk+1 i=1 Di ⊂ B2 . Or, comme de plus les boules sont disjointes, nous avons : k+1 X i=1 ν(Di ) ≤ ν(B2 ) ⇒ k+1 X ρp ν(B1 ) ≤ 2p ν(B1 ) (2.197) i=1 ⇒ (k + 1)ρp ≤ 2p ⇒ ρ ≤ 2(k + 1) − p1 (2.198) , vrai ∀ρ < ϕk (B1 ), or k (B1 ) ≤ 2ϕk (B1 ), donc k (B1 ) ≤ 4(k + 1) − p1 . (2.199) (2.200) 2.4. L’APPROCHE DE CUCKER ET SMALE 45 Reste à montrer la dernière inégalité. Soit > k (B1 ). Il existe D1 . . . Dk , de rayon , S couvrant B1 , donc B1 ⊂ ki=1 Di , d’où : ν(B1 ) ≤ k X ν(Di ) = kp ν(B1 ) ⇒ k − p1 ≤ , (2.201) i=1 donc k (B1 ) ≥ k −1 p . (2.202) Le lemme étant montré, nous pouvons retourner au résultat sur le nombre de couverture qui en est une application assez directe. Posons : k= 4R η p −1 . (2.203) Nous avons : k+1≥ 4R η p η R ⇒ k (BR ) ≤ η ⇔ N (BR , η) ≤ k, ⇒ 4(k + 1) − p1 ≤ (2.204) (2.205) p or, par définition de k, nous avons aussi k ≤ ( 4R η ) , ce qui montre le résultat : ln N (BR , η) ≤ p ln 2.4.4 4R . η (2.206) Quelques bornes de couverture Nous allons à présent donner quelques bornes sur l’erreur entre le risque réel et le risque empirique, mais qui utilisent le nombre de couverture plutôt que la dimension VC. Commençons par la borne la plus simple, pour f ∈ H fixée. Théorème 8. Soit f ∈ H et M > 0 tel que |f (x) − y| ≤ M presque sûrement. Soit σ 2 définie par σ 2 = σ 2 (f ) = E[Q2 (z, f )] − (E[Q(z, f )])2 . (2.207) Alors, ∀ > 0, on a N 2 . P (|R(f ) − RN (f )| ≤ ) ≥ 1 − 2 exp − 2 σ 2 + 13 M 2 (2.208) Démonstration. C’est un application directe de l’inégalité de concentration de Bernstein à (y − f (x))2 . Comme précédemment, ce résultat ne s’applique qu’à f ∈ H fixée. Mais on s’intéresse également à fN , qui minimise le risque empirique, et qui est une variable aléatoire via sa dépendance aux données. Nous avons vu qu’une condition suffisante pour que le principe de minimisation du risque empirique soit pertinent (au sens strict) était d’avoir une convergence uniforme à deux côtés. Nous allons donc comme d’habitude chercher à borner la quantité P (supf ∈H |R(f ) − RN (f )| ≤ ), c’est-à-dire faire l’analyse du pire cas. 46 CHAPITRE 2. APPRENTISSAGE STATISTIQUE Théorème 9. Soit H compact. Supposons que ∀f ∈ H, |f (x) − y| ≤ M presque sûrement. Notons σ 2 = σ 2 (H) = sup σ 2 (f ). (2.209) f ∈H Alors, ∀ > 0, on a : ! P sup |RN (f ) − R(f )| ≤ ≥ 1 − 2N (H, f ∈H N 2 . ) exp − 8M 4 2σ 2 + 13 M 2 (2.210) Démonstration. Notons LN (f ) = R(f ) − RN (f ). (2.211) Une première étape est de borner |LN (f1 ) − LN (f2 )| pour deux fonctions f1 et f2 de H. Lemme 4. Soient f1 , f2 telles que |fj (x) − y| ≤ M presque sûrement. Alors : |LN (f1 ) − LN (f2 )| ≤ 4M kf1 − f2 k∞ . (2.212) Démonstration. Notons tout d’abord l’identité suivante : (f1 (x) − y)2 − (f2 (x) − y)2 = (f1 (x) − f2 (x))(f1 (x) + f2 (x) − 2y). (2.213) Nous avons d’autre part que : |R(f1 ) − R(f2 )| = | =| Z Z ((f1 (x) − y)2 − (f2 (x) − y)2 )dP (x, y)| (2.214) (f1 (x) − f2 (x))(f1 (x) + f2 (x) − 2y)dP (x, y)| (2.215) ≤ kf1 − f2 k∞ Z |(f1 (x) − y) + (f2 (x) − y)|dP (x, y) ≤ kf1 − f2 k∞ 2M. (2.216) (2.217) D’autre part, pour z1 . . . zN : N 1 X |RN (f1 ) − RN (f2 )| = | (f1 (xi ) − f2 (xi ))(f1 (xi ) + f2 (xi ) − 2yi )| N i=1 ≤ kf1 − f2 k∞ N 1 X |f1 (xi ) − yi + f2 (xi ) − yi | N i=1 ≤ kf1 − f2 k∞ 2M. (2.218) (2.219) (2.220) Ainsi, nous avons : |LN (f1 ) − LN (f2 )| = |R(f1 ) − RN (f1 ) − R(f2 ) + RN (f2 )| (2.221) ≤ kf1 − f2 k∞ 4M. (2.222) 2.4. L’APPROCHE DE CUCKER ET SMALE 47 Posons : ). 8M Soient f1 . . . fl telles que les boules Dj de centre fj et de rayon le lemme, ∀f ∈ Dj , nous avons : l = N (H, |LN (f ) − LN (fj )| ≤ 4M kf − fj k∞ ≤ 4M (2.223) 8M recouvrent H. D’après = . 8M 2 (2.224) Cela est vrai ∀z1 . . . zN et ∀f ∈ Dj , donc : sup |LN (f )| ≥ ⇒ |LN (fj )| ≥ , 2 f ∈Dj (2.225) et donc, pour j = 1 . . . l : P ( sup |LN (f )| ≥ ) ≤ P (|LN (fj )| ≥ ) 2 f ∈Dj ≤ (2.226) 2 2 2 exp − 2 σ 2 (fj ) + 31 M 2 2 N N 2 (2.227) . ≤ 2 exp − 4 2σ 2 + 13 M 2 Et, par construction, nous avons H ⊂ P (sup |LN (f )| ≥ ) ≤ f ∈H Sl l X j=1 Dj , (2.228) donc P ( sup |LN (f )| ≥ ) j=1 (2.229) f ∈Dj N 2 . ≤ N (H, )2 exp − 8M 4 2σ 2 + 1 M 2 (2.230) 3 On a donc quelque chose de très similaire à Vapnik, mais avec une autre mesure de complexité. Remarquons qu’à partir d’ici, il est envisageable de déterminer le nombre minimum d’exemples à utiliser pour garantir une qualité d’approximation donnée (sur |LN (fN )|) avec une probabilité donnée (si le terme σ 2 n’est pas connu, comme c’est le cas généralement en raison de sa dépendance à P (z), il peut être majoré). On saurait dès lors quantifier l’erreur faite en utilisant le risque empirique plutôt que le risque réel. On peut également se demander si fN est proche de f0 , en mesurant l’erreur R(fN ) − R(f0 ) > 0. Théorème 10. Soit H compact, tel qu’il existe M > 0, ∀f ∈ H, |f (x) − y| ≤ M presque sûrement. Posons σ 2 = σ 2 (H) = sup σ 2 (f ). (2.231) f ∈H Alors, ∀ > 0, on a P (R(fN ) − R(f0 ) ≤ ) ≥ 1 − N (H, N 2 . )2 exp − 16M 8 4σ 2 + 13 M 2 (2.232) 48 CHAPITRE 2. APPRENTISSAGE STATISTIQUE Démonstration. Nous avons un résultat sur |R(fN ) − RN (fN )| (car nous l’avons ∀f ∈ H, et donc particulièrement pour fN ), il faut le lier à R(fN ) − R(f0 ). Lemme 5. Soit H un compact. Soit > 0 et 0 < δ ≤ 1 tel que ! P sup |RN (f ) − R(f )| ≤ ≥ 1 − , (2.233) f ∈H alors on a : P (R(fN ) − R(f0 ) ≤ 2) ≥ 1 − δ (2.234) Démonstration. Par hypothèse, avec probabilité d’au moins 1 − δ, R(fN ) ≤ RN (fN ) + et aussi RN (f0 ) ≤ R(f0 ) + . (2.235) De plus, fN minimise RN sur H, donc nous avons RN (fN ) ≤ RN (f0 ). (2.236) Ainsi, avec une probabilité d’au moins 1 − δ, R(fN ) ≤ RN (fN ) + ≤ RN (f0 ) + ≤ R(f0 ) + 2, (2.237) R(fN ) − R(f0 ) ≤ 2. (2.238) et donc En utilisant le lemme précédent avec tenons le résultat. 2 combiné avec le théorème précédent, nous ob- Notons que ce dernier lemme peu être aisément utilié pour étendre les bornes de Vapnik. Chapitre 3 Apprentissage algorithmique L’approche que nous avons adoptée jusqu’à présent a été de choisir un espace d’hypothèses puis de minimiser le risque empirique associé. Se pose alors la question de savoir si cela a du sens, question que nous avons traitée dans le chapitre précédent. Nous avons toujours supposé que le risque empirique pouvait effectivement être minimisé, bien que ce soit souvent loin d’être trivial. Ceci relève du domaine de l’optimisation. Le choix de l’espace d’hypothèses n’est pas anodin. D’une part, il est essentiel dans le compromis entre biais et variance (l’apprentissage “par coeur” est mauvais, mais un modèle trop simple induirait un biais inductif trop important). Plus encore, d’un point de vue très pragmatique, il peut faire toute la différence entre une application réussie ou non (beaucoup d’algorithmes d’apprentissage machine sont très sensibles au choix de l’espace d’hypothèses, de très bons résultats peuvent être obtenus bien avant la borne théorique). Cependant, à l’exception du principe de minimisation structurelle du risque exposé section 2.3.9, nous n’avons pas traité le choix de H. Idéalement, on souhaiterait l’apprendre, le baser sur les données. Ce chapitre introduit un certain nombre d’approches dites nonparamétriques, où l’objectif n’est pas seulement de trouver la fonction dans l’espace d’hypothèses, mais également l’espace d’hypothèses lui-même. De fait, nous nous écartons du cadre théorique développé jusqu’ici pour avoir une approche plus pragmatique, mais moins unifiée. Ce sera l’occasion de passer en revue quelques approches classiques de l’apprentissage machine (mais aussi du traitement du signal, les deux domaines partageant énormément), comme les méthodes à noyau (kernel machines) ou encore la régularisation (et particulièrement la régularisation `1 ). 3.1 3.1.1 Minimisation du risque empirique et régularisation Minimisation du risque empirique Vapnick nous donne des conditions sur l’espace d’hypothèses pour que le principe de minimisation du risque empirique soit pertinent (essentiellement, que la dimension VC soit finie). Il nous donne également des bornes sur l’erreur que l’on fait entre R(f ) et RN (f ), avec forte probabilité (aussi entre R(f0 ) et RN (fN ), le résultat vu dans la section 2.4 s’adaptant facilement). Cependant, minimiser le risque empirique est loin d’être évident : argmin f ∈H N X L(yi , f (xi )) =? i=1 49 (3.1) 50 CHAPITRE 3. APPRENTISSAGE ALGORITHMIQUE C’est (en partie) le rôle de l’apprentissage algorithmique. Nous allons nous intéresser à un cas simple, la régression linéaire. Un cas simple : régression linéaire Supposons avoir un ensemble de couples entrée-sortie {(x1 , y1 ) . . . (xN , yN )}, qui peut éventuellement augmenter avec le temps (apprentissage en ligne, à chaque instant i on observe un nouveau couple (xi , yi )). On se donne un ensemble de p fonctions de base φ1 . . . φp , telles que φi : X → Y = R. On note T φ(x) = φ1 (x) . . . φp (x) . (3.2) Cette représentation est par exemple appropriée pour les réseaux RBF. On cherche un modèle linéaire de la forme suivante : ŷ = wT φ(x), w ∈ Rp (3.3) = w1 φ1 (x) + · · · + wp φp (x), (3.4) de façon à minimiser un coût quadratique entre prédictions ŷi et observations yi : RN (wT φ) = N 1 1 X (yi − wT φ(xi ))2 . JN (w) = N N i=1 (3.5) Une première solution est celle des moindres carrés. La fonction de coût JN (w) est convexe, elle admet un unique minimum global que l’on peut déterminer analytiquement en annulant son gradiant. ∇w JN (w) = 0 ⇔ wN = N X T φ(xi )φ(xi ) !−1 N X i=1 φ(xi )yi . (3.6) i=1 T Plusieurs questions se posent. D’une part, que se passe-t-il si N i=1 φ(xi )φ(xi ) n’est pas inversible ? Ce cas de figure est probable si N est de l’ordre de p, voire plus grand (cas du sur-apprentissage), nous y reviendrons. Une autre question qui se pose est de savoir ce qu’il se passe si l’on ajoute un échantillon (xN +1 , yN +1 ), faut-il tout recalculer ? Une seconde solution est celle des moindres carrés récursifs. On peut construire un estimateur en ligne à partir de la solution des moindres carrés, principalement grâce au lemme de Sherman-Morrison. P Lemme 6 (Sherman-Morrison). Soit A une matrice p×p inversible et u, v ∈ Rp . Supposons de plus que 1 + v T A−1 u 6= 0, (3.7) alors : (A + uv T )−1 = A−1 − A−1 uv T A−1 . 1 + v T A−1 u −1 T −1 (3.8) A Démonstration. Notons X = (A + uv T ) et Y = A−1 − A1+vuv T A−1 u . Il est suffisant de vérifier que XY = Y X = I, ce qui est aisé (en notant bien que v T A−1 u est scalaire). 3.1. ERM ET RÉGULARISATION 51 L’intérêt de ce lemme est que si l’on connaît l’inverse d’une matrice, on peut calculer facilement (en O(p2 )) l’inverse de sa perturbation de rang 1. Rappelons la solution des moindres carrés : ! wN = N X φ(xi )φ(xi ) T −1 N X i=1 Notons PN = N X φ(xi )yi . (3.9) i=1 !−1 T et YN = φ(xi )φ(xi ) N X φ(xi )yi . (3.10) i=1 i=1 On a trivialement : YN = YN −1 + φ(xN )yN . (3.11) Grâce au lemme de Sherman-Morrison, nous avons : PN = (PN−1−1 + φ(xN )φ(xN )T )−1 = PN −1 − (3.12) )T P PN −1 φ(xN )φ(xN N −1 . T 1 + φ(xN ) PN −1 φ(xN ) (3.13) Ainsi, nous pouvons retravailler wN , ce qui donne : w = N |{z} (3.14) estimation courante wN −1 | {z } + estimation précédente PN −1 φ(xN ) 1 + φ(xN )T PN −1 φ(xN ) | {z − φ(xN )T wN −1 . y N |{z} observation } gain | | {z prédiction {z } } innovation Ce type d’équation est appelé une équation de Widrow-Hoff : la nouvelle estimation est l’ancienne estimation corrigée par un terme additif, ce dernier étant la multiplication d’un gain (qui indique la direction de correction) par un terme d’innovation (qui est l’erreur de prédiction, et est un terme d’amplitude). Notons que l’algorithme étant récursif, il faut l’initialiser avec θ0 et P0 , c’est-à-dire mettre un a priori, aussi peut informatif soit-il. Pour résumer, on a donc : P φ(xN ) K = 1+φ(x N)−1 TP N N −1 N φ(xN ) wN = wN −1 + KN yN − φ(xN )T wN −1 . (3.15) PN = PN −1 − KN 1 + φ(xN )T PN −1 φ(xN ) K T N Une troisième solution est d’effectuer une descente de gradient stochastique, appelée LMS (Least-Mean Squares) dans ce cas particulier. Une descente de gradient stochastique corrige les paramètres en fonction du gradient du dernier terme du coût empirique total, pondéré par un taux d’apprentissage αn : 1 wN = wN −1 − αN ∇w (yN − φ(xN )T w)2 |w=wN −1 . 2 (3.16) On retrouve une équation de Widrow-Hoff : wN = wN −1 + αN φ(xN ) yN − φ(xN )T wN −1 . | {z gain }| {z innovation } (3.17) 52 CHAPITRE 3. APPRENTISSAGE ALGORITHMIQUE On peut noter la ressemblance avec les moindres carrés récursifs, seuls les gains diffèrent, ce qui induit toutefois des différences sensibles : – les LSM sont moins coûteux que les moindres carrés récursifs (en O(p) plutôt que O(p2 )) ; – cependant, ils sont moins efficaces en terme d’échantillons (nécessite N plus grand pour la même qualité d’approximation) et ils sont sensibles au choix du taux d’apprentissage 1 αN . Autre exemple : perceptron multi-couche A architecture fixée, un perceptron multi-couche (MLP) définit une paramétrisation non-linéaire fw . La fonction de coût est : JN (w) = N X (yi − f (xi ))2 . (3.18) i=1 Malheureusement, les non-linéarités empêchent la résolution analytique. On peut toutefois utiliser une descente de gradient (stochastique ou non, ici oui) : 1 wN = wN −1 − αN ∇w (yN − fw (xN ))2 |w=wN −1 2 = wN −1 + αN ∇w (fw (xN ))|w=wN −1 (yN − fwN −1 (xN )). (3.19) (3.20) Cependant, même calculer le gradient est compliqué, d’où l’algorithme de rétropropagation du gradient (que nous ne détaillerons pas ici). Notons également que l’on n’a aucune assurance d’atteindre un minimum global de la fonction de coût, toute l’analyse théorique effectuée jusqu’ici ne tient a priori pas. De façon générale A espace d’hypothèses et fonction de perte donnés, la minimisation du risque empirique est un problème d’optimisation à part entière, consulter un cours d’optimisation pour un début de réponse. 3.1.2 Choix de l’espace d’hypothèses Nous avons vu le principe de minimisation structurelle du risque section 2.3.9. Il suppose S de construire un espace d’hypothèses H = k Hk : H1 ⊂ . . . Hk . . . , de minimiser le risque empirique pour chaque sous-structure, de calculer à chaque fois la borne correspondante, pour enfin choisir un modèle. C’est potentiellement très difficile d’un point de vue pratique. Une solution classique en apprentissage machine est la régularisation. L’idée sous-jacente est d’ajouter un terme de pénalisation de la complexité de la solution au risque empirique : JN (f ) | {z } coût minimisé = RN (f ) | {z } risque empirique λ |{z} + × facteur de compromis Ω(f ) . (3.21) | {z } pénalisation de la complexité de f De façon générale, la résolution dépend énormément du choix de RN et du choix de Ω. 2 1. Un taux d’apprentissage αN vérifiant αN = ∞ et αN < ∞ garantie la convergence asymptotique vers un minimum local de la descente de gradient stochastique (sous certaines conditions). P P 3.1. ERM ET RÉGULARISATION 53 Quelques exemples de pénalisation Supposons que l’espace d’hypothèses H est tel que f soit paramétrée par w (même linéairement), mais que H est très riche (c’est-à-dire de grande dimension VC, ou encore avec plus de paramètres que d’exemples). Quelques exemples de pénalisation parmi les plus classiques sont les suivants : – pénalisation `2 : Ω(fw ) = kwk22 = p X wj2 ; (3.22) j=1 – pénalisation `1 (a pour avantage de promouvoir la parcimonie, mais n’est pas dérivable partout) : Ω(fw ) = kwk1 = p X |wj |; (3.23) j=1 – régularisation `0 (c’est la vraie norme de la parcimonie, mais elle est difficile à prendre en compte et induit une grande variabilité de l’estimateur associé) : Ω(fw ) = kwk20 = Card ({j ∈ {1 . . . p} : wj 6= 0}) . (3.24) Un exemple simple : ridge regression La ridge regression consiste à minimiser la somme d’une perte `2 avec une régularisation `2 . Intéressons nous au cas linéaire : JN (w) = n X (yi − wT φ(xi ))2 + λkwk2 . (3.25) i=1 On peut trouver le minimum de cette fonction objectif en annulant le gradient : ∇w JN (w) = 0 ⇔ wN = N X λ φ(xi )φ(xi )T I+ 2 i=1 !−1 N X φ(xi )yi . (3.26) i=1 La régularisation force donc en quelque sorte le bon conditionnement du système à résoudre. Elle pénalise les solutions présentant de trop forts coefficients (kwk2 grand). D’une certaine façon, c’est une restriction de l’espace d’hypothèses. L’espace d’hypothèses original est H = {fw : x → wT φ(x)}. Pour λ fixe, il existe un t > 0 tel que le nouvel espace d’hypothèses soit H = {fw : s → wT φ(x), kwk2 ≤ t}. Notons également que le choix de λ est problème-dépendant (il existe des arguments heuristiques et statistiques pour le choisir). Le lecteur attentif aura noté que les moindres carrés récursifs sont en fait une forme de ridge regression avec θ0 = 0 et P0 = λ2 I. On peut également remarquer qu’avec cette formulation, asymptotiquement λ n’a plus d’influence. 3.1.3 Vers les approches non-paramétriques Pour les approches paramétriques, on se donne un espace d’hypothèses caractérisé par un certain nombre de paramètres (comme un réseau RBF, un perceptron multi-couche, etc.), puis on cherche à estimer ces paramètres en minimisant le risque empirique associé. Pour les approches non-paramétriques, informellement on cherche à la fois l’espace d’hypothèses et les coefficients qui caractérisent la solution : 54 CHAPITRE 3. APPRENTISSAGE ALGORITHMIQUE – on peut chercher à construire l’espace d’hypothèses au fur et à mesure, en l’enrichissant selon certains critères ; – on peut également se donner un espace d’hypothèses très riche et chercher à se restreindre à un sous-espace de H selon certains critères (c’est par exemple ce que fait le principe du SRM). Pour certaines approches, on part directement d’un risque empirique régularisé, comme pour la régularisation `1 par exemple : JN (w) = N X (yi − wT φ(xi ))2 + λkwk1 . (3.27) i=1 Minimiser ce coût a pour effet de mettre des coefficients wj exactement à zéro, d’autant plus que λ sera grand, donc le choix de paramètre libre caractérise la richesse maximum du sous-espace dans lequel on souhaite travailler. Pour d’autres approches, les algorithmes sont conçus selon certains principes, et on peut montrer a posteriori qu’ils présentent des formes de régularisation. Les machines à vecteur support (SVM pour Support Vector Machine) sont un tel exemple. Elles sont construites selon le principe de maximisation des marges. Pour une base d’exemples {(xi , yi )1≤i≤N } et un noyau K, l’espace d’hypothèses est : H={ N X wi K(., xi ), w ∈ RN }. (3.28) i=1 En effet, tout point peut a priori être choisi comme vecteur support, même si peu le sont en pratique. Donc l’espace est très riche. Notons k la fonction k : x → K(x, x1 ) . . . K(x, xN ) T ∈ RN . (3.29) Une SVM pour la classification résout en fait (le montrer n’est pas trivial) : JN (w) = N X 1 − yi wt k(xi ) + λkwk22 . i=1 + (3.30) C’est donc une perte SVM |.|+ avec une régularisation `2 , le paramètre λ étant à lier aux variables d’ajustement (slack variables). Une SVM pour la régression résout : JN (w) = N X yi − wT k(xi ) + λkwk2 . i=1 (3.31) C’est donc une perte -sensible |.| avec une régularisation `2 . Pour d’autres approches, les algorithmes sont construits selon certains principes, mais le lien à la régularisation n’est pas forcément évident. Nous allons présenter quelques approches non-paramétriques. 3.2 3.2.1 Quelques approches non-paramétriques Kernel Recursive Least-Squares (KRLS) L’algorithme KRLS est basé sur l’algorithme des moindres carrés récursifs que nous rappelons. Considérons une paramétrisation de la forme fˆα (x) = αT φ(x), (3.32) 3.2. QUELQUES APPROCHES NON-PARAMÉTRIQUES 55 où α est un ensemble de paramètres et φ un ensemble de fonctions de base. Puis on minimise le risque quadratique empirique associé : RN (f ) = N 1 X (yi − αT φ(xi ))2 . N i=1 (3.33) Quelle est l’idée sous-jacente ? Dans le cas d’une relation linéaire entre entrées et sorties, l’estimation et l’inférence sont aisées. Utiliser φ revient à projeter les données d’entrée dans un espace de plus grande dimension, où l’on a plus de chance d’être linéaire. Soit φ(x) tel que φ : x ∈ X → φ(x) ∈ F, (3.34) où F est appelé le feature space (ou espace des caractéristiques), de dimension potentiellement très grande (grande devant N , le nombre d’exemples, voire infinie comme nous le verrons plus tard). On définit une nouvelle base d’exemples {(φ(x1 ), y1 ) . . . (φ(xN ), yN )} et on cherche une relation linéaire entre entrées transformées et sorties, c’est-à-dire une estimation de la forme fˆα (x) = hα, φ(x)i, (3.35) où h., .i est le produit scalaire de F. Introduction des noyaux On a α ∈ F, et F est potentiellement très grand, mais on peut se contenter d’une réprésentation réduite (si N < dim(F)). Proposition 14 (Représentation réduite). Pour minimiser l’erreur quadratique N X (yi − hα, φ(xi )i)2 , (3.36) i=1 il est suffisant de considérer α= N X wj φ(xj ). (3.37) j=1 Démonstration. Soit α ∈ F, ∃w1 . . . wN ∈ R, ∃α̃ ∈ (Vect(φ(x1 ) . . . φ(xN )))⊥ (complémentaire orthogonal) tels que α= N X wi φ(xi ) + α̃. (3.38) i=1 On a alors : J(α) = = N X i=1 N X (yi − hα, φ(xi )i)2 (yi − h i=1 = J(w). N X wi φ(xi ), φ(xi )i)2 car hα̃, φ(xi )i = 0 (3.39) (3.40) i=1 (3.41) 56 CHAPITRE 3. APPRENTISSAGE ALGORITHMIQUE Ainsi, il est suffisant de considérer la paramétrisation suivante : fˆw (x) = *N X + wj φ(xj ), φ(x) (3.42) wj hφ(xj ), φ(x)i . (3.43) j=1 = N X j=1 Cette représentation est à lier à la notion de noyau, grâce au théorème de Mercer. Définition 17 (Noyau). Soit K : (x, s) ∈ X × X → K(x, s) ∈ R une fonction continue et symétrique (K(x, s) = K(s, x)). On dit que K est définie non-négative si et seulement si pour toute suite x1 . . . xn de X et tous réels c1 . . . cn on a n X n X K(xi , xj )ci cj ≥ 0. (3.44) i=1 j=1 On dit alors que K est un noyau. Notons K̃ = (K(xi , xj ))1≤i,j≤n la matrice symétrique de taille n×n et c = c1 . . . cn T le vecteur de taille n, la condition est en fait que cT K̃c ≥ 0. Il faut donc que toute “matrice extraite” soit positive. On peut voir un noyau comme la généralisation fonctionnelle de la notion de matrice positive. Théorème 11 (Mercer). Soit K un noyau. Définissons l’opérateur linéaire TK : TK : ϕ ∈ RX → TK ϕ ∈ RX avec TK ϕ : x ∈ X → Z X (3.45) K(x, s)ϕ(s)ds ∈ R. (3.46) L’opérateur TK étant linéaire, il admet une base orthonormée {ei }i de L2 (X) comme fonctions propres, de valeurs propres non négatives et décroissantes (λi )i . Alors : K(x, s) = ∞ X λj ej (x)ej (s). (3.47) j=1 Démonstration (piste). L’existence de la base orthonormée est une conséquence du théorème spectral. On pose K0 (x, s) = ∞ X λj ej (x)ej (s). (3.48) j=1 Nous avons : Z TK0 ϕ(x) = K0 (x, s)ϕ(s)ds Z = X = = (3.49) X ∞ X j=1 ∞ X j=1 ∞ X λj ej (x)ej (s) ϕ(s)ds (3.50) j=1 Z λj ej (x) ej (s)ϕ(s)ds λj ej (x)hej , ϕi. (3.51) (3.52) 3.2. QUELQUES APPROCHES NON-PARAMÉTRIQUES 57 Particulièrement : TK0 ei (x) = λi ei (x) car (ei )i orthonormée, (3.53) soit TK0 = TK , (3.54) donc K = K0 (les fonctions/valeurs propres caractérisent T ). (3.55) Corollaire 3 (Autre formulation). Soit K un noyau, il existe φ : X → F telle que K(x, y) = hφ(x), φ(y)i. (3.56) Démonstration. En appliquant Mercer : φ(x) = √ λ1 e1 (x) . . . √ λn en (x) . . . T . Voici quelques exemples de noyaux : – noyau gaussien : 1 K(x, y) = exp − (x − y)T Σ−1 (x − y) , 2 (3.57) (3.58) dans ce cas F est de dimension infinie ; – produit scalaire euclidien usuel : K(x, y) = xT y; (3.59) K(x, y) = (xT y + c)d ; (3.60) – noyau polynomial : – etc. Retournons au problème de l’estimation de fonction. On se donne un noyau K, tel que F est potentiellement de dimension infinie. D’après le théorème de Mercer, K définit en fait une fonction φ et un espace de redescription (feature space) F. On projette donc les données dans F puis on y effectue une régression linéaire. Nous avons montré qu’une représentation suffisante était : fˆw (x) = N X wj hφ(xj ), φ(x)i. (3.61) j=1 On peut remplacer le produit scalaire par le noyau, ce qui fait que l’espace de redescription F devient implicite : fˆw (x) = N X wj K(x, xi ). (3.62) j=1 Les noyaux sont donc un moyen efficace de travailler dans un espace de très grande dimension à moindre coût. Toutefois, nous avons toujours N fonctions de base K(., xj ), ce qui pose problème au niveau du coût computationnel et du sur-apprentissage. 58 CHAPITRE 3. APPRENTISSAGE ALGORITHMIQUE Construction d’un représentation parcimonieuse Nous avons donc : fˆα (x) = hα, φ(x)i avec α = N X wi φ(xi ). (3.63) i=1 Supposons que φ(xN ) dépende linéairement des φ(xi ), 1 ≤ i ≤ N − 1. Il existe alors a1 . . . aN −1 tels que φ(xN ) = N −1 X aj φ(xj ), (3.64) i=1 et donc α= N −1 X N X i=1 i=1 (wi + ai )φ(xi ) = wi0 φ(xi ). (3.65) On a donc besoin de N − 1 paramètres, pas de N . L’idée est donc de construire un dicN N tionnaire DN = {x̃j }m j=1 ⊂ {xj }j=1 constitué d’éléments dont les images dans l’espace de redescription sont indépendantes et tel que Vect(φ(DN )) = Vect(φ({xj }N j=1 )). On peut relâcher la condition d’indépendance par une dépendance linéaire approchée, ce qui permet de promouvoir la parcimonie. Pour cela, la base d’exemples est traitée séquentiellement (rappelons que l’objectif est d’obtenir un algorithme en ligne). On initialise le dictionnaire avec le premier élément, c’est-à-dire qu’on pose D1 = {x̃1 = x1 } et m1 = 1 (avec mi la taille du dictionnaire après i échantillons). mi−1 A l’itération i ≥ 2, on a construit le dictionnaire Di−1 = {x̃j }j=1 à partir des exemples mi−1 i−1 {xj }j=1 . On considère l’exemple xi . Par construction, les {φ(x̃j )}j=1 sont linéairement indépendants. On va tester si φ(xi ) est (approximativement) linéairement dépendant des mi−1 . Si ce n’est pas le cas, on ajoute xi au dictionnaire, Di = Di−1 ∪ {xi } et {φ(x̃j )}j=1 mi = mi−1 + 1. Si c’est le cas, le dictionnaire n’est pas modifié, Di = Di−1 et mi = mi−1 . Il s’agit donc de tester la dépendance linéaire approchée. Pour cela, on pose le problème d’optimisation suivante : 2 mi−1 X δi = min a φ(x̃ ) − φ(x ) j j i . a=(a1 ...ami−1 )T j=1 (3.66) Formellement, on a dépendance linéaire si et seulement si δi est nul. Cependant, on permet une dépendance linéaire approchée : si δi < ν, où ν est eu seuil (de parcimonie) choisit par l’utilisateur, alors on a dépendance linéaire approchée et xi n’est pas ajouté au dictionnaire. Dans ce cas, nous avons : mi−1 φ(xi ) = X j=1 res 2 aj φ(x̃j ) + φres i , avec kφi k ≤ ν. (3.67) 3.2. QUELQUES APPROCHES NON-PARAMÉTRIQUES 59 Résolvons ce problème d’optimisation : 2 mi−1 X aj φ(x̃j ) − φ(xi ) δi = min a j=1 *mi−1 mi−1 X X aj φ(x̃j ) − φ(xi ), = min a j=1 = min a = min a (3.68) + aj φ(x̃j ) − φ(xi ) (3.69) j=1 i−1 mX mi−1 X aj ak hφ(x̃j ), φ(x̃k )i − 2 aj hφ(x̃j ), φ(xi )i + hφ(xi ), φ(xi )i j=1 j,k=1 mi−1 i−1 mX X aj ak K(x̃j , x̃j ) − 2 aj K(x̃j , xi ) + K(xi , xi ) (3.71) j=1 j,k=1 (3.70) Introduisons les notations suivantes : K̃i−1 = (K(x̃j , x̃k ))1≤j,k≤i−1 (3.72) k̃i−1 (x) = (K(x̃j , x))1≤j≤i−1 (3.73) kii = K(xi , xi ) (3.74) On a donc : δi = min{aT K̃i−1 a − 2aT k̃i−1 (xi ) + kii }. (3.75) a On peut résoudre analytiquement en annulant le gradient : −1 ∇a (aT K̃i−1 a − 2aT k̃i−1 (xi ) + kii ) = 0 ⇔ ai = K̃i−1 k̃i−1 (xi ), (3.76) δi = kii − 2aiT k̃i−1 (xi ). (3.77) et alors Nous avons donc posé la méthodologie pour obtenir le dictionnaire. La représentation parcimonieuse ainsi construite est nécessairement asymptotiquement finie, si la distribution sous-jacente aux exemples d’entrée a un support compact. Proposition 15 (La représentation est finie). Soient K un noyau de Mercer et X un compact d’un espace de Banach. Alors, pour toute séquence {xj }∞ j=1 et pour tout ν > 0, le dictionnaire est fini. Démonstration. Montrons d’abord que φ est continue. Soient z1 . . . zn . . . de X tels que zi −→ z ∗ . On a i→∞ kφ(zi ) − φ(z ∗ )k2 = hφ(zi ) − φ(z ∗ ), φ(zi ) − φ(z ∗ )i (3.78) ∗ ∗ ∗ = hφ(zi ), φ(zi )i − 2hφ(zi ), φ(z )i + hφ(z ), φ(z )i ∗ ∗ ∗ (3.79) = K(zi , zi ) − 2K(zi , z ) + K(z , z ) (3.80) −→ 0 car K continu, (3.81) i→∞ donc φ est continue. De plus, X est compact, donc φ(X) l’est également (par continuité de φ). Un compact admet un nombre de couverture fini, donc c’est le cas pour φ(X). Soit > 0, il existe k tel que N (φ(x), ) ≤ k . Définissons le packing number comme le 60 CHAPITRE 3. APPRENTISSAGE ALGORITHMIQUE nombre maximum de points de φ(X) séparés d’une distance d’au moins , que nous notons PN (φ(X), ). Nous avons : N (φ(X), ) fini ⇔ PN (φ(X), ) fini. (3.82) Ce résultat est une conséquence directe de l’inégalité ϕk (S) ≤ k (S) ≤ 2ϕk (S) que nous avons vue section 2.4. Cela permet de conclure : √ Card(D{x̃j }) ≤ PN (φ(X), ν) < ∞, (3.83) √ en rappelant que par construction on a toujours kφ(x̃i ) − φ(x̃j )k ≥ ν. Obtenir l’algorithme KRLS Rappelons le problème d’optimisation du Kernel Least-Squares (KLS) au temps n : J= soit J = n X n X i=1 j=1 (yi − fˆ(xi ))2 avec fˆ(x) = n X yi − n X wj hφ(xj ), φ(x)i (3.84) 2 wj K(xi , xj ) (3.85) j=1 i=1 = kKn w − yn k2 (3.86) où Kn = (K(xi , xj ))1≤i,j≤n et yn = (yi )1≤i≤n . (3.87) On a aisément la solution (en supposant Kn inversible) : wn = K−1 n yn . (3.88) Cette version sans dictionnaire est coûteuse (en O(n3 ) à chaque nouvel exemple) et très probablement mal conditionnée. Résolvons le même problème en utilisant le dictionnaire. Rappelons la fonction objectif sous-jacente : J(w) = n X mn X i=1 j=1 (yi − fˆ(xi ))2 avec fˆ(x) = wj hφ(x̃j , φ(x)i. (3.89) Introduisons les notations suivantes : h i (3.90) h i (3.91) wj hφ(x̃j ), φ(x)i (3.92) Φn = φ(x1 ) . . . φ(xn ) ∈ Rp×n , Φ̃n = φ(x̃1 ) . . . φ(x̃n ) ∈ Rp×n . On a alors : fˆ(x) = mn X j=1 = hφ(x), mn X wj φ(x̃j )i (3.93) j=1 = hφ(x), Φ̃n wi donc J(w) = kΦTn Φ̃n w (3.94) 2 − yn k . (3.95) 3.2. QUELQUES APPROCHES NON-PARAMÉTRIQUES 61 Etant donné la façon dont on a construit le dictionnaire, on a aussi φ(xi ) ≈ mn X aij φ(x̃j ). (3.96) j=1 Si xi ∈ Dn , on a ai = emi (vecteur unitaire). Si xi ∈ / Dn , ai est solution de (3.66), que l’on complète : aij = 0 pour j > mi (nature séquentielle de la construction). Notons An la matrice de ces coefficients, on peut lier les matrices Φn et Φ̃n : Φn ≈ Φ̃n ATn et An = (aij )1≤i,j≤n . (3.97) On considère alors la fonction objectif suivante : ˜ J(w) = k(Φ̃ATn )T Φ̃n w − yn k2 = kAn K̃n w − yn k2 . (3.98) On a finalement (en annulant le gradient) : wn = K̃n−1 (ATn An )−1 ATn yn . (3.99) Reste à le calculer récursivement. Supposons connaître wn−1 , K̃n−1 et An−1 . On observe le couple (xn , yn ), on souhaite calculer wn . Une première étape est de mettre à jour le dictionnaire, on distingue alors deux cas : 1. φ(xn ) est ALD (approximativement linéairement indépendant), c’est-à-dire que δn ≤ ν, an est donné par l’équation (3.66), Dn = Dn−1 , mn = mn−1 et K̃n = K̃n−1 ; 2. si δn > ν, φ(xn ) est indépendant, c’est-à-dire que le dictionnaire et les matrices associées évoluent. Etudions le premier cas, où φ(xn ) est ALD. Dans ce cas, il n’y a que An qui change : h An = ATn−1 an iT . (3.100) On a donc : ATn An = ATn−1 An−1 + an anT et ATn yn = ATn−1 yn−1 + an yn . (3.101) Notons Pn la matrice Pn = (ATn An )−1 , en utilisant Sherman-Morrison, nous avons : Pn = Pn−1 − qn anT Pn−1 avec qn = Pn−1 an . 1 + anT Pn−1 an (3.102) Nous pouvons alors développer wn : wn = K̃n−1 Pn ATn yn = = K̃n−1 (Pn−1 − qn anT Pn−1 )(ATn−1 yn−1 + wn−1 + K̃n−1 qn (yn − k̃n−1 (xn )T wn−1 ), (3.103) an yn ) (3.104) (3.105) où l’on a utilisé le fait que qn = Pn an et que k̃n−1 (xn ) = K̃n an . On a donc tout ce qu’il faut pour la mise à jour dans ce premier cas. 62 CHAPITRE 3. APPRENTISSAGE ALGORITHMIQUE Pour le second cas, le dictionnaire change ainsi que toutes les matrices associées, les modifications sont plus importantes. Travaillons d’abord sur la matrice K̃n : " # K̃ k̃n−1 (xn ) K̃n = T n−1 . k̃n−1 (xn ) knn (3.106) En utilisant le lemme de la matrice partitionnée inversée, on a : " K̃n−1 # −1 1 δn K̃n−1 + an anT = −anT δn −an . 1 (3.107) T Comme xn est ajouté au dictionnaire, on a φ(x̃mn ) = φ(xn ), soit an = 0 . . . 0 1 . On a donc " # An−1 0 An = , (3.108) 0 1 soit " ATn An # ATn−1 An−1 0 = , 0 1 (3.109) soit finalement " Pn = (ATn An )−1 ) # P 0 = n−1 . 0 1 (3.110) Ainsi, on peut calculer wn : wn = K̃n−1 (ATn An )−1 ATn yn = K̃n−1 (ATn−1 An−1 )−1 ATn−1 yn−1 yn wn−1 − = (3.111) 1 δn 1 an δn ! (3.112) yn − k̃n−1 (xn )T wn−1 yn − k̃n−1 (xn )T wn−1 (3.113) On a donc tout ce qu’il faut pour la mise à jour dans le second cas, ce qui conclue cette section sur les KRLS. On a une complexité en O(m2n ) au lieu de O(n3 ) avec un contrôle de l’approximation via δ. Les seuls méta-paramètres à choisir pour cette algorithme sont le noyau K et le facteur de parcimonie δ. 3.2.2 Least Absolute Shrinkage & Selection Operator (LASSO) Nous considérons toujours le cas de la régression, avec une base d’exemples (xi , yi )1≤i≤n . On se donne un ensemble de fonctions de base T φ(x) = φ1 (x) . . . φp (x) , (3.114) en considérant le cas où p ∝ n, voire même p n. On cherche un modèle de la forme fˆ(x; w) = wT φ(x). (3.115) 3.2. QUELQUES APPROCHES NON-PARAMÉTRIQUES 63 On pose : yn = y1 . . . yn (3.116) h et Φ = φ(x1 ) . . . φ(xn ) iT . (3.117) On cherche toujours à apprendre w tel que yn ≈ Φw. LASSO résout le problème d’optimisation suivant (λ étant un paramètre libre), soit la minimisation d’un risque empirique `2 pénalisée par une régularisation `1 : 1 wλ = argmin kyn − Φwk22 + λkwk1 m 2 w∈R = argmin w∈Rm n 1 X 2 2 yi − wT φ(xi ) +λ i=1 (3.118) p X j=1 |wj | . (3.119) De façon équivalente, on peut formuler le problème résolu par LASSO comme la minimisation d’un risque empirique `2 sous la contrainte de majoration de la norme `1 : wλ = argmin kyn − Φwk22 sous contrainte kwk1 ≤ t. (3.120) w∈Rm Ce problème peut être résolu à l’aide de la programmation mathématique (programmation quadratique), mais nous proposons ici une approche différente, résolvant l’intégralité du chemin de régularisation, basée sur l’algorithme LARS (Least Angle Regression). La régularisation `1 favorise la parcimonie des solutions, c’est-à-dire qu’un certain nombre des coefficients de wλ sont exactement à zéro. Cela a plusieurs avantages, réduire le problème de sur-apprentissage, choisir l’espace d’hypothèse, mais aussi fournir une interprétabilité des résultats (par exemple, pour la prédiction liée à un protocole médical). Résolution de LASSO En raison du terme de régularisation `1 , la fonction objectif d’intérêt n’est pas dérivable partout (non-dérivabilité de la fonction |.| en 0). Toutefois, il est possible de montrer (nous l’admettons, voir [9] pour une démonstration dans un cas plus général) que le chemin de régularisation, défini par 2 Ω = wλ = argmin ky − Φwk + λkwk1 , w λ ∈ R+ , (3.121) est linéaire par morceaux. Les deux cas extrêmes ont des solutions évidentes. Pour λ suffisamment grand, nous avons wλ = 0. Pour λ = 0, la solution est celle des moindres carrés classiques (en supposant l’existence de (ΦT Φ)−1 ). Pour les valeurs intermédiaires de λ, on peut construire des intervalles ]λi , λi+1 [ tels que ∀λ ∈]λi , λi+1 [, on ait wλ = wλi + (λ − λi )wi , (3.122) où wi est constant sur l’intervalle considéré. Nous allons construire ce chemin de régularisation en le caractérisant par ses ruptures. Il existe un λ0 tel que pour tout λ ≥ λ0 , on ait wλ = 0. On divise le chemin en les intervalles les plus larges possibles dans lesquels les solutions ont signe constant, c’est-à-dire qu’on cherche {λ0 , . . . , λp = 0} tels quel : 64 CHAPITRE 3. APPRENTISSAGE ALGORITHMIQUE – ∀i ∈ 0 . . . p, on a ( λi ≥ λi+1 ∀λ, λ0 ∈]λi+1 , λi [2 , sgn(wλ ) = sgn(wλ0 ) ; (3.123) – p est minimum. Le problème d’optimisation d’intérêt étant convexe par rapport à w et λ, ce chemin est continu : toutes les composantes sont continues par rapport à λ. Des intervalles contigus ]λi , λi−1 [ et ]λi+1 , λi [ diffèrent uniquement par une seule composante de w, qui est soit activée (passe de zéro à non-nul), soit désactivée (passe de non-nul à nul). Nous allons déterminer le chemin de régularisation via la séquence des (λi ) que nous allons déterminer par récursion. Commençons par initialiser la récursion. On note : h Φ = Φ1 . . . Φp i (3.124) T avec donc Φi = φi (x1 ) . . . φi (xn ) . (3.125) Sur ]λ1 , λ0 [, il n’y a qu’une base active φi , qui a un poids wi = 0 en λ = λ0 . Ce poids satisfait sur l’intervalle : 1 ∂kyn − Φwk2 ∂|wi | +λ =0 2 ∂wi ∂wi ⇔ −ΦTi (yn − wi Φi ) + λ sgn(wi ) = 0. (3.126) (3.127) En se plaçant plus particulièrement en λ = λ0 , cela donne : λ0 sgn(wi ) = ΦTi yn . (3.128) Ainsi, λ0 et i sont donnés par : ( λ0 = maxj |ΦTj yn | i = argmaxj |ΦTj yn | . (3.129) C’est donc la composante des entrées transformées la plus corrélée avec les observations. Intéressons nous maintenant à la récursion même. Supposons que λj et s = sgn(wλ ) sont connus sur ]λj+1 , λj [, ainsi que la solution en λj , c’est-à-dire wλj . On résout (3.118) sur l’intervalle, en notant ∆λ = λ − λj et ∆w = wλ − wλj . (3.130) Pour cela, on annule le gradient (ce qui est possible si l’on reste sur l’intervalle ouvert) : 1 kyn − Φwk2 + λkwk1 2 ⇔ 0 = −ΦT (yn − Φwλ ) + λs 0 = ∇w T ⇔ ∆λs + λj s = Φ (yn − Φ∆w − Φwλj ) or λj s = ΦT (yn − Φwλj ) (solution en λj ) T donc wλ = wλj − (λ − λj )(Φ Φ) −1 s. (3.131) (3.132) (3.133) (3.134) (3.135) 3.2. QUELQUES APPROCHES NON-PARAMÉTRIQUES 65 On retrouve la linéarité par morceaux. Notons qu’en pratique il ne faut considérer que les composantes non nulles de ωλ , l’équation (3.135) implique la résolution d’un système de taille le nombre de features actifs, pas du nombre total de fonctions de base. A partir de là, on peut calculer λj+1 facilement. En effet, c’est le premier point où soit un poids est mis à zéro, soit l’équation (3.118) admet un solution impliquant une fonction de base supplémentaires (c’est-à-dire activation ou désactivation). Notons w = (ΦT Φ)−1 s, (3.136) wλ = wλj − (λ − λj )w ⇔ ∆w = −∆λw. (3.137) nous avons : On a désactivation si une des composantes de wλ s’annule, soit si λ − λj = (wλj )i . (w)i (3.138) On a activation si le gradient respectivement à wi s’annule. Ici encore, le signe de wi sur ]λj+2 , λj+1 [ est considéré et se généralise à la borne λj+1 , où (w)i vaut toujours zéro. 1 kyn − Φwk2 + λkwk1 2 ⇔ ∆λ(s)i + λj (s)i = ΦT (yn − Φ∆w − Φwλj ) 0 = ∇wi (3.139) (3.140) ΦTi Φ∆λw T ⇔ ∆λ(s)i + λj (s)i = Φ (yn − Φwλj ) + Φi (yn − Φwλj ) − λj (s)i ⇔ ∆λ = . (s)i − ΦTi Φw (3.141) (3.142) L’objectif étant de trouver λj+1 ≤ λj , le nouveau point de rupture du chemin de régularisation est donné par λj+1 + ∆λ où ∆λ est la plus petite valeur négative des quantités suivantes : (w ) i t.q. φi actif : λj i (w)i ΦT (yn −Φwλj )−(s)i λj i t.q. φi inactif : i avec (s)i = ±1 (s) −ΦT Φw i . (3.143) i Il faut également prendre en compte deux restrictions supplémentaires : – si une fonction de base a été activée en λj , elle ne peut pas être désactivée en λj+1 ; – inversement, si une fonction de base a été désactivée en λj , elle ne peut pas être réactivée en λj+1 . Profil des solutions Nous avons ainsi vu comment résoudre pratiquement l’ensemble du chemin de régularisation, qui est continu par morceaux. Nous l’illustrons sur la figure 3.1. Il est à noter que les idées sous-jacentes à cet algorithme sont à la base d’un large pan de la littérature en machine learning (ou l’on parle de régularisation `1 ) et en traitement du signal (ou l’on parle de compressive sensing). 66 CHAPITRE 3. APPRENTISSAGE ALGORITHMIQUE Figure 3.1 – Exemple de chemin de régularisation. Figure 3.2 – Illustration du modèle de régression de RFWR. 3.2.3 Receptive Field Weighted Regression On se place toujours dans le cadre de la régression, avec un traitement séquentiel des exemples (xi , yi ). Le modèle de régression est une représentation linéaire par morceaux, la zone de validité de chaque morceau linéaire étant quantifiée par un champ récepteur (généralement un noyau à support local). Plus formellement, chaque champ récepteur est défini par un noyau gaussien (entre autres choix possibles), de centre ck et de métrique dk . On définit l’activation du champ récepteur par : 1 wk (x) = exp(− (x − ck )T Dk (x − ck )). (3.144) 2 On définit le régresseur linéaire par : ! fˆθk (x) = (x̃k )T θk avec x̃k = x − ck . 1 (3.145) Enfin, on définit le régresseur global comme étant la combinaison pondérée des régresseurs linéaires locaux : PK wk (x)fˆθk (x) ˆ fθ (x) = k=1 . (3.146) PK k k=1 w (x) Notons qu’avec un minimum de recouvrement entre les champs récepteurs locaux, les transition entre modèles linéaires locaux sont “adoucies”. Nous illustrons le modèle de régression figure 3.2 et le modèle d’inférence figure 3.3. Avec ce modèle général, plusieurs problèmes se posent : 3.2. QUELQUES APPROCHES NON-PARAMÉTRIQUES 67 Figure 3.3 – Modèle d’inférence de RFWR (illustration tirée de [10]). – combien de champs récepteurs (K) ? – quels champs récepteurs (ck et Dk ) ? – quels modèles linéaires locaux (θk ) ? Nous répondons brièvement et informellement à ces questions, le lecteur intéressé par un traitement plus complet peut se référer à [10]. Au départ, il n’y a aucun champ récepteur. Une heuristique sert à ajouter des champs récepteurs : si pour un nouvel exemple (xi , yi ), l’entrée n’est pas activée plus d’un certain seuil (méta-paramètre défini par l’utilisateur) par l’un des champs récepteurs déjà existant, alors un nouveau champ récepteur, de centre xi et de métrique initiale par défaut (autre méta-paramètre), est ajouté. L’apprentissage du modèle linéaire local se fait, pour chaque champ récepteur, en minimisant par la méthode des moindres carrés récursifs un coût empirique quadratique, pondéré et avec facteur d’oubli. Les termes de pondération permettent d’ignorer les exemples qui se trouvent hors de la zone d’influence du champ récepteur, le facteur d’oubli permet de prendre en compte les non-stationnarités (liées à ce que l’on apprend, mais surtout à la façon dont l’on apprend, notamment une composante de l’apprentissage modifie la structure des champs récepteurs, donc les pondérations des termes quadratiques de la fonction de coût). Enfin, la métrique de chaque champ récepteur est apprise en minimisant un coût quadratique classique (les dépendances n’étant pas linéaires) grâce à une descente de gradient stochastique. Pour éviter un problème de sur-apprentissage, une méthode dite de leave-oneout cross-validation est utilisée : chaque terme de la fonction de coût quadratique considérée utilise le modèle linéaire local appris sur tous les échantillons, sauf le couple (xj , yj ) correspondant au modèle local. L’apprentissage des champs récepteurs est la composante la plus complexe de cet algorithme. 68 CHAPITRE 3. APPRENTISSAGE ALGORITHMIQUE Bibliographie [1] Olivier Bousquet, Stéphane Boucheron, and Gábor Lugosi. Introduction to Statistical Learning Theory. In Advanced Lectures on Machine Learning, pages 169–207. 2004. [2] Scott S. Chen, David L. Donoho, and Michael A. Saunders. Atomic Decomposition by Basis Pursuit. SIAM Journal on Scientific Computing, 20 :33–61, 1999. [3] Felipe Cucker and Steve Smale. On the mathematical foundations of learning. Bulletin of the american mathematical society, 39(1) :1–49, 2001. [4] Bradley Efron, Trevor Hastie, Iain Johnstone, and Robert Tibshirani. Least Angle Regression. Annals of Statistics, 32(2) :407–499, 2004. [5] Yaakov Engel, Shie Mannor, and Ron Meir. The Kernel Recursive Least Squares Algorithm. IEEE Transactions on Signal Processing, 52 :2275–2285, 2004. [6] Theodoros Evgeniou, Massimiliano Pontil, and Tomaso Poggio. Regularization Networks and Support Vector Machines. Advances in Computational Mathematics, 13(1) :1–50, April 2000. [7] Trevor Hastie, Robert Tibshirani, and Jerome Friedman. The Elements of Statistical Learning. Springer Series in Statistics. Springer New York Inc., New York, NY, USA, 2001. [8] Alessandro Lazaric, Mohammad Ghavamzadeh, and Rémi Munos. Finite-Sample Analysis of LSTD. In Johannes Fürnkranz and Thorsten Joachims, editors, International Conference on Machine Learning, pages 615–622. Omnipress, 2010. [9] Saharon Rosset and Ji Zhu. Piecewise linear regularized solution paths. The Annals of Statistics, 35(3) :1012–1030, 2007. [10] Stefan Schaal and Christopher G. Atkeson. Constructive Incremental Learning from Only Local Information. Neural Computation, 10(8) :2047–2084, 1998. [11] Robert Tibshirani. Regression Shrinkage and Selection via the Lasso. Journal of the Royal Statistical Society. Series B (Methodological), 58(1) :267–288, 1996. [12] Vladimir N. Vapnik. The nature of statistical learning theory. Springer-Verlag New York, Inc., New York, NY, USA, 1995. [13] Vladimir N. Vapnik. Statistical Learning Theory. Wiley-Interscience, September 1998. [14] Vladimir N. Vapnik. An overview of statistical learning theory. Neural Networks, IEEE Transactions on, 10(5) :988–999, 1999. 69