Précis introductif à l`apprentissage statistique

publicité
Précis introductif à l’apprentissage statistique
Matthieu Geist
Supélec - groupe de recherche IMS-MaLIS
2013 - 2014
ii
Précisions bibliographiques
La théorie de l’apprentissage statistique selon Vapnik est résumée dans l’article [14] et
développée dans les livres [12] (sans démonstrations) et [13] (avec démonstrations). Une
bonne introduction à ce domaine est donnée par [1] : l’étude y est restreinte aux classifieurs
binaires, mais d’autres mesures de capacité que la dimension de Vapnik-Chervonenkis y sont
abordées. La section du cours où la richesse de l’espace d’hypothèse est mesurée à l’aide des
nombres de couverture est très largement inspirée de l’article de Cucker et Smale [3]. Le
lien entre régularisation et machines à vecteur support se trouve par exemple dans [6] (on
y trouvera également des pointeurs vers des discussions sur le fait que les SVM ne peuvent
pas vraiment être justifiées en terme de minimisation structurelle du risque, ainsi que sur
la dimension VC réelle de l’espace d’hypothèses considéré pour cette approche).
L’algorithme KRLS (Kernel Recursive Least-Squares) a été publié dans [5]. La régularisation `1 a été introduite parallèlement dans les communautés statistique [11] et de
traitement du signal [2]. La présentation qui en en faite en cours est plus proche de l’algorithme LARS (Least Angle Regression) [4]. Enfin, l’algorithme RFWR (Receptive Field
Weighted Regression) a été introduit dans [10]. Le lecteur intéressé par d’autres algorithmes
peut se référer à [7], excellent ouvrage sur l’apprentissage machine.
iii
iv
Table des matières
1 Introduction
1.1 Une introduction informelle à l’apprentissage . . . . . . . . . . .
1.1.1 Qu’est-ce que l’apprentissage statistique ? . . . . . . . . .
1.1.2 Un simple algorithme de régression . . . . . . . . . . . . .
1.1.3 Un simple algorithme de classification . . . . . . . . . . .
1.2 Une introduction plus formelle . . . . . . . . . . . . . . . . . . .
1.2.1 Formalisation du problème . . . . . . . . . . . . . . . . .
1.2.2 Fonction de régression et classifieur de Bayes . . . . . . .
1.2.3 Risque empirique, les grandes questions de l’apprentissage
2 Apprentissage statistique
2.1 Rappels et inégalités de concentration . . . . . . . . .
2.1.1 Loi des grands nombres . . . . . . . . . . . . .
2.1.2 Inégalités de concentration . . . . . . . . . . .
2.1.3 Retour à la minimisation du risque empirique .
2.2 CNS du principe de l’ERM . . . . . . . . . . . . . . .
2.2.1 Notion classique de pertinence et sa limite . . .
2.2.2 Pertinence stricte (non-triviale) . . . . . . . . .
2.2.3 Convergence uniforme à un et deux côtés . . .
2.2.4 Le théorème clé de la théorie de l’apprentissage
2.3 L’approche de Vapnik . . . . . . . . . . . . . . . . . .
2.3.1 Restriction du cadre de travail . . . . . . . . .
2.3.2 Retour sur le cas simple . . . . . . . . . . . . .
2.3.3 Le cas infini dénombrable . . . . . . . . . . . .
2.3.4 CNS de CV uniforme . . . . . . . . . . . . . .
2.3.5 Un détour par le cas continu . . . . . . . . . .
2.3.6 Les trois jalons de l’apprentissage . . . . . . . .
2.3.7 La dimension VC (Vapnik-Chervonenkis) . . .
2.3.8 Une borne sur le risque . . . . . . . . . . . . .
2.3.9 Minimisation structurelle du risque . . . . . . .
2.4 L’approche de Cucker et Smale . . . . . . . . . . . . .
2.4.1 Cadre de travail . . . . . . . . . . . . . . . . .
2.4.2 Notations et rappels . . . . . . . . . . . . . . .
2.4.3 Nombre de couverture . . . . . . . . . . . . . .
2.4.4 Quelques bornes de couverture . . . . . . . . .
v
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
1
2
4
4
4
7
9
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
13
13
13
14
16
18
18
20
21
22
26
26
27
28
29
31
33
35
37
40
42
42
42
43
45
vi
3 Apprentissage algorithmique
3.1 ERM et régularisation . . . . . . . . . . . . . .
3.1.1 Minimisation du risque empirique . . . .
3.1.2 Choix de l’espace d’hypothèses . . . . .
3.1.3 Vers les approches non-paramétriques .
3.2 Quelques approches non-paramétriques . . . . .
3.2.1 Kernel Recursive Least-Squares (KRLS)
3.2.2 LASSO . . . . . . . . . . . . . . . . . .
3.2.3 RFWR . . . . . . . . . . . . . . . . . .
TABLE DES MATIÈRES
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
49
49
49
52
53
54
54
62
66
Table des figures
1.1
1.2
1.3
Exemples de fonctions de perte. . . . . . . . . . . . . . . . . . . . . . . . . .
Illustration du sur-apprentissage. . . . . . . . . . . . . . . . . . . . . . . . .
Illustration de la pertinence du principe de l’ERM. . . . . . . . . . . . . . .
7
11
12
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
Problème causé par la dépendance de fN aux données. . .
Non-équivalence des limites (pertinence, contre-exemple).
Trivialité de la pertinence classique. . . . . . . . . . . . .
Exemple de fonction de classification. . . . . . . . . . . . .
Illustration de l’idée de projection de H sur z1 . . . zN . . . .
Qz1 ...zN est le sous-ensemble des sommets d’un cube. . . .
-net. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Croissance de la fonction GH (N ). . . . . . . . . . . . . . .
Un seul paramètre et dimension VC infinie. . . . . . . . .
.
.
.
.
.
.
.
.
.
17
20
20
26
29
30
32
36
37
3.1
3.2
3.3
Exemple de chemin de régularisation. . . . . . . . . . . . . . . . . . . . . . .
Illustration du modèle de régression de RFWR. . . . . . . . . . . . . . . . .
Modèle d’inférence de RFWR. . . . . . . . . . . . . . . . . . . . . . . . . . .
66
66
67
vii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
viii
TABLE DES FIGURES
Chapitre 1
Introduction
Ce chapitre introduit la notion d’apprentissage statistique, de façon informelle dans
un premier temps (via le rappel d’algorithmes d’apprentissage supervisé classiques et des
questions qu’ils posent), de façon plus formelle dans un second temps (via la formalisation
du modèle d’estimation de fonction et la définition des notions de risques).
1.1
1.1.1
Une introduction informelle à l’apprentissage
Qu’est-ce que l’apprentissage statistique ?
L’apprentissage statistique peut être vu comme une formalisation ou une théorisation
du domaine du Machine Learning (traduit en français par apprentissage numérique, apprentissage automatique ou encore apprentissage artificiel, selon les auteurs). La terme
de machine learning admet plusieurs définitions, mais toutes sous-tendent l’idée d’inférer
quelque chose à partir d’exemples (numériques), d’améliorer la qualité de cette inférence
avec le nombre d’exemples, ainsi que la capacité à généraliser à de nouvelles situations 1 .
On distingue usuellement trois types d’apprentissage :
apprentissage supervisé : les exemples fournis sont sous la forme de couples entréesortie (xi , yi ), avec xi l’entrée et yi la sortie. L’objectif est d’inférer la sortie y pour
une nouvelle entrée x. Si yi ∈ {−1, 1} (voire plus généralement yi ∈ N) on parlera de
classification, si yi ∈ R on parlera de régression. C’est le type d’apprentissage auquel
on s’intéressera principalement dans ce manuscrit ;
apprentissage non-supervisé : les exemples fournis ne sont que des entrées xi . L’objectif
est alors de résumer l’espace des xi possibles (ce qui regroupe notamment l’estimation de densité, la quantification vectorielle, ou encore comment diviser un groupe
hétérogène de données en sous-groupes homogènes) ;
apprentissage par renforcement : les exemples fournis sont sous la forme de transitions
(si , ai , ri , si+1 ) où s dénote l’état d’un système dynamique, a une action que l’on
peut lui appliquer et r une récompense. L’objectif est celui du contrôle optimal,
plus particulièrement dans ce paradigme d’inférer quelle action appliquer pour une
configuration donnée du système dynamique à contrôler, ce de façon à maximiser un
gain futur dont la récompense est une information locale.
1. Cette capacité à généraliser à de nouvelles situations suggère que l’apprentissage par coeur est une
mauvaise chose. Nous le vérifierons mathématiquement plus tard.
1
2
CHAPITRE 1. INTRODUCTION
L’apprentissage statistique tel que traité dans ce cours est une formalisation ou théorisation de l’apprentissage supervisé, qui sera donc notre centre d’intérêt dans ce document.
Toutefois, notons qu’il peut s’avérer être une “boîte à outils” utile pour les autres types
d’apprentissage. Par exemple, en apprentissage non-supervisé l’analyse du problème d’estimation de densité peut être traitée avec les outils que nous introduisons dans la suite [12].
Même en apprentissage par renforcement il existe quelques travaux récents [8] (une difficulté
majeure étant que l’hypothèse que les exemples observés sont indépendants, fondamentale
par la suite, ne tient évidemment pas dans le cadre du contrôle).
L’apprentissage (supervisé donc) induit deux aspects complémentaires :
apprentissage algorithmique : il s’agit de proposer des algorithmes qui infèrent une
sortie y pour une entrée x donnée, après avoir été entraînés sur une base d’exemples
{(xi , yi )1≤i≤N } ;
apprentissage statistique : il s’agit d’étudier de façon théorique les garanties offertes,
ce de la façon la plus générale possible.
Rappelons également que l’apprentissage supervisé se subdivise souvent en classification
et régression, suivant la nature des sorties. Formellement, la classification peut être vue
comme un cas particulier de la régression (car N ⊂ R). Cependant, on peut tirer parti de
cette spécificité pour une analyse plus simple ansi que pour des propositions algorithmiques
plus ad hoc. Nous conserverons donc cette distinction.
De façon générale, il est intéressant de recourir à l’apprentissage car il n’est pas toujours possible de coder “en dur” toutes les situations possibles. Cela permet également de
s’affranchir de (ou de réduire) la compréhension de la physique sous-jacente. Par exemple,
l’automatique (au sens classique) et l’apprentissage par renforcement traitent le même problème, à savoir le contrôle optimal d’un système dynamique. Cependant, le paradigme plus
général de l’apprentissage par renforcement permet de considérer des problèmes plus variés,
comme l’apprentissage de stratégie optimale dans des jeux par exemple. Notons que dans
le cadre de l’automatique, on peut avoir recours à l’identification de modèle ou de système
à partir de données, ce qui est par définition du machine learning. Une approche par apprentissage permet aussi d’obtenir des comportements adaptatifs (on peut citer google, les
filtres anti-spam, la reconnaissance de parole, detexify 2 , etc). Parmi les exemples d’application du machine learning, on peut citer la reconnaissance de visage, la reconnaissance de
caractères manuscrits, l’apprentissage d’un mapping entre activité cérébrale et sémantique
(de la lecture de pensées !), des stratégies optimales pour des jeux (comme le backgammon par exemple), la cartographie wifi d’un bâtiment, de façon générale l’identification de
systèmes, etc.
1.1.2
Un simple algorithme de régression : les moindres carrés
Plaçons nous dans un cadre applicatif. Soient :
– yi un indicateur de progression du diabète (par exemple obtenu grâce à un examen
médical coûteux) ;
T
– xi = x1,i . . . xp,i
un ensemble de p indicateurs physiologiques, plus faciles et
moins coûteux à mesurer.
2. http://detexify.kirelabs.org/classify.html
1.1. UNE INTRODUCTION INFORMELLE À L’APPRENTISSAGE
3
Supposons qu’un modèle linéaire lie les entrées aux sorties :
yi =
p
X
wj xj,i = wT xi ,
w = w1 . . . w p
T
∈ Rp .
(1.1)
j=1
La question qui se pose alors est la suivante : comment calculer, à partir d’un ensemble
de N mesures {(xi , yi )1≤i≤N }, le vecteur de paramètres w “qui convienne” ? Les moindres
carrés sont une réponse (parmi d’autres) à cette question.
Une première chose est de quantifier la solution que l’on cherche, dans ce cas la minimisation de l’erreur quadratique sur le base des exemples :
wN = argmin JN (w) avec JN (w) =
w∈Rp
N
X
(yi − wT xi )2 .
(1.2)
i=1
Les moindres carrés cherchent donc à minimiser la somme des carrés des erreurs entre les
observations yi et les prédictions associées wT xi . Ce critère peut avoir une interprétation
physique (minimisation de l’énergie de l’erreur), mais d’autres critères tout aussi légitimes
pourraient être envisagés, comme la minimisation de la somme des valeurs absolues de ces
mêmes erreurs.
La solution recherchée étant quantifiée, il reste à la calculer. Le résultat est donné par
la proposition suivante.
T
Proposition 1 (Solution des moindres carrés). Supposons que la matrice N
i=1 xi xi est
de rang p. La solution des moindres carrés, définie par l’équation (1.2), est donnée par :
P
wN =
N
X
xi xiT
!−1 N
X
i=1
xi yi .
(1.3)
i=1
Démonstration. La fonction JN (w) est convexe, ce qui implique l’unicité du minimum.
Nous le calculons en annulant le gradient.
∇w JN (w) = 0 ⇔ ∇w
⇔ −2
N
X
i=1
N
X
(yi − wT xi )2 = 0
(1.4)
xi (yi − xiT ω) = 0
(1.5)
i=1
⇔ wN =
N
X
i=1
xi xiT
!−1 N
X
xi yi .
(1.6)
i=1
On calcule donc wN simplement, mais plusieurs questions naturelles se posent :
– l’hypothèse d’un modèle linéaire est-elle légitime ? Que se passe-t-il si cette dernière
n’est pas satisfaite ?
– quelle est la qualité de l’apprentissage ? En fonction de N , le nombre d’exemples ?
– dans quelle mesure avoir une erreur faible sur la base d’entraînement peut-il nous
garantir une bonne inférence ? Autrement dit, pour JN (wN ) petit (voire pour le cas
limite JN (wN ) = 0), aura-t-on une bonne prédiction y pour un nouveau x ?
L’apprentissage statistique tente de répondre formellement et généralement à ce type de
questions.
4
CHAPITRE 1. INTRODUCTION
1.1.3
Un simple algorithme de classification : les k plus proches voisins
Plaçons nous à nouveau dans un contexte applicatif. Soient :
– xi ∈ MR (32) un ensemble de matrices binaires de taille 32 × 32, chacune représentant
un chiffre manuscrit compris entre 0 et 9 ;
– yi ∈ {0 . . . 9} la valeur du chiffre représenté par xi .
Nous souhaitons ici entraîner un classifieur qui pour une nouvelle image x infère le chiffre
représenté, autrement dit le label y associé.
Une solution possible est donnée par l’algorithme des k plus proches voisins : pour une
nouvelle image x donnée, on regarde les k images les plus proches dans la base d’entraînement, puis on associe le label majoritaire parmi ces k images. Plus formellement, choisissons
k le nombre de voisins à considérer et d une métrique (distance entre images), nous avons
à disposition la base d’exemple {(xi , yi )1≤i≤N }. Soient une nouvelle image x à labéliser :
1. on ordonne la base d’exemple, c’est-à-dire qu’on calcule i1 , i2 , . . . , iN tels que :
d(x, xi1 ) ≤ d(x, xi2 ) ≤ · · · ≤ d(x, xiN );
(1.7)
2. on calcule le nombre de voisins présentant le j ème label, c’est-à-dire que pour j ∈
{0 . . . 9}, on calcule nj défini par :
nj = Card ({i ∈ {i1 . . . ik }|yi = j}) ;
(1.8)
3. on associe le label majoritaire :
y = argmax nj .
(1.9)
j∈{0...9}
Ce simple algorithme soulève quelques questions naturelles :
– comment choisir le nombre de voisins k et la métrique d ?
– l’approche est-elle légitime (notons qu’elle ne se base pas sur une fonction de coût
comme les moindres carrés, même si cela peut se montrer a posteriori) ? A-t-on des
garanties de “bonne” inférence ? Quelle est l’influence du nombre d’exemples N ?
Nous retrouvons globalement les mêmes questions que pour les moindres carrés, traitées par
le domaine de l’apprentissage statistique que nous introduisons à présent plus formellement.
1.2
1.2.1
Une introduction plus formelle
Formalisation du problème
Nous avons défini informellement l’apprentissage supervisé comme étant le problème
d’inférer une sortie pour une entrée donnée, connaissant une base d’exemples formée de
couples entrée-sortie différents. Nous allons à présent définir cette problématique plus formellement.
Le modèle d’estimation de fonction
Pour définir plus formellement l’apprentissage à partir d’exemples, nous nous donnons :
– un générateur aléatoire de vecteurs x ∈ X, échantillonnés indépendamment à
partir d’une distribution fixe mais inconnue P (x) ;
1.2. UNE INTRODUCTION PLUS FORMELLE
5
– un superviseur, ou oracle, qui pour chaque entrée x retourne une sortie y ∈ Y ,
échantillonnée selon la distribution conditionnelle P (y|x), également fixe mais inconnue ;
– une machine capable d’implémenter un ensemble de fonctions, c’est-à-dire que nous
définissons un espace d’hypothèses H = {f : X → Y } ⊂ Y X .
Le problème de l’apprentissage supervisé peut alors être défini comme choisir f ∈ H qui
prédise “au mieux” (selon un certain critère, voir la suite) les réponses de l’oracle. La sélection de f se fait à partir d’une base d’entraînement {(x1 , y1 ) . . . (xN , yN )} composée de N
exemples i.i.d. (indépendants, identiquement distribués) échantillonnés selon la distribution
jointe P (x, y) = P (y|x)P (x).
Quelques exemples d’espaces d’hypothèse
Avant d’aller plus avant, donnons quelques exemples d’espaces d’hypothèses :
prédictions linéaires : c’est l’espace d’hypothèses considéré pour l’exemple des moindres
carrés section 1.1.2. Supposons que Y = R et X = Rn , l’espace d’hypothèses associé
est défini par :
n
o
H = fw : X → Y, fw (x) = wT x + b, w ∈ Rn , b ∈ R ;
(1.10)
Dans ce cas, on peut identifier H à Rn+1 ;
polynômes de degré 2 : Supposons que Y = R et X = Rn , en notant x = x1 . . . xn
l’espace d’hypothèse est défini par :
n
o
H = fw : x → w1 x21 + w2 x1 x2 + w3 x1 x3 + . . . ;
T
(1.11)
Réseaux à bases radiales (ou RBFN pour Radial Basis Function Networks) : l’idée
sous-jacente de ce type d’espace est que l’on peut représenter une grande variété
de fonctions sous la forme d’un mélange de gaussiennes. On choisit a priori p vecteurs µi ∈ Rn (les centres des gaussiennes) et p matrices symétriques définies positives
Σi (les matrices de variance-covariance associées). L’espace d’hypothèses associé est
alors défini par :
(
H=
p
X
)
1
fw : x →
wi exp − (x − µi )T Σ−1
i (x − µi ) + b .
2
i=1
(1.12)
Dans ce cas, on peut identifier identifier H à Rp ;
Perceptrons multi-couche : considérons un perceptron multi-couche dont l’architecture
est fixée (a priori). Les paramètres à apprendre sont les poids des connexions synaptiques, ce qui définit (informellement) l’espace d’hypothèses suivant :
H = {fw : x → MLP(x; w)} .
(1.13)
Notons que c’est le premier exemple d’espace d’hypothèse où il y a une dépendance
non-linéaire aux paramètres (dès qu’il y a au moins une couche cachée).
,
6
CHAPITRE 1. INTRODUCTION
RKHS (Reproducing Kernel Hilbert Space) : soit {(xi , yi )1≤i≤N } la base d’entraînement
et K un noyau de Mercer 3 , l’espace d’hypothèses correspondant est :
(
H=
fw : x →
N
X
)
wi K(x, xi ) .
(1.14)
i=1
Ces quelques exemples parmi d’autres sont les plus usuels.
Problème de la minimisation du risque
Jusqu’à présent, nous avons modélisé le problème de l’apprentissage à partir d’exemples,
mais sans spécifier formellement ce que signifie prédire “au mieux” les réponses de l’oracle.
Pour cela, nous introduisons la fonction de perte (loss function) L(y, f (x)) qui mesure
l’erreur entre la réponse y de l’oracle pour une entrée x et la prédiction f (x) de la machine
pour cette même entrée.
Nous définissons le risque réel (ou risque théorique) par :
Z
L(y, f (x))dP (x, y).
R(f ) =
(1.15)
X×Y
Autrement dit, nous intégrons la fonction de perte sur l’espace des possibles, en tenant
compte de la fréquence d’occurence des exemples.
L’objectif de l’apprentissage supervisé pourrait donc être de trouver la fonction f0 de
H qui minimise ce risque :
f0 = argmin R(f ).
(1.16)
f ∈H
Cependant, la distribution P (x, y) est inconnue ; la seule information disponible est contenue dans la base d’exemples.
Quelques exemples de fonctions de perte
Avant de poursuivre, nous donnons quelques exemples de fonctions de perte, certaines
étant illustrées figure 1.1 :
– la perte `2 , utilisée en régression, est le carré de la différence entre l’observation et
la prédiction :
L(y, f (x)) = (y − f (x))2 .
(1.17)
C’est celle qui est utilisée dans les moindres carrés ;
– la perte `1 , utilisée en régression, est la valeur absolue de la différence entre l’observation et la prédiction :
L(y, f (x)) = |y − f (x)|.
(1.18)
Contrairement à la perte `2 , même en supposant un espace d’hypothèses linéaire en
les paramètres, elle ne permet pas de résolution analytique ;
3. Nous reviendrons plus formellement sur cette notion à la fin du cours, mais un noyau de Mercer est une
fonction bilinéaire, symétrique et définie positive, qui peut être vue comme la généralisation fonctionnelle des
matrices symétriques définies positives. Quelques exemples sont le produit scalaire euclidien, K(u, v) = uT v,
le noyau polynomial, K(u, v) = (uT v + c)n , avec c ∈ R et n ∈ N ou encore le noyau gaussien, K(u, v) =
exp(− 21 (u − v)T Σ−1 (u − v)), avec Σ matrice symétrique définie positive de dimension ad hoc.
1.2. UNE INTRODUCTION PLUS FORMELLE
7
Figure 1.1 – Quelques exemples de fonctions de perte (`2 à gauche, `1 au milieu et sensible à droite).
– la perte -sensible ( > 0), également utilisée en régression, est similaire :
(
L(y, f (x)) = |y − f (x)| où |y| =
0 si |y| < |y| − sinon
.
(1.19)
– la perte binaire, utilisée en classification, est le complémentaire de la fonction de
Kronecker :
(
1 si f (x) 6= y
L(y, f (x)) =
.
(1.20)
0 sinon
– la perte SVM (sous-jacente aux machines à vecteur support, comme son nom l’indique), également utilisée en classification (avec y ∈ {−1; 1}), est définie comme suit :
(
L(y, f (x)) = |1 − yf (x)|+ où x+ =
x si x > 0
0 sinon
.
(1.21)
Ainsi, le problème posé par l’apprentissage statistique est celui de la minimisation du
risque sous les contraintes suivantes :
– f ∈ H (restriction à l’espace d’hypothèse) ;
– P (x, y) est inconnue, l’unique information disponible se trouve dans les exemples.
Avant de prendre en compte ces contraintes, nous allons tout de même nous intéresser à
la minimisation exacte du risque dans deux cas importants, l’un de régression et l’autre de
classification.
1.2.2
Fonction de régression et classifieur de Bayes
Dans cette section, nous déterminons les solutions exactes du problème de minimisation
du risque réel, sans contrainte, pour les pertes `2 et binaire.
Fonction de régression
La fonction de régression (à ne pas confondre avec la régression) est la solution du
problème de minimisation du risque théorique sous perte `2 (sans contrainte sur l’espace
d’hypothèses, connaissant la distribution jointe P (x, y)). Elle est donnée par la proposition
suivante.
Proposition 2 (Fonction de régression). La fonction de régression, définie par
Z
r = argmin
f
(y − f (x))2 dP (x, y),
(1.22)
8
CHAPITRE 1. INTRODUCTION
est en fait l’espérance conditionnelle :
Z
r(x) = E[y|x] =
ydP (y|x).
(1.23)
Démonstration. Posons ∆f (x) = f (x) − r(x). Nous avons :
Z
R(f ) =
Z
=
Z
=
(y − f (x))2 dP (x, y)
(1.24)
(y − ∆f (x) − r(x))2 dP (x, y)
(y − r(x))2 dP (x, y) +
Z
(1.25)
(∆f (x))2 dP (x, y) − 2
Z
∆f (x)(y − r(x))dP (x, y).
(1.26)
Le terme
R
Z
∆f (x)(y − r(x))dP (x, y) est nul :
∆f (x)(y − r(x))dP (x, y) =
Z
Z
∆f (x){ (y − r(x))dP (y|x)}dP (x).
|
{z
(1.27)
}
=0
Le terme (y − r(x))2 dP (x, y) ne dépend pas de f . Ainsi, nous avons :
R
Z
argmin R(f ) = argmin
f
(∆f (x))2 dP (x, y) = r.
(1.28)
f
Connaissant l’oracle, en considérant une perte `2 et sans contrainte sur l’espace d’hypothèses, la meilleure prédiction possible est donc l’espérance conditionnelle (la variabilité
intrinsèque de l’oracle pouvant s’interpréter comme du bruit).
Classifieur de Bayes
La classifieur de Bayes est la solution du problème de minimisation du risque théorique
sous perte binaire (sans contrainte sur l’espace d’hypothèses, connaissant la distribution
jointe P (x, y)). Notons que cela suppose des observations binaires, c’est-à-dire Y = {0, 1}.
Il est donné par la proposition suivante.
Proposition 3 (Classifieur de Bayes). Soit L0/1 la perte binaire définie equation (1.20).
Le classifieur de Bayes, défini par
Z
b = argmin
L0/1 (y, f (x))dP (x, y),
(1.29)
f
est en fait la partie entière de l’espérance conditionnelle :
(
b(x) = [r(x)] =
1 si E[y|x] > 0, 5
0 sinon
.
(1.30)
1.2. UNE INTRODUCTION PLUS FORMELLE
9
Démonstration. Notons χ le symbole de Kronecker. Nous avons :
Z
R(f ) =
Z
=
L0/1 (y, f (x))dP (x, y)
(1.31)
{L0/1 (y, f (x))dP (y|x)}dP (x)
(1.32)
R(f |x)dP (x)
(1.33)
Z
=
avec R(f |x) = χf (x)6=0 P (0|x) + χf (x)6=1 P (1|x).
(1.34)
Pour minimiser R(f ), il est suffisant de minimiser R(f |x), ∀x. Si f (x) = 0, nous avons
R(f |x) = P (1|x). Si f (x) = 1, nous avons R(f |x) = P (0|x). Ainsi :
(
argmin R(f |x) =
f
f : x → 1 si P (1|x) > P (0|x)
f : x → 0 sinon
.
(1.35)
Or, travaillant dans le cas binaire, nous avons que P (1|x) = 0 × P (0|x) + 1 × P (1|x) = r(x)
et P (0|x) = 1 − r(x), donc :
∀x, argmin R(f |x) = [r(x)].
(1.36)
f
On en conclut aisément que argminf R(f ) = b.
Notons que l’algorithme des k plus proches voisins présenté précédemment est en fait
une approximation du classifieur de Bayes.
Conclusion
Dans les deux cas étudiés, on trouve l’optimal assez facilement, mais :
– d’une part on n’est pas assuré que r ∈ H, cela dépend de l’espace d’hypothèse ;
– on ne connaît bien sûr par l’oracle P (y|x).
Il faut donc se reposer sur les données (ce qui est prévisible, pour de l’apprentissage à
partir d’exemples).
1.2.3
Risque empirique et les grandes questions de l’apprentissage statistique
Rappelons l’expression du risque réel, pour une fonction de perte L quelconque :
Z
R(f ) =
L(y, f (x))dP (x, y).
(1.37)
Posons les notations suivantes :
z = (x, y) et Q(z, f ) = L(y, f (x)).
(1.38)
Nous pouvons réécrire le risque réel, en notant toujours f0 son minimiseur :
Z
R(f ) =
Q(z, f )dP (z),
f0 = argmin R(f ).
f ∈H
(1.39)
10
CHAPITRE 1. INTRODUCTION
Nous avons vu que le risque réel ne peut être calculé, même en levant les restrictions sur l’espace d’hypothèses, l’oracle n’étant évidemment pas connu. Il est alors naturel d’introduire
un risque empirique RN (f ), construit sur la base d’exemples {z1 . . . zN } échantillonnés de
façon i.i.d. selon P (z) :
N
1 X
RN (f ) =
Q(zi , f ),
N i=1
fN = argmin RN (f ).
(1.40)
f ∈H
Lorsque le nombre d’exemples tend vers l’infini, il est légitime d’espérer une convergence
du risque empirique vers le risque réel ; nous verrons par la suite sous quelles conditions
cela se vérifie. Le lecteur attentif aura noté que l’algorithme des moindres carrés calcule
fN dans le cas d’une perte `2 , pour l’espace d’hypothèses des prédictions linéaires. Notons
également R∗ le risque optimal (sans contraindre f à H) :
f ∗ = argmin R(f ) et R∗ = R(f ∗ ).
(1.41)
f
Rappelons que f ∗ est respectivement la fonction de régression et le classifieur de Bayes
pour les pertes `2 et binaire.
En pratique, ce qu’on peut calculer c’est fN et RN (fN ), la question qui se pose naturellement est de savoir si ce sont de bonnes approximations de f0 et R(f0 ), voire de f ∗ et
R(f ∗ ).
Biais et variance
Considérons la décomposition suivante :
R(fN ) − R∗
|
{z
}
risque de fN - risque optimal
=
R(f0 ) − R∗
|
{z
}
erreur d’approximation
+ R(fN ) − R(f0 )
|
{z
(1.42)
}
erreur d’estimation
Notons que les trois termes R(fN ) − R∗ , R(f0 ) − R∗ et R(fN ) − R(f0 ) sont par définition
tous positifs ou nuls. Nous avons décomposé la différence entre le risque réel de la fonction
minimisant le risque empirique et le risque optimal en la somme de deux termes :
– l’erreur d’approximation (également appelée biais inductif ) est un terme d’erreur qui mesure à quel point l’espace d’hypothèse choisi H permet d’approcher la
cible f ∗ , qui est le mieux que l’on puisse espérer. Ce terme dépend de H, mais pas
des données ;
– l’erreur d’estimation (également appelée variance) est une quantité aléatoire (à
travers sa dépendance aux données) qui mesure combien fN est proche de f0 , l’optimal
sur H.
Estimer l’erreur d’approximation est généralement difficile, dans la mesure où l’on n’a
aucune information sur la cible f ∗ . Ainsi, en apprentissage statistique et dans la suite de
ce cours, nous nous concentrons sur l’erreur d’estimation. Notons également que seule la
quantité fN peut être calculée en pratique, son risque théorique R(fN ) ne peut l’être, la
distribution jointe P (x, y) étant inconnue.
Autre décomposition utile
Considérons une autre décomposition, liant risque réel et risque empirique de fN :
R(fN ) = RN (fN ) + (R(fN ) − RN (fN ))
(1.43)
1.2. UNE INTRODUCTION PLUS FORMELLE
11
Figure 1.2 – Exemple de sur-apprentissage. Le modèle génératif des observations est un
polynôme de degré 2 bruité (figure de gauche), et l’espace d’hypothèse est trop riche (respectivement aux 4 exemples disponibles). Le modèle appris est représenté sur la figure de
droite. Le risque empirique est nul (il est possible de faire passer un polynôme de degré
4 par ces 4 points), mais le risque réel est grand (hormis ces 4 points, l’inférence est très
mauvaise).
Si on peut approcher ou borner le second terme, R(fN ) − RN (fN ), l’inégalité résultante
permettrait d’estimer le risque réel de fN à partir de la connaissance de son risque empirique.
Remarque (Sur-apprentissage). On peut très bien avoir un risque empirique nul (RN (fN ) =
0) et un risque réel R(fN ) grand. Pour cela, considérons l’exemple simple illustré figure 1.2.
Soit un modèle génératif des observations basé sur un polynôme de degré 2 bruité, c’est à
dire y = x2 + n où n est un bruit gaussien (centrée, de faible variance). Supposons disposer
de 4 observations (représentées par les croix sur la figure) et choisissons comme espace d’hypothèse H l’ensemble des polynômes de degré 4. Comme on peut toujours faire passer un tel
polynôme par ces 4 points, le risque empirique est nul : R4 (f4 ) = 0. Cependant, le risque
réel (qui quantifie la ressemblance du modèle appris au modèle génératif) est très grand. Ce
problème classique est connu sous le nom de sur-apprentissage (ou overfitting).
Pour résumer
Pour résumer, il y a trois types de résultats intéressants :
– borne d’erreur :
R(fN ) ≤ RN (fN ) + B(N, H).
(1.44)
Ce type de résultat permet d’estimer le risque réel à partir des données uniquement ;
– borne d’erreur sur H :
R(fN ) ≤ R(f0 ) + B 0 (N, H).
(1.45)
Ce type de borne quantifie à quel point l’algorithme est “optimal”, étant donnée la
restriction à l’espace d’hypothèses H ;
– borne d’erreur absolue :
R(fN ) ≤ R∗ + B 00 (N, H).
(1.46)
Ce type de résultat quantifie à quel point l’algorithme est “optimal” dans l’absolu.
Comme annoncé précédemment, nous nous intéresserons surtout aux deux premiers types
de bornes.
12
CHAPITRE 1. INTRODUCTION
Figure 1.3 – Illustration de la pertinence du principe de minimisation du risque empirique.
L’apprentissage statistique vu par Vapnik
Vladimir Vapnik, qui est l’un des fondateurs de l’apprentissage statistique et dont les
travaux ont très fortement inspiré ce cours, résume la théorie de l’apprentissage en quatre
points (qui reprennent sensiblement ce que l’on a vu jusqu’à présent) :
1. sous quelles conditions le principe de minimisation du risque empirique (ou ERM
pour empirical risk minimization) est-il pertinent (voir illustration figure 1.3) ? Plus
formellement, sous sous quelles conditions vérifie-t-on que :
P
– R(fN ) −→ R(f0 ) (convergence en probabilités de la solution de l’ERM vers l’optiN →∞
mal sur H) ?
P
– RN (fN ) −→ R(f0 ) (convergence en probabilités du risque empirique vers le risque
N →∞
réel minimal) ?
2. à quelle vitesse converge-t-on (rappelons que nous travaillons en échantillons finis,
nous ne nous intéressons donc pas uniquement aux résultats asymptotiques) ? Autrement dit, quelle est la capacité de généralisation de notre machine ?
3. comment contrôler cette vitesse, ou cette capacité de généralisation (nous verrons que
cela se fait en jouant sur la structure de H) ?
4. comment construire des algorithmes qui contrôlent pratiquement ces taux de vitesse
de convergence ou de généralisation ?
Une grande partie de la suite de ce cours tentera de répondre à tout ou partie de ces
questions.
Chapitre 2
Apprentissage statistique
Dans ce chapitres, nous répondons en partie aux questions posées par Vapnik, en nous
basant principalement sur les travaux qu’il a mené avec Chervonenkis, mais également sur
des approches alternatives (travaux de Cucker et Smale ici, mais d’autres cadres existent).
Avant cela, nous (r)appelons quelques outils mathématiques utiles pour la suite.
2.1
2.1.1
(R)appels : loi des grands nombres et inégalités de concentration
Loi des grands nombres
Nous commençons par rappeler la notion de convergence en probabilités ainsi que la loi
(faible) des grands nombres.
Définition 1 (Convergence en probabilités). Soit (Xn )n∈N une suite de variables aléatoires
réelles. On dit qu’elle converge en probabilités vers la variable aléatoire X si
∀ > 0,
P (|Xn − X| > ) −→ 0,
n→∞
(2.1)
et on note :
P
Xn −→ X.
n→∞
(2.2)
Pour des vecteurs aléatoires, on considère une convergence en probabilités composante par
composante.
Proposition 4 (Loi faible des grands nombres). Soit (Xn )n∈N une suite de variables aléatoires, i.i.d. (indépendantes identiquement distribuées), de moyenne µ, alors
n
1X
P
Xi −→ µ,
n i=1 n→∞
c’est-à-dire :
∀ > 0,
P (|
n
1X
Xi − µ| > ) −→ 0.
n→∞
n i=1
(2.3)
(2.4)
Démonstration. Nous l’admettons pour l’instant, c’est un corollaire de l’inégalité de BienayméTchebitchev que nous voyons plus tard.
13
14
CHAPITRE 2. APPRENTISSAGE STATISTIQUE
A ce point, on peut se demander quel est le rapport avec notre problème. Pour répondre
à cette question, fixons f ∈ H et rappelons les risques réel et empirique :
Z
R(f ) =
Q(z, f )dP (z) et RN (f ) =
N
1 X
Q(zi , f ).
N i=1
(2.5)
Or z est une variable aléatoire, donc Q(z, f ) également. Les éléments z1 , z2 . . . zN de la base
d’entraînement sont une suite de variables aléatoires i.i.d., donc les Q(zi , f ) également. On
peut ainsi réécrire
R(f ) = E[Q(z, f )]
(2.6)
et RN (f ) est une variable aléatoire. La loi faible des grands nombres nous donne alors
(rappelons que f est fixée) :
Z
N
1 X
P
Q(zi , f ) −→
Q(z, f )dP (z),
N →∞
N i=1
(2.7)
autrement dit :
∀ > 0,
P (|RN (f ) − R(f )| > ) −→ 0.
N →∞
(2.8)
Cela indique qu’avec suffisamment d’échantillons, pour une fonction donnée, le risque empirique est une bonne approximation du risque réel.
Cependant, deux remarques d’importance doivent être faites à ce niveau :
– c’est un résultat asymptotique, on souhaiterait quelque chose de plus fin (fonction de
N , le nombre d’exemples) ;
– ce résultat est valable pour une fonction f fixée, mais ça ne nous donne pas la condiP
tion de pertinence du principe de minimisation du risque empirique (R(fN )−→R(f0 )
P
et RN (fN )−→R(f0 )), qui suppose que la fonction même varie (fN étant elle-même
une variable aléatoire).
2.1.2
Inégalités de concentration
Une inégalité de concentration est une indication de la concentration d’une variable
aléatoire autour de sa moyenne, et par extension une indication de la concentration d’une
somme de variables aléatoires autour de sa moyenne, ce qui permet d’obtenir des versions
quantitatives (non asymptotiques) de la loi des grands nombres. Nous allons présenter
quelques unes de ces inégalités (en démontrant les plus simples).
Proposition 5 (Inégalité de Markov). Soit X une variable aléatoire intégrable, on a :
E[|X|]
,
c
P (|X| ≥ c) ≤
∀c > 0.
(2.9)
Démonstration. Ce résultat se montre en développant E[|X|] :
Z
E[|X|] =
|X|dP =
Z
|X|dP +
|X|<c
≥
Z
|X|dP
Z
|X|dP
(2.10)
|X|≥c
(2.11)
|X|≥c
≥c
Z
|X|≥c
dP = cP (|X| ≥ c).
(2.12)
2.1. RAPPELS ET INÉGALITÉS DE CONCENTRATION
15
Proposition 6 (Inégalité de Bienaymé-Tchebychev). Soit X une variable aléatoire de carré
intégrable, on a :
Var(X)
P (|X − E[X]| ≥ c) ≤
.
(2.13)
c2
Démonstration. En utilisant l’inégalité de Markov, nous avons :
P (|X − E[X]| ≥ c) = P ((X − E[X])2 ≥ c2 )
1
Var(X)
≤ 2 E[(X − E[X])2 ] =
.
c
c2
(2.14)
(2.15)
Proposition 7 (Version quantitative de la loi faible des grands nombres). Soit (Xn )n∈N
une suite de variables aléatoires i.i.d., de moyenne µ et de variance σ 2 . Alors :
P (|
n
1X
σ2
Xi − µ| ≥ ) ≤ 2 ,
n i=1
n
∀ > 0.
(2.16)
Démonstration. C’est un corollaire immédiat de l’inégalité précédente. Posons Sn = n1 ni=1 Xi ,
2
nous avons évidemment que E[Sn ] = µ et Var(Sn ) = σn (l’hypothèse d’indépendance étant
nécessaire pour cette dernière égalité). Le résultat s’obtient alors en appliquant BienayméTchebychev à Sn .
P
La loi faible des grands nombres est une conséquence directe de cette dernière inégalité,
qui en est une version quantitative.
Ce résultat peut être présenter sous une forme alternative. Introduisons 0 < δ ≤ 1,
σ2
égalisons le au membre de droite (c’est-à-dire δ = n
2 ), nous obtenons :
n
1X
σ
P (|
Xi − µ| ≥ √ ) ≤ δ,
n i=1
nδ
(2.17)
ce qui peut également s’exprimer comme suit.
Proposition 8 (Borne PAC). Soit (Xn )n∈N une suite de variables aléatoires i.i.d., de
moyenne µ et de variance σ 2 . Soit 0 < δ ≤ 1. Avec une probabilité d’au moins 1 − δ, on a
|
n
1X
σ
Xi − µ| ≤ avec = √ .
n i=1
nδ
(2.18)
C’est ce qu’on appelle une borne PAC (probablement approximativement correcte) :
avec une probabilité donnée, on est garanti de faire une erreur d’au plus , ce terme étant
d’autant plus petit que la variance est faible et que le nombre d’échantillons est grand. Si
l’on souhaite une faible erreur avec forte probabilité, il faut que le nombre d’échantillons
soit d’autant plus grand.
Avant de poursuivre, voyons encore deux inégalités (que nous ne démontrerons pas,
mais qui seront utiles pour la suite).
Proposition 9 (Inégalité de Hoeffding). Soient X1 . . . Xn des variables aléatoires i.i.d., de
moyenne µ et de support compact, c’est-à-dire :
∃M > 0,
|Xi − µ| ≤ M presque sûrement.
(2.19)
16
CHAPITRE 2. APPRENTISSAGE STATISTIQUE
Alors :
n
1X
n2
P (|
Xi − µ| > ) ≤ 2 exp −
n i=1
2M 2
!
,
∀ > 0.
(2.20)
On obtient ici quelque chose de potentiellement plus fin que la précédente inégalité.
Proposition 10 (Inégalité de Bernstein). Soient X1 . . . Xn des variables aléatoires i.i.d.,
de moyenne µ, de variance σ 2 et de support compact, c’est-à-dire :
∃M > 0,
Alors :
|Xi − µ| ≤ M presque sûrement.
n
n2
1X
Xi − µ| > ) ≤ 2 exp −
P (|
,
n i=1
2(σ 2 + 31 M )
(2.21)
!
∀ > 0.
(2.22)
La connaissance de la variance peut donc permettre d’affiner la borne.
2.1.3
Retour à la minimisation du risque empirique
Soit f ∈ H fixée, appliquons l’inégalité de Hoeffding à RN (f ) et R(f ) (en supposant
la condition de support compact vérifiée, ce qui revient à choisir H tel que la perte soit
bornée) :
!
N 2
.
(2.23)
P (|RN (f ) − R(f )| > ) ≤ 2 exp −
2M 2
En inversant (comme nous l’avons fait précédemment pour obtenir la première borne PAC),
avec une probabilité d’au moins 1 − δ nous avons :
s
|RN (f ) − R(f )| ≤ M
soit encore :
2 ln 2δ
,
N
(2.24)
s
2 ln 2δ
.
(2.25)
N
Nous obtenons donc une borne de la forme pressentie section 1.2.3. Cependant, nous avons
considéré une fonction f fixée et la probabilité 1 − δ est respectivement à l’échantillonnage
des données (voir ci-après). Si la fonction dépend des données (ce qui est trivialement le
cas si l’on considère fN ), ce résultat ne s’applique plus.
R(f ) ≤ RN (f ) + M
Limitation : que se passe-t-il ?
Nous faisons donc face à une limitation que nous allons tenter d’expliquer plus avant.
Que nous dit Hoeffding dans ce cas ? Fixons N , la taille de la base d’exemples. Pour chaque
fonction fixée f ∈ H, il existe une ensemble E de bases d’entraînement (de taille N ) pour
lesquelles on a
s
R(f ) − RN (f ) ≤ M
2 ln 2δ
,
n
(2.26)
et cet ensemble E a une mesure P (E) ≥ 1 − δ. Cependant, il est primordial de noter que
cet ensemble E dépend de f . En conséquence, pour une famille d’exemples effectivement
observés, seules certaines fonctions de H satisferont cette inégalité. Nous illustrons ceci
2.1. RAPPELS ET INÉGALITÉS DE CONCENTRATION
17
Figure 2.1 – Sur cette figure, R est le vrai risque et RN le risque empirique pour deux
familles d’exemples différentes (en bleu et rouge respectivement). Pour une fonction f
donnée, la fluctuation de RN (f ) autour de R(f ) est contrôlée par l’inégalité de Hoeffding.
D’un autre côté, fN dépend du jeu de données et la fluctuation de ce jeu ne peut pas être
contrôlée par Hoeffding.
sur la figure 2.1. Le risque réel est une courbe fixée. Chaque jeu de données (chaque base
d’exemples) génère une courbe de risque empirique différente. Hoeffding garantit que pour
une fonction f donnée (une abscisse fixée sur cette figure), 90% (par exemple) des courbes
de risques empiriques possibles s’éloigneront d’au plus une certaine quantité de la courbe
de risque réel. Si l’on considère une nouvelle fonction f 0 (une nouvelle abscisse), ces mêmes
courbes de risques empiriques peuvent s’éloigner de plus de de celle du risque réel (quantitativement, on aura toujours 90% des courbes qui s’éloignent d’au plus , mais ce ne seront
pas les mêmes). Minimiser le risque empirique, c’est-à-dire calculer fN , revient sur cette
figure à considérer une abscisse aléatoire. Hoeffding ne peut donc s’appliquer directement.
Vers une solution : des bornes uniformes
Ainsi, si les inégalités de concentration sont un outil utile pour le problème que nous
nous posons, elles ne sont pas suffisantes. Un pas en avant vers la solution consiste à
considérer des bornes uniformes. En effet, avant de voir les données, on ne peut pas savoir
quelle fonction l’algorithme va choisir (c’est-à-dire fN ), l’idée est donc de considérer une
borne uniforme du type :
R(fN ) − RN (fN ) ≤ sup (R(f ) − RN (f ))
(2.27)
f ∈H
Si on peut borner le membre de droite ou lui appliquer la loi des grands nombres, nous
aurons une condition suffisante pour le principe de minimisation du risque empirique (nous
montrerons d’ailleurs que c’est également une condition nécessaire). Nous cherchons donc
une borne qui tienne simultanément pour toutes les fonctions de l’espace d’hypothèses.
Construisons en une dans un cas simple.
Soient f1 et f2 deux fonctions de H. Introduisons les ensembles C1 et C2 définis par :
Ci = {z1 . . . zN : |R(fi ) − RN (fi )| > },
i = 1, 2.
(2.28)
18
CHAPITRE 2. APPRENTISSAGE STATISTIQUE
L’ensemble Ci contient donc tous les “mauvais” exemples pour fi , c’est-à-dire ceux pour
lesquels la borne échoue. D’après Hoeffding, nous avons pour i = 1, 2
N 2
P (Ci ) ≤ δ = 2 exp −
2M 2
!
.
(2.29)
Nous voulons mesurer combien d’exemples sont “mauvais” pour i = 1 ou i = 2 :
P (C1 ∪ C2 ) ≤ P (C1 ) + P (C2 ) = 2δ.
(2.30)
On peut donc généraliser la borne.
Supposons que H est de cardinal fini h, c’est-à-dire que H = {f1 . . . fh }, nous avons
alors :
P (∃f ∈ H : |R(f ) − RN (f )| > ) ≤
h
X
P (|R(fi ) − RN (fi )| > )
(2.31)
i=1
N 2
≤ 2h exp −
2M 2
!
.
(2.32)
Comme avant, nous inversons la probabilité :
N 2
δ = 2h exp −
2M 2
s
!
⇔=M
2(ln(h) + ln( 2δ ))
.
N
(2.33)
2(ln(h) + ln( 2δ ))
,
N
(2.34)
Ainsi, avec une probabilité d’au moins 1 − δ, on a :
s
∀f ∈ H,
R(f ) ≤ RN (f ) + M
et donc plus particulièrement :
s
R(fN ) ≤ RN (fN ) + M
2(ln(h) + ln( 2δ ))
.
N
(2.35)
Le principe de minimisation du risque empirique peut donc être pertinent. Cependant, cela
suppose pour l’instant que H soit de cardinal fini, ce qui est particulièrement contraignant.
Dans la suite, nous allons dans un premier temps étudier les conditions nécessaires et
suffisantes de pertinence du principe de minimisation du risque empirique, et dans un second
temps étudier des mesures plus fines de la taille d’un espace d’hypothèses (dimension de
Vapnik-Chervonenkis et nombre de couverture) qui nous permettront d’obtenir des bornes
plus réalistes.
2.2
2.2.1
Conditions nécessaires et suffisantes du principe de minimisation du risque empirique
Notion classique de pertinence et sa limite
Commençons par définir la notion de pertinence (illustrée figure 1.3), au sens classique.
2.2. CNS DU PRINCIPE DE L’ERM
19
Définition 2 (Pertinence classique). Nous disons que le principe de minimisation du risque
empirique est pertinent pour la famille de fonctions Q(z, f ), f ∈ H, et pour la distribution
de probabilités P (z), si les deux séquences suivantes convergent en probabilité vers la même
limite :
P
R(fN ) −→ R(f0 ),
(2.36)
RN (fN ) −→ R(f0 ).
(2.37)
N →∞
P
N →∞
En d’autres termes, le principe de l’ERM est pertinent si il fournit une séquence de
fonctions Q(z, fN ), N = 1, 2, . . . , pour laquelle à la fois le risque empirique et le risque réel
convergent vers la valeur minimum du risque (en se restreignant à l’espace d’hypothèses
H).
Non-équivalence des limites
La convergence des deux séquences définissant la pertinence du principe de l’ERM
ne sont pas équivalentes. Pour cela, nous allons construire un contre-exemple tel que
P
P
R(fN )−→R(f0 ) et RN (fN )9R(f0 ). Soit z ∈ [0, 1] et Q(z, f ) des fonctions indicatrices
(qui prennent deux valeur possibles, 0 ou 1). On définit H comme l’ensemble des fonctions
qui vallent 1 partout sauf sur un nombre fini d’intervalles de mesures cumulées pour
lesquels elles vallent 0, voir l’illustration figure 2.2. Soit P (z) la distribution uniforme sur
[0, 1]. On a clairement que le risque empirique minimal est nul : ∀N , RN (fN ) = 0. En effet,
soit un nombre fini de points z1 . . . zN . On peut prendre la fonction dont les intervalles
où elle s’annule sont centrés en z1 . . . zN , chacun de largeur N (c’est un exemple parmi
d’autres, une infinité de fonctions de H atteignant ce minimum). D’un autre côté, le risque
réel est constant, identique pour toute fonction :
∀f ∈ H,
Z
R(f ) =
Q(z, f )dP (z) = 1 − .
(2.38)
On a donc :
P
inf R(f ) − RN (fN ) = 1 − 9 0
N →∞
f ∈H
P
et inf R(f ) − R(fN ) = 0 −→ 0
f ∈H
N →∞
(2.39)
(2.40)
Ceci montre le contre-exemple.
Limite de la pertinence classique
Le problème de cette définition de la pertinence au sens classique est qu’elle inclut
des cas de pertinence triviaux, on ne peut donc pas s’en servir comme base de travail
pour déterminer des conditions de pertinence de l’ERM. Avant d’en proposer une nouvelle
définition, présentons un cas trivial de pertinence.
Supposons que pour un ensemble de fonctions Q(z, f ), f ∈ H, le principe de l’ERM
ne soit pas pertinent. On étend alors cet ensemble H avec une fonction φ(z) telle que
inf f ∈H Q(z, f ) > φ(z), tel qu’illustré sur la figure 2.3. Il est clair qu’avec cet ensemble
étendu, le principe de l’ERM est pertinent. En effet, pour toute distribution et tout nombre
N d’observations, le minimum du risque empirique est atteint pour φ(z), qui est également
le minimum du risque réel.
20
CHAPITRE 2. APPRENTISSAGE STATISTIQUE
Figure 2.2 – Fonctions utilisées pour le contre-exemple montrant la non-équivalence des limites définissant le principe de pertinence classique. La somme des longueurs des intervalles
à 0 vaut .
Figure 2.3 – Trivialité de la pertinence classique.
Ainsi, en travaillant avec cette définition, il faudrait vérifier au préalable les cas de
pertinence triviale, par exemple s’il y a une fonction minimisante. Toutefois, on voudrait
raisonner sur des propriétés plus générales de H (sa capacité, en quelque sorte une généralisation de la notion de cardinal), pas sur les fonctions particulières qui le peuplent. C’est
pourquoi Vapnik a introduit une notion de pertinence stricte (non-triviale).
2.2.2
Pertinence stricte (non-triviale)
Définition 3 (Pertinence stricte (Vapnik)). Nous disons que le principe de minimisation
du risque empirique est strictement pertinent si pour l’ensemble des fonctions Q(z, f ),
f ∈ H, et pour la distribution P (z), nous avons pour tout sous-ensemble H(c), c ∈ R, de
H, défini par
Z
H(c) = f ∈ H :
Q(z, f )dP (z) ≥ c ,
(2.41)
la convergence suivante :
P
inf RN (f ) −→
f ∈H(c)
inf R(f ).
N →∞ f ∈H(c)
(2.42)
En d’autres termes, on impose que le minimum du risque empirique converge en probabilité vers le minimum du risque réel, ce pour tout sous-ensemble de H obtenu en enlevant
les fonctions ayant un risque réel inférieur à c, pour tout c. Le cas de trivialité vu précédemment ne tient plus (avec c suffisamment grand, plus précisément c = supz φ(z), la fonction
φ(z) n’est plus considérée).
Par rapport à la pertinence classique, on est passé de deux conditions à une seule. La
condition (2.42) est une généralisation de la condition (2.37), elle correspond au cas c =
2.2. CNS DU PRINCIPE DE L’ERM
21
−∞. On peut se demande légitimement si la condition (2.42) implique la condition (2.36),
ce qui montrerait que la pertinence stricte généralise la pertinence classique. Le lemme
suivant répond affirmativement à cette question.
Lemme 1. Si le principe de l’ERM est strictement pertinent, alors :
P
R(fN ) −→ inf R(f ).
(2.43)
N →∞ f ∈H
Démonstration. Notons R0 = R(f0 ) = inf f ∈H R(f ). Soit > 0 quelconque, considérons
l’ensemble H(R0 + ) :
H(R0 + ) = {f ∈ H : R(f ) ≥ R0 + }.
(2.44)
Choisissons (suffisamment petit) tel que H(R0 + ) ne soit pas vide. On a supposé la
pertinence stricte, donc avec c = −∞ on retrouve :
P
RN (fN ) −→ R0 .
(2.45)
N →∞
De façon équivalente, nous avons donc :
lim P RN (fN ) ≥ R0 +
N →∞
2
=0
(2.46)
D’autre part, par définition de H(R0 + ) et par pertinence stricte, nous avons :
P
inf
f ∈H(R0 +)
RN (f ) −→
inf
N →∞ f ∈H(R0 +)
R(f ) ≥ R0 + ,
(2.47)
donc, de façon équivalente :
lim P
N →∞
inf
RN (f ) ≥ R0 +
2
f ∈H(R0 +)
!
= 1.
(2.48)
Les équations (2.46) et (2.48) impliquent que :
lim P (fN ∈ H(R0 + )) = 0.
N →∞
(2.49)
Cela signifie donc, par définition de H(R0 + ) et car R0 est l’optimum, que pour N assez
grand, nous avons :
R0 ≤ R(fN ) ≤ R0 + .
(2.50)
Ceci permet de conclure :
P
R(fN ) −→ R(f0 ).
N →∞
2.2.3
(2.51)
Convergence uniforme à un et deux côtés
Nous avons eu l’intuition à la fin de la section 2.1.3 que la pertinence du principe de
l’ERM était liée à la convergence du supremum supf ∈H |R(f ) − RN (f )|. Vapnik le prouve.
Introduisons d’abord les concepts de convergence uniforme.
22
CHAPITRE 2. APPRENTISSAGE STATISTIQUE
Définition 4 (Convergence uniforme à deux côtés). Soit z1 . . . zN . . . une suite de variables
aléatoires, soit P (z) la distribution associée, soit H notre espace d’hypothèses. On définit
le process empirique à deux côtés (c’est une suite aléatoire) par :
ξ
N
Z
N
1 X
= sup Q(z, f )dP (z) −
Q(zi , f ) = sup |R(f ) − RN (f )| .
f ∈H
N
f ∈H
i=1
(2.52)
On dit qu’il y a convergence uniforme à deux côtés si :
∀ > 0,
P (ξ N > ) −→ 0.
N →∞
(2.53)
Définition 5 (Convergence uniforme à un côtés). Soit z1 . . . zN . . . une suite de variables
aléatoires, soit P (z) la distribution associée, soit H notre espace d’hypothèses. On définit
le process empirique à un côté par :
N
ξ+
= sup
f ∈H
Z
N
1 X
Q(z, f )dP (z) −
Q(zi , f )
N i=1
!
= sup (R(f ) − RN (f ))+
+
(2.54)
f ∈H
(
avec (u)+ =
u si u > 0
0 sinon
.
(2.55)
On dit qu’il y a convergence uniforme à un côté si :
∀ > 0,
N
P (ξ+
> ) −→ 0.
N →∞
(2.56)
Notons que la convergence uniforme à un côté a un intérêt certain ici. En effet, on
cherche à minimiser le risque réel, pas à le maximiser, le problème n’est pas symétrique.
2.2.4
Le théorème clé de la théorie de l’apprentissage
Ce théorème, du à Vapnik, montre qu’il y a pertinence stricte du principe de l’ERM si et
seulement si on a une convergence uniforme à un côté (condition suffisante, mais également
nécessaire).
Théorème 1 (Théorème Clé de Vapnik). Supposons qu’il existe deux constantes a et
A telles que pour toute fonction Q(z, f ), f ∈ H, et pour une distribution donnée P (z),
l’inégalité suivante soit vraie :
a≤
Z
Q(z, f )dP (z) ≤ A.
(2.57)
Alors les deux points suivants sont équivalents :
1. pour la distribution P (z), le principe de minimisation du risque empirique est strictement pertinent sur l’ensemble des fonctions Q(z, f ), f ∈ H ;
2. pour la distribution P (z), il y a convergence uniforme à un côté sur l’ensemble des
fonctions Q(z, f ), f ∈ H.
Démonstration. Commençons par montrer que 1 ⇒ 2. Rappelons la définition de
H(c) :
Z
H(c) = {f ∈ H : R(f ) =
Q(z, f )dP (z) ≥ c}.
(2.58)
2.2. CNS DU PRINCIPE DE L’ERM
23
Par hypothèse, le principe de l’ERM est strictement pertinent sur Q(z, f ), f ∈ H, donc
∀c ∈ [a, A] nous avons :
Z
N
1 X
P
Q(zi , f ) −→ inf
Q(z, f )dP (z).
N →∞ f ∈H(c)
f ∈H(c) N
i=1
inf
(2.59)
Soit > 0. On construit une séquence finie a1 . . . an telle que :
|ai+1 − ai | < ,
2
a1 = a,
an = A.
(2.60)
Notons Tk l’événement suivant :
Z
N
1 X
Q(zi , f ) < inf
Q(z, f )dP (z) − .
2
f ∈H(ak ) N
f ∈H(ak )
i=1
inf
(2.61)
D’après (2.59), nous avons :
P (Tk ) −→ 0.
(2.62)
N →∞
Notons T l’union de ces événements :
n
[
T =
Tk .
(2.63)
k=1
Comme n est fini et que (2.62) est vrai pour tout k, nous avons :
P (T ) = P (
n
[
Tk ) ≤
k=1
n
X
k=1
P (Tk ) −→ 0.
(2.64)
N →∞
Notons A l’événement suivant :
Z
sup
f ∈H
N
1 X
Q(zi , f )
Q(z, f )dP (z) −
N i=1
!
> .
(2.65)
+
Supposons que A se réalise (sinon, c’est soit que est trop grand, soit que c’est gagné).
Alors il existe f + tel que :
Z
N
1 X
Q(z, f )dP (z) − >
Q(zi , f + ).
N i=1
+
(2.66)
D’après f + , on choisit k ∈ {1 . . . n} tel que :
f + ∈ H(ak )
Z
et
Q(z, f + )dP (z) − ak < .
2
(2.67)
(2.68)
Ce k existe forcément, dans la mesure où f + ∈ H et |ai+1 − ai | < 2 , ∀i. C’est plus
précisément le plus grand k tel que f + ∈ H(ak ) et f + ∈
/ H(ak+1 ). Pour cet ensemble
H(ak ), par définition nous avons :
Z
inf
f ∈H(ak )
Q(z, f )dP (z) ≥ ak ,
(2.69)
24
CHAPITRE 2. APPRENTISSAGE STATISTIQUE
donc :
Z
Q(z, f + )dP (z) −
Z
inf
f ∈H(ak )
Q(z, f )dP (z) < .
2
(2.70)
Ainsi, pour la fonction f + choisie et l’ensemble H(ak ) correspondant nous avons :
Q(z, f )dP (z) − >
2
Z
inf
f ∈H(ak )
Z
Q(z, f + )dP (z) − d’après (2.70)
(2.71)
>
N
1 X
Q(zi , f + ) d’après (2.66)
N i=1
(2.72)
≥
N
1 X
Q(zi , f ) car f + ∈ H(ak ).
f ∈H(ak ) N
i=1
(2.73)
inf
Donc l’événement Tk a lieu, donc T :
A ⊂ Tk ⊂ T,
(2.74)
d’où :
P
P (A) < P (T ) −→ 0.
(2.75)
N →∞
Ceci est exactement la convergence à un côté :
P (sup (R(f ) − RN (f )) > )+ −→ 0.
f ∈H
(2.76)
N →∞
Montrons à présent que 2 ⇒ 1. Supposons maintenant qu’on ait la convergence uniforme
à un côté, montrons que la pertinence stricte a lieu, c’est-à-dire que pour tout c et pour
tout :
lim P
N →∞
!
Z
N
1 X
Q(zi , f ) > = 0.
Q(z, f )dP (z) − inf
inf
f ∈H(c)
f ∈H(c) N
(2.77)
i=1
Notons A l’événement d’intérêt :
(
A=
)
Z
N
1 X
z1 . . . zN : inf
Q(z, f )dP (z) − inf
Q(zi , f ) > .
f ∈H(c)
f ∈H(c) N
(2.78)
i=1
L’événement A est l’union de deux événements A1 et A2 , A = A1 ∪ A2 , définis par :
(
A1 =
Z
z1 . . . zN : inf
f ∈H(c)
(
et A2 =
Z
z1 . . . zN : inf
f ∈H(c)
N
1 X
Q(z, f )dP (z) + < inf
Q(zi , f )
f ∈H(c) N
i=1
(2.79)
N
1 X
Q(z, f )dP (z) − > inf
Q(zi , f ) .
f ∈H(c) N
i=1
(2.80)
)
)
L’objectif est de borner la probabilité de l’événement A. Commencons par noter que P (A) ≤
P (A1 )+P (A2 ). Supposons que l’événement A1 se réalise. D’autre part, il existe une fonction
f1 telle que :
Z
Z
(2.81)
Q(z, f1 )dP (z) < inf
Q(z, f )dP (z) + .
2
f ∈H(c)
2.2. CNS DU PRINCIPE DE L’ERM
25
On a donc :
Z
Q(z, f1 )dP (z) + < inf
2 f ∈H(c)
Z
Q(z, f )dP (z) + par def. de f1
N
1 X
Q(zi , f ) car A1 se réalise
f ∈H(c) N
i=1
(2.83)
N
1 X
Q(zi , f1 ).
N i=1
(2.84)
< inf
<
(2.82)
On a donc, par imbrication des inégalités et grâce à la loi des grands nombres (qui s’applique
car f1 ne dépend pas de N ) :
Z
N
1 X
Q(zi , f1 ) − Q(z, f )dP (z) >
N i=1
2
P (A1 ) ≤ P
!
−→ 0.
N →∞
(2.85)
Supposons maintenant que A2 se réalise. D’autre part, il existe une fonction f2 telle que :
N
N
1 X
1 X
Q(zi , f2 ) < inf
Q(zi , f ) + .
N i=1
2
f ∈H(c) N
i=1
(2.86)
N
N
1 X
1 X
Q(zi , f2 ) + < inf
Q(zi , f ) + par def. de f2
N i=1
2 f ∈H(c) N i=1
(2.87)
On a donc :
Z
< inf
f ∈H(c)
Q(z, f )dP (z) car A2 se réalise
(2.88)
Z
<
Q(z, f2 )dP (z)
(2.89)
Attention, la fonction f2 dépend de N , il faut donc être plus fin que lorsqu’on travaillait
sur A1 . Nous utilisons la convergence uniforme à un côté pour conclure :
Z
P (A2 ) < P
N
1 X
Q(z, f2 )dP (z) −
Q(zi , f2 ) >
N i=1
2

Z
< P  sup
f ∈H
!
(2.90)
N
1 X
Q(z, f )dP (z) −
Q(zi , f )
N i=1

!
+
>  −→ 0.
2 N →∞
(2.91)
Nous pouvons donc conclure :
P (A) ≤ P (A1 ) + P (A2 ) −→ 0.
N →∞
(2.92)
Ceci montre la pertinence stricte, et conclue donc la démonstration du théorème.
Ce théorème est le “théorème clé” selon Vapnik car il montre que toute analyse doit
être une analyse dans le pire des cas. Il reste à trouver des conditions nécessaires et
suffisantes de convergence uniforme (c’est l’objet des parties suivantes, nous verrons qu’elles
sont liées en quelque sorte à la structure de H).
Avant, nous donnons un corollaire important (quoique immédiat). En effet, en pratique,
on souhaite obtenir ce type de résultat sans tenir compte d’une densité particulière P (car
si l’on peut jouer sur l’espace d’hypothèses, cette densité est imposée par le problème, et
l’on voudrait un résultat relativement universel).
26
CHAPITRE 2. APPRENTISSAGE STATISTIQUE
Figure 2.4 – Exemple de fonction de classification.
Corollaire 1. Supposons qu’il existe deux constantes a et A telles que pour toute fonction
Q(z, f ), f ∈ H, et pour toute distribution P ∈ P, l’inégalité suivante soit vraie :
a≤
Z
Q(z, f )dP (z) ≤ A.
(2.93)
Alors les deux points suivants sont équivalents :
1. pour chaque distribution de P, le principe de minimisation du risque empirique est
strictement pertinent sur l’ensemble des fonctions Q(z, f ), f ∈ H ;
2. pour chaque distribution de P, il y a convergence uniforme à un côté sur l’ensemble
des fonctions Q(z, f ), f ∈ H.
2.3
2.3.1
L’approche de Vapnik
Restriction du cadre de travail
Nous allons maintenant nous restreindre au cas des fonctions indicatrices (qui prennent
pour valeur 0 ou 1). Les résultats présentés dans cette section sont généralisables au cas réel,
mais le cas binaire (d’application typique la classification) simplifie sensiblement l’analyse.
Nous allons même nous restreindre à la fonction de perte binaire, ce qui simplifie quelques
démonstrations (mais les résultats sont généralisables aux autres fonctions de pertes).
Nous avons donc :
– un générateur aléatoire de vecteurs x, tirés selon la distribution P (x), fixe mais inconnue ;
– un oracle, qui pour x tire y ∈ {0, 1} selon la distribution P (y|x), fixe mais inconnue ;
– un espace d’hypothèses H = {f : X → Y }. Par exemple, un espace d’hypothèses
possible est l’ensemble des fonctions de la forme f (x) = Γ(xT w + b) où Γ est la
fonction de Heavyside et w et b sont des paramètres. Cela définit un hyperplan qui
sépare les classifications +1/0, comme illustré figure 2.4.
On cherche f de H à partir de N exemples i.i.d. tirés selon la distribution P (x, y) =
P (y|x)P (x).
On considère la fonction de perte binaire :
(
L0/1 (y, f (x)) =
0 si y = f (x)
1 sinon
,
(2.94)
que l’on peut aussi écrire en utilisant la fonction de Kronecker χ :
L0/1 (y, f (x)) = χy6=f (x) .
(2.95)
2.3. L’APPROCHE DE VAPNIK
27
Rappelons le risque réel associé :
Z
L0/1 (y, f (x))dP (x, y) = E[χy6=f (x) ] = P (f (x) 6= y).
R(f ) =
(2.96)
Cette dernière expression du risque montre bien que ce que l’on cherche à minimiser,
c’est la probabilité de se tromper. Rappelons également le risque empirique RN (f ) =
1 PN
i=1 L(yi , f (xi )) ainsi que les notations z = (x, y) et Q(z, f ) = L0/1 (y, f (x)).
N
2.3.2
Retour sur le cas simple (cardinal de H fini)
Nous avons montré qu’il y avait pertinence stricte si et seulement si on avait convergence
uniforme à un côté. La question naturelle qui se pose alors est : comment garantir une telle
convergence ? Nous allons travailler sur la convergence uniforme à deux côtés (qui implique
celle à un côté), c’est-à-dire ∀ > 0 :
P
Z
!
N
1 X
sup Q(z, f )dP (z) −
Q(zi , f ) > −→ 0.
N →∞
N
f ∈H (2.97)
i=1
Dans le cas où Q est une fonction indicatrice, cela revient à se poser la question de la
convergence des fréquences vers les probabilités associées :
!
P
sup |P (Q(z, f ) > 0) − νN (Q(z, f ) > 0)| > f ∈H
−→ 0.
N →∞
(2.98)
Rappelons l’inégalité de Hoeffding. Pour X1 . . . Xn i.i.d., de moyenne µ et de support
compact, i.e. ∃M > 0 : |Xi − µ| ≤ M p.s. :
n
1X
|
Xi − µ| > n i=1
!
P
n2
≤ 2 exp −
2M 2
!
.
(2.99)
L’inégalité de Chernoff que nous utiliserons par la suite en est un corollaire immédiat,
spécialisé au cas de variables de Bernouilli.
Proposition 11 (Inégalité de Chernoff). Soit X1 . . . Xn une suite de variables aléatoires
i.i.d., suivant une loi de Bernouilli de moyenne µ, on a :
n
1X
|
Xi − µ| > n i=1
!
P
≤ 2 exp −2n2 .
(2.100)
Démonstration. C’est une application directe de Hoeffding en considérant M = 12 .
Supposons que le cardinal de H est fini, Card(H) = h. Nous pouvons écrire (la première
inégalité se basant sur P (A ∪ B) ≤ P (A) + P (B)) :
Z
!
N
1 X
P max Q(z, fk )dP (z) −
Q(zi , fk ) > 1≤k≤h N i=1
!
h
N
Z
X
1 X
Q(zi , fk ) > ≤
P Q(z, fk )dP (z) −
N i=1
k=1
≤ 2h exp(−2N 2 ) = 2 exp N
ln h
− 22
N
(Chernoff).
(2.101)
(2.102)
(2.103)
28
CHAPITRE 2. APPRENTISSAGE STATISTIQUE
Dans ce cas, pour avoir une convergence uniforme ∀ > 0, il suffit d’avoir
ln h
−→ 0.
N N →∞
(2.104)
Si H est de cardinal fini, c’est trivial. Sinon, il faut trouver une meilleure mesure de la taille
(ou capacité, capacity en anglais) de l’espace d’hypothèses H. C’est ce que nous allons voir
maintenant.
2.3.3
Une première tentative : le cas infini dénombrable
Supposons que H soit de cardinal infini, mais dénombrable (i.e., identifiable à N). Soit
f ∈ H fixée, d’après Chernoff on a ∀ > 0 :
P (|RN (f ) − R(f )| > ) ≤ 2 exp(−2N 2 ).
(2.105)
On peut faire le même type d’inversion que précédemment en posant :
δ = 2 exp(−2N 2 ) ⇔ =
v u
u ln 2
t
δ
2N
.
(2.106)
On a alors le corollaire immédiat (sous forme PAC), ∀0 < δ ≤ 1 :

v 
u
u ln 2

t
δ 
 ≤ δ.
|R
(f
)
−
R(f
)|
>
P
 N
2N 
(2.107)
De façon équivalente, en faisant de plus dépendre δ à f , avec une probabilité d’au moins
1 − δ(f ) on a
v
|RN (f ) − R(f )| <
u u ln 2
t
δ(f )
2N
.
(2.108)
D’autre part, dans le cas dénombrable, on a de façon générale
P(
∞
[
Ai ) ≤
i=1
∞
X
P (Ai ),
(2.109)
i=1
et donc pour la borne qui nous intéresse :

v 
u
u ln 2
X

t
δ(f ) 
≤
P
δ(f ).
∃f ∈ H : |RN (f ) − R(f )| >

2N
(2.110)
f ∈H
Supposons que l’ait a priori une distribution p(f ) sur les fonctions de H (qui traduise la
P
confiance que l’on a en les différentes fonctions d’être la solution du problème) : f ∈H p(f ) =
1 et 0 ≤ p(f ) ≤ 1. Posons δ(f ) = δp(f ), avec δ > 0 qui ne dépend plus de f . De façon
immédiate, avec une probabilité 1 − δ on a :
∀f ∈ H,
|RN (f ) − R(f )| <
v u
2
u ln 1
+
ln
t
δ
p(f )
2N
(2.111)
2.3. L’APPROCHE DE VAPNIK
29
Figure 2.5 – Illustration de l’idée de projection de H sur z1 . . . zN .
Notons que si Card(h) = h < ∞ et si p est uniforme, on retrouve le résultat du cas le plus
1
simple (ln( p(f
) ) = ln(h)).
Il y a plusieurs conclusions à tirer de ce résultat. Premièrement, il est possible d’intégrer
une connaissance a priori, via p, ce qui permet d’étendre la borne au cas infini dénombrable.
D’autre part, si cet a priori est bon, on a des bornes serrées (knowledge improves bounds).
Cependant, p est un a priori qui doit être fixé avant de voir les données. On ne peut pas
“tricher” en le choisissant a posteriori.
C’est donc une approche possible, mais qui ne fonctionne que si H est dénombrable (ce
qui est une hypothèse forte), et qui demande d’avoir un a priori, ce qui peut également
être fort contraignant. Dans la suite, nous n’aurons plus ces deux contraintes.
2.3.4
Conditions nécessaires et suffisantes de convergence uniforme
L’idée de base
Dans le cas général, l’espace d’hypothèse H n’est pas de cardinal fini, ni même dénombrable. Mais rappelons que nous travaillons sur des données. L’astuce consiste donc à “projeter” l’espace d’hypothèses sur la base d’exemples. Plus précisément, pour des exemples
z1 . . . zN donnés, nous définissons :
Qz1 ...zN =
Q(z1 , f ) . . . Q(zN , f )
T
:f ∈H .
(2.112)
Le cardinal de Qz1 ...zN représente le nombre de façons possibles dont les données z1 . . . zN
peuvent être classifiées par les fonctions de H. Comme on considère des fonctions indicatrices (cas binaire), cet ensemble est toujours fini (de cardinal borné par 2N ), quelle que
soit la taille de H.
Nous illustrons cette idée sur la figure 2.5. Considérons comme espace d’hypothèses
H les séparateurs linéaires dans le plan, identifiable à R2 . Il n’est donc pas dénombrable.
Notons ei le vecteur unitaire (dont seule la ième composante n’est pas nulle et vaut 1). Sur la
figure de gauche, nous avons trois points z1 , z2 et z3 , qui sont tous linéairement séparables.
On a donc dans ce cas Qz1 ,z2 ,z3 = {e1 , e¯1 , e2 , e¯2 , e3 , e¯3 , 0, 1}. Tous les cas sont possibles et
Card(Qz1 ,z2 ,z3 ) = 8 = 23 . C’est le cardinal maximum, mais on travaillerait tout de même
avec un espace beaucoup plus petit (à comparer à H). Si l’on considère la figure du milieu,
sur laquelle les trois points sont alignés, z2 n’est pas linéairement séparable. Dans ce cas, on
a donc e2 ∈
/ Qz1 ,z2 ,z3 et e¯2 ∈
/ Qz1 ,z2 ,z3 . Dans ce cas, Card(Qz1 ,z2 ,z3 ) = 6 < 23 . Sur la figure
30
CHAPITRE 2. APPRENTISSAGE STATISTIQUE
Figure 2.6 – Qz1 ...zN est le sous-ensemble des sommets d’un cube.
de droite, nous avons 4 points, il est impossible de tous les séparer avec des séparateurs
linéaires, par exemple e2 + e4 ∈
/ Qz1 ...z4 . En fait, quelle que soit la distribution des points,
avec H l’ensemble des séparateurs linéaires, on a nécessairement Card(Qz1 ...z4 ) < 24 (nous
le verrons formellement et généralement plus tard).
Entropies
Nous allons maintenant définir des notions d’entropie. Soit une séquence arbitraire de
N vecteurs z1 . . . zN de Z, on note :
N H (z1 . . . zN ) = Card(Qz1 ...zN ).
(2.113)
La quantité N H (z1 . . . zN ) est donc le cardinal de Qz1 ...zN , qui est un sous-ensemble de l’ensemble des sommets d’un cube de dimension N , tel qu’illustré figure 2.6, donc trivialement
N H (z1 . . . zN ) ≤ 2N .
Définition 6 (Entropie aléatoire). On appelle la quantité
H H (z1 . . . zN ) = ln N H (z1 . . . zN )
(2.114)
l’entropie aléatoire de l’ensemble des fonctions indicatrices Q(z, f ), f ∈ H, sur la base
z 1 . . . zN .
Définition 7 (Entropie). On appelle la quantité
H
H
H (N ) = E[ln N (z1 . . . zN )] =
Z
H H (z1 . . . zN )dP (z1 . . . zN )
(2.115)
l’entropie de l’ensemble des fonctions indicatrices Q(z, f ), f ∈ H.
Notons qu’en conséquence du caractère i.i.d. des exemples, nous avons P (z1 . . . zN ) =
i=1 P (zi ).
QN
2.3. L’APPROCHE DE VAPNIK
31
CNS de CV uniforme
La notion d’entropie fournit une condition nécessaire et suffisante de convergence uniforme à deux côtés (notons qu’un résultat similaire peut être obtenu pour la convergence
uniforme à un côté).
Théorème 2 (Entropie et convergence uniforme). Pour s’assurer la convergence uniforme
(à deux côtés)
P
Z
!
N
1 X
sup Q(z, f )dP (z) −
Q(zi , f ) > −→ 0
N →∞
N
f ∈H (2.116)
i=1
sur l’ensemble des fonctions indicatrices Q(z, f ), f ∈ H, il est nécessaire et suffisant que :
H H (N )
−→ 0.
N N →∞
(2.117)
Démonstration. Nous l’admettrons, elle constitue le chapitre 14 de l’ouvrage de Vapnik [13].
Le lecteur attentif aura noté que H H (N ) “joue le rôle” de Card(H) (rappelons que
nous avions, dans le cas simple d’un espace d’hypothèse à cardinale fini, une convergence
uniforme à la condition que lnNh −→ 0). Nous progressons, mais d’une part ce résultat
N →∞
ne dit rien sur la vitesse de convergence, d’autre part il dépend de la distribution et de
l’espace d’hypothèse (la dépendance à la distribution empêchant son usage pratique). Nous
traiterons ces questions, mais avant faisons une petite digression sur le cas continu.
2.3.5
Un détour par le cas continu
Plaçons nous dans le cas où Q(z, f ) prend des valeurs réelles, mais est bornée (ce qui
est généralisable au cas non-borné, mais d’espérance finie). Nous supposons que :
∃C > 0 : ∀f ∈ H,
|Q(z, f )| < C.
(2.118)
On peut utiliser la même idée que pour les fonctions indicatrices et projeter l’espace d’hypothèse sur la base d’exemples :
Qz1 ...zN =
T
Q(z1 , f ) . . . Q(zN , f )
:f ∈H .
(2.119)
Le problème ici est que Qz1 ...zN ne peut plausiblement être de cardinal fini, ce qui a été
notre argument principal dans le cas des fonctions indicatrices. Cependant, Qz1 ...zN est
inclus dans un cube de côté 2C (l’inclusion étant généralement stricte), on peut en effectuer
un maillage (dans l’idée de se ramener au cas discret) à l’aide d’un -net, défini ci-après et
illustré figure 2.7.
Définition 8 (-net, couverture et -net minimal). L’ensemble B est appelé -net de l’ensemble G si
∀g ∈ G, ∃b ∈ B : d(b, g) < ,
(2.120)
ce qui suppose une métrique d. On dit que G admet une couverture par un -net fini si
∀ > 0,
∃B -net : Card(B ) < ∞.
(2.121)
On dit que le -net B∗ est minimal si il est fini et contient le nombre minimum d’éléments.
32
CHAPITRE 2. APPRENTISSAGE STATISTIQUE
Figure 2.7 – -net : l’ensemble Qz1 ...zN (en rouge) est compris dans un cube de côté 2C,
il est recouvert par un -net (en noir).
L’idée est donc de fixer un > 0 et de travailler avec le maillage (discret et fini) qui
recouvre le compacte Qz1 ...zN . Pour cela, nous introduisons les notions d’-entropie.
Définition 9 (-entropie aléatoire). Soit une séquence arbitraire z1 . . . zN , soit > 0, on
définit :
N H (z1 . . . zN ; ) = Card(-net minimal de Qz1 ...zN ).
(2.122)
On appelle la quantité
H H (z1 . . . zN ; ) = ln N H (z1 . . . zN ; )
(2.123)
l’-entropie aléatoire de l’ensemble des fonctions bornées Q(z, f ), f ∈ H, sur la base
z1 . . . zN .
Définition 10 (-entropie). On appelle la quantité
H H (N ; ) = E[ln N H (z1 . . . zN ; )]
(2.124)
l’-entropie de l’ensemble des fonctions bornées Q(z, f ), f ∈ H.
On a donc des définitions semblables au cas des fonctions indicatrices, après s’être
ramené au maillage de la “projection” de l’espace d’hypothèses sur les données. On a
également une condition nécessaire et suffisante de convergence uniforme similaire.
Théorème 3 (CNS de CV uniforme - cas continu). Pour s’assurer la convergence uniforme
(à deux côtés)
P
Z
!
N
1 X
Q(zi , f ) > −→ 0
sup Q(z, f )dP (z) −
N →∞
N
f ∈H (2.125)
i=1
sur l’ensemble des fonctions bornées Q(z, f ), f ∈ H, il est nécessaire et suffisant que :
∀ > 0,
H H (N ; )
−→ 0.
N →∞
N
(2.126)
2.3. L’APPROCHE DE VAPNIK
33
Démonstration. Nous l’admettrons, elle constitue le chapitre 15 de l’ouvrage de Vapnik [13].
Ainsi, pour traiter le cas continu l’idée est d’introduire un maillage et d’effectuer un
raisonnement discret, les mêmes remarques que pour le résultat sur les fonctions indicatrices
peuvent être faites. A partir de maintenant, nous retravaillons sur les fonctions indicatrices.
2.3.6
Les trois jalons de la théorie de l’apprentissage (selon Vapnik)
Premier jalon
Nous considérons à nouveau les fonctions indicatrices. Rappelons la définition de l’entropie de l’ensemble des fonctions indicatrices Q(z, f ), f ∈ H :
H H (N ) = E[ln N H (z1 . . . zN )] avec
N H (z1 . . . zN ) = Card
T
Q(z1 , f ) . . . Q(zN , f )
(2.127)
,f ∈ H
.
(2.128)
La condition nécessaire et suffisante de convergence uniforme (et donc de consistance stricte
du principe de minimisation du risque empirique) est comme nous l’avons vu :
H H (N )
−→ 0.
N N →∞
(2.129)
Cette équation est le premier jalon : toute machine minimisant le risque empirique devrait
la satisfaire (sinon, le principe de l’ERM ne serait pas pertinent).
Deuxième jalon
Introduisons deux nouvelles notions, toujours liées au cardinal de l’espace d’hypothèses
“projeté” sur les données.
Définition 11 (Entropie recuite). L’entropie recuite (ou annealed entropy) est définie par :
H
Han
(N ) = ln E[N H (z1 . . . zN )] .
(2.130)
Définition 12 (Fonction de croissance). La fonction de croissance (ou growth function)
est définie par :
GH (N ) = ln
sup
z1 ...zN
N H (z1 . . . zN )
.
(2.131)
Nous avons un lien assez direct entre entropie, entropie recuite et fonction de croissance.
Proposition 12. Nous avons les inégalités suivantes :
H
H H (N ) ≤ Han
(N ) ≤ GH (N )
(2.132)
Démonstration. La seconde inégalité est triviale et la première est une conséquence de
l’inégalité de Jensen (si f convexe et X une variable aléatoire d’espérance finie, alors
f (E[X]) ≤ E[f (X)]).
34
CHAPITRE 2. APPRENTISSAGE STATISTIQUE
H
Le premier jalon ( H N(N ) −→ 0) est une CNS pour la pertinence (stricte) du principe
N →∞
de minimisation du risque empirique, mais il ne nous dit rien à propos de la vitesse de
convergence du risque R(fN ) vers le risque minimal R(f0 ). Il est possible que le taux
de convergence asymptotique soit arbitrairement lent, bien que le principe de l’ERM soit
pertinent. La question est donc : sous quelles conditions le taux de convergence asymptotique est-il rapide ? Avant d’y répondre, il est nécessaire de spécifier ce que l’on entend par
convergence rapide.
On dit que le taux de convergence asymptotique est rapide si :
∃C > 0, ∃N0 > 0|∀N > N0 ,
P (R(fN ) − R(f0 ) > ) ≤ exp(−2 N C).
(2.133)
On voit donc que les inégalités de concentration sont un outil pour la convergence rapide.
L’entropie recuite fournit une condition suffisante de convergence rapide (savoir si c’est
également une condition nécessaire est une question de recherche ouverte).
Théorème 4 (CS de CV rapide). Une condition suffisante de convergence rapide est :
H (N )
Han
−→ 0.
N N →∞
(2.134)
Démonstration. Nous admettons ce résultat.
C’est le deuxième jalon de la théorie de l’apprentissage. Notons qu’étant donné le
lien entre entropie et entropie recuite, c’est évidemment également une condition suffisante
pour la convergence uniforme et donc la pertinence stricte du principe de l’ERM.
Troisième jalon
H déLes deux premiers jalons sont distribution-dépendants. En effet, H H (N ) et Han
pendent de P . On peut se demander sous quelles conditions le principe de l’ERM est strictement pertinent pour toute distribution P . En effet, on souhaite construire des algorithmes
d’apprentissage pouvant résoudre plusieurs problèmes différents (c’est-à-dire pouvant traiter différentes mesures de probabilité P ). Autrement dit, alors qu’on a le choix de l’espace
d’hypothèse H, la distribution, elle, est imposée par le problème.
La fonction de croissance fournit un tel résultat.
Théorème 5. La condition nécessaire et suffisante de pertinence stricte pour toute mesure
P (et condition suffisante pour une convergence rapide) est :
GH (N )
−→ 0.
N N →∞
(2.135)
Démonstration. Nous admettons ce résultat. Le caractère suffisant de cette condition pour
H (N ) ≤ GH (N ).
la convergence rapide vient de Han
C’est le troisième jalon de la théorie de l’apprentissage.
2.3. L’APPROCHE DE VAPNIK
35
Pour résumer
Pour résumer, nous avons :
H H (N )
| {z }
CNS pert. stricte, P fixe
H
Han
(N )
≤
| {z }
CS CV rapide, P fixe
GH (N )
≤
(2.136)
| {z }
CNS pert. stricte et CS CV rapide ∀P
On a donc des mesures de la “richesse” d’un espace d’hypothèses moins contraignantes que
le cardinal, mais elles dépendent toujours de N , la taille de la base d’entraînement (GH (N )),
H (N )). Les résultats associés sont intéressants d’un point
voire de la densité P (H H (N ) et Han
de vue théorique, moins d’un point de vue pragmatique (comment s’assurer en pratique que
les jalons sont effectivement vérifiés ?). On peut alors se demander s’il n’est pas possible
d’avoir une mesure plus “générique” de la richesse d’un espace d’hypothèses.
2.3.7
La dimension VC (Vapnik-Chervonenkis)
On cherche donc à mesure la richesse de H, de façon générique c’est-à-dire notamment
indépendamment de la distribution P . Pour cela, on s’intéresse à la fonction de croissance
(base du troisième jalon, qui est le seul qui permette de s’affranchir de la distribution), qui
présente une structure particulière, précisée par le théorème suivant et illustré figure 2.8.
Théorème 6 (Vapnik & Chervonenkis / Sauer / Shelah). La fonction de croissance d’un
ensemble de fonctions indicatrices Q(z, f ), f ∈ H, satisfait nécessairement l’une des deux
conditions :
1. soit GH (N ) est linéaire,
GH (N ) = N ln 2,
∀N ∈ N∗ ;
(2.137)
2. soit GH (N ) est sous-logarithmique à partir d’un certain rang,

= N ln 2
GH (N )
≤ h 1 + ln N
h
si N ≤ h
si N > h
,
(2.138)
où h est le plus grand entier tel que GH (N ) = N ln 2.
Démonstration. Nous admettons ce résultats, qui peut comme les autres se trouver dans [13].
La fonction de croissance GH (N ) est donc soit linéaire, soit sous-logarithmique, cette
structure particulière est à la base de la notion de dimension VC.
Définition 13 (dimension VC). Si la fonction de croissance est telle que donnée par la
condition (2.138), alors h est appelée dimension VC de l’ensemble des fonctions indicatrices
Q(z, f ), f ∈ H. Si la fonction de croissance est linéaire, la dimension VC est infinie.
La dimension VC est donc un concept lié à l’espace d’hypothèse mais indépendant
du problème (de la distribution). On lie facilement le comportement asymptotique de la
fonction de croissance à la dimension VC,
GH (N )
−→ 0 ⇔ h < ∞,
N N →∞
(2.139)
36
CHAPITRE 2. APPRENTISSAGE STATISTIQUE
Figure 2.8 – Croissance de la fonction GH (N ).
autrement dit une condition nécessaire et suffisante de pertinence stricte pour toute distribution P et une condition de convergence rapide, également pour toute distribution P , est
que la dimension VC de l’espace d’hypothèses H soit finie. La dimension VC est donc un
concept important, qui permet de caractériser un espace d’hypothèses (c’est la “généralisation” du cardinal dont nous discutons depuis un moment). Avant de l’illustrer à l’aide de
quelques exemples, nous en donnons une définition alternative.
Définition 14 (VC dimension -définition équivalente-). La dimension VC d’un ensemble
de fonctions indicatrices Q(z, f ), f ∈ H, est le nombre maximum h de vecteurs z1 . . . zh
qui peuvent être séparés de 2h façons différentes par les fonctions Q(z, f ) (pulvérisés shattered- par ce ensemble de fonctions). Si la pulvérisation est possible ∀N , la dimension
VC est infinie.
Etudions à présent quelques exemples de dimension VC. Soit H l’espace des séparateurs
linéaires dans le plan, exemple déjà illustré figure 2.5 page 29. Avec un point, il est évident
que 2 = 21 séparations sont possibles. Avec deux points, quelles que soient leurs dispositions,
il y a 4 = 22 séparations possibles. Avec trois points, s’ils ne sont pas alignés comme sur
l’exemple de la figure 2.5 au milieu, toutes les 8 = 23 séparations sont possibles. Par contre,
si l’on considère quatre points, il existe des séparations impossibles. Par exemple, sur la
figure 2.5 droite, il existe des séparations impossibles comme z1 = z3 = 0 et z2 = z4 = 1.
Dans ce cas, le nombre de séparations possibles est strictement inférieur à 24 . La dimension
VC est donc égale à 3. Cet exemple est généralisable : si l’on considère H l’ensemble de
séparateurs linéaires dans Rn , sa dimension VC est égale à n + 1.
On pourrait donc penser à partir de cet exemple que la dimension VC est liée aux
nombres de paramètres à apprendre. Cela est vrai quand la dépendance à ces paramètres
est linéaire, mais faux dans le cas général. Pour s’en convaincre, considérons l’espace d’hypothèses illustré figure 2.9 et défini par :
H=
nl
m
o
(sin(tx))+ , t ∈ R .
(2.140)
Avec un tel espace de fonction, il est possible de pulvériser tout ensemble fini de points de
R (il suffit de choisir t suffisamment grand). La dimension VC de cet espace d’hypothèses
est donc infinie, bien qu’il n’y ait qu’un paramètre libre.
Avant d’étudier les bornes sur le risque basées sur la dimension VC, faisons une petite
digression sur le cas continu.
2.3. L’APPROCHE DE VAPNIK
37
Figure 2.9 – Un seul paramètre et dimension VC infinie.
Définition 15 (Dimension VC pour les fonctions à valeurs réelles). Soit Q(z, f ), f ∈ H,
un ensemble de fonctions à valeures réelles bornées par deux constantes a et A,
∀z, ∀f ∈ H,
a ≤ Q(z, f ) ≤ A.
(2.141)
On construit l’ensemble des fonctions indicatrices
I(z, f, β) = Γ(Q(z, f ) − β),
f ∈H
(2.142)
où
a<β<A
(2.143)
est une constante et
(
Γ:u→
0
1
si u < 0
sinon
(2.144)
est la fonction de Heavyside. La dimension VC des fonctions à valeurs réelles Q(z, f ),
f ∈ H, est définie comme étant la dimension VC des fonctions indicatrices I(z, f, β),
f ∈ H, β ∈]a, A[.
Comme précédemment, les définitions sont étendues au cas continu en se ramenant au
cas discret. Considérons par exemple la dimension VC de l’ensemble des fonctions linéaires,
c’est-à-dire de la forme
Q(z, f ) = αT z + b, z ∈ RN .
(2.145)
La dimension VC de cet ensemble est n + 1, c’est une conséquence directe de l’exemple précédent (séparateurs linéaires de Rn pour les fonctions indicatrices), en notant que remplacer
b par b − β ne change rien.
2.3.8
Une borne sur le risque
Nous avons donné précédemment des bornes sur le risque réel en fonction du risque
empirique dans le cas où le cardinal de H est fini, voire au plus dénombrable. Nous allons
étendre ces résultats à une borne qui dépend de la dimension VC, mesure plus générale de
la richesse d’un espace d’hypothèses.
38
CHAPITRE 2. APPRENTISSAGE STATISTIQUE
Théorème 7 (Vapnik-Chervonenkis). Soit 0 < δ ≤ 1, avec une probabilité d’au moins
1 − δ, on a
s
GH (2N ) + ln 2δ
∀f ∈ H, R(f ) ≤ RN (f ) + 2 2
.
(2.146)
N
Démonstration. Pour montrer ce résultat, nous allons borner la quantité
!
P
sup (R(f ) − RN (f )) > (2.147)
f ∈H
Z
=P
sup
f ∈H
N
1 X
Q(z, f )dP (z) −
Q(zi , f )
N i=1
!
!
> ,
(2.148)
l’idée étant bien sûr d’utiliser la “projection” de l’espace d’hypothèses sur les données. En
effet, si l’on considère la quantité
1 X
Q(zi , f ),
N f ∈H
(2.149)
on ne doit pas passer en revue Card(H) possibilités (lorsque le cardinal a un sens), mais
seulement N H (z1 . . . zN ) possibilités, quantité qui est finie (majorée par 2N ). On pourrait
donc conclure en utilisant la borne sur l’union d’événements, comme nous l’avons déjà
fait. Toutefois, nous avons également une dépendance à R, le risque réel, les choses ne
sont donc pas si simples. Heureusement, il est possible de s’en sortir grâce au lemme dit
0 (f )
de symétrisation. L’idée est de remplacer le vrai risque R(f ) par une estimation RN
calculé sur un jeu indépendant de données. C’est un astuce mathématique, il n’y a pas
besoin d’avoir plus de données ; ce jeu indépendant est appelé échantillon “virtuel” ou
”fantôme” (ghost sample).
0 un échantillon fantôme, indépendant des données
Lemme 2 (symétrisation). Soit z10 . . . zN
z1 . . . zN . Soit
N
1 X
0
RN
(f ) =
Q(zi0 , f )
(2.150)
N i=1
le risque empirique associé. Alors on a :
∀ > 0 tel que N 2 ≥ 2
(2.151)
!
P
sup (R(f ) − RN (f )) > f ∈H
!
≤ 2P
0
sup RN
(f ) − RN (f ) >
f ∈H
.
2
(2.152)
Démonstration. Notons tout d’abord que de façon générale, nous avons (rappelons que chi
est la fonction caractéristique) :
P (X > t) = E[χ{X>t} ].
(2.153)
sup (R(f ) − RN (f )) = R(gN ) − RN (gN ).
(2.154)
Notons gN la fonction qui vérifie
f ∈H
Bien sûr, gN dépend de z1 . . . zN . Notons également qu’on a de façon générale :
si A ∧ B ⇒ C, alors χ{A∧B} ≤ χ{C} .
(2.155)
2.3. L’APPROCHE DE VAPNIK
39
Retournons à gN et aux risques :
0 (g )≤ } = χ{R(g )−R (g )>}∧{R0 (g )−R(g )>− }
χ{R(gN )−RN (gN )>} χ{R(gN )−RN
N
N
N N
N
N N
2
2
0 (g )−R (g )> } .
≤ χ{RN
N
N N
2
(2.156)
(2.157)
Moyennons cette inégalité par rapport à l’échantillon fantôme :
0 (g )≤ } ] ≤ Ez 0 ...z 0 [χ{R0 (g )−R (g )> } ]
χ{R(gN )−RN (gN )>} Ez10 ...zN0 [χ{R(gN )−RN
(2.158)
N
N N
1
N
N N
2
2
0
0
⇔ χ{R(gN )−RN (gN )>} P 0 (R(gN ) − RN
(gN ) ≤ ) ≤ P 0 (RN
(gN ) − RN (gN ) > ). (2.159)
2
2
0 (indépendance du jeu fantôme par
Notons que gN dépend z1 . . . zN , mais pas de z10 . . . zN
rapport au jeu initial), on peut donc appliquer l’inégalité de Bienaymé Tchebichev :
0
P 0 (R(gN ) − RN
(gN ) > ) ≤
2
1
N
Var(gN )
2
2
≤
1
.
N 2
(2.160)
La dernière inégalité vient du fait que comme gN prend ses valeurs dans {0, 1}, on a
nécessairement Var(gN ) ≤ 14 . On peut inverser cette probabilité :
1
0
P 0 (R(gN ) − RN
(gN ) ≤ ) ≥ 1 −
.
2
N 2
(2.161)
En réinjectant cette inégalité, on obtient donc :
χ{R(gN )−RN (gN )>} 1 −
1
N 2
0
≤ P 0 (RN
(gN ) − RN (gN ) > ).
2
(2.162)
Moyennons ensuite par rapport à z1 . . . zN :
1
Ez1 ...zN [{χR(gN )−RN (gN )> }] 1 −
N 2
0 (g )−R (g )> } ],
≤ Ez1 ...zN z10 ...zN0 [χ{RN
N
N N
2
(2.163)
soit :
1
0
1 P (RN (gN ) − RN (gN ) > 2 )
1 − N 2
0
≤ 2P (RN
(gN ) − RN (gN ) > )
2
0
≤ 2P (sup (RN (f ) − RN (f )) < )
2
f ∈H
P (R(gN ) − RN (gN ) > ) ≤
(2.164)
(2.165)
(2.166)
Ceci montre le lemme.
On peut donc montrer l’inégalité, cela revient principalement à utiliser le lemme de
40
CHAPITRE 2. APPRENTISSAGE STATISTIQUE
symétrisation :
!
sup (R(f ) − RN (f )) > P
(2.167)
f ∈H
≤ 2P
0
sup RN
(f ) − RN (f ) >
2
f ∈H
!
(2.168)
d’après le lemme de symétrisation


= 2P 
0
RN
(f ) − RN (f ) > 
2
sup
f ∈Qz
0
0
1 ...zN z1 ...zN
(2.169)
en considérant la “projection” sur les données
0
0
≤2
sup
N H (z1 . . . zN z10 . . . zN
)P (RN
(f ) − RN (f ) > )
0
2
z1 ...zN z10 ...zN
(2.170)
car P (A ∪ B) ≤ P (A) + P (B)
≤4
N
sup
0
z1 ...zN z10 ...zN
H
N 2
−
8
0
(z1 . . . zN z10 . . . zN
) exp
!
(2.171)
en utilisant Chernoff.
En posant δ le membre de droite, en isolant puis en inversant, on retrouve le résultat tel
qu’énoncé.
H
Notons que cette démonstration prouve également que G N(N ) est une condition suffisante de convergence rapide et de pertinence. On peut déduire un corollaire immédiat de
ce théorème, en considérant plutôt la dimension VC.
Corollaire 2. Soit h la dimension de Vapnik-Chervonenkis, soit N ≥ h, avec une probabilité d’au moins 1 − δ on a :
s
∀f ∈ H,
R(f ) ≤ RN (f ) + 2
2
N
2eN
h ln
h
2
δ
+ ln
(2.172)
Démonstration. Immédiat d’après la première définition de la dimension VC.
Il existe pléthore d’autres bornes, nous nous contenterons de celle-ci.
2.3.9
Une (courte) introduction au principe de minimisation structurelle
du risque
Dans cette section nous donnons une brève introduction au principe de minimisation
structurelle du risque, ou Structural Risk Minimization (SRM). Rappelons la borne sur le
risque réel :
v
∀f ∈ H,
u
u ln 2e + ln N
2
2
h
R(f ) ≤ RN (f ) + 2t2
+
ln
N
h
N
δ
(2.173)
Si le rapport Nh est grand, le second terme est petit, minimiser le risque empirique est raisonnable. Par contre, si ce rapport est petit, le second terme peut être grand et minimiser
le risque empirique ne garantit past de minimiser le risque réel. L’idée de la minimisation
2.3. L’APPROCHE DE VAPNIK
41
structurelle du risque est de minimiser la borne entière en jouant à la fois sur le risque empirique et sur la structure (c’est une approche rigoureuse du problème de sur-apprentissage).
En effet, c’est souvent N qui est imposé.
On suppose ici que l’ensemble S = {Q(z, f ), f ∈ H} est muni d’une structure, c’est-àdire que S est composé de sous-ensembles
Sk = {Q(z, f ), f ∈ Hk }
tels que S1 ⊂ S2 ⊂ · · · ⊂ Sk ⊂ . . . et S =
(2.174)
[
Sj .
(2.175)
k
En conséquence, on a la croissance des dimensions VC associées :
h1 ≤ h2 ≤ · · · ≤ hk ≤ . . .
(2.176)
Le principe de minimisation du risque structurel consiste donc à choisir à la fois Hk et
fN ∈ Hk de façon à minimiser toute la borne.
On peut considérer comme exemple le problème de régression polynomiale. Supposons
disposer de cinq points, observations bruitées d’un modèle génératif d’ordre 2 (voir par
exemple la figure 1.2). La question est de savoir comment choisir le degré du polynôme pour
effectuer la régression. Si l’on note Hk l’ensemble des polynômes de degré k, la dimension VC
k
(dénombrement du nombre de monômes pour un polynôme de degré k de n
associée est Cn+k
variables). Plus k sera grand, plus le risque empirique associé sera petit (voir nul). Appliquer
le principe de minimisation structurelle du risque permet d’éviter le sur-apprentissage en
évitant les modèles trop riches.
Pourtant, cela ne nous dit rien sur le risque
R(f0k ) − R∗ , où f0k = argmin R(f ),
(2.177)
f :Q(z,f )∈Sk
qui peut croître. En effet, on contrôle mieux l’erreur d’estimation (la variance), mais avec
un risque d’augmenter l’erreur d’approximation (biais inductif), sur laquelle on ne peut
de toute façon pas dire grand chose a priori. C’est une forme de compromis entre biais et
variance, qui apparaît également dans d’autres domaines.
Pour résumer
Nous avons introduit la théorie de l’apprentissage statistique telle que vue par Vapnik.
Nous avons notamment vu que la pertinence stricte du principe de minimisation du risque
empirique nécessitait de faire systématiquement une analyse dans le pire des cas (convergence uniforme). La dimension de Vapnik-Chervonenkis permet de mesurer la richesse d’un
espace d’hypothèses donné, de façon très pragmatique, et elle est également un outil pour
l’analyse en échantillon fini de l’ERM. Nous avons traité le cas des fonctions indicatrices
et donné quelques pistes pour le cas réel. Cependant, d’autres approches sont possibles,
d’autres mesures de la richesse d’un espace d’hypothèses envisageable. Nous allons en voir
une.
42
CHAPITRE 2. APPRENTISSAGE STATISTIQUE
2.4
2.4.1
D’autres approches sont possibles : l’approche de Cucker
et Smale
Cadre de travail
Cucker et Smale s’intéressent au cas de la régression, les fonctions considérées sont donc
à valeurs réelles. On se donne donc :
– un générateur aléatoire de vecteurs x, tirés selon P (x), distribution fixe mais inconnue ;
– un oracle, qui pour x tire y ∈ R = Y selon P (y|x), distribution également fixe mais
inconnue ;
– un espace d’hypothèses H = {f : X → Y }.
De plus, nous nous restreignons à la fonction de perte `2 : L(y, f (x)) = (y − f (x))2 . Comme
d’habitude, on cherche à minimiser le risque réel, de minimiseur f0 :
Z
R(f ) =
(y − f (x))2 dP (x, y),
f0 = argmin R(f ).
(2.178)
f ∈H
Cependant le risque réel n’est pas accessible, les distributions étant inconnues, on doit
donc se reposer sur les données {(xi , yi )1≤i≤N }, i.i.d. et échantillonnées selon P (x, y) =
P (y|x)P (x). Cela donne accès au risque empirique, de minimiseur fN :
N
1 X
RN (f ) =
(yi − f (xi ))2 ,
N i=1
fN = argmin RN (f ).
(2.179)
f ∈H
Le problème posé est donc le même que celui de Vapnik, mais le cadre est un peu plus
restrictif (régression en considérant une perte `2 ) et l’approche est différente (on utilisera
une autre mesure de la richesse d’un espace d’hypothèses, à savoir le nombre de couverture,
ce qui modifie l’analyse).
2.4.2
Notations et rappels
Rappelons que le risque réel est une espérance :
Z
R(f ) =
(y − f (x))2 dP (x, y) = E[(y − f (x))2 ] = E[Q(z, f )].
(2.180)
Nous pouvons définir une variance associée, qui sera utile plus tard :
σ 2 (f ) = E[Q2 (z, f )] − (E[Q(z, f )])2
Z
=
(2.181)
Z
(y − f (x))4 dP (x, y) − ( (y − f (x))2 dP (x, y))2 .
(2.182)
Notons fP l’espérance conditionnelle,
fP (x) = E[Y |X = x] =
Z
ydP (y|x),
(2.183)
nous avons déjà montré au début du cours que :
Z
R(f ) =
(f (x) − fP (x))2 dP (x, y) + R(fP ).
(2.184)
2.4. L’APPROCHE DE CUCKER ET SMALE
43
Le terme R(fP ) ne dépend pas de f , c’est donc une borne inférieure du risque ; R(fP ) représente en quelque sorte le conditionnement de l’oracle, ou encore l’incertitude intrinsèque
de l’oracle, qui ne peut pas être réduite.
Nous avons également vu la décomposition du risque réel du minimiseur empirique sous
forme d’une somme biais/variance :
R(fN ) − R∗ = R(fN ) − R(f0 ) + R(f0 ) − R∗
|
{z
variance
}
|
{z
(2.185)
}
biais inductif
Le terme de biais inductif dépend de l’espace d’hypothèse H, mais pas des données. Le
terme de variance, au contraire, est complètement lié aux données, c’est sur lui que nous
allons travailler.
Rappelons également l’inégalité de Bernstein. Soient X1 . . . Xn des variables aléatoires
réelles i.i.d., de moyenne µ et de variance σ 2 , et telles que |Xi − µ| ≤ M presque sûrement.
Alors, ∀ > 0, nous avons :
P


!
n
1 X
2
n
 .
Xi − µ ≥ ≤ 2 exp − n
2
2 σ + 1M
i=1
(2.186)
3
Dans la suite de cette section, nous allons borner le terme
P (sup |RN (f ) − R(f )| > )
(2.187)
f ∈H
en utilisant l’inégalité de concentration de Bernstein et une mesure de la richesse de l’espace
d’hypothèses appelé nombre de couverture.
2.4.3
Nombre de couverture (covering number)
Définition 16 (Nombre de couverture). Soit S un espace métrique et s > 0. Le nombre
de couverture N (S, s) est le nombre minimal l ∈ N tel qu’il existe l boules de rayon s qui
couvrent S. Si S est un compact, le nombre de couverture est nécessairement fini.
C’est cette quantité, N (S, s), que nous allons utiliser comme mesure de la richesse de
H pour fournir des bornes sur le risque réel. Mais avant, nous en donnons un exemple dans
un cas simple. Considérons comme espace d’hypothèses le cas usuel d’une représentation
paramétrique linéaire, à laquelle on ajoute une contrainte sur la norme infinie :
H = {fw : x →
p
X
wi φi (x), kfw k∞ ≤ R}.
(2.188)
i=1
Il est clair que H ⊂ BR , où BR est la boule de rayon R de Rp . Nous allons estimer N (BR , η).
Proposition 13 (Nombre de couverture d’une boule). Soit
BR = {x ∈ Rp : kxk ≤ R},
(2.189)
4R
.
η
(2.190)
on a :
ln N (BR , η) ≤ p ln
44
CHAPITRE 2. APPRENTISSAGE STATISTIQUE
Démonstration. Commençons par définir quelques nombres d’analyse fonctionnelle. Soit S
un espace métrique et k ≥ 1, nous définissons :
k (S) = inf { > 0 : ∃ des boules fermées D1 . . . Dk de rayon couvrant S}
(2.191)
ϕk (S) = sup {δ > 0 : ∃x1 . . . xk+1 ∈ S : ∀i 6= j, d(xi , xj ) > 2δ} .
(2.192)
On peut noter immédiatement que
k (S) ≤ η ⇔ N (S, η) ≤ k
(2.193)
et que pour R > 0 (en notant RS = {Rx : x ∈ S} la dilatation de S) :
k (RS) = Rk (S).
(2.194)
Pour montrer le résultat qui nous intéresse (borne supérieure pour le nombre de couverture
d’une boule), nous avons besoin du lemme suivant.
Lemme 3. Les deux séries d’inégalités suivantes sont vraies :
1. encadrement de k par ϕk ,
∀k ≥ 1,
ϕk (S) ≤ k (S) ≤ 2ϕk (S);
(2.195)
2. encadrement de k par k, pour B1 la boule unité,
∀k ≥ 1,
k
− p1
≤ k (B1 ) ≤ 4(k + 1)
− p1
.
(2.196)
Démonstration. Intéressons nous au premier jeu d’inégalités. Supposons que x1 . . . xk+1
soient les points qui vérifient le supremum induit par la définition de ϕk (S) :
– k (S) définit k boules recouvrant S. On a nécessairement que i 6= j ⇒ d(xi , xj ) ≤
2k (S), sinon il n’y aurait pas recouvrement. D’autre part, par définition, i 6= j ⇒
d(xi , xj ) > 2ϕ(S). Ceci montre que k (S) ≥ ϕk (S) ;
– si on prend des boules D1 . . . Dk , de centres xi , de rayon 2ϕ(S), on recouvre forcément
S, donc k (S) ≤ 2ϕk (S).
Intéressons nous maintenant au second jeu d’inégalités. Notons tout d’abord que ϕk (B1 ) ≤
1, ∀k ∈ N. Choisissons ρ tel que ρ < ϕk (B1 ). Il existe x1 . . . xk+1 tels que d(xi , xj ) >
2ρ pour 1 ≤ i 6= j ≤ k + 1. Posons Dj = xj + ρB1 , j = 1 . . . k + 1. Il est clair que
i 6= j ⇒ Di ∩ Dj = ∅. Comme on travaille dans Rp , il existe une mesure ν, invariante
aux translations et homogène de degré p respectivement aux homotéties (i.e., ν(λB) =
λp ν(B)), typiquement ν la surface en deux dimensions, le volume en trois dimensions ou
plus généralement la mesure euclidienne. Nous avons que Dj ⊂ B2 . En effet, pour x ∈ Dj ,
nous avons kxk ≤ kx−xj k+kxj k ≤ ρ+1 < 2. En conséquence, cela reste vrai pour l’union :
Sk+1
i=1 Di ⊂ B2 . Or, comme de plus les boules sont disjointes, nous avons :
k+1
X
i=1
ν(Di ) ≤ ν(B2 ) ⇒
k+1
X
ρp ν(B1 ) ≤ 2p ν(B1 )
(2.197)
i=1
⇒ (k + 1)ρp ≤ 2p
⇒ ρ ≤ 2(k + 1)
− p1
(2.198)
, vrai ∀ρ < ϕk (B1 ),
or k (B1 ) ≤ 2ϕk (B1 ), donc k (B1 ) ≤ 4(k + 1)
− p1
.
(2.199)
(2.200)
2.4. L’APPROCHE DE CUCKER ET SMALE
45
Reste à montrer la dernière inégalité. Soit > k (B1 ). Il existe D1 . . . Dk , de rayon ,
S
couvrant B1 , donc B1 ⊂ ki=1 Di , d’où :
ν(B1 ) ≤
k
X
ν(Di ) = kp ν(B1 ) ⇒ k
− p1
≤ ,
(2.201)
i=1
donc k (B1 ) ≥ k
−1
p
.
(2.202)
Le lemme étant montré, nous pouvons retourner au résultat sur le nombre de couverture
qui en est une application assez directe. Posons :
k=
4R
η
p
−1 .
(2.203)
Nous avons :
k+1≥
4R
η
p
η
R
⇒ k (BR ) ≤ η ⇔ N (BR , η) ≤ k,
⇒ 4(k + 1)
− p1
≤
(2.204)
(2.205)
p
or, par définition de k, nous avons aussi k ≤ ( 4R
η ) , ce qui montre le résultat :
ln N (BR , η) ≤ p ln
2.4.4
4R
.
η
(2.206)
Quelques bornes de couverture
Nous allons à présent donner quelques bornes sur l’erreur entre le risque réel et le
risque empirique, mais qui utilisent le nombre de couverture plutôt que la dimension VC.
Commençons par la borne la plus simple, pour f ∈ H fixée.
Théorème 8. Soit f ∈ H et M > 0 tel que |f (x) − y| ≤ M presque sûrement. Soit σ 2
définie par
σ 2 = σ 2 (f ) = E[Q2 (z, f )] − (E[Q(z, f )])2 .
(2.207)
Alors, ∀ > 0, on a

N 2

 .
P (|R(f ) − RN (f )| ≤ ) ≥ 1 − 2 exp − 2 σ 2 + 13 M 2 (2.208)
Démonstration. C’est un application directe de l’inégalité de concentration de Bernstein à
(y − f (x))2 .
Comme précédemment, ce résultat ne s’applique qu’à f ∈ H fixée. Mais on s’intéresse
également à fN , qui minimise le risque empirique, et qui est une variable aléatoire via
sa dépendance aux données. Nous avons vu qu’une condition suffisante pour que le principe de minimisation du risque empirique soit pertinent (au sens strict) était d’avoir une
convergence uniforme à deux côtés. Nous allons donc comme d’habitude chercher à borner
la quantité P (supf ∈H |R(f ) − RN (f )| ≤ ), c’est-à-dire faire l’analyse du pire cas.
46
CHAPITRE 2. APPRENTISSAGE STATISTIQUE
Théorème 9. Soit H compact. Supposons que ∀f ∈ H, |f (x) − y| ≤ M presque sûrement.
Notons
σ 2 = σ 2 (H) = sup σ 2 (f ).
(2.209)
f ∈H
Alors, ∀ > 0, on a :

!
P
sup |RN (f ) − R(f )| ≤ ≥ 1 − 2N (H,
f ∈H
N 2

 .
) exp − 8M
4 2σ 2 + 13 M 2 (2.210)
Démonstration. Notons
LN (f ) = R(f ) − RN (f ).
(2.211)
Une première étape est de borner |LN (f1 ) − LN (f2 )| pour deux fonctions f1 et f2 de H.
Lemme 4. Soient f1 , f2 telles que |fj (x) − y| ≤ M presque sûrement. Alors :
|LN (f1 ) − LN (f2 )| ≤ 4M kf1 − f2 k∞ .
(2.212)
Démonstration. Notons tout d’abord l’identité suivante :
(f1 (x) − y)2 − (f2 (x) − y)2 = (f1 (x) − f2 (x))(f1 (x) + f2 (x) − 2y).
(2.213)
Nous avons d’autre part que :
|R(f1 ) − R(f2 )| = |
=|
Z
Z
((f1 (x) − y)2 − (f2 (x) − y)2 )dP (x, y)|
(2.214)
(f1 (x) − f2 (x))(f1 (x) + f2 (x) − 2y)dP (x, y)|
(2.215)
≤ kf1 − f2 k∞
Z
|(f1 (x) − y) + (f2 (x) − y)|dP (x, y)
≤ kf1 − f2 k∞ 2M.
(2.216)
(2.217)
D’autre part, pour z1 . . . zN :
N
1 X
|RN (f1 ) − RN (f2 )| = | (f1 (xi ) − f2 (xi ))(f1 (xi ) + f2 (xi ) − 2yi )|
N i=1
≤ kf1 − f2 k∞
N
1 X
|f1 (xi ) − yi + f2 (xi ) − yi |
N i=1
≤ kf1 − f2 k∞ 2M.
(2.218)
(2.219)
(2.220)
Ainsi, nous avons :
|LN (f1 ) − LN (f2 )| = |R(f1 ) − RN (f1 ) − R(f2 ) + RN (f2 )|
(2.221)
≤ kf1 − f2 k∞ 4M.
(2.222)
2.4. L’APPROCHE DE CUCKER ET SMALE
47
Posons :
).
8M
Soient f1 . . . fl telles que les boules Dj de centre fj et de rayon
le lemme, ∀f ∈ Dj , nous avons :
l = N (H,
|LN (f ) − LN (fj )| ≤ 4M kf − fj k∞ ≤ 4M
(2.223)
8M
recouvrent H. D’après
= .
8M
2
(2.224)
Cela est vrai ∀z1 . . . zN et ∀f ∈ Dj , donc :
sup |LN (f )| ≥ ⇒ |LN (fj )| ≥ ,
2
f ∈Dj
(2.225)
et donc, pour j = 1 . . . l :
P ( sup |LN (f )| ≥ ) ≤ P (|LN (fj )| ≥ )
2
f ∈Dj

≤
(2.226)

2
2

2 exp − 2 σ 2 (fj ) + 31 M 2 2
N

N 2
(2.227)

 .
≤ 2 exp − 4 2σ 2 + 13 M 2 Et, par construction, nous avons H ⊂
P (sup |LN (f )| ≥ ) ≤
f ∈H
Sl
l
X
j=1 Dj ,
(2.228)
donc
P ( sup |LN (f )| ≥ )
j=1
(2.229)
f ∈Dj


N 2
 .
≤ N (H,
)2 exp − 8M
4 2σ 2 + 1 M 2 (2.230)
3
On a donc quelque chose de très similaire à Vapnik, mais avec une autre mesure de complexité. Remarquons qu’à partir d’ici, il est envisageable de déterminer le nombre minimum
d’exemples à utiliser pour garantir une qualité d’approximation donnée (sur |LN (fN )|) avec
une probabilité donnée (si le terme σ 2 n’est pas connu, comme c’est le cas généralement en
raison de sa dépendance à P (z), il peut être majoré). On saurait dès lors quantifier l’erreur
faite en utilisant le risque empirique plutôt que le risque réel.
On peut également se demander si fN est proche de f0 , en mesurant l’erreur R(fN ) −
R(f0 ) > 0.
Théorème 10. Soit H compact, tel qu’il existe M > 0, ∀f ∈ H, |f (x) − y| ≤ M presque
sûrement. Posons
σ 2 = σ 2 (H) = sup σ 2 (f ).
(2.231)
f ∈H
Alors, ∀ > 0, on a

P (R(fN ) − R(f0 ) ≤ ) ≥ 1 − N (H,
N 2

 .
)2 exp − 16M
8 4σ 2 + 13 M 2 (2.232)
48
CHAPITRE 2. APPRENTISSAGE STATISTIQUE
Démonstration. Nous avons un résultat sur |R(fN ) − RN (fN )| (car nous l’avons ∀f ∈ H,
et donc particulièrement pour fN ), il faut le lier à R(fN ) − R(f0 ).
Lemme 5. Soit H un compact. Soit > 0 et 0 < δ ≤ 1 tel que
!
P
sup |RN (f ) − R(f )| ≤ ≥ 1 − ,
(2.233)
f ∈H
alors on a :
P (R(fN ) − R(f0 ) ≤ 2) ≥ 1 − δ
(2.234)
Démonstration. Par hypothèse, avec probabilité d’au moins 1 − δ,
R(fN ) ≤ RN (fN ) + et aussi RN (f0 ) ≤ R(f0 ) + .
(2.235)
De plus, fN minimise RN sur H, donc nous avons
RN (fN ) ≤ RN (f0 ).
(2.236)
Ainsi, avec une probabilité d’au moins 1 − δ,
R(fN ) ≤ RN (fN ) + ≤ RN (f0 ) + ≤ R(f0 ) + 2,
(2.237)
R(fN ) − R(f0 ) ≤ 2.
(2.238)
et donc
En utilisant le lemme précédent avec
tenons le résultat.
2
combiné avec le théorème précédent, nous ob-
Notons que ce dernier lemme peu être aisément utilié pour étendre les bornes de Vapnik.
Chapitre 3
Apprentissage algorithmique
L’approche que nous avons adoptée jusqu’à présent a été de choisir un espace d’hypothèses puis de minimiser le risque empirique associé. Se pose alors la question de savoir
si cela a du sens, question que nous avons traitée dans le chapitre précédent. Nous avons
toujours supposé que le risque empirique pouvait effectivement être minimisé, bien que ce
soit souvent loin d’être trivial. Ceci relève du domaine de l’optimisation.
Le choix de l’espace d’hypothèses n’est pas anodin. D’une part, il est essentiel dans
le compromis entre biais et variance (l’apprentissage “par coeur” est mauvais, mais un
modèle trop simple induirait un biais inductif trop important). Plus encore, d’un point de
vue très pragmatique, il peut faire toute la différence entre une application réussie ou non
(beaucoup d’algorithmes d’apprentissage machine sont très sensibles au choix de l’espace
d’hypothèses, de très bons résultats peuvent être obtenus bien avant la borne théorique).
Cependant, à l’exception du principe de minimisation structurelle du risque exposé section 2.3.9, nous n’avons pas traité le choix de H. Idéalement, on souhaiterait l’apprendre,
le baser sur les données. Ce chapitre introduit un certain nombre d’approches dites nonparamétriques, où l’objectif n’est pas seulement de trouver la fonction dans l’espace d’hypothèses, mais également l’espace d’hypothèses lui-même. De fait, nous nous écartons du
cadre théorique développé jusqu’ici pour avoir une approche plus pragmatique, mais moins
unifiée. Ce sera l’occasion de passer en revue quelques approches classiques de l’apprentissage machine (mais aussi du traitement du signal, les deux domaines partageant énormément), comme les méthodes à noyau (kernel machines) ou encore la régularisation (et
particulièrement la régularisation `1 ).
3.1
3.1.1
Minimisation du risque empirique et régularisation
Minimisation du risque empirique
Vapnick nous donne des conditions sur l’espace d’hypothèses pour que le principe de
minimisation du risque empirique soit pertinent (essentiellement, que la dimension VC soit
finie). Il nous donne également des bornes sur l’erreur que l’on fait entre R(f ) et RN (f ),
avec forte probabilité (aussi entre R(f0 ) et RN (fN ), le résultat vu dans la section 2.4
s’adaptant facilement). Cependant, minimiser le risque empirique est loin d’être évident :
argmin
f ∈H
N
X
L(yi , f (xi )) =?
i=1
49
(3.1)
50
CHAPITRE 3. APPRENTISSAGE ALGORITHMIQUE
C’est (en partie) le rôle de l’apprentissage algorithmique. Nous allons nous intéresser à un
cas simple, la régression linéaire.
Un cas simple : régression linéaire
Supposons avoir un ensemble de couples entrée-sortie {(x1 , y1 ) . . . (xN , yN )}, qui peut
éventuellement augmenter avec le temps (apprentissage en ligne, à chaque instant i on
observe un nouveau couple (xi , yi )). On se donne un ensemble de p fonctions de base
φ1 . . . φp , telles que φi : X → Y = R. On note
T
φ(x) = φ1 (x) . . . φp (x)
.
(3.2)
Cette représentation est par exemple appropriée pour les réseaux RBF. On cherche un
modèle linéaire de la forme suivante :
ŷ = wT φ(x),
w ∈ Rp
(3.3)
= w1 φ1 (x) + · · · + wp φp (x),
(3.4)
de façon à minimiser un coût quadratique entre prédictions ŷi et observations yi :
RN (wT φ) =
N
1
1 X
(yi − wT φ(xi ))2 .
JN (w) =
N
N i=1
(3.5)
Une première solution est celle des moindres carrés. La fonction de coût JN (w) est
convexe, elle admet un unique minimum global que l’on peut déterminer analytiquement
en annulant son gradiant.
∇w JN (w) = 0 ⇔ wN =
N
X
T
φ(xi )φ(xi )
!−1 N
X
i=1
φ(xi )yi .
(3.6)
i=1
T
Plusieurs questions se posent. D’une part, que se passe-t-il si N
i=1 φ(xi )φ(xi ) n’est pas
inversible ? Ce cas de figure est probable si N est de l’ordre de p, voire plus grand (cas du
sur-apprentissage), nous y reviendrons. Une autre question qui se pose est de savoir ce qu’il
se passe si l’on ajoute un échantillon (xN +1 , yN +1 ), faut-il tout recalculer ?
Une seconde solution est celle des moindres carrés récursifs. On peut construire un
estimateur en ligne à partir de la solution des moindres carrés, principalement grâce au
lemme de Sherman-Morrison.
P
Lemme 6 (Sherman-Morrison). Soit A une matrice p×p inversible et u, v ∈ Rp . Supposons
de plus que
1 + v T A−1 u 6= 0,
(3.7)
alors :
(A + uv T )−1 = A−1 −
A−1 uv T A−1
.
1 + v T A−1 u
−1
T
−1
(3.8)
A
Démonstration. Notons X = (A + uv T ) et Y = A−1 − A1+vuv
T A−1 u . Il est suffisant de vérifier
que XY = Y X = I, ce qui est aisé (en notant bien que v T A−1 u est scalaire).
3.1. ERM ET RÉGULARISATION
51
L’intérêt de ce lemme est que si l’on connaît l’inverse d’une matrice, on peut calculer
facilement (en O(p2 )) l’inverse de sa perturbation de rang 1. Rappelons la solution des
moindres carrés :
!
wN =
N
X
φ(xi )φ(xi )
T
−1 N
X
i=1
Notons
PN =
N
X
φ(xi )yi .
(3.9)
i=1
!−1
T
et YN =
φ(xi )φ(xi )
N
X
φ(xi )yi .
(3.10)
i=1
i=1
On a trivialement :
YN = YN −1 + φ(xN )yN .
(3.11)
Grâce au lemme de Sherman-Morrison, nous avons :
PN = (PN−1−1 + φ(xN )φ(xN )T )−1
= PN −1 −
(3.12)
)T P
PN −1 φ(xN )φ(xN
N −1
.
T
1 + φ(xN ) PN −1 φ(xN )
(3.13)
Ainsi, nous pouvons retravailler wN , ce qui donne :
w
=
N
|{z}
(3.14)
estimation courante

wN −1
| {z }
+
estimation précédente
PN −1 φ(xN )


1 + φ(xN )T PN −1 φ(xN )
|
{z
− φ(xN )T wN −1  .
y
N
|{z}
observation
}
gain

|
|
{z
prédiction
{z

}
}
innovation
Ce type d’équation est appelé une équation de Widrow-Hoff : la nouvelle estimation est
l’ancienne estimation corrigée par un terme additif, ce dernier étant la multiplication d’un
gain (qui indique la direction de correction) par un terme d’innovation (qui est l’erreur
de prédiction, et est un terme d’amplitude). Notons que l’algorithme étant récursif, il faut
l’initialiser avec θ0 et P0 , c’est-à-dire mettre un a priori, aussi peut informatif soit-il. Pour
résumer, on a donc :

P
φ(xN )

K = 1+φ(x N)−1

TP

N
N −1
 N
φ(xN )
wN = wN −1 + KN yN − φ(xN )T wN −1
.
(3.15)



PN = PN −1 − KN 1 + φ(xN )T PN −1 φ(xN ) K T
N
Une troisième solution est d’effectuer une descente de gradient stochastique, appelée
LMS (Least-Mean Squares) dans ce cas particulier. Une descente de gradient stochastique
corrige les paramètres en fonction du gradient du dernier terme du coût empirique total,
pondéré par un taux d’apprentissage αn :
1
wN = wN −1 − αN ∇w (yN − φ(xN )T w)2 |w=wN −1 .
2
(3.16)
On retrouve une équation de Widrow-Hoff :
wN = wN −1 + αN φ(xN ) yN − φ(xN )T wN −1 .
|
{z
gain
}|
{z
innovation
}
(3.17)
52
CHAPITRE 3. APPRENTISSAGE ALGORITHMIQUE
On peut noter la ressemblance avec les moindres carrés récursifs, seuls les gains diffèrent,
ce qui induit toutefois des différences sensibles :
– les LSM sont moins coûteux que les moindres carrés récursifs (en O(p) plutôt que
O(p2 )) ;
– cependant, ils sont moins efficaces en terme d’échantillons (nécessite N plus grand
pour la même qualité d’approximation) et ils sont sensibles au choix du taux d’apprentissage 1 αN .
Autre exemple : perceptron multi-couche
A architecture fixée, un perceptron multi-couche (MLP) définit une paramétrisation
non-linéaire fw . La fonction de coût est :
JN (w) =
N
X
(yi − f (xi ))2 .
(3.18)
i=1
Malheureusement, les non-linéarités empêchent la résolution analytique. On peut toutefois
utiliser une descente de gradient (stochastique ou non, ici oui) :
1
wN = wN −1 − αN ∇w (yN − fw (xN ))2 |w=wN −1
2
= wN −1 + αN ∇w (fw (xN ))|w=wN −1 (yN − fwN −1 (xN )).
(3.19)
(3.20)
Cependant, même calculer le gradient est compliqué, d’où l’algorithme de rétropropagation du gradient (que nous ne détaillerons pas ici). Notons également que l’on n’a aucune
assurance d’atteindre un minimum global de la fonction de coût, toute l’analyse théorique
effectuée jusqu’ici ne tient a priori pas.
De façon générale
A espace d’hypothèses et fonction de perte donnés, la minimisation du risque empirique
est un problème d’optimisation à part entière, consulter un cours d’optimisation pour un
début de réponse.
3.1.2
Choix de l’espace d’hypothèses
Nous avons vu le principe de minimisation structurelle du risque section 2.3.9. Il suppose
S
de construire un espace d’hypothèses H = k Hk : H1 ⊂ . . . Hk . . . , de minimiser le risque
empirique pour chaque sous-structure, de calculer à chaque fois la borne correspondante,
pour enfin choisir un modèle. C’est potentiellement très difficile d’un point de vue pratique.
Une solution classique en apprentissage machine est la régularisation. L’idée sous-jacente
est d’ajouter un terme de pénalisation de la complexité de la solution au risque empirique :
JN (f )
| {z }
coût minimisé
=
RN (f )
| {z }
risque empirique
λ
|{z}
+
×
facteur de compromis
Ω(f )
.
(3.21)
| {z }
pénalisation de la complexité de f
De façon générale, la résolution dépend énormément du choix de RN et du choix de Ω.
2
1. Un taux d’apprentissage αN vérifiant
αN = ∞ et
αN
< ∞ garantie la convergence asymptotique
vers un minimum local de la descente de gradient stochastique (sous certaines conditions).
P
P
3.1. ERM ET RÉGULARISATION
53
Quelques exemples de pénalisation
Supposons que l’espace d’hypothèses H est tel que f soit paramétrée par w (même
linéairement), mais que H est très riche (c’est-à-dire de grande dimension VC, ou encore
avec plus de paramètres que d’exemples). Quelques exemples de pénalisation parmi les plus
classiques sont les suivants :
– pénalisation `2 :
Ω(fw ) = kwk22 =
p
X
wj2 ;
(3.22)
j=1
– pénalisation `1 (a pour avantage de promouvoir la parcimonie, mais n’est pas dérivable
partout) :
Ω(fw ) = kwk1 =
p
X
|wj |;
(3.23)
j=1
– régularisation `0 (c’est la vraie norme de la parcimonie, mais elle est difficile à prendre
en compte et induit une grande variabilité de l’estimateur associé) :
Ω(fw ) = kwk20 = Card ({j ∈ {1 . . . p} : wj 6= 0}) .
(3.24)
Un exemple simple : ridge regression
La ridge regression consiste à minimiser la somme d’une perte `2 avec une régularisation
`2 . Intéressons nous au cas linéaire :
JN (w) =
n
X
(yi − wT φ(xi ))2 + λkwk2 .
(3.25)
i=1
On peut trouver le minimum de cette fonction objectif en annulant le gradient :
∇w JN (w) = 0 ⇔ wN =
N
X
λ
φ(xi )φ(xi )T
I+
2
i=1
!−1 N
X
φ(xi )yi .
(3.26)
i=1
La régularisation force donc en quelque sorte le bon conditionnement du système à résoudre. Elle pénalise les solutions présentant de trop forts coefficients (kwk2 grand). D’une
certaine façon, c’est une restriction de l’espace d’hypothèses. L’espace d’hypothèses original est H = {fw : x → wT φ(x)}. Pour λ fixe, il existe un t > 0 tel que le nouvel espace
d’hypothèses soit H = {fw : s → wT φ(x), kwk2 ≤ t}. Notons également que le choix de λ
est problème-dépendant (il existe des arguments heuristiques et statistiques pour le choisir). Le lecteur attentif aura noté que les moindres carrés récursifs sont en fait une forme
de ridge regression avec θ0 = 0 et P0 = λ2 I. On peut également remarquer qu’avec cette
formulation, asymptotiquement λ n’a plus d’influence.
3.1.3
Vers les approches non-paramétriques
Pour les approches paramétriques, on se donne un espace d’hypothèses caractérisé par
un certain nombre de paramètres (comme un réseau RBF, un perceptron multi-couche,
etc.), puis on cherche à estimer ces paramètres en minimisant le risque empirique associé.
Pour les approches non-paramétriques, informellement on cherche à la fois l’espace
d’hypothèses et les coefficients qui caractérisent la solution :
54
CHAPITRE 3. APPRENTISSAGE ALGORITHMIQUE
– on peut chercher à construire l’espace d’hypothèses au fur et à mesure, en l’enrichissant selon certains critères ;
– on peut également se donner un espace d’hypothèses très riche et chercher à se restreindre à un sous-espace de H selon certains critères (c’est par exemple ce que fait
le principe du SRM).
Pour certaines approches, on part directement d’un risque empirique régularisé, comme
pour la régularisation `1 par exemple :
JN (w) =
N
X
(yi − wT φ(xi ))2 + λkwk1 .
(3.27)
i=1
Minimiser ce coût a pour effet de mettre des coefficients wj exactement à zéro, d’autant
plus que λ sera grand, donc le choix de paramètre libre caractérise la richesse maximum
du sous-espace dans lequel on souhaite travailler.
Pour d’autres approches, les algorithmes sont conçus selon certains principes, et on peut
montrer a posteriori qu’ils présentent des formes de régularisation. Les machines à vecteur
support (SVM pour Support Vector Machine) sont un tel exemple. Elles sont construites
selon le principe de maximisation des marges. Pour une base d’exemples {(xi , yi )1≤i≤N } et
un noyau K, l’espace d’hypothèses est :
H={
N
X
wi K(., xi ), w ∈ RN }.
(3.28)
i=1
En effet, tout point peut a priori être choisi comme vecteur support, même si peu le sont
en pratique. Donc l’espace est très riche. Notons k la fonction
k : x → K(x, x1 ) . . . K(x, xN )
T
∈ RN .
(3.29)
Une SVM pour la classification résout en fait (le montrer n’est pas trivial) :
JN (w) =
N X
1 − yi wt k(xi ) + λkwk22 .
i=1
+
(3.30)
C’est donc une perte SVM |.|+ avec une régularisation `2 , le paramètre λ étant à lier aux
variables d’ajustement (slack variables). Une SVM pour la régression résout :
JN (w) =
N X
yi − wT k(xi ) + λkwk2 .
i=1
(3.31)
C’est donc une perte -sensible |.| avec une régularisation `2 .
Pour d’autres approches, les algorithmes sont construits selon certains principes, mais
le lien à la régularisation n’est pas forcément évident. Nous allons présenter quelques approches non-paramétriques.
3.2
3.2.1
Quelques approches non-paramétriques
Kernel Recursive Least-Squares (KRLS)
L’algorithme KRLS est basé sur l’algorithme des moindres carrés récursifs que nous
rappelons. Considérons une paramétrisation de la forme
fˆα (x) = αT φ(x),
(3.32)
3.2. QUELQUES APPROCHES NON-PARAMÉTRIQUES
55
où α est un ensemble de paramètres et φ un ensemble de fonctions de base. Puis on minimise
le risque quadratique empirique associé :
RN (f ) =
N
1 X
(yi − αT φ(xi ))2 .
N i=1
(3.33)
Quelle est l’idée sous-jacente ? Dans le cas d’une relation linéaire entre entrées et sorties,
l’estimation et l’inférence sont aisées. Utiliser φ revient à projeter les données d’entrée dans
un espace de plus grande dimension, où l’on a plus de chance d’être linéaire. Soit φ(x) tel
que
φ : x ∈ X → φ(x) ∈ F,
(3.34)
où F est appelé le feature space (ou espace des caractéristiques), de dimension potentiellement très grande (grande devant N , le nombre d’exemples, voire infinie comme nous le
verrons plus tard). On définit une nouvelle base d’exemples {(φ(x1 ), y1 ) . . . (φ(xN ), yN )}
et on cherche une relation linéaire entre entrées transformées et sorties, c’est-à-dire une
estimation de la forme
fˆα (x) = hα, φ(x)i,
(3.35)
où h., .i est le produit scalaire de F.
Introduction des noyaux
On a α ∈ F, et F est potentiellement très grand, mais on peut se contenter d’une
réprésentation réduite (si N < dim(F)).
Proposition 14 (Représentation réduite). Pour minimiser l’erreur quadratique
N
X
(yi − hα, φ(xi )i)2 ,
(3.36)
i=1
il est suffisant de considérer
α=
N
X
wj φ(xj ).
(3.37)
j=1
Démonstration. Soit α ∈ F, ∃w1 . . . wN ∈ R, ∃α̃ ∈ (Vect(φ(x1 ) . . . φ(xN )))⊥ (complémentaire orthogonal) tels que
α=
N
X
wi φ(xi ) + α̃.
(3.38)
i=1
On a alors :
J(α) =
=
N
X
i=1
N
X
(yi − hα, φ(xi )i)2
(yi − h
i=1
= J(w).
N
X
wi φ(xi ), φ(xi )i)2 car hα̃, φ(xi )i = 0
(3.39)
(3.40)
i=1
(3.41)
56
CHAPITRE 3. APPRENTISSAGE ALGORITHMIQUE
Ainsi, il est suffisant de considérer la paramétrisation suivante :
fˆw (x) =
*N
X
+
wj φ(xj ), φ(x)
(3.42)
wj hφ(xj ), φ(x)i .
(3.43)
j=1
=
N
X
j=1
Cette représentation est à lier à la notion de noyau, grâce au théorème de Mercer.
Définition 17 (Noyau). Soit K : (x, s) ∈ X × X → K(x, s) ∈ R une fonction continue et
symétrique (K(x, s) = K(s, x)). On dit que K est définie non-négative si et seulement si
pour toute suite x1 . . . xn de X et tous réels c1 . . . cn on a
n X
n
X
K(xi , xj )ci cj ≥ 0.
(3.44)
i=1 j=1
On dit alors que K est un noyau.
Notons K̃ = (K(xi , xj ))1≤i,j≤n la matrice symétrique de taille n×n et c = c1 . . . cn
T
le vecteur de taille n, la condition est en fait que cT K̃c ≥ 0. Il faut donc que toute “matrice
extraite” soit positive. On peut voir un noyau comme la généralisation fonctionnelle de la
notion de matrice positive.
Théorème 11 (Mercer). Soit K un noyau. Définissons l’opérateur linéaire TK :
TK : ϕ ∈ RX → TK ϕ ∈ RX
avec TK ϕ : x ∈ X →
Z
X
(3.45)
K(x, s)ϕ(s)ds ∈ R.
(3.46)
L’opérateur TK étant linéaire, il admet une base orthonormée {ei }i de L2 (X) comme fonctions propres, de valeurs propres non négatives et décroissantes (λi )i . Alors :
K(x, s) =
∞
X
λj ej (x)ej (s).
(3.47)
j=1
Démonstration (piste). L’existence de la base orthonormée est une conséquence du théorème spectral. On pose
K0 (x, s) =
∞
X
λj ej (x)ej (s).
(3.48)
j=1
Nous avons :
Z
TK0 ϕ(x) =
K0 (x, s)ϕ(s)ds

Z
=
X
=
=
(3.49)
X
∞
X
j=1
∞
X
j=1
∞
X


λj ej (x)ej (s) ϕ(s)ds
(3.50)
j=1
Z
λj ej (x)
ej (s)ϕ(s)ds
λj ej (x)hej , ϕi.
(3.51)
(3.52)
3.2. QUELQUES APPROCHES NON-PARAMÉTRIQUES
57
Particulièrement :
TK0 ei (x) = λi ei (x) car (ei )i orthonormée,
(3.53)
soit TK0 = TK ,
(3.54)
donc K = K0 (les fonctions/valeurs propres caractérisent T ).
(3.55)
Corollaire 3 (Autre formulation). Soit K un noyau, il existe φ : X → F telle que
K(x, y) = hφ(x), φ(y)i.
(3.56)
Démonstration. En appliquant Mercer :
φ(x) =
√
λ1 e1 (x) . . .
√
λn en (x) . . .
T
.
Voici quelques exemples de noyaux :
– noyau gaussien :
1
K(x, y) = exp − (x − y)T Σ−1 (x − y) ,
2
(3.57)
(3.58)
dans ce cas F est de dimension infinie ;
– produit scalaire euclidien usuel :
K(x, y) = xT y;
(3.59)
K(x, y) = (xT y + c)d ;
(3.60)
– noyau polynomial :
– etc.
Retournons au problème de l’estimation de fonction. On se donne un noyau K, tel que
F est potentiellement de dimension infinie. D’après le théorème de Mercer, K définit en fait
une fonction φ et un espace de redescription (feature space) F. On projette donc les données
dans F puis on y effectue une régression linéaire. Nous avons montré qu’une représentation
suffisante était :
fˆw (x) =
N
X
wj hφ(xj ), φ(x)i.
(3.61)
j=1
On peut remplacer le produit scalaire par le noyau, ce qui fait que l’espace de redescription
F devient implicite :
fˆw (x) =
N
X
wj K(x, xi ).
(3.62)
j=1
Les noyaux sont donc un moyen efficace de travailler dans un espace de très grande
dimension à moindre coût. Toutefois, nous avons toujours N fonctions de base K(., xj ), ce
qui pose problème au niveau du coût computationnel et du sur-apprentissage.
58
CHAPITRE 3. APPRENTISSAGE ALGORITHMIQUE
Construction d’un représentation parcimonieuse
Nous avons donc :
fˆα (x) = hα, φ(x)i avec α =
N
X
wi φ(xi ).
(3.63)
i=1
Supposons que φ(xN ) dépende linéairement des φ(xi ), 1 ≤ i ≤ N − 1. Il existe alors
a1 . . . aN −1 tels que
φ(xN ) =
N
−1
X
aj φ(xj ),
(3.64)
i=1
et donc
α=
N
−1
X
N
X
i=1
i=1
(wi + ai )φ(xi ) =
wi0 φ(xi ).
(3.65)
On a donc besoin de N − 1 paramètres, pas de N . L’idée est donc de construire un dicN
N
tionnaire DN = {x̃j }m
j=1 ⊂ {xj }j=1 constitué d’éléments dont les images dans l’espace de
redescription sont indépendantes et tel que Vect(φ(DN )) = Vect(φ({xj }N
j=1 )). On peut relâcher la condition d’indépendance par une dépendance linéaire approchée, ce qui permet
de promouvoir la parcimonie. Pour cela, la base d’exemples est traitée séquentiellement
(rappelons que l’objectif est d’obtenir un algorithme en ligne).
On initialise le dictionnaire avec le premier élément, c’est-à-dire qu’on pose D1 = {x̃1 =
x1 } et m1 = 1 (avec mi la taille du dictionnaire après i échantillons).
mi−1
A l’itération i ≥ 2, on a construit le dictionnaire Di−1 = {x̃j }j=1
à partir des exemples
mi−1
i−1
{xj }j=1 . On considère l’exemple xi . Par construction, les {φ(x̃j )}j=1 sont linéairement
indépendants. On va tester si φ(xi ) est (approximativement) linéairement dépendant des
mi−1
. Si ce n’est pas le cas, on ajoute xi au dictionnaire, Di = Di−1 ∪ {xi } et
{φ(x̃j )}j=1
mi = mi−1 + 1. Si c’est le cas, le dictionnaire n’est pas modifié, Di = Di−1 et mi = mi−1 .
Il s’agit donc de tester la dépendance linéaire approchée. Pour cela, on pose le problème
d’optimisation suivante :
2
mi−1
X
δi =
min
a
φ(x̃
)
−
φ(x
)
j
j
i .
a=(a1 ...ami−1 )T j=1
(3.66)
Formellement, on a dépendance linéaire si et seulement si δi est nul. Cependant, on permet
une dépendance linéaire approchée : si δi < ν, où ν est eu seuil (de parcimonie) choisit par
l’utilisateur, alors on a dépendance linéaire approchée et xi n’est pas ajouté au dictionnaire.
Dans ce cas, nous avons :
mi−1
φ(xi ) =
X
j=1
res 2
aj φ(x̃j ) + φres
i , avec kφi k ≤ ν.
(3.67)
3.2. QUELQUES APPROCHES NON-PARAMÉTRIQUES
59
Résolvons ce problème d’optimisation :
2
mi−1
X
aj φ(x̃j ) − φ(xi )
δi = min a j=1
*mi−1
mi−1
X
X
aj φ(x̃j ) − φ(xi ),
= min
a
j=1
= min
a
= min
a
(3.68)
+
aj φ(x̃j ) − φ(xi )
(3.69)
j=1

i−1
 mX


mi−1
X
aj ak hφ(x̃j ), φ(x̃k )i − 2
aj hφ(x̃j ), φ(xi )i + hφ(xi ), φ(xi )i


j=1
j,k=1


mi−1
i−1
 mX

X
aj ak K(x̃j , x̃j ) − 2

aj K(x̃j , xi ) + K(xi , xi )
(3.71)

j=1
j,k=1
(3.70)
Introduisons les notations suivantes :
K̃i−1 = (K(x̃j , x̃k ))1≤j,k≤i−1
(3.72)
k̃i−1 (x) = (K(x̃j , x))1≤j≤i−1
(3.73)
kii = K(xi , xi )
(3.74)
On a donc :
δi = min{aT K̃i−1 a − 2aT k̃i−1 (xi ) + kii }.
(3.75)
a
On peut résoudre analytiquement en annulant le gradient :
−1
∇a (aT K̃i−1 a − 2aT k̃i−1 (xi ) + kii ) = 0 ⇔ ai = K̃i−1
k̃i−1 (xi ),
(3.76)
δi = kii − 2aiT k̃i−1 (xi ).
(3.77)
et alors
Nous avons donc posé la méthodologie pour obtenir le dictionnaire. La représentation
parcimonieuse ainsi construite est nécessairement asymptotiquement finie, si la distribution
sous-jacente aux exemples d’entrée a un support compact.
Proposition 15 (La représentation est finie). Soient K un noyau de Mercer et X un
compact d’un espace de Banach. Alors, pour toute séquence {xj }∞
j=1 et pour tout ν > 0, le
dictionnaire est fini.
Démonstration. Montrons d’abord que φ est continue. Soient z1 . . . zn . . . de X tels que
zi −→ z ∗ . On a
i→∞
kφ(zi ) − φ(z ∗ )k2 = hφ(zi ) − φ(z ∗ ), φ(zi ) − φ(z ∗ )i
(3.78)
∗
∗
∗
= hφ(zi ), φ(zi )i − 2hφ(zi ), φ(z )i + hφ(z ), φ(z )i
∗
∗
∗
(3.79)
= K(zi , zi ) − 2K(zi , z ) + K(z , z )
(3.80)
−→ 0 car K continu,
(3.81)
i→∞
donc φ est continue. De plus, X est compact, donc φ(X) l’est également (par continuité
de φ). Un compact admet un nombre de couverture fini, donc c’est le cas pour φ(X).
Soit > 0, il existe k tel que N (φ(x), ) ≤ k . Définissons le packing number comme le
60
CHAPITRE 3. APPRENTISSAGE ALGORITHMIQUE
nombre maximum de points de φ(X) séparés d’une distance d’au moins , que nous notons
PN (φ(X), ). Nous avons :
N (φ(X), ) fini ⇔ PN (φ(X), ) fini.
(3.82)
Ce résultat est une conséquence directe de l’inégalité ϕk (S) ≤ k (S) ≤ 2ϕk (S) que nous
avons vue section 2.4. Cela permet de conclure :
√
Card(D{x̃j }) ≤ PN (φ(X), ν) < ∞,
(3.83)
√
en rappelant que par construction on a toujours kφ(x̃i ) − φ(x̃j )k ≥ ν.
Obtenir l’algorithme KRLS
Rappelons le problème d’optimisation du Kernel Least-Squares (KLS) au temps n :
J=
soit J =
n
X
n
X
i=1
j=1
(yi − fˆ(xi ))2 avec fˆ(x) =
n
X

yi −
n
X
wj hφ(xj ), φ(x)i
(3.84)
2
wj K(xi , xj )
(3.85)
j=1
i=1
= kKn w − yn k2
(3.86)
où Kn = (K(xi , xj ))1≤i,j≤n et yn = (yi )1≤i≤n .
(3.87)
On a aisément la solution (en supposant Kn inversible) :
wn = K−1
n yn .
(3.88)
Cette version sans dictionnaire est coûteuse (en O(n3 ) à chaque nouvel exemple) et très
probablement mal conditionnée.
Résolvons le même problème en utilisant le dictionnaire. Rappelons la fonction objectif
sous-jacente :
J(w) =
n
X
mn
X
i=1
j=1
(yi − fˆ(xi ))2 avec fˆ(x) =
wj hφ(x̃j , φ(x)i.
(3.89)
Introduisons les notations suivantes :
h
i
(3.90)
h
i
(3.91)
wj hφ(x̃j ), φ(x)i
(3.92)
Φn = φ(x1 ) . . . φ(xn ) ∈ Rp×n ,
Φ̃n = φ(x̃1 ) . . . φ(x̃n ) ∈ Rp×n .
On a alors :
fˆ(x) =
mn
X
j=1
= hφ(x),
mn
X
wj φ(x̃j )i
(3.93)
j=1
= hφ(x), Φ̃n wi
donc J(w) =
kΦTn Φ̃n w
(3.94)
2
− yn k .
(3.95)
3.2. QUELQUES APPROCHES NON-PARAMÉTRIQUES
61
Etant donné la façon dont on a construit le dictionnaire, on a aussi
φ(xi ) ≈
mn
X
aij φ(x̃j ).
(3.96)
j=1
Si xi ∈ Dn , on a ai = emi (vecteur unitaire). Si xi ∈
/ Dn , ai est solution de (3.66), que
l’on complète : aij = 0 pour j > mi (nature séquentielle de la construction). Notons An la
matrice de ces coefficients, on peut lier les matrices Φn et Φ̃n :
Φn ≈ Φ̃n ATn et An = (aij )1≤i,j≤n .
(3.97)
On considère alors la fonction objectif suivante :
˜
J(w)
= k(Φ̃ATn )T Φ̃n w − yn k2 = kAn K̃n w − yn k2 .
(3.98)
On a finalement (en annulant le gradient) :
wn = K̃n−1 (ATn An )−1 ATn yn .
(3.99)
Reste à le calculer récursivement.
Supposons connaître wn−1 , K̃n−1 et An−1 . On observe le couple (xn , yn ), on souhaite
calculer wn . Une première étape est de mettre à jour le dictionnaire, on distingue alors
deux cas :
1. φ(xn ) est ALD (approximativement linéairement indépendant), c’est-à-dire que δn ≤
ν, an est donné par l’équation (3.66), Dn = Dn−1 , mn = mn−1 et K̃n = K̃n−1 ;
2. si δn > ν, φ(xn ) est indépendant, c’est-à-dire que le dictionnaire et les matrices
associées évoluent.
Etudions le premier cas, où φ(xn ) est ALD. Dans ce cas, il n’y a que An qui change :
h
An = ATn−1 an
iT
.
(3.100)
On a donc :
ATn An = ATn−1 An−1 + an anT et ATn yn = ATn−1 yn−1 + an yn .
(3.101)
Notons Pn la matrice Pn = (ATn An )−1 , en utilisant Sherman-Morrison, nous avons :
Pn = Pn−1 − qn anT Pn−1 avec qn =
Pn−1 an
.
1 + anT Pn−1 an
(3.102)
Nous pouvons alors développer wn :
wn = K̃n−1 Pn ATn yn
=
=
K̃n−1 (Pn−1 − qn anT Pn−1 )(ATn−1 yn−1 +
wn−1 + K̃n−1 qn (yn − k̃n−1 (xn )T wn−1 ),
(3.103)
an yn )
(3.104)
(3.105)
où l’on a utilisé le fait que qn = Pn an et que k̃n−1 (xn ) = K̃n an . On a donc tout ce qu’il
faut pour la mise à jour dans ce premier cas.
62
CHAPITRE 3. APPRENTISSAGE ALGORITHMIQUE
Pour le second cas, le dictionnaire change ainsi que toutes les matrices associées, les
modifications sont plus importantes. Travaillons d’abord sur la matrice K̃n :
"
#
K̃
k̃n−1 (xn )
K̃n = T n−1
.
k̃n−1 (xn )
knn
(3.106)
En utilisant le lemme de la matrice partitionnée inversée, on a :
"
K̃n−1
#
−1
1 δn K̃n−1
+ an anT
=
−anT
δn
−an
.
1
(3.107)
T
Comme xn est ajouté au dictionnaire, on a φ(x̃mn ) = φ(xn ), soit an = 0 . . . 0 1 .
On a donc
"
#
An−1 0
An =
,
(3.108)
0
1
soit
"
ATn An
#
ATn−1 An−1 0
=
,
0
1
(3.109)
soit finalement
"
Pn =
(ATn An )−1 )
#
P
0
= n−1
.
0
1
(3.110)
Ainsi, on peut calculer wn :
wn = K̃n−1 (ATn An )−1 ATn yn
= K̃n−1
(ATn−1 An−1 )−1 ATn−1 yn−1
yn

wn−1 −
=
(3.111)
1
δn
1
an
δn
!
(3.112)
yn − k̃n−1 (xn )T wn−1
yn − k̃n−1 (xn )T wn−1


(3.113)
On a donc tout ce qu’il faut pour la mise à jour dans le second cas, ce qui conclue cette
section sur les KRLS. On a une complexité en O(m2n ) au lieu de O(n3 ) avec un contrôle
de l’approximation via δ. Les seuls méta-paramètres à choisir pour cette algorithme sont le
noyau K et le facteur de parcimonie δ.
3.2.2
Least Absolute Shrinkage & Selection Operator (LASSO)
Nous considérons toujours le cas de la régression, avec une base d’exemples (xi , yi )1≤i≤n .
On se donne un ensemble de fonctions de base
T
φ(x) = φ1 (x) . . . φp (x)
,
(3.114)
en considérant le cas où p ∝ n, voire même p n. On cherche un modèle de la forme
fˆ(x; w) = wT φ(x).
(3.115)
3.2. QUELQUES APPROCHES NON-PARAMÉTRIQUES
63
On pose :
yn = y1 . . . yn
(3.116)
h
et Φ = φ(x1 ) . . . φ(xn )
iT
.
(3.117)
On cherche toujours à apprendre w tel que yn ≈ Φw. LASSO résout le problème d’optimisation suivant (λ étant un paramètre libre), soit la minimisation d’un risque empirique `2
pénalisée par une régularisation `1 :
1
wλ = argmin
kyn − Φwk22 + λkwk1
m
2
w∈R
= argmin
w∈Rm

n 1 X
2
2
yi − wT φ(xi )
+λ
i=1
(3.118)
p
X
j=1


|wj | .
(3.119)

De façon équivalente, on peut formuler le problème résolu par LASSO comme la minimisation d’un risque empirique `2 sous la contrainte de majoration de la norme `1 :
wλ = argmin kyn − Φwk22 sous contrainte kwk1 ≤ t.
(3.120)
w∈Rm
Ce problème peut être résolu à l’aide de la programmation mathématique (programmation
quadratique), mais nous proposons ici une approche différente, résolvant l’intégralité du
chemin de régularisation, basée sur l’algorithme LARS (Least Angle Regression).
La régularisation `1 favorise la parcimonie des solutions, c’est-à-dire qu’un certain
nombre des coefficients de wλ sont exactement à zéro. Cela a plusieurs avantages, réduire
le problème de sur-apprentissage, choisir l’espace d’hypothèse, mais aussi fournir une interprétabilité des résultats (par exemple, pour la prédiction liée à un protocole médical).
Résolution de LASSO
En raison du terme de régularisation `1 , la fonction objectif d’intérêt n’est pas dérivable
partout (non-dérivabilité de la fonction |.| en 0). Toutefois, il est possible de montrer (nous
l’admettons, voir [9] pour une démonstration dans un cas plus général) que le chemin de
régularisation, défini par
2
Ω = wλ = argmin ky − Φwk + λkwk1 ,
w
λ ∈ R+ ,
(3.121)
est linéaire par morceaux.
Les deux cas extrêmes ont des solutions évidentes. Pour λ suffisamment grand, nous
avons wλ = 0. Pour λ = 0, la solution est celle des moindres carrés classiques (en supposant l’existence de (ΦT Φ)−1 ). Pour les valeurs intermédiaires de λ, on peut construire des
intervalles ]λi , λi+1 [ tels que ∀λ ∈]λi , λi+1 [, on ait
wλ = wλi + (λ − λi )wi ,
(3.122)
où wi est constant sur l’intervalle considéré. Nous allons construire ce chemin de régularisation en le caractérisant par ses ruptures.
Il existe un λ0 tel que pour tout λ ≥ λ0 , on ait wλ = 0. On divise le chemin en les
intervalles les plus larges possibles dans lesquels les solutions ont signe constant, c’est-à-dire
qu’on cherche {λ0 , . . . , λp = 0} tels quel :
64
CHAPITRE 3. APPRENTISSAGE ALGORITHMIQUE
– ∀i ∈ 0 . . . p, on a
(
λi ≥ λi+1
∀λ, λ0 ∈]λi+1 , λi [2 , sgn(wλ ) = sgn(wλ0 )
;
(3.123)
– p est minimum.
Le problème d’optimisation d’intérêt étant convexe par rapport à w et λ, ce chemin est
continu : toutes les composantes sont continues par rapport à λ. Des intervalles contigus
]λi , λi−1 [ et ]λi+1 , λi [ diffèrent uniquement par une seule composante de w, qui est soit
activée (passe de zéro à non-nul), soit désactivée (passe de non-nul à nul). Nous allons
déterminer le chemin de régularisation via la séquence des (λi ) que nous allons déterminer
par récursion.
Commençons par initialiser la récursion. On note :
h
Φ = Φ1 . . . Φp
i
(3.124)
T
avec donc Φi = φi (x1 ) . . . φi (xn )
.
(3.125)
Sur ]λ1 , λ0 [, il n’y a qu’une base active φi , qui a un poids wi = 0 en λ = λ0 . Ce poids
satisfait sur l’intervalle :
1 ∂kyn − Φwk2
∂|wi |
+λ
=0
2
∂wi
∂wi
⇔ −ΦTi (yn − wi Φi ) + λ sgn(wi ) = 0.
(3.126)
(3.127)
En se plaçant plus particulièrement en λ = λ0 , cela donne :
λ0 sgn(wi ) = ΦTi yn .
(3.128)
Ainsi, λ0 et i sont donnés par :
(
λ0 = maxj |ΦTj yn |
i = argmaxj |ΦTj yn |
.
(3.129)
C’est donc la composante des entrées transformées la plus corrélée avec les observations.
Intéressons nous maintenant à la récursion même. Supposons que λj et s = sgn(wλ )
sont connus sur ]λj+1 , λj [, ainsi que la solution en λj , c’est-à-dire wλj . On résout (3.118)
sur l’intervalle, en notant
∆λ = λ − λj et ∆w = wλ − wλj .
(3.130)
Pour cela, on annule le gradient (ce qui est possible si l’on reste sur l’intervalle ouvert) :
1
kyn − Φwk2 + λkwk1
2
⇔ 0 = −ΦT (yn − Φwλ ) + λs
0 = ∇w
T
⇔ ∆λs + λj s = Φ (yn − Φ∆w − Φwλj )
or λj s = ΦT (yn − Φwλj ) (solution en λj )
T
donc wλ = wλj − (λ − λj )(Φ Φ)
−1
s.
(3.131)
(3.132)
(3.133)
(3.134)
(3.135)
3.2. QUELQUES APPROCHES NON-PARAMÉTRIQUES
65
On retrouve la linéarité par morceaux. Notons qu’en pratique il ne faut considérer que les
composantes non nulles de ωλ , l’équation (3.135) implique la résolution d’un système de
taille le nombre de features actifs, pas du nombre total de fonctions de base.
A partir de là, on peut calculer λj+1 facilement. En effet, c’est le premier point où soit
un poids est mis à zéro, soit l’équation (3.118) admet un solution impliquant une fonction
de base supplémentaires (c’est-à-dire activation ou désactivation). Notons
w = (ΦT Φ)−1 s,
(3.136)
wλ = wλj − (λ − λj )w ⇔ ∆w = −∆λw.
(3.137)
nous avons :
On a désactivation si une des composantes de wλ s’annule, soit si
λ − λj =
(wλj )i
.
(w)i
(3.138)
On a activation si le gradient respectivement à wi s’annule. Ici encore, le signe de wi sur
]λj+2 , λj+1 [ est considéré et se généralise à la borne λj+1 , où (w)i vaut toujours zéro.
1
kyn − Φwk2 + λkwk1
2
⇔ ∆λ(s)i + λj (s)i = ΦT (yn − Φ∆w − Φwλj )
0 = ∇wi
(3.139)
(3.140)
ΦTi Φ∆λw
T
⇔ ∆λ(s)i + λj (s)i = Φ (yn − Φwλj ) +
Φi (yn − Φwλj ) − λj (s)i
⇔ ∆λ =
.
(s)i − ΦTi Φw
(3.141)
(3.142)
L’objectif étant de trouver λj+1 ≤ λj , le nouveau point de rupture du chemin de régularisation est donné par λj+1 + ∆λ où ∆λ est la plus petite valeur négative des quantités
suivantes :

(w )

i t.q. φi actif : λj i
(w)i
ΦT (yn −Φwλj )−(s)i λj

i t.q. φi inactif : i
avec (s)i = ±1
(s) −ΦT Φw
i
.
(3.143)
i
Il faut également prendre en compte deux restrictions supplémentaires :
– si une fonction de base a été activée en λj , elle ne peut pas être désactivée en λj+1 ;
– inversement, si une fonction de base a été désactivée en λj , elle ne peut pas être
réactivée en λj+1 .
Profil des solutions
Nous avons ainsi vu comment résoudre pratiquement l’ensemble du chemin de régularisation, qui est continu par morceaux. Nous l’illustrons sur la figure 3.1. Il est à noter que
les idées sous-jacentes à cet algorithme sont à la base d’un large pan de la littérature en
machine learning (ou l’on parle de régularisation `1 ) et en traitement du signal (ou l’on
parle de compressive sensing).
66
CHAPITRE 3. APPRENTISSAGE ALGORITHMIQUE
Figure 3.1 – Exemple de chemin de régularisation.
Figure 3.2 – Illustration du modèle de régression de RFWR.
3.2.3
Receptive Field Weighted Regression
On se place toujours dans le cadre de la régression, avec un traitement séquentiel des
exemples (xi , yi ). Le modèle de régression est une représentation linéaire par morceaux,
la zone de validité de chaque morceau linéaire étant quantifiée par un champ récepteur
(généralement un noyau à support local).
Plus formellement, chaque champ récepteur est défini par un noyau gaussien (entre
autres choix possibles), de centre ck et de métrique dk . On définit l’activation du champ
récepteur par :
1
wk (x) = exp(− (x − ck )T Dk (x − ck )).
(3.144)
2
On définit le régresseur linéaire par :
!
fˆθk (x) = (x̃k )T θk avec x̃k =
x − ck
.
1
(3.145)
Enfin, on définit le régresseur global comme étant la combinaison pondérée des régresseurs
linéaires locaux :
PK
wk (x)fˆθk (x)
ˆ
fθ (x) = k=1
.
(3.146)
PK
k
k=1 w (x)
Notons qu’avec un minimum de recouvrement entre les champs récepteurs locaux, les transition entre modèles linéaires locaux sont “adoucies”. Nous illustrons le modèle de régression
figure 3.2 et le modèle d’inférence figure 3.3.
Avec ce modèle général, plusieurs problèmes se posent :
3.2. QUELQUES APPROCHES NON-PARAMÉTRIQUES
67
Figure 3.3 – Modèle d’inférence de RFWR (illustration tirée de [10]).
– combien de champs récepteurs (K) ?
– quels champs récepteurs (ck et Dk ) ?
– quels modèles linéaires locaux (θk ) ?
Nous répondons brièvement et informellement à ces questions, le lecteur intéressé par un
traitement plus complet peut se référer à [10].
Au départ, il n’y a aucun champ récepteur. Une heuristique sert à ajouter des champs
récepteurs : si pour un nouvel exemple (xi , yi ), l’entrée n’est pas activée plus d’un certain
seuil (méta-paramètre défini par l’utilisateur) par l’un des champs récepteurs déjà existant,
alors un nouveau champ récepteur, de centre xi et de métrique initiale par défaut (autre
méta-paramètre), est ajouté.
L’apprentissage du modèle linéaire local se fait, pour chaque champ récepteur, en minimisant par la méthode des moindres carrés récursifs un coût empirique quadratique, pondéré
et avec facteur d’oubli. Les termes de pondération permettent d’ignorer les exemples qui
se trouvent hors de la zone d’influence du champ récepteur, le facteur d’oubli permet de
prendre en compte les non-stationnarités (liées à ce que l’on apprend, mais surtout à la
façon dont l’on apprend, notamment une composante de l’apprentissage modifie la structure des champs récepteurs, donc les pondérations des termes quadratiques de la fonction
de coût).
Enfin, la métrique de chaque champ récepteur est apprise en minimisant un coût quadratique classique (les dépendances n’étant pas linéaires) grâce à une descente de gradient
stochastique. Pour éviter un problème de sur-apprentissage, une méthode dite de leave-oneout cross-validation est utilisée : chaque terme de la fonction de coût quadratique considérée
utilise le modèle linéaire local appris sur tous les échantillons, sauf le couple (xj , yj ) correspondant au modèle local. L’apprentissage des champs récepteurs est la composante la plus
complexe de cet algorithme.
68
CHAPITRE 3. APPRENTISSAGE ALGORITHMIQUE
Bibliographie
[1] Olivier Bousquet, Stéphane Boucheron, and Gábor Lugosi. Introduction to Statistical
Learning Theory. In Advanced Lectures on Machine Learning, pages 169–207. 2004.
[2] Scott S. Chen, David L. Donoho, and Michael A. Saunders. Atomic Decomposition by
Basis Pursuit. SIAM Journal on Scientific Computing, 20 :33–61, 1999.
[3] Felipe Cucker and Steve Smale. On the mathematical foundations of learning. Bulletin
of the american mathematical society, 39(1) :1–49, 2001.
[4] Bradley Efron, Trevor Hastie, Iain Johnstone, and Robert Tibshirani. Least Angle
Regression. Annals of Statistics, 32(2) :407–499, 2004.
[5] Yaakov Engel, Shie Mannor, and Ron Meir. The Kernel Recursive Least Squares
Algorithm. IEEE Transactions on Signal Processing, 52 :2275–2285, 2004.
[6] Theodoros Evgeniou, Massimiliano Pontil, and Tomaso Poggio. Regularization Networks and Support Vector Machines. Advances in Computational Mathematics,
13(1) :1–50, April 2000.
[7] Trevor Hastie, Robert Tibshirani, and Jerome Friedman. The Elements of Statistical
Learning. Springer Series in Statistics. Springer New York Inc., New York, NY, USA,
2001.
[8] Alessandro Lazaric, Mohammad Ghavamzadeh, and Rémi Munos. Finite-Sample Analysis of LSTD. In Johannes Fürnkranz and Thorsten Joachims, editors, International
Conference on Machine Learning, pages 615–622. Omnipress, 2010.
[9] Saharon Rosset and Ji Zhu. Piecewise linear regularized solution paths. The Annals
of Statistics, 35(3) :1012–1030, 2007.
[10] Stefan Schaal and Christopher G. Atkeson. Constructive Incremental Learning from
Only Local Information. Neural Computation, 10(8) :2047–2084, 1998.
[11] Robert Tibshirani. Regression Shrinkage and Selection via the Lasso. Journal of the
Royal Statistical Society. Series B (Methodological), 58(1) :267–288, 1996.
[12] Vladimir N. Vapnik. The nature of statistical learning theory. Springer-Verlag New
York, Inc., New York, NY, USA, 1995.
[13] Vladimir N. Vapnik. Statistical Learning Theory. Wiley-Interscience, September 1998.
[14] Vladimir N. Vapnik. An overview of statistical learning theory. Neural Networks,
IEEE Transactions on, 10(5) :988–999, 1999.
69
Téléchargement