Table des matières
1 Introduction 1
1.1 Une introduction informelle à l’apprentissage . . . . . . . . . . . . . . . . . 1
1.1.1 Qu’est-ce que l’apprentissage statistique ? . . . . . . . . . . . . . . . 1
1.1.2 Un simple algorithme de régression . . . . . . . . . . . . . . . . . . . 2
1.1.3 Un simple algorithme de classification . . . . . . . . . . . . . . . . . 4
1.2 Une introduction plus formelle . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.1 Formalisation du problème . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.2 Fonction de régression et classifieur de Bayes . . . . . . . . . . . . . 7
1.2.3 Risque empirique, les grandes questions de l’apprentissage . . . . . . 9
2 Apprentissage statistique 13
2.1 Rappels et inégalités de concentration . . . . . . . . . . . . . . . . . . . . . 13
2.1.1 Loi des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.1.2 Inégalités de concentration . . . . . . . . . . . . . . . . . . . . . . . 14
2.1.3 Retour à la minimisation du risque empirique . . . . . . . . . . . . . 16
2.2 CNS du principe de l’ERM . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.1 Notion classique de pertinence et sa limite . . . . . . . . . . . . . . . 18
2.2.2 Pertinence stricte (non-triviale) . . . . . . . . . . . . . . . . . . . . . 20
2.2.3 Convergence uniforme à un et deux côtés . . . . . . . . . . . . . . . 21
2.2.4 Le théorème clé de la théorie de l’apprentissage . . . . . . . . . . . . 22
2.3 L’approchedeVapnik .............................. 26
2.3.1 Restriction du cadre de travail . . . . . . . . . . . . . . . . . . . . . 26
2.3.2 Retour sur le cas simple . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3.3 Le cas infini dénombrable . . . . . . . . . . . . . . . . . . . . . . . . 28
2.3.4 CNS de CV uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.3.5 Un détour par le cas continu . . . . . . . . . . . . . . . . . . . . . . 31
2.3.6 Les trois jalons de l’apprentissage . . . . . . . . . . . . . . . . . . . . 33
2.3.7 La dimension VC (Vapnik-Chervonenkis) . . . . . . . . . . . . . . . 35
2.3.8 Une borne sur le risque . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.3.9 Minimisation structurelle du risque . . . . . . . . . . . . . . . . . . . 40
2.4 L’approche de Cucker et Smale . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.4.1 Cadredetravail ............................. 42
2.4.2 Notations et rappels . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.4.3 Nombre de couverture . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.4.4 Quelques bornes de couverture . . . . . . . . . . . . . . . . . . . . . 45
v