L’apprentissage statistique
2
tissage statistique à partir d’exemples se révèle très fructueux. Nous présenterons bien d’autres exemples
d’applications dans ce chapitre et les suivants.
Cet ouvrage présente trois grandes familles de modèles statistiques obtenus par apprentissage artificiel –
les réseaux de neurones, les machines à vecteur supports et les cartes auto-adaptatives – qui connaissent
un grand succès, depuis plusieurs années ; ils font l’objet de très nombreuses applications.
L’objectif de ce chapitre est de présenter les bases de la conception d’un modèle par apprentissage, de
manière aussi intuitive que possible, mais avec la rigueur nécessaire pour une mise en œuvre raisonnable
et l’obtention de résultats fiables. On présente tout d’abord un exemple très élémentaire de modélisation
par apprentissage, qui montre la dualité entre l’approche algorithmique, traditionnelle en apprentissage,
d’une part, et l’approche statistique, qui en est devenue indissociable, d’autre part. La notion fondamen-
tale étant celle de modèle, on présente ensuite quelques définitions qui précisent ce que l’on entend par
modèle dans cet ouvrage ; on introduit notamment la distinction entre modèles linéaires et modèles non
linéaires en les paramètres, ainsi que la distinction entre modèles statiques et modèles dynamiques. La
section suivante décrit deux problèmes académiques d’apprentissage, l’un dans le domaine de la classifi-
cation, l’autre dans celui de la prédiction ; ces exemples simples permettent de mettre en évidence le
dilemme biais-variance, qui constitue un problème central pour la pratique de l’apprentissage statistique.
On présente ensuite, de manière plus formelle, les éléments de la théorie de l’apprentissage : fonction de
perte, erreur de prédiction théorique, classifieur de Bayes, dilemme biais-variance. Il s’agit là essentielle-
ment de résultats asymptotiques, valables dans l’hypothèse où le nombre d’exemples est infini. La
cinquième section est plus proche de la pratique, en ce sens que les résultats qui y sont présentés tiennent
compte du fait que les données sont en nombre fini : ce sont les bornes sur l’erreur de prédiction, fournies
par la théorie de V. Vapnik. Les quatre sections suivantes sont de nature entièrement pratique : elles expo-
sent les différentes tâches à accomplir pour concevoir un modèle par apprentissage – collecte des données,
prétraitements, sélection des variables, apprentissage, sélection de modèles. Ces deux dernières tâches
font l’objet de deux sections suivies d’un résumé de la stratégie de conception de modèles. On présente
ensuite a conception des modèles les plus simples : les modèles linéaires en leurs paramètres. Enfin, la
dernière section du chapitre fournit les éléments de statistiques nécessaires à une bonne compréhension
de la mise en œuvre des méthodes décrites tout au long de l’ouvrage.
Premier exemple : un problème élémentaire
d’apprentissage statistique
Comme indiqué plus haut, l’objectif de l’apprentissage statistique est de réaliser, à partir d’exemples, un
modèle prédictif d’une grandeur numérique, de nature quelconque (physique, chimique, biologique,
financière, sociologique, etc.).
La démarche de conception d’un modèle par apprentissage nécessite de postuler une fonction, dont les
variables (également appelées facteurs) sont susceptibles d’avoir une influence sur la grandeur à
modéliser ; on choisit cette fonction parce que l’on pense qu’elle est susceptible
•d’apprendre les données existantes, c’est-à-dire de les reproduire le mieux possible,
•de généraliser, c’est-à-dire de prédire le comportement de la grandeur à modéliser dans des circons-
tances qui ne font pas partie des données d’apprentissage.
Cette fonction dépend de paramètres ajustables : l’apprentissage artificiel consiste en l’ajustement de ces
paramètres de telle manière que le modèle ainsi obtenu présente les qualités requises d’apprentissage et
de généralisation.