Introduction: Qu’est-ce que l’apprentissage automatique ? Problématique de l’apprentissage Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion Apprentissage statistique pour construire des méta-modèles Manuel Samuelides ONERA/ Institut Supérieur de l’Aéronautique et de l’Espace Manuel Samuelides Apprentissage statistique pour construire des méta-modèles Introduction: Qu’est-ce que l’apprentissage automatique ? Problématique de l’apprentissage Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion Outline 1 Introduction: Qu’est-ce que l’apprentissage automatique ? 2 Problématique de l’apprentissage Apprentissage supervisé Apprentissage non supervisé Apprentissage par renforcement Méthodologies utiles 3 Eléments d’apprentissage statistique 4 Sélection de modèles en apprentissage supervisé. 5 Conclusion Manuel Samuelides Apprentissage statistique pour construire des méta-modèles Introduction: Qu’est-ce que l’apprentissage automatique ? Problématique de l’apprentissage Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion Apprentissage automatique ("machine learning") L’apprentissage automatique fait partie de l’intelligence artificielle. Il s’agit de doter la machine de capacités d’apprentissage, i.e. capacités d’évoluer en intégrant des données utiles fournies par l’environnement. Exemples: lecture automatique, capacité de mobilité dans un environnement complexe (robotique), exploration du Web, capacité de réparation (maintenance), analyse financière (prévision), aide à la personne... Une première piste a été celle de l’apprentissage symbolique (systèmes experts) consistant à déduire des données un système à base de règles (diagnostic, arbres de décision...). Manuel Samuelides Apprentissage statistique pour construire des méta-modèles Introduction: Qu’est-ce que l’apprentissage automatique ? Problématique de l’apprentissage Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion De l’apprentissage symbolique à l’apprentissage statistique L’explosion combinatoire du traitement des problèmes réels a rendu nécessaire la mise en oeuvre de "prétraitements statistiques". L’intégration de ces prétraitements dans le système d’apprentissage a conduit à considérer que l’apprentissage automatique relève de la méthodologie statistique . Modélisation des systèmes naturels et de leur adaptation: règle de Hebb (1949) perceptron de Rosenblatt (1957) machine de Hopfield (1982) perceptron multi-couche (Y.Le Cun, 1985; Rumelhart, 1986) Vapnik (apprentissage statistique depuis 1971); Valiant (PAC-learning, 1984)... Manuel Samuelides Apprentissage statistique pour construire des méta-modèles Introduction: Qu’est-ce que l’apprentissage automatique ? Problématique de l’apprentissage Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion Apprentissage supervisé Apprentissage non supervisé Apprentissage par renforcement Méthodologies utiles Outline 1 Introduction: Qu’est-ce que l’apprentissage automatique ? 2 Problématique de l’apprentissage Apprentissage supervisé Apprentissage non supervisé Apprentissage par renforcement Méthodologies utiles 3 Eléments d’apprentissage statistique 4 Sélection de modèles en apprentissage supervisé. 5 Conclusion Manuel Samuelides Apprentissage statistique pour construire des méta-modèles Introduction: Qu’est-ce que l’apprentissage automatique ? Problématique de l’apprentissage Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion Apprentissage supervisé Apprentissage non supervisé Apprentissage par renforcement Méthodologies utiles Outline 1 Introduction: Qu’est-ce que l’apprentissage automatique ? 2 Problématique de l’apprentissage Apprentissage supervisé Apprentissage non supervisé Apprentissage par renforcement Méthodologies utiles 3 Eléments d’apprentissage statistique 4 Sélection de modèles en apprentissage supervisé. 5 Conclusion Manuel Samuelides Apprentissage statistique pour construire des méta-modèles Introduction: Qu’est-ce que l’apprentissage automatique ? Problématique de l’apprentissage Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion Apprentissage supervisé Apprentissage non supervisé Apprentissage par renforcement Méthodologies utiles Apprentissage supervisé Problème Modéliser un système entrée sortie f : E → F à partir d’une base de n exemples L = X × Y avec X = (x1 , ..., xn ) ∈ E n , Y = (y1 , ..., yn ) ∈ F n Le modèle construit est appelé "méta-modèle" ("surrogate model") ou modèle "boîte noire" car il n’utilise pas de connaissances physiques, une fois donnés E et F. L’apprentissage s’impose quand le modèle physique n’est pas disponible ou qu’il est trop complexe pour être mis en oeuvre dans des processus itératifs nécessaires (optimisation): "modèles réduits" ("ROM: reduced ordermodel"). Manuel Samuelides Apprentissage statistique pour construire des méta-modèles Introduction: Qu’est-ce que l’apprentissage automatique ? Problématique de l’apprentissage Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion Apprentissage supervisé Apprentissage non supervisé Apprentissage par renforcement Méthodologies utiles Apprentissage supervisé et statistique La fonction entrée-sortie du système, modélisée par y = ϕ(x), est une fonction aléatoire de E dans F, Dans les problèmes stationnaires, l’entrée est supposée être une variable aléatoire à valeurs dans E, dans ce cas L = ((X1 , Y1 ), ..., (Xn , Yn )) est un échantillon i.i.id. d’une loi de probabilité P sur E × F, Dans les problèmes de contrôle, les entrées peuvent être fournies par un processus aléatoire. Manuel Samuelides Apprentissage statistique pour construire des méta-modèles Introduction: Qu’est-ce que l’apprentissage automatique ? Problématique de l’apprentissage Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion Apprentissage supervisé Apprentissage non supervisé Apprentissage par renforcement Méthodologies utiles Apprentissage supervisé:classification Définition En classification, l’ensemble des sorties est un ensemble fini, typiquement pour la classification binaire F = {0, 1} Exemple: Arbres de décision (Quinlan79), (Breiman84) ) Construction récursive de tests du type: variable discrète Xi = ak , variable continue Xi ≤ a Manuel Samuelides Apprentissage statistique pour construire des méta-modèles Introduction: Qu’est-ce que l’apprentissage automatique ? Problématique de l’apprentissage Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion Apprentissage supervisé Apprentissage non supervisé Apprentissage par renforcement Méthodologies utiles Exemple d’arbre de décision Manuel Samuelides Apprentissage statistique pour construire des méta-modèles Introduction: Qu’est-ce que l’apprentissage automatique ? Problématique de l’apprentissage Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion Apprentissage supervisé Apprentissage non supervisé Apprentissage par renforcement Méthodologies utiles Apprentissage supervisé: arbres de décision Définition En classification, l’ensemble des sorties est un ensemble fini, typiquement pour la classification binaire F = {0, 1} Exemple: Arbres de décision (Quinlan79), (Breiman84) ) Construction récursive de tests du type: variable discrète Xi = ak , variable continue Xi ≤ a Choisir le test le plus discriminant: critère d’entropie mesurant le gain d’homogénétité dans les sous-arbres Critère d’arrêt Bilan Pour: Intelligibilité / Contre: Complexité calculatoire, Extensions possibles (forêt) mais perte d’intelligibilité Manuel Samuelides Apprentissage statistique pour construire des méta-modèles Introduction: Qu’est-ce que l’apprentissage automatique ? Problématique de l’apprentissage Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion Apprentissage supervisé Apprentissage non supervisé Apprentissage par renforcement Méthodologies utiles Apprentissage supervisé: régression Définition En régression, l’ensemble des sorties est un sous-ensemble régulier de Rp . Exemple: Régression linéaire E = Rp , F = R. On choisit un système libre de p régresseurs de E dans F, {φ1 , ..., φp }. On cherche des modèles paramétrés par w ∈ W = Rp du type Pp f (x, w) = k =1 wk φk (x). On forme la matrice (n, p) des régresseurs ℵ = (φk (xi )). Le méta-modèle ŵ est donné par ŵ = arg min k Y − ℵ.w k= ℵ(−1) Y w Manuel Samuelides (1) Apprentissage statistique pour construire des méta-modèles Introduction: Qu’est-ce que l’apprentissage automatique ? Problématique de l’apprentissage Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion Apprentissage supervisé Apprentissage non supervisé Apprentissage par renforcement Méthodologies utiles Apprentissage supervisé et approximation Les techniques d’apprentissage peuvent être adaptées pour utiliser des connaissances physiques ("boîte grise"). L’application de modèles physiques peut être subordonnée à l’estimation statistique de certains paramètres (recalage de modèles). Des méthodes d’approximation numérique de modèles physique peuvent incorporer des techniques statistiques (maillages déstructurés, sparse grids). Manuel Samuelides Apprentissage statistique pour construire des méta-modèles Introduction: Qu’est-ce que l’apprentissage automatique ? Problématique de l’apprentissage Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion Apprentissage supervisé Apprentissage non supervisé Apprentissage par renforcement Méthodologies utiles Outline 1 Introduction: Qu’est-ce que l’apprentissage automatique ? 2 Problématique de l’apprentissage Apprentissage supervisé Apprentissage non supervisé Apprentissage par renforcement Méthodologies utiles 3 Eléments d’apprentissage statistique 4 Sélection de modèles en apprentissage supervisé. 5 Conclusion Manuel Samuelides Apprentissage statistique pour construire des méta-modèles Introduction: Qu’est-ce que l’apprentissage automatique ? Problématique de l’apprentissage Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion Apprentissage supervisé Apprentissage non supervisé Apprentissage par renforcement Méthodologies utiles Les objectifs de l’apprentissage non-supervisé. L’apprentissage non supervisé est aussi appelé "analyse de données" en statistique et fouille de données "data mining" en informatique". Le but est de faire de la compression de données utiles (ne pas prendre en compte des particularités inutiles dans les données). Il ne s’agit pas seulement d’économiser du temps de calcul ou de l’espace mémoire mais d’éviter le surapprentissage et d’être robuste. L’apprentissage non-supervisé peut être utilisé comme prétraitement de l’apprentissage supervisé ou de modélisation physique (Galerkin-POD). Il peut aussi être utilisé pour obtenir une visualisation graphique des données (2d or 3d) Manuel Samuelides Apprentissage statistique pour construire des méta-modèles Introduction: Qu’est-ce que l’apprentissage automatique ? Problématique de l’apprentissage Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion Apprentissage supervisé Apprentissage non supervisé Apprentissage par renforcement Méthodologies utiles Analyse en composantes principales Problème Soit X = (x1 ; ...; xn ) ∈ E n un échantillon de taille n. Trouver U = (u1P , ...., uq ) q << P p un système orthonormal of E solution de min ni=1 k xi − qj=1 (xi | uj )uj k2 Solution fournie par l’algorithme SVD ou la décompositions spectrale de X ∗ X (matrice de covariance empirique sur un échantillon centré). Choix de q (hyperparamètre) Le choix de la métrique de E peut être important (métrique de Mahalanobis: matrice de corrélation) Manuel Samuelides Apprentissage statistique pour construire des méta-modèles Introduction: Qu’est-ce que l’apprentissage automatique ? Problématique de l’apprentissage Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion Apprentissage supervisé Apprentissage non supervisé Apprentissage par renforcement Méthodologies utiles Agrégation de données On souhaite diviser l’espace des données E en k régions représentatives de l’échantillon X Chaque région Sj est représentée par un centroïde uj ∈ E Chaque donnée est remplacée par le centroïde le plus proche ce qui induit une partition de E en k régions (partition de Voronoï) Les centroïdes sont choisis pour minimiser l’erreur quadratique totale sur l’échantillon. Problème Trouver (uj )j∈{1...k } qui minimise P P SSE = kj=1 i/xi ∈Si k xi − uj k2 où (Sj ) est la partition de Voronoï associée à (uj ) Manuel Samuelides Apprentissage statistique pour construire des méta-modèles Introduction: Qu’est-ce que l’apprentissage automatique ? Problématique de l’apprentissage Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion Apprentissage supervisé Apprentissage non supervisé Apprentissage par renforcement Méthodologies utiles Algorithme des k-moyennes Initialiser les k-moyennes (uj0 )j∈{1...k } . PUIS REPETER JUSQU’A CONVERGENCE 1 2 Effectuer la partition de Voronoï (Sj )n de X associée à (ujn ). Calculer les k-moyennes ∀j = 1...k , ujn+1 = 1 X ui ](Sjn ) n ui ∈Sj La limite si elle existe vérifie l’équation des k -moyennes ∀j = 1...k , uj = 1 X ui ](Sj ) ui ∈Sj Manuel Samuelides Apprentissage statistique pour construire des méta-modèles Introduction: Qu’est-ce que l’apprentissage automatique ? Problématique de l’apprentissage Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion Apprentissage supervisé Apprentissage non supervisé Apprentissage par renforcement Méthodologies utiles Estimation fonctionnelle Problème Estimer à partir de l’échantillon i.i.d. X la d.d.p. sous-jacente h Une solution est donnée par l’algorithme des "fenêtres de Parzen" où la loi empirique de l’échantillon est convoluée avec un noyau régularisant kσ : ĥ(x) = n 1 x 1X kσ (x − xi ) with kσ (x) = k n σ σ i=1 L’hyperparamètre σ est choisi en fonction de la taille de l’échantillon : Il est petit si la taille de l’échantillon est grande et inversement. ce choix peut être local (voir agorithme à noyau). Manuel Samuelides Apprentissage statistique pour construire des méta-modèles Introduction: Qu’est-ce que l’apprentissage automatique ? Problématique de l’apprentissage Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion Apprentissage supervisé Apprentissage non supervisé Apprentissage par renforcement Méthodologies utiles Outline 1 Introduction: Qu’est-ce que l’apprentissage automatique ? 2 Problématique de l’apprentissage Apprentissage supervisé Apprentissage non supervisé Apprentissage par renforcement Méthodologies utiles 3 Eléments d’apprentissage statistique 4 Sélection de modèles en apprentissage supervisé. 5 Conclusion Manuel Samuelides Apprentissage statistique pour construire des méta-modèles Introduction: Qu’est-ce que l’apprentissage automatique ? Problématique de l’apprentissage Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion Apprentissage supervisé Apprentissage non supervisé Apprentissage par renforcement Méthodologies utiles Apprentissage par renforcement La base d’apprentissage n’est pas constituée d’un échantillon mais des entrées xi et des réponses zi = g(xi , yi ) aux décisions yi de l ’apprenant. On combine donc un problème d’apprentissage du modèle (réponse du système) et le problème d’optimisation φ(x) = arg min g(x, y ) y Il faut résoudre le dilemme exploration-optimisation par une stratégie d’apprentissage. Manuel Samuelides Apprentissage statistique pour construire des méta-modèles Introduction: Qu’est-ce que l’apprentissage automatique ? Problématique de l’apprentissage Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion Apprentissage supervisé Apprentissage non supervisé Apprentissage par renforcement Méthodologies utiles Outline 1 Introduction: Qu’est-ce que l’apprentissage automatique ? 2 Problématique de l’apprentissage Apprentissage supervisé Apprentissage non supervisé Apprentissage par renforcement Méthodologies utiles 3 Eléments d’apprentissage statistique 4 Sélection de modèles en apprentissage supervisé. 5 Conclusion Manuel Samuelides Apprentissage statistique pour construire des méta-modèles Introduction: Qu’est-ce que l’apprentissage automatique ? Problématique de l’apprentissage Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion Apprentissage supervisé Apprentissage non supervisé Apprentissage par renforcement Méthodologies utiles Utilisation des méthodologies de l’optimisation Apprentissage -> optimisation d’un objectif qui dépend d’une probabilité P à partir d’un échantillon X = (xi ). Statistique P : remplacer P par la loi empirique PX = n1 ni=1 δxi Consistance en statistique asymptotique: faire tendre n vers l’infini et vérifier la convergence de l’estimateur A revoir si la dimensionnalité du problème est grande relativement à la taille de l’échantillon. Les méthodologies de l’optimisation sont donc utilisées: optimisation différentielle (gradient, second ordre, région de confiance...) programmation linéaire optimisation d’ordre 0 optimisation stochastique Manuel Samuelides Apprentissage statistique pour construire des méta-modèles Introduction: Qu’est-ce que l’apprentissage automatique ? Problématique de l’apprentissage Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion Apprentissage supervisé Apprentissage non supervisé Apprentissage par renforcement Méthodologies utiles Apprentissage en ligne La base d’apprentissage peut arriver en flot de données, imposant à l’algorithme d’apprentissage d’être récursif (batch learning vs on-line learning) xn = 1 1 (x1 + ... + xn ) ⇔ x n+1 = x n + (xn+1 − x n ) n n+1 L’algorithme de ”gradient stochastique" assure la convergence d’une descente de gradient calculée en ligne sur un échantillon vers un minimum local du risque moyen. L’apprentissage en ligne permet d’être réactif dans le choix des données de la base d’apprentissage en fonction des résultats partiels du processus. Manuel Samuelides Apprentissage statistique pour construire des méta-modèles Introduction: Qu’est-ce que l’apprentissage automatique ? Problématique de l’apprentissage Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion Outline 1 Introduction: Qu’est-ce que l’apprentissage automatique ? 2 Problématique de l’apprentissage Apprentissage supervisé Apprentissage non supervisé Apprentissage par renforcement Méthodologies utiles 3 Eléments d’apprentissage statistique 4 Sélection de modèles en apprentissage supervisé. 5 Conclusion Manuel Samuelides Apprentissage statistique pour construire des méta-modèles Introduction: Qu’est-ce que l’apprentissage automatique ? Problématique de l’apprentissage Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion Notations de l’apprentissage supervisé à risque quadratique Problème R Trouver arg minw R(w) = L(y , f (x, w))dP(x, y ) à partir de l’échantillon L = {(xi , yi )i } Dans le cas du risque quadratique L(y , z) = (y − z)2 , on a Z n o [f (x, w) − E(Y | X = x)]2 + Var (Y | X = x) dPX (x) R(w) = On remplace Ple risque inconnu par le risque empirique RL (w) = n1 ni=1 [yi − f (xi , w)]2 et on obtient l’estimateur ŵL = arg minw RL (w) Manuel Samuelides Apprentissage statistique pour construire des méta-modèles Introduction: Qu’est-ce que l’apprentissage automatique ? Problématique de l’apprentissage Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion Dilemme biais-variance Z n EL [R(ŵL )] = EL [f (x, ŵL ) − E(Y | X = x)]2 + .. Z n EL [R(ŵL )] = [EL (f (x, ŵ)L ) − E(Y | X = x)]2 + Var(f (x, ŵ)L )) + .. Le terme de biais | EL (f (x, ŵ)L ) − E(Y | X = x)] | diminue quand l’espace des modèles augmente (dimension de W). Le terme de variance Var(f (x, ŵ)L )) augmente avec la dimension de W et diminue quand la taille n de l’échantillon augmente Manuel Samuelides Apprentissage statistique pour construire des méta-modèles Introduction: Qu’est-ce que l’apprentissage automatique ? Problématique de l’apprentissage Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion Théorie de l’apprentissage et modèles parcimonieux La théorie de l’apprentissage donne des indications pour résoudre le dilemme biais-variance. Elle part du principe réaliste que la base d’apprentissage est de taille finie. Les premiers éléments (dimension de Vapnik, capacité du modèle....) donnent des estimations d’erreur de pire cas. Plus récemment des algorithmes alternatifs de régression ont été étudiés sur un plan théorique (conférence F.Bach, 27/01/12, ARF Stochastique). Des recherches dérivées de l’analyse numérique fournissent des espaces de modèles parcimonieux (sparse grids) alternatifs aux modèles ajustables (RN) Les sélections de modèles par étude empirique et simulation restent indispensables. Manuel Samuelides Apprentissage statistique pour construire des méta-modèles Introduction: Qu’est-ce que l’apprentissage automatique ? Problématique de l’apprentissage Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion Régularisation ( "ridge regression") Définition L’approche par régularisation de Tikhonov (ou ridge regresson) consiste à pénaliser la norme quadratique du paramètre du méta-modèle. La fonction à minimiser est donc: F (X , w) = R(X , w) + λ k w k2 Deux hyperparamètres doivent être choisis: a) la norme de l’hyperparamètre (pas nécessairement isotrope) qui dépend du type de méta-modèle, b) le coefficient λ qui dépend de la taille de l’échantillon Le dilemme biais-variance est résolu par une estimation bayésienne attribuant à w une distribution a priori gaussienne. Manuel Samuelides Apprentissage statistique pour construire des méta-modèles Introduction: Qu’est-ce que l’apprentissage automatique ? Problématique de l’apprentissage Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion Robustesse La minimisation du risque associé à la fonction de perte L(y , x) =| y − f (x) |2 est l’estimateur du maximum de vraisemblance dans le cas d’un bruit additif gaussien R On a f̂ (x) = arg minf L(y , x)dPY |X =x (y ) = E(Y | X = x) La minimisation du risque associé à la fonction de perte L(y , x) =| y − f (x) | est un estimateur plus robuste mais sa minimisation est plus longue (dérivée directionnelle) R f̂ (x) = arg minf L(y , x)dPY |X =x (y ) est la médiane de la loi conditionnelle : P(Y > f̂ (x) | X = x) = 12 La fonction de perte des SVR est la fonction de perte -insensitive à queue linéaire: L(y , x) =| y − f (x) | 1|y −f (x)|≥ Manuel Samuelides Apprentissage statistique pour construire des méta-modèles Introduction: Qu’est-ce que l’apprentissage automatique ? Problématique de l’apprentissage Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion Régression lasso La régression lasso impose la contrainte de parcimonie k w k1 ≤ h qui revient à adopter une fonction de régularisation non partout différentiable. Manuel Samuelides Apprentissage statistique pour construire des méta-modèles Introduction: Qu’est-ce que l’apprentissage automatique ? Problématique de l’apprentissage Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion Outline 1 Introduction: Qu’est-ce que l’apprentissage automatique ? 2 Problématique de l’apprentissage Apprentissage supervisé Apprentissage non supervisé Apprentissage par renforcement Méthodologies utiles 3 Eléments d’apprentissage statistique 4 Sélection de modèles en apprentissage supervisé. 5 Conclusion Manuel Samuelides Apprentissage statistique pour construire des méta-modèles Introduction: Qu’est-ce que l’apprentissage automatique ? Problématique de l’apprentissage Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion Validation croisée ("Jacknife") RL (ŵL ) n’est pas représentatif de R(ŵL ). La seule minimisation de l’erreur d’apprentissage conduit au surajustement des modèles. L’estimation de l’erreur se fait en scindant (jacknife) la base de données en une base d’apprentissage et une base de test T pour estimer l’erreur de généralisation du modèle. Pour considérer une base d’apprentissage suffisante, on sélectionne plusieurs fois des bases de test de taille petite (cross-validation, leave-one-out) et on fait la moyenne. Ce procédé permet de tester la capacité de l’ensemble des modèles et de dimensionner les hyperparamètres (voir G.Dreyfus) Manuel Samuelides Apprentissage statistique pour construire des méta-modèles Introduction: Qu’est-ce que l’apprentissage automatique ? Problématique de l’apprentissage Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion Rééchantillonnage ("Bootstrap") L’estimation idéale de l’erreur de généralisation dépend de la distribution inconnue P, l’idée du bootstrap est de remplacer dans toutes les estimations P par la distribution empirique PZ associée à l’échantillon disponible Z. L’apprentissage se fait donc sur un échantillon bootstrappé Z ∗ de la distribution PZ . L’erreur de généralisation R(ŵZ ) est donc estimée par RZ (ŵZ ∗ ) La variance de cette estimation peut être réduite par répétition de k procédures et moyenne des résultats. Manuel Samuelides Apprentissage statistique pour construire des méta-modèles Introduction: Qu’est-ce que l’apprentissage automatique ? Problématique de l’apprentissage Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion Mélange adaptatif de modèles: (Boosting) Pondérer les exemples par une difficulté d’apprentissage remise à jour sur l’apprentissage précédent à partir d’un indice de sa qualité globale, Reprendre un nouvel apprentissage avec la pondération mise à jour, soit directement, soit au moyen d’un échantillon bootstrappé, Agréger les modèles appris en les pondérant par leur indice de qualité. Les mélanges de modèles peuvent ausi être locaux (voir D.Bettebghor EM) Manuel Samuelides Apprentissage statistique pour construire des méta-modèles Introduction: Qu’est-ce que l’apprentissage automatique ? Problématique de l’apprentissage Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion Pistes de progrès La construction de modèles réduits ou méta-modèles s’est développée en se nourrissant des progrès récents de l’optimisation et ses différentes branches (LP, gradient, ordre 0, stochastique). La prise en considération de la taille de l’échantillon, le caractère adaptatif et actif de l’apprentissage sont des progrès relativement aux techniques statistiques classiques. La multiplicité des modèles, l’interaction croissante des différentes phases d’un projet industriel conduit à mettre l’accent sur les techniques d’agrégation des modèles L’importance croissante des méta-modèles en simulation et en optimisation numérique conduit à approfondir les relations entre approximation nmuérique et statistique Manuel Samuelides Apprentissage statistique pour construire des méta-modèles Appendix For Further Reading For Further Reading I Francis Bach. NIPS Tutorial on Sparse methods for machine learning (Theory and algorithms), 2009. Gérard Dreyfus, Jean-Marc Martinez, Manuel Samuelides, Mirta B. Gordon, Fouad Badran, Sylvie Thiria Apprentissage statistique: Réseaux de neurones - Cartes topologiques - Machines à vecteurs supports, Eyrolles, 2008. Manuel Samuelides Apprentissage statistique pour construire des méta-modèles Appendix For Further Reading For Further Reading II M. I. Jordan, L. Xu. Convergence results for the EM approach to mixtures of experts architectures, Neural Networks, 8, 1409-1431, 1995. Joseph K. Bradley, Robert E. Schapire FilterBoost: Regression and classification on large datasets, Advances in Neural Information Processing Systems 20, 2008. Vladimir Vapnik The nature of statistical learning theory Springer, 1995. Manuel Samuelides Apprentissage statistique pour construire des méta-modèles