Apprentissage statistique pour construire des méta

publicité
Introduction: Qu’est-ce que l’apprentissage automatique ?
Problématique de l’apprentissage
Eléments d’apprentissage statistique
Sélection de modèles en apprentissage supervisé.
Conclusion
Apprentissage statistique pour construire des
méta-modèles
Manuel Samuelides
ONERA/ Institut Supérieur de l’Aéronautique et de l’Espace
Manuel Samuelides
Apprentissage statistique pour construire des méta-modèles
Introduction: Qu’est-ce que l’apprentissage automatique ?
Problématique de l’apprentissage
Eléments d’apprentissage statistique
Sélection de modèles en apprentissage supervisé.
Conclusion
Outline
1
Introduction: Qu’est-ce que l’apprentissage automatique ?
2
Problématique de l’apprentissage
Apprentissage supervisé
Apprentissage non supervisé
Apprentissage par renforcement
Méthodologies utiles
3
Eléments d’apprentissage statistique
4
Sélection de modèles en apprentissage supervisé.
5
Conclusion
Manuel Samuelides
Apprentissage statistique pour construire des méta-modèles
Introduction: Qu’est-ce que l’apprentissage automatique ?
Problématique de l’apprentissage
Eléments d’apprentissage statistique
Sélection de modèles en apprentissage supervisé.
Conclusion
Apprentissage automatique ("machine learning")
L’apprentissage automatique fait partie de l’intelligence
artificielle.
Il s’agit de doter la machine de capacités d’apprentissage,
i.e. capacités d’évoluer en intégrant des données utiles
fournies par l’environnement.
Exemples: lecture automatique, capacité de mobilité dans
un environnement complexe (robotique), exploration du
Web, capacité de réparation (maintenance), analyse
financière (prévision), aide à la personne...
Une première piste a été celle de l’apprentissage
symbolique (systèmes experts) consistant à déduire des
données un système à base de règles (diagnostic, arbres
de décision...).
Manuel Samuelides
Apprentissage statistique pour construire des méta-modèles
Introduction: Qu’est-ce que l’apprentissage automatique ?
Problématique de l’apprentissage
Eléments d’apprentissage statistique
Sélection de modèles en apprentissage supervisé.
Conclusion
De l’apprentissage symbolique à l’apprentissage
statistique
L’explosion combinatoire du traitement des problèmes
réels a rendu nécessaire la mise en oeuvre de
"prétraitements statistiques".
L’intégration de ces prétraitements dans le système
d’apprentissage a conduit à considérer que l’apprentissage
automatique relève de la méthodologie statistique .
Modélisation des systèmes naturels et de leur adaptation:
règle de Hebb (1949)
perceptron de Rosenblatt (1957)
machine de Hopfield (1982)
perceptron multi-couche (Y.Le Cun, 1985; Rumelhart, 1986)
Vapnik (apprentissage statistique depuis 1971); Valiant
(PAC-learning, 1984)...
Manuel Samuelides
Apprentissage statistique pour construire des méta-modèles
Introduction: Qu’est-ce que l’apprentissage automatique ?
Problématique de l’apprentissage
Eléments d’apprentissage statistique
Sélection de modèles en apprentissage supervisé.
Conclusion
Apprentissage supervisé
Apprentissage non supervisé
Apprentissage par renforcement
Méthodologies utiles
Outline
1
Introduction: Qu’est-ce que l’apprentissage automatique ?
2
Problématique de l’apprentissage
Apprentissage supervisé
Apprentissage non supervisé
Apprentissage par renforcement
Méthodologies utiles
3
Eléments d’apprentissage statistique
4
Sélection de modèles en apprentissage supervisé.
5
Conclusion
Manuel Samuelides
Apprentissage statistique pour construire des méta-modèles
Introduction: Qu’est-ce que l’apprentissage automatique ?
Problématique de l’apprentissage
Eléments d’apprentissage statistique
Sélection de modèles en apprentissage supervisé.
Conclusion
Apprentissage supervisé
Apprentissage non supervisé
Apprentissage par renforcement
Méthodologies utiles
Outline
1
Introduction: Qu’est-ce que l’apprentissage automatique ?
2
Problématique de l’apprentissage
Apprentissage supervisé
Apprentissage non supervisé
Apprentissage par renforcement
Méthodologies utiles
3
Eléments d’apprentissage statistique
4
Sélection de modèles en apprentissage supervisé.
5
Conclusion
Manuel Samuelides
Apprentissage statistique pour construire des méta-modèles
Introduction: Qu’est-ce que l’apprentissage automatique ?
Problématique de l’apprentissage
Eléments d’apprentissage statistique
Sélection de modèles en apprentissage supervisé.
Conclusion
Apprentissage supervisé
Apprentissage non supervisé
Apprentissage par renforcement
Méthodologies utiles
Apprentissage supervisé
Problème
Modéliser un système entrée sortie f : E → F à partir d’une
base de n exemples L = X × Y avec
X = (x1 , ..., xn ) ∈ E n , Y = (y1 , ..., yn ) ∈ F n
Le modèle construit est appelé "méta-modèle" ("surrogate
model") ou modèle "boîte noire" car il n’utilise pas de
connaissances physiques, une fois donnés E et F.
L’apprentissage s’impose quand le modèle physique n’est
pas disponible ou qu’il est trop complexe pour être mis en
oeuvre dans des processus itératifs nécessaires
(optimisation): "modèles réduits" ("ROM: reduced ordermodel").
Manuel Samuelides
Apprentissage statistique pour construire des méta-modèles
Introduction: Qu’est-ce que l’apprentissage automatique ?
Problématique de l’apprentissage
Eléments d’apprentissage statistique
Sélection de modèles en apprentissage supervisé.
Conclusion
Apprentissage supervisé
Apprentissage non supervisé
Apprentissage par renforcement
Méthodologies utiles
Apprentissage supervisé et statistique
La fonction entrée-sortie du système, modélisée par
y = ϕ(x), est une fonction aléatoire de E dans F,
Dans les problèmes stationnaires, l’entrée est supposée
être une variable aléatoire à valeurs dans E, dans ce cas
L = ((X1 , Y1 ), ..., (Xn , Yn )) est un échantillon i.i.id. d’une loi
de probabilité P sur E × F,
Dans les problèmes de contrôle, les entrées peuvent être
fournies par un processus aléatoire.
Manuel Samuelides
Apprentissage statistique pour construire des méta-modèles
Introduction: Qu’est-ce que l’apprentissage automatique ?
Problématique de l’apprentissage
Eléments d’apprentissage statistique
Sélection de modèles en apprentissage supervisé.
Conclusion
Apprentissage supervisé
Apprentissage non supervisé
Apprentissage par renforcement
Méthodologies utiles
Apprentissage supervisé:classification
Définition
En classification, l’ensemble des sorties est un ensemble fini,
typiquement pour la classification binaire F = {0, 1}
Exemple: Arbres de décision (Quinlan79), (Breiman84) )
Construction récursive de tests du type:
variable discrète Xi = ak ,
variable continue Xi ≤ a
Manuel Samuelides
Apprentissage statistique pour construire des méta-modèles
Introduction: Qu’est-ce que l’apprentissage automatique ?
Problématique de l’apprentissage
Eléments d’apprentissage statistique
Sélection de modèles en apprentissage supervisé.
Conclusion
Apprentissage supervisé
Apprentissage non supervisé
Apprentissage par renforcement
Méthodologies utiles
Exemple d’arbre de décision
Manuel Samuelides
Apprentissage statistique pour construire des méta-modèles
Introduction: Qu’est-ce que l’apprentissage automatique ?
Problématique de l’apprentissage
Eléments d’apprentissage statistique
Sélection de modèles en apprentissage supervisé.
Conclusion
Apprentissage supervisé
Apprentissage non supervisé
Apprentissage par renforcement
Méthodologies utiles
Apprentissage supervisé: arbres de décision
Définition
En classification, l’ensemble des sorties est un ensemble fini,
typiquement pour la classification binaire F = {0, 1}
Exemple: Arbres de décision (Quinlan79), (Breiman84) )
Construction récursive de tests du type:
variable discrète Xi = ak ,
variable continue Xi ≤ a
Choisir le test le plus discriminant: critère d’entropie
mesurant le gain d’homogénétité dans les sous-arbres
Critère d’arrêt
Bilan
Pour: Intelligibilité / Contre: Complexité calculatoire,
Extensions possibles (forêt) mais perte d’intelligibilité
Manuel Samuelides
Apprentissage statistique pour construire des méta-modèles
Introduction: Qu’est-ce que l’apprentissage automatique ?
Problématique de l’apprentissage
Eléments d’apprentissage statistique
Sélection de modèles en apprentissage supervisé.
Conclusion
Apprentissage supervisé
Apprentissage non supervisé
Apprentissage par renforcement
Méthodologies utiles
Apprentissage supervisé: régression
Définition
En régression, l’ensemble des sorties est un sous-ensemble
régulier de Rp .
Exemple: Régression linéaire
E = Rp , F = R. On choisit un système libre de p
régresseurs de E dans F, {φ1 , ..., φp }. On cherche des
modèles paramétrés
par w ∈ W = Rp du type
Pp
f (x, w) = k =1 wk φk (x).
On forme la matrice (n, p) des régresseurs ℵ = (φk (xi )).
Le méta-modèle ŵ est donné par
ŵ = arg min k Y − ℵ.w k= ℵ(−1) Y
w
Manuel Samuelides
(1)
Apprentissage statistique pour construire des méta-modèles
Introduction: Qu’est-ce que l’apprentissage automatique ?
Problématique de l’apprentissage
Eléments d’apprentissage statistique
Sélection de modèles en apprentissage supervisé.
Conclusion
Apprentissage supervisé
Apprentissage non supervisé
Apprentissage par renforcement
Méthodologies utiles
Apprentissage supervisé et approximation
Les techniques d’apprentissage peuvent être adaptées
pour utiliser des connaissances physiques ("boîte grise").
L’application de modèles physiques peut être subordonnée
à l’estimation statistique de certains paramètres (recalage
de modèles).
Des méthodes d’approximation numérique de modèles
physique peuvent incorporer des techniques statistiques
(maillages déstructurés, sparse grids).
Manuel Samuelides
Apprentissage statistique pour construire des méta-modèles
Introduction: Qu’est-ce que l’apprentissage automatique ?
Problématique de l’apprentissage
Eléments d’apprentissage statistique
Sélection de modèles en apprentissage supervisé.
Conclusion
Apprentissage supervisé
Apprentissage non supervisé
Apprentissage par renforcement
Méthodologies utiles
Outline
1
Introduction: Qu’est-ce que l’apprentissage automatique ?
2
Problématique de l’apprentissage
Apprentissage supervisé
Apprentissage non supervisé
Apprentissage par renforcement
Méthodologies utiles
3
Eléments d’apprentissage statistique
4
Sélection de modèles en apprentissage supervisé.
5
Conclusion
Manuel Samuelides
Apprentissage statistique pour construire des méta-modèles
Introduction: Qu’est-ce que l’apprentissage automatique ?
Problématique de l’apprentissage
Eléments d’apprentissage statistique
Sélection de modèles en apprentissage supervisé.
Conclusion
Apprentissage supervisé
Apprentissage non supervisé
Apprentissage par renforcement
Méthodologies utiles
Les objectifs de l’apprentissage non-supervisé.
L’apprentissage non supervisé est aussi appelé "analyse
de données" en statistique et fouille de données "data
mining" en informatique".
Le but est de faire de la compression de données utiles (ne
pas prendre en compte des particularités inutiles dans les
données).
Il ne s’agit pas seulement d’économiser du temps de calcul
ou de l’espace mémoire mais d’éviter le surapprentissage
et d’être robuste.
L’apprentissage non-supervisé peut être utilisé comme
prétraitement de l’apprentissage supervisé ou de
modélisation physique (Galerkin-POD).
Il peut aussi être utilisé pour obtenir une visualisation
graphique des données (2d or 3d)
Manuel Samuelides
Apprentissage statistique pour construire des méta-modèles
Introduction: Qu’est-ce que l’apprentissage automatique ?
Problématique de l’apprentissage
Eléments d’apprentissage statistique
Sélection de modèles en apprentissage supervisé.
Conclusion
Apprentissage supervisé
Apprentissage non supervisé
Apprentissage par renforcement
Méthodologies utiles
Analyse en composantes principales
Problème
Soit X = (x1 ; ...; xn ) ∈ E n un échantillon de taille n. Trouver
U = (u1P
, ...., uq ) q <<
P p un système orthonormal of E solution
de min ni=1 k xi − qj=1 (xi | uj )uj k2
Solution fournie par l’algorithme SVD ou la décompositions
spectrale de X ∗ X (matrice de covariance empirique sur un
échantillon centré).
Choix de q (hyperparamètre)
Le choix de la métrique de E peut être important (métrique
de Mahalanobis: matrice de corrélation)
Manuel Samuelides
Apprentissage statistique pour construire des méta-modèles
Introduction: Qu’est-ce que l’apprentissage automatique ?
Problématique de l’apprentissage
Eléments d’apprentissage statistique
Sélection de modèles en apprentissage supervisé.
Conclusion
Apprentissage supervisé
Apprentissage non supervisé
Apprentissage par renforcement
Méthodologies utiles
Agrégation de données
On souhaite diviser l’espace des données E en k régions
représentatives de l’échantillon X
Chaque région Sj est représentée par un centroïde uj ∈ E
Chaque donnée est remplacée par le centroïde le plus
proche ce qui induit une partition de E en k régions
(partition de Voronoï)
Les centroïdes sont choisis pour minimiser l’erreur
quadratique totale sur l’échantillon.
Problème
Trouver (uj )j∈{1...k } qui minimise
P P
SSE = kj=1 i/xi ∈Si k xi − uj k2 où (Sj ) est la partition de
Voronoï associée à (uj )
Manuel Samuelides
Apprentissage statistique pour construire des méta-modèles
Introduction: Qu’est-ce que l’apprentissage automatique ?
Problématique de l’apprentissage
Eléments d’apprentissage statistique
Sélection de modèles en apprentissage supervisé.
Conclusion
Apprentissage supervisé
Apprentissage non supervisé
Apprentissage par renforcement
Méthodologies utiles
Algorithme des k-moyennes
Initialiser les k-moyennes (uj0 )j∈{1...k } .
PUIS REPETER JUSQU’A CONVERGENCE
1
2
Effectuer la partition de Voronoï (Sj )n de X associée à (ujn ).
Calculer les k-moyennes
∀j = 1...k , ujn+1 =
1 X
ui
](Sjn )
n
ui ∈Sj
La limite si elle existe vérifie l’équation des k -moyennes
∀j = 1...k , uj =
1 X
ui
](Sj )
ui ∈Sj
Manuel Samuelides
Apprentissage statistique pour construire des méta-modèles
Introduction: Qu’est-ce que l’apprentissage automatique ?
Problématique de l’apprentissage
Eléments d’apprentissage statistique
Sélection de modèles en apprentissage supervisé.
Conclusion
Apprentissage supervisé
Apprentissage non supervisé
Apprentissage par renforcement
Méthodologies utiles
Estimation fonctionnelle
Problème
Estimer à partir de l’échantillon i.i.d. X la d.d.p. sous-jacente h
Une solution est donnée par l’algorithme des "fenêtres de
Parzen" où la loi empirique de l’échantillon est convoluée avec
un noyau régularisant kσ :
ĥ(x) =
n
1 x 1X
kσ (x − xi ) with kσ (x) = k
n
σ
σ
i=1
L’hyperparamètre σ est choisi en fonction de la taille de
l’échantillon : Il est petit si la taille de l’échantillon est grande et
inversement. ce choix peut être local (voir agorithme à noyau).
Manuel Samuelides
Apprentissage statistique pour construire des méta-modèles
Introduction: Qu’est-ce que l’apprentissage automatique ?
Problématique de l’apprentissage
Eléments d’apprentissage statistique
Sélection de modèles en apprentissage supervisé.
Conclusion
Apprentissage supervisé
Apprentissage non supervisé
Apprentissage par renforcement
Méthodologies utiles
Outline
1
Introduction: Qu’est-ce que l’apprentissage automatique ?
2
Problématique de l’apprentissage
Apprentissage supervisé
Apprentissage non supervisé
Apprentissage par renforcement
Méthodologies utiles
3
Eléments d’apprentissage statistique
4
Sélection de modèles en apprentissage supervisé.
5
Conclusion
Manuel Samuelides
Apprentissage statistique pour construire des méta-modèles
Introduction: Qu’est-ce que l’apprentissage automatique ?
Problématique de l’apprentissage
Eléments d’apprentissage statistique
Sélection de modèles en apprentissage supervisé.
Conclusion
Apprentissage supervisé
Apprentissage non supervisé
Apprentissage par renforcement
Méthodologies utiles
Apprentissage par renforcement
La base d’apprentissage n’est pas constituée d’un
échantillon mais des entrées xi et des réponses
zi = g(xi , yi ) aux décisions yi de l ’apprenant.
On combine donc un problème d’apprentissage du modèle
(réponse du système) et le problème d’optimisation
φ(x) = arg min g(x, y )
y
Il faut résoudre le dilemme exploration-optimisation par
une stratégie d’apprentissage.
Manuel Samuelides
Apprentissage statistique pour construire des méta-modèles
Introduction: Qu’est-ce que l’apprentissage automatique ?
Problématique de l’apprentissage
Eléments d’apprentissage statistique
Sélection de modèles en apprentissage supervisé.
Conclusion
Apprentissage supervisé
Apprentissage non supervisé
Apprentissage par renforcement
Méthodologies utiles
Outline
1
Introduction: Qu’est-ce que l’apprentissage automatique ?
2
Problématique de l’apprentissage
Apprentissage supervisé
Apprentissage non supervisé
Apprentissage par renforcement
Méthodologies utiles
3
Eléments d’apprentissage statistique
4
Sélection de modèles en apprentissage supervisé.
5
Conclusion
Manuel Samuelides
Apprentissage statistique pour construire des méta-modèles
Introduction: Qu’est-ce que l’apprentissage automatique ?
Problématique de l’apprentissage
Eléments d’apprentissage statistique
Sélection de modèles en apprentissage supervisé.
Conclusion
Apprentissage supervisé
Apprentissage non supervisé
Apprentissage par renforcement
Méthodologies utiles
Utilisation des méthodologies de l’optimisation
Apprentissage -> optimisation d’un objectif qui dépend
d’une probabilité P à partir d’un échantillon X = (xi ).
Statistique
P : remplacer P par la loi empirique
PX = n1 ni=1 δxi
Consistance en statistique asymptotique: faire tendre n
vers l’infini et vérifier la convergence de l’estimateur
A revoir si la dimensionnalité du problème est grande
relativement à la taille de l’échantillon.
Les méthodologies de l’optimisation sont donc utilisées:
optimisation différentielle (gradient, second ordre, région de
confiance...)
programmation linéaire
optimisation d’ordre 0
optimisation stochastique
Manuel Samuelides
Apprentissage statistique pour construire des méta-modèles
Introduction: Qu’est-ce que l’apprentissage automatique ?
Problématique de l’apprentissage
Eléments d’apprentissage statistique
Sélection de modèles en apprentissage supervisé.
Conclusion
Apprentissage supervisé
Apprentissage non supervisé
Apprentissage par renforcement
Méthodologies utiles
Apprentissage en ligne
La base d’apprentissage peut arriver en flot de données,
imposant à l’algorithme d’apprentissage d’être récursif
(batch learning vs on-line learning)
xn =
1
1
(x1 + ... + xn ) ⇔ x n+1 = x n +
(xn+1 − x n )
n
n+1
L’algorithme de ”gradient stochastique" assure la
convergence d’une descente de gradient calculée en ligne
sur un échantillon vers un minimum local du risque moyen.
L’apprentissage en ligne permet d’être réactif dans le choix
des données de la base d’apprentissage en fonction des
résultats partiels du processus.
Manuel Samuelides
Apprentissage statistique pour construire des méta-modèles
Introduction: Qu’est-ce que l’apprentissage automatique ?
Problématique de l’apprentissage
Eléments d’apprentissage statistique
Sélection de modèles en apprentissage supervisé.
Conclusion
Outline
1
Introduction: Qu’est-ce que l’apprentissage automatique ?
2
Problématique de l’apprentissage
Apprentissage supervisé
Apprentissage non supervisé
Apprentissage par renforcement
Méthodologies utiles
3
Eléments d’apprentissage statistique
4
Sélection de modèles en apprentissage supervisé.
5
Conclusion
Manuel Samuelides
Apprentissage statistique pour construire des méta-modèles
Introduction: Qu’est-ce que l’apprentissage automatique ?
Problématique de l’apprentissage
Eléments d’apprentissage statistique
Sélection de modèles en apprentissage supervisé.
Conclusion
Notations de l’apprentissage supervisé à risque
quadratique
Problème
R
Trouver arg minw R(w) = L(y , f (x, w))dP(x, y ) à partir de
l’échantillon L = {(xi , yi )i }
Dans le cas du risque quadratique L(y , z) = (y − z)2 , on a
Z n
o
[f (x, w) − E(Y | X = x)]2 + Var (Y | X = x) dPX (x)
R(w) =
On remplace
Ple risque inconnu par le risque empirique
RL (w) = n1 ni=1 [yi − f (xi , w)]2 et on obtient l’estimateur
ŵL = arg minw RL (w)
Manuel Samuelides
Apprentissage statistique pour construire des méta-modèles
Introduction: Qu’est-ce que l’apprentissage automatique ?
Problématique de l’apprentissage
Eléments d’apprentissage statistique
Sélection de modèles en apprentissage supervisé.
Conclusion
Dilemme biais-variance
Z n
EL [R(ŵL )] =
EL [f (x, ŵL ) − E(Y | X = x)]2 + ..
Z n
EL [R(ŵL )] =
[EL (f (x, ŵ)L ) − E(Y | X = x)]2 + Var(f (x, ŵ)L )) + ..
Le terme de biais | EL (f (x, ŵ)L ) − E(Y | X = x)] | diminue
quand l’espace des modèles augmente (dimension de W).
Le terme de variance Var(f (x, ŵ)L )) augmente avec la
dimension de W et diminue quand la taille n de
l’échantillon augmente
Manuel Samuelides
Apprentissage statistique pour construire des méta-modèles
Introduction: Qu’est-ce que l’apprentissage automatique ?
Problématique de l’apprentissage
Eléments d’apprentissage statistique
Sélection de modèles en apprentissage supervisé.
Conclusion
Théorie de l’apprentissage et modèles parcimonieux
La théorie de l’apprentissage donne des indications pour
résoudre le dilemme biais-variance.
Elle part du principe réaliste que la base d’apprentissage
est de taille finie.
Les premiers éléments (dimension de Vapnik, capacité du
modèle....) donnent des estimations d’erreur de pire cas.
Plus récemment des algorithmes alternatifs de régression
ont été étudiés sur un plan théorique (conférence F.Bach,
27/01/12, ARF Stochastique).
Des recherches dérivées de l’analyse numérique
fournissent des espaces de modèles parcimonieux (sparse
grids) alternatifs aux modèles ajustables (RN)
Les sélections de modèles par étude empirique et
simulation restent indispensables.
Manuel Samuelides
Apprentissage statistique pour construire des méta-modèles
Introduction: Qu’est-ce que l’apprentissage automatique ?
Problématique de l’apprentissage
Eléments d’apprentissage statistique
Sélection de modèles en apprentissage supervisé.
Conclusion
Régularisation ( "ridge regression")
Définition
L’approche par régularisation de Tikhonov (ou ridge regresson)
consiste à pénaliser la norme quadratique du paramètre du
méta-modèle. La fonction à minimiser est donc:
F (X , w) = R(X , w) + λ k w k2
Deux hyperparamètres doivent être choisis:
a) la norme de l’hyperparamètre (pas nécessairement
isotrope) qui dépend du type de méta-modèle,
b) le coefficient λ qui dépend de la taille de l’échantillon
Le dilemme biais-variance est résolu par une estimation
bayésienne attribuant à w une distribution a priori
gaussienne.
Manuel Samuelides
Apprentissage statistique pour construire des méta-modèles
Introduction: Qu’est-ce que l’apprentissage automatique ?
Problématique de l’apprentissage
Eléments d’apprentissage statistique
Sélection de modèles en apprentissage supervisé.
Conclusion
Robustesse
La minimisation du risque associé à la fonction de perte
L(y , x) =| y − f (x) |2 est l’estimateur du maximum de
vraisemblance dans le cas d’un bruit additif gaussien
R
On a f̂ (x) = arg minf L(y , x)dPY |X =x (y ) = E(Y | X = x)
La minimisation du risque associé à la fonction de perte
L(y , x) =| y − f (x) | est un estimateur plus robuste mais sa
minimisation est plus longue (dérivée directionnelle)
R
f̂ (x) = arg minf L(y , x)dPY |X =x (y ) est la médiane de la loi
conditionnelle : P(Y > f̂ (x) | X = x) = 12
La fonction de perte des SVR est la fonction de perte
-insensitive à queue linéaire:
L(y , x) =| y − f (x) | 1|y −f (x)|≥
Manuel Samuelides
Apprentissage statistique pour construire des méta-modèles
Introduction: Qu’est-ce que l’apprentissage automatique ?
Problématique de l’apprentissage
Eléments d’apprentissage statistique
Sélection de modèles en apprentissage supervisé.
Conclusion
Régression lasso
La régression lasso impose la contrainte de parcimonie
k w k1 ≤ h qui revient à adopter une fonction de
régularisation non partout différentiable.
Manuel Samuelides
Apprentissage statistique pour construire des méta-modèles
Introduction: Qu’est-ce que l’apprentissage automatique ?
Problématique de l’apprentissage
Eléments d’apprentissage statistique
Sélection de modèles en apprentissage supervisé.
Conclusion
Outline
1
Introduction: Qu’est-ce que l’apprentissage automatique ?
2
Problématique de l’apprentissage
Apprentissage supervisé
Apprentissage non supervisé
Apprentissage par renforcement
Méthodologies utiles
3
Eléments d’apprentissage statistique
4
Sélection de modèles en apprentissage supervisé.
5
Conclusion
Manuel Samuelides
Apprentissage statistique pour construire des méta-modèles
Introduction: Qu’est-ce que l’apprentissage automatique ?
Problématique de l’apprentissage
Eléments d’apprentissage statistique
Sélection de modèles en apprentissage supervisé.
Conclusion
Validation croisée ("Jacknife")
RL (ŵL ) n’est pas représentatif de R(ŵL ).
La seule minimisation de l’erreur d’apprentissage conduit
au surajustement des modèles.
L’estimation de l’erreur se fait en scindant (jacknife) la base
de données en une base d’apprentissage et une base de
test T pour estimer l’erreur de généralisation du modèle.
Pour considérer une base d’apprentissage suffisante, on
sélectionne plusieurs fois des bases de test de taille petite
(cross-validation, leave-one-out) et on fait la moyenne.
Ce procédé permet de tester la capacité de l’ensemble des
modèles et de dimensionner les hyperparamètres (voir
G.Dreyfus)
Manuel Samuelides
Apprentissage statistique pour construire des méta-modèles
Introduction: Qu’est-ce que l’apprentissage automatique ?
Problématique de l’apprentissage
Eléments d’apprentissage statistique
Sélection de modèles en apprentissage supervisé.
Conclusion
Rééchantillonnage ("Bootstrap")
L’estimation idéale de l’erreur de généralisation dépend de
la distribution inconnue P, l’idée du bootstrap est de
remplacer dans toutes les estimations P par la distribution
empirique PZ associée à l’échantillon disponible Z.
L’apprentissage se fait donc sur un échantillon bootstrappé
Z ∗ de la distribution PZ .
L’erreur de généralisation R(ŵZ ) est donc estimée par
RZ (ŵZ ∗ )
La variance de cette estimation peut être réduite par
répétition de k procédures et moyenne des résultats.
Manuel Samuelides
Apprentissage statistique pour construire des méta-modèles
Introduction: Qu’est-ce que l’apprentissage automatique ?
Problématique de l’apprentissage
Eléments d’apprentissage statistique
Sélection de modèles en apprentissage supervisé.
Conclusion
Mélange adaptatif de modèles: (Boosting)
Pondérer les exemples par une difficulté d’apprentissage
remise à jour sur l’apprentissage précédent à partir d’un
indice de sa qualité globale,
Reprendre un nouvel apprentissage avec la pondération
mise à jour, soit directement, soit au moyen d’un
échantillon bootstrappé,
Agréger les modèles appris en les pondérant par leur
indice de qualité.
Les mélanges de modèles peuvent ausi être locaux (voir
D.Bettebghor EM)
Manuel Samuelides
Apprentissage statistique pour construire des méta-modèles
Introduction: Qu’est-ce que l’apprentissage automatique ?
Problématique de l’apprentissage
Eléments d’apprentissage statistique
Sélection de modèles en apprentissage supervisé.
Conclusion
Pistes de progrès
La construction de modèles réduits ou méta-modèles s’est
développée en se nourrissant des progrès récents de
l’optimisation et ses différentes branches (LP, gradient,
ordre 0, stochastique).
La prise en considération de la taille de l’échantillon, le
caractère adaptatif et actif de l’apprentissage sont des
progrès relativement aux techniques statistiques
classiques.
La multiplicité des modèles, l’interaction croissante des
différentes phases d’un projet industriel conduit à mettre
l’accent sur les techniques d’agrégation des modèles
L’importance croissante des méta-modèles en simulation
et en optimisation numérique conduit à approfondir les
relations entre approximation nmuérique et statistique
Manuel Samuelides
Apprentissage statistique pour construire des méta-modèles
Appendix
For Further Reading
For Further Reading I
Francis Bach.
NIPS Tutorial on Sparse methods for machine learning
(Theory and algorithms),
2009.
Gérard Dreyfus, Jean-Marc Martinez, Manuel Samuelides,
Mirta B. Gordon, Fouad Badran, Sylvie Thiria
Apprentissage statistique: Réseaux de neurones - Cartes
topologiques - Machines à vecteurs supports,
Eyrolles, 2008.
Manuel Samuelides
Apprentissage statistique pour construire des méta-modèles
Appendix
For Further Reading
For Further Reading II
M. I. Jordan, L. Xu.
Convergence results for the EM approach to mixtures of
experts architectures,
Neural Networks, 8, 1409-1431, 1995.
Joseph K. Bradley, Robert E. Schapire
FilterBoost: Regression and classification on large
datasets,
Advances in Neural Information Processing Systems 20,
2008.
Vladimir Vapnik
The nature of statistical learning theory
Springer, 1995.
Manuel Samuelides
Apprentissage statistique pour construire des méta-modèles
Téléchargement