S´
eance 7: ´
Evaluation de la qualit´
e de
pr´
ediction
S´
ebastien Gadat
Laboratoire de Statistique et Probabilit´
es
UMR 5583 CNRS-UPS
www.lsp.ups-tlse.fr/gadat
S´
ebastien Gadat S´
eance 7: ´
Evaluation de la qualit´
e de pr´
ediction
Objectifs
Estimation de l’erreur
Strat´
egie pour ngrand
Strat´
egie avec p´
enalisation
Estimation par simulation
Septi`
eme partie VII
´
Evaluation de la qualit´
e de pr´
ediction
S´
ebastien Gadat S´
eance 7: ´
Evaluation de la qualit´
e de pr´
ediction
Objectifs
Estimation de l’erreur
Strat´
egie pour ngrand
Strat´
egie avec p´
enalisation
Estimation par simulation
G´
en´
eralit´
es
Objectifs
Comment ´
evaluer la performance d’un mod`
ele statistique ?
On dispose de donn´
ees D«´
etiquet´
ees »D= (X1,Y1). . . (Xn,Yn)
´
Evaluer de fac¸on fiable la performance (fiabilit ´
e, confiance) d’un
mod`
ele est important pour ensuite pouvoir choisir le meilleur.
On propose g´
en´
eralement trois strat´
egies :
une possibilit´
e de partager Den deux parties : l’une pour
l’apprentissage du mod`
ele, l’autre pour le test
D=Dtrain ∪ Dtest
une p´
enalisation du biais par la complexit ´
e du mod`
ele lors de la
phase d’ajustement (apprentissage) du mod`
ele
un usage intensif de calcul par simulations statistiques complexes
Quel mod`
ele pour obtenir la meilleure fiabilit´
e de pr´
ediction
Cas id´
eal : on poss`
ede deux ´
echantillons, train et test
Cas standard : on poss`
ede des donn´
ees non s´
epar´
ees en train
et test. D´
ecomposition de Dou strat´
egie de p´
enalisation
Cas plus p´
enible : on poss`
ede peu d’´
echantillons
d’apprentissage : utilisation de simulations.
S´
ebastien Gadat S´
eance 7: ´
Evaluation de la qualit´
e de pr´
ediction
Objectifs
Estimation de l’erreur
Strat´
egie pour ngrand
Strat´
egie avec p´
enalisation
Estimation par simulation
G´
en´
eralit´
es
Objectifs
Plusieurs consid´
erations :
Consistence du mod`
ele : un mod`
ele est consistant si lorsque la
taille des donn´
ees tend vers +, l’erreur d’apprentissage tend
vers l’erreur de test en probabilit´
e.
Vitesse de convergence : ´
Evaluation de la facult´
e de
g´
en´
eralisation de l’ensemble d’apprentissage lorsque sa taille
augmente.
Contrˆ
ole du mod`
ele : Estimation de la capacit´
e de g´
en´
eralisation
du mod`
ele lorsque le nombre d’exemples est fix´
e.
On notera que le «meilleur »mod`
ele au sens pr´
edictif n’est pas
forc´
ement
celui qui s’ajuste le mieux aux donn´
ees d’apprentissage
(overfitting)
le vrai mod`
ele si la variance des estimations est trop importante
S´
ebastien Gadat S´
eance 7: ´
Evaluation de la qualit´
e de pr´
ediction
Objectifs
Estimation de l’erreur
Strat´
egie pour ngrand
Strat´
egie avec p´
enalisation
Estimation par simulation
D´
efinitions
Fonctions de perte
D´
ecomposition Biais/Variance
D´
efinitions
X: variables pr´
edictives et Yla variable `
a pr´
edire.
On suppose donn´
eDet qu’il y a une loi jointe Fentre Xet Y. Le
mod`
ele statistique s’´
ecrit
Y=φ(X) +
On suppose centr´
e, ind´
ependant de Xet on note Var() = σ2.
Erreur de pr´
ediction : L’erreur de pr´
ediction du mod`
ele est d´
efinie par
E(D) = EFhQ(Y,ˆ
φ(X))i
o`
uQest la fonction de perte.
Interpr´
etation : C’est l’erreur mesur´
ee par Qsi les observations (X,Y)
´
etaient g´
en´
er´
ees par la loi jointe Falors que le mod`
ele appris sur D
est ˆ
φ. Penser `
a l’exemple simple de la r´
egression lin´
eaire...
S´
ebastien Gadat S´
eance 7: ´
Evaluation de la qualit´
e de pr´
ediction
1 / 15 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !