Apprentissage statistique et Big Data, focus sur l`algorithme online-EM

Apprentissage statistique et Big Data, focus sur
l’algorithme online-EM
Olivier Capp´e
Laboratoire Traitement et Communication de l’Information
CNRS, T´el´ecom ParisTech, 75013 Paris
8 octobre 2013
0. Capp´e (LTCI) Journ´ee de rencontre BIG DATA 8 octobre 2013 1 / 34
Apprentissage statistique
1Apprentissage statistique
2Big Data
3Online EM
0. Capp´e (LTCI) Journ´ee de rencontre BIG DATA 8 octobre 2013 2 / 34
Apprentissage statistique
L’apprentissage automatique
Apprentissage automatique (machine learning)
Apprendre `a effectuer des tˆaches `a partir d’exemples
De fa¸con supervis´ee Avec des exemples de donn´ees et de r´esultats
souhait´es
,Classification
De fa¸con non supervis´ee Avec uniquement des exemples de donn´ees
,Clustering
De fa¸con s´equentielle En traitant un flux de donn´ees de fa¸con causale
,Pr´ediction s´equentielle
Par extension, probl`emes dont le traitement pr´esente des analogies avec ce
qui pec`ede
,R´egression en grande dimension
0. Capp´e (LTCI) Journ´ee de rencontre BIG DATA 8 octobre 2013 3 / 34
Apprentissage statistique
Quelques id´ees sur l’apprentissage statistique
Je m’int´eresse aux approches statistiques de l’apprentissage
1Comme en statistique usuelle j’utilise un mod`ele probabiliste des
donn´ees
par exemple, Y=f(x)β+, avec al´eatoire
2Mais ce qui m’int´eresse c’est pedire |classifier |reconstruire plus
qu’estimer
pedire Y0par f(x0)ˆ
βpour un nouvel x0
plus que ˆ
βen lui mˆeme
0. Capp´e (LTCI) Journ´ee de rencontre BIG DATA 8 octobre 2013 4 / 34
Apprentissage statistique
Quelques id´ees sur l’apprentissage statistique . . .
3D’autant plus que je crois que le mod`ele utilis´e est instrumental
(probablement faux)
on doit avoir Y=F(x) + , avec Fassez compliqu´ee
4De ce fait, j’ai int´erˆet `a faire croˆıtre la complexit´e du mod`ele avec
le nombre de donn´ees disponibles
si j’observe Y1, . . . , Yn, j’utilise plutˆot le mod`ele
Yi=
kn
X
j=1
fj(xi)βj+i,o`u knavec n
5Le choix / s´election de mod`ele est crucial
choisir ˆ
knpour que
ˆ
kn
X
j=1
fj(x0)ˆ
βjsoit le plus proche de Y0
0. Capp´e (LTCI) Journ´ee de rencontre BIG DATA 8 octobre 2013 5 / 34
1 / 34 100%

Apprentissage statistique et Big Data, focus sur l`algorithme online-EM

La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !