@let@token Apprentissage de Données Massives @let@token

Introduction
Environnements technologiques
Cas d’usage
Conclusion
Apprentissage de Donn´
ees Massives
Trois cas d’usage avec R, Python et Spark
Philippe Besse, Brendan Guillouet et Jean-Michel Loubes
Universit´
e de Toulouse
INSA – Dpt GMM
Institut de Math´
ematiques – ESP
UMR CNRS 5219
Besse et al. — JES 2016 Grosses Data
Introduction
Environnements technologiques
Cas d’usage
Conclusion
Taxis : Classification de trajectoires GPS
Besse et al. — JES 2016 Grosses Data
Introduction
Environnements technologiques
Cas d’usage
Conclusion
Objectif
Nouvelle Science des Donn´
ees
Contenu
Objectif
Question : Quelle (meilleure) technologie utiliser pour
l’apprentissage sur donn´
ees massives ?
Grosses data ? RAM, DD ?
Mat´
eriel : Poste personnel, serveur, Cloud ?
Donn´
ees distribu´
ees (Hadoop) ?
Comparaisons de difficiles `
a impossibles
Point de vue du ”statisticien”
Prototype puis passage `
a l’´
echelle du mˆ
eme code
Trois cas d’usage : MNIST, MovieLens, Cdiscount
M´
ethodes et algorithmes : pr ´
eparation, RF, NMF, Logit
Trois environnements : R `
a Python, Python `
a Spark ?
Scripts dans http://github.com/wikistat
Besse et al. — JES 2016 Grosses Data
Introduction
Environnements technologiques
Cas d’usage
Conclusion
Objectif
Nouvelle Science des Donn´
ees
Contenu
AIrbus : Analyse des messages d’incidents en vol (700 000 en 6 mois)
Besse et al. — JES 2016 Grosses Data
Introduction
Environnements technologiques
Cas d’usage
Conclusion
Objectif
Nouvelle Science des Donn´
ees
Contenu
Nouvelle ( ?) Science des Donn ´
ees
1995 Data Mining : Gestion de la Relation Client, suites
logicielles (Friedman, 1997)
2010 Data Science : Publicit´
e en ligne, Hadoop, cloud
computing (Donoho, 2015 ;
beamergotobuttonBesse et Laurent, 2016)
Donn´
ees pr´
ealables (fouille), dimensions (omiques) p>> n,
Pas de nouvelles m´
ethodes, seules celles ´
echelonnables
Data pas toujours Grosses mais datification du quotidien
´
Ethique et virtualisation / transparence de la d´
ecision
Science des donn´
ees : nouveau terme d’erreur
Erreur d’optimisation + Compromis biais / variance
Optimisation stochastique (Robbins Monro) ; non
diff´
erentiable
Parall´
elisation des librairies de calcul
Nouveau mod`
ele ´
economique
Besse et al. — JES 2016 Grosses Data
1 / 38 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !