@let@token Apprentissage de Données Massives @let@token

Téléchargement

Introduction

Environnements technologiques

Cas d’usage

Conclusion

Apprentissage de Donn´

ees Massives

Trois cas d’usage avec R, Python et Spark

Philippe Besse, Brendan Guillouet et Jean-Michel Loubes

Universit´

e de Toulouse

INSA – Dpt GMM

Institut de Math´

ematiques – ESP

UMR CNRS 5219

Besse et al. — JES 2016 Grosses Data

Introduction

Environnements technologiques

Cas d’usage

Conclusion

Taxis : Classiﬁcation de trajectoires GPS

Besse et al. — JES 2016 Grosses Data

Introduction

Environnements technologiques

Cas d’usage

Conclusion

Objectif

Nouvelle Science des Donn´

ees

Contenu

Objectif

Question : Quelle (meilleure) technologie utiliser pour

l’apprentissage sur donn´

ees massives ?

Grosses data ? RAM, DD ?

Mat´

eriel : Poste personnel, serveur, Cloud ?

Donn´

ees distribu´

ees (Hadoop) ?

Comparaisons de difﬁciles `

a impossibles

Point de vue du ”statisticien”

Prototype puis passage `

a l’´

echelle du mˆ

eme code

Trois cas d’usage : MNIST, MovieLens, Cdiscount

M´

ethodes et algorithmes : pr ´

eparation, RF, NMF, Logit

Trois environnements : R `

a Python, Python `

a Spark ?

Scripts dans http://github.com/wikistat

Besse et al. — JES 2016 Grosses Data

Introduction

Environnements technologiques

Cas d’usage

Conclusion

Objectif

Nouvelle Science des Donn´

ees

Contenu

AIrbus : Analyse des messages d’incidents en vol (700 000 en 6 mois)

Besse et al. — JES 2016 Grosses Data

Introduction

Environnements technologiques

Cas d’usage

Conclusion

Objectif

Nouvelle Science des Donn´

ees

Contenu

Nouvelle ( ?) Science des Donn ´

ees

1995 Data Mining : Gestion de la Relation Client, suites

logicielles (Friedman, 1997)

2010 Data Science : Publicit´

e en ligne, Hadoop, cloud

computing (Donoho, 2015 ;

beamergotobuttonBesse et Laurent, 2016)

Donn´

ees pr´

ealables (fouille), dimensions (omiques) p>> n,

Pas de nouvelles m´

ethodes, seules celles ´

echelonnables

Data pas toujours Grosses mais datiﬁcation du quotidien

Ethique et virtualisation / transparence de la d´

ecision

Science des donn´

ees : nouveau terme d’erreur

Erreur d’optimisation + Compromis biais / variance

Optimisation stochastique (Robbins Monro) ; non

diff´

erentiable

Parall´

elisation des librairies de calcul

Nouveau mod`

ele ´

economique

Besse et al. — JES 2016 Grosses Data

1 / 38 100%

Documents connexes

Atelier SD1: Reconnaissance de caractères manuscrits (MNIST)

avis de publicité - Marches

de l`espèce qu`on décrit ,` c`est-à-dire, ceux par lesquels elle est

2008

Evolution de l`Entropie dS ≥ 0 Le deuxi`eme principe de la

titre sur 1 ou 2 lignes maximum

expose des motifs

Ateliers de Technologies des Grosses Données

Bibliographie Choix des investissements (PDF, 64 Ko)

logiciels-simulation-sciences46

Effet de l`environnement sur l`évolution d`une espèce

Dépliant de produit

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d'utilisation

@let@token Apprentissage de Données Massives @let@token

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

@let@token Apprentissage de Données Massives @let@token

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib