© thinkstock
comprend un cours de 3h le matin suivi
de travaux pratiques de 3h (avec des tra-
vaux personnels) et une conférence d’une
heure donnée par un expert invité issu du
monde universitaire ou économique. Les
cours traitent largement des disciplines
ayant trait à la science des données : bases
de données, outils big data, prétraitement
des données, visualisation, analyse de
données et apprentissage automatique.
Un quart du programme est organisé
sous forme d’un Atelier Données, dans
lequel les participants vont travailler sur
des jeux de données réels, sur tout le cycle
de vie des données en utilisant les outils,
méthodes et connaissances qu’ils auront
acquis pendant les cours.
Le programme est organisé de la manière
suivante :
– Journée 1. Introduction à la science des
données. Écosystème du big data, cycle
de vie d’un projet de données/gestion
de projet, architecture informatique et
introduction au calcul distribué, ques-
tions de condentialité.
– Journée 2-4. Bases de données, outils
big data. Bases de données : SQL et
NoSQL, calcul distribué, cloud compu-
ting, Map Reduce et Hadoop, HIVE/
PIG, Spark.
– Journé es 5-7. Prétraitement des donnés
et visualisation. Nettoyage de données,
normalisation, sélection et création des
variables, réduction de dimensions,
exploration de données, visualisation
avec R et Python, visualisation par navi-
gateur, data mashup, data munging,
conception et ingénierie des variables.
– Journée 8. Atelier Données - première
partie. Introduction au jeu de données
et à l’objectif de l’atelier. Exploration et
sélection/ingénierie des variables.
– Journées 9-12. Analyse des données et
apprentissage automatique. Introduc-
tion à l’apprentissage, apprentissage
non supervisé, apprentissage supervisé
(régression et sélection des variables,
régression logistique, classication
naïve bayésienne, algorithme des k-voi-
sins les plus proches (KNN), machines
à vecteurs de support (SVM), arbres de
décision et réseaux de neurones), éva-
luation des modèles, surapprentissage,
sélection de modèles, méthodes d’en-
semble.
– Journées 13-14. Apprentissage automa-
tique pour les données non-tradition-
nelles. Filtrage collaboratif, fouilles du
Web, de graphes et de textes (« Web,
graph and text mining») recommanda-
tion, personnalisation, publicité sur le
web et marketing.
– Journées 15-18. Atelier Données - seconde
partie : Application des méthodes d’ap-
prentissage automatique aux résultats de
la première partie. Sélection de modèles
et méthodes d’ensemble.
PERSONNEL ENSEIGNANT
S. Gaias (X-CMAP), C. Giatsidis
(X-LIX), B.Kegl (X, LAL), A. Papado-
poulos (X, Aristotle U. of essaloniki)
E.Le Pennec (X-CMAP), E.Matzner-Lo-
ber (X, U. Rennes) M. Vazirgiannis
(X-LIX).
Pour plus d’information, vous pouvez
consulter :
www.polytechnique.edu/bigdata/dssp/
Date limite de candidature :
22 mars 2015. Soumettez votre candida-
ture en ligne via le lien ci-dessus.