PROGRAMMME D’INTRODUCTION
À LA SCIENCE DES DONNÉES
2015
PUBLIC VISÉ ET PRÉREQUIS
Les modules oerts conviennent à toute
personne ayant une connaissance de
base en informatique ou en statistique
et des notions de programmation. Le
programme est destiné aux praticiens et
chercheurs.
Les concepts et la formation transmis
dans ce programme permettent une
bonne compréhension du contexte des
masses de données, appelées aussi don-
nées massives ou plus communément
«big data», et du dé quelles présentent,
dé qui structure l’évolution des sciences
et de nombreux secteurs de léconomie.
Le programme proposé convient tant
aux professionnels en début de carrière
quaux managers conrmés ayant besoin
de comprendre ce domaine complexe et
ses applications.
PROGRAMMME
D’INTRODUCTION
À LA SCIENCE DES DONNÉES
Ce programme de formation est desti
aux professionnels et aux managers et com-
prend des modules denseignement et des
travaux pratiques. Il traite des sujets les
plus actuels en science des données et en
big data, allant de la collecte, du stockage
et du traitement des données à lanalytique
et la visualisation, et présente également
une gamme dapplications concrètes et de
cas décole issus des entreprises et des labo-
ratoires. Ce programme couvre un large
panorama et traitera de façon assez détail-
lée des méthodes et outils nécessaires pour
aborder les données massives.
LE PROGRAMME
La formation couvre 120heures densei-
gnement (les vendredi et samedi en mai,
juin et juillet). Une journée typique
UNE FORMATION PROFESSIONNELLE À LA SCIENCE
DES DONNÉES ET AU «BIG DATA»
PROPOSÉE CONJOINTEMENT PAR LES DEPARTEMENTS DE MATHÉMATIQUES
APPLIQUÉES ET D’INFORMATIQUE DE L’ÉCOLE POLYTECHNIQUE
EXECUTIVE EDUCATION
© thinkstock
comprend un cours de 3h le matin suivi
de travaux pratiques de 3h (avec des tra-
vaux personnels) et une conférence dune
heure donnée par un expert invité issu du
monde universitaire ou économique. Les
cours traitent largement des disciplines
ayant trait à la science des données : bases
de données, outils big data, prétraitement
des données, visualisation, analyse de
données et apprentissage automatique.
Un quart du programme est organi
sous forme dun Atelier Données, dans
lequel les participants vont travailler sur
des jeux de données réels, sur tout le cycle
de vie des données en utilisant les outils,
méthodes et connaissances qu’ils auront
acquis pendant les cours.
Le programme est organisé de la manière
suivante :
Journée 1. Introduction à la science des
données. Écosystème du big data, cycle
de vie dun projet de données/gestion
de projet, architecture informatique et
introduction au calcul distribué, ques-
tions de condentialité.
Journée 2-4. Bases de données, outils
big data. Bases de données : SQL et
NoSQL, calcul distribué, cloud compu-
ting, Map Reduce et Hadoop, HIVE/
PIG, Spark.
Journé es 5-7. Prétraitement des donnés
et visualisation. Nettoyage de données,
normalisation, sélection et création des
variables, réduction de dimensions,
exploration de données, visualisation
avec R et Python, visualisation par navi-
gateur, data mashup, data munging,
conception et ingénierie des variables.
Journée 8. Atelier Données - première
partie. Introduction au jeu de données
et à lobjectif de latelier. Exploration et
sélection/ingénierie des variables.
Journées 9-12. Analyse des données et
apprentissage automatique. Introduc-
tion à lapprentissage, apprentissage
non supervisé, apprentissage supervisé
(régression et sélection des variables,
régression logistique, classication
naïve bayésienne, algorithme des k-voi-
sins les plus proches (KNN), machines
à vecteurs de support (SVM), arbres de
décision et réseaux de neurones), éva-
luation des modèles, surapprentissage,
sélection de modèles, méthodes den-
semble.
Journées 13-14. Apprentissage automa-
tique pour les dones non-tradition-
nelles. Filtrage collaboratif, fouilles du
Web, de graphes et de textes (« Web,
graph and text mining») recommanda-
tion, personnalisation, publicité sur le
web et marketing.
Journées 15-18. Atelier Données - seconde
partie : Application des méthodes dap-
prentissage automatique aux résultats de
la première partie. Sélection de modèles
et méthodes densemble.
PERSONNEL ENSEIGNANT
S. Gaias (X-CMAP), C. Giatsidis
(X-LIX), B.Kegl (X, LAL), A. Papado-
poulos (X, Aristotle U. of essaloniki)
E.Le Pennec (X-CMAP), E.Matzner-Lo-
ber (X, U. Rennes) M. Vazirgiannis
(X-LIX).
Pour plus dinformation, vous pouvez
consulter :
www.polytechnique.edu/bigdata/dssp/
Date limite de candidature :
22 mars 2015. Soumettez votre candida-
ture en ligne via le lien ci-dessus.
ÉCOLE POLYTECHNIQUE
91128 PALAISEAU CEDEX
www.polytechnique.edu
CONTACT
dssp@polytechnique.fr
TARIF
7 500 euros
LIEU
École polytechnique
DATES
Du 12 mai 2015
au 11 juillet 2015
1 / 4 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !