PROGRAMMME D’INTRODUCTION À LA SCIENCE DES DONNÉES 2015 E X E C U T I V E E D U CAT I O N UNE FORMATION PROFESSIONNELLE À LA SCIENCE DES DONNÉES ET AU « BIG DATA » PROPOSÉE CONJOINTEMENT PAR LES DEPARTEMENTS DE MATHÉMATIQUES APPLIQUÉES ET D’INFORMATIQUE DE L’ÉCOLE POLYTECHNIQUE PUBLIC VISÉ ET PRÉREQUIS Les modules offerts conviennent à toute personne ayant une connaissance de base en informatique ou en statistique et des notions de programmation. Le programme est destiné aux praticiens et chercheurs. Les concepts et la formation transmis dans ce programme permettent une bonne compréhension du contexte des masses de données, appelées aussi données massives ou plus communément « big data », et du défi qu’elles présentent, défi qui structure l’évolution des sciences et de nombreux secteurs de l’économie. Le programme proposé convient tant aux professionnels en début de carrière qu’aux managers confirmés ayant besoin de comprendre ce domaine complexe et ses applications. PROGRAMMME D’INTRODUCTION À LA SCIENCE DES DONNÉES Ce programme de formation est destiné aux professionnels et aux managers et com- prend des modules d’enseignement et des travaux pratiques. Il traite des sujets les plus actuels en science des données et en big data, allant de la collecte, du stockage et du traitement des données à l’analytique et la visualisation, et présente également une gamme d’applications concrètes et de cas d’école issus des entreprises et des laboratoires. Ce programme couvre un large panorama et traitera de façon assez détaillée des méthodes et outils nécessaires pour aborder les données massives. LE PROGRAMME La formation couvre 120 heures d’enseignement (les vendredi et samedi en mai, juin et juillet). Une journée typique Le programme est organisé de la manière suivante : – Journée 1. Introduction à la science des données. Écosystème du big data, cycle de vie d’un projet de données/gestion de projet, architecture informatique et introduction au calcul distribué, questions de confidentialité. – Journée 2-4. Bases de données, outils big data. Bases de données : SQL et NoSQL, calcul distribué, cloud computing, Map Reduce et Hadoop, HIVE/ PIG, Spark. – Journées 5-7. Prétraitement des donnés et visualisation. Nettoyage de données, normalisation, sélection et création des variables, réduction de dimensions, exploration de données, visualisation avec R et Python, visualisation par navigateur, data mashup, data munging, conception et ingénierie des variables. – Journée 8. Atelier Données - première partie. Introduction au jeu de données et à l’objectif de l’atelier. Exploration et sélection/ingénierie des variables. – Journées 9-12. Analyse des données et apprentissage automatique. Introduction à l’apprentissage, apprentissage non supervisé, apprentissage supervisé (régression et sélection des variables, régression logistique, classification naïve bayésienne, algorithme des k-voisins les plus proches (KNN), machines à vecteurs de support (SVM), arbres de décision et réseaux de neurones), évaluation des modèles, surapprentissage, sélection de modèles, méthodes d’ensemble. – Journées 13-14. Apprentissage automatique pour les données non-traditionnelles. Filtrage collaboratif, fouilles du Web, de graphes et de textes (« Web, graph and text mining ») recommandation, personnalisation, publicité sur le web et marketing. – Journées 15-18. Atelier Données - seconde partie : Application des méthodes d’apprentissage automatique aux résultats de la première partie. Sélection de modèles et méthodes d’ensemble. PERSONNEL ENSEIGNANT S. Gaiffas (X-CMAP), C. Giatsidis (X-LIX), B. Kegl (X, LAL), A. Papadopoulos (X, Aristotle U. of Thessaloniki) E. Le Pennec (X-CMAP), E. Matzner-Lober (X, U. Rennes) M. Vazirgiannis (X-LIX). Pour plus d’information, vous pouvez consulter : www.polytechnique.edu/bigdata/dssp/ Date limite de candidature : 22 mars 2015. Soumettez votre candidature en ligne via le lien ci-dessus. © thinkstock comprend un cours de 3h le matin suivi de travaux pratiques de 3h (avec des travaux personnels) et une conférence d’une heure donnée par un expert invité issu du monde universitaire ou économique. Les cours traitent largement des disciplines ayant trait à la science des données : bases de données, outils big data, prétraitement des données, visualisation, analyse de données et apprentissage automatique. Un quart du programme est organisé sous forme d’un Atelier Données, dans lequel les participants vont travailler sur des jeux de données réels, sur tout le cycle de vie des données en utilisant les outils, méthodes et connaissances qu’ils auront acquis pendant les cours. CONTACT LIEU [email protected] École polytechnique TARIF DATES 7 500 euros Du 12 mai 2015 au 11 juillet 2015 ÉCOLE POLYTECHNIQUE 91128 PAL AISEAU CEDEX www.polytechnique.edu