Data Science Starter Program Informations Fall 2015 Informations Outline 1 Data Science Starter Program 2 Team 3 Program 4 Languages and Softwares Data Science Starter Program Outline 1 Data Science Starter Program 2 Team 3 Program 4 Languages and Softwares Data Science Starter Program A professional training program Continuous training program organized by Polytechnique (Collège de Polytechnique) Data Science and Big Data Second tailored edition We need your output! http://www.cmap.polytechnique.fr/ ~lepennec/dssp_orange.php Team Outline 1 Data Science Starter Program 2 Team 3 Program 4 Languages and Softwares Team Statisticians and Computer Scientists Ana Karina Fermin (Stat., Paris Ouest) http://fermin.perso.math.cnrs.fr/ [email protected] Stéphane Gaïffas (Stat., X) http://www.cmap.polytechnique.fr/~gaiffas/ [email protected] Agathe Guilloux (Stat., X/UPMC) http://www.lsta.upmc.fr/guilloux.php [email protected] Team Statisticians and Computer Scientists Martial Krawier (CS, Consult.) Erwan Le Pennec (Stat., X) http://www.cmap.polytechnique.fr/~lepennec/ [email protected] Eric Matzner-Løber (Stat., X/CEPE/ENSAE) http://perso.univ-rennes2.fr/eric.matzner [email protected] Program Outline 1 Data Science Starter Program 2 Team 3 Program 4 Languages and Softwares Program Data Science Starter Program J1 (14/12) : Introduction Introduction aux sciences des données: exemples et problématiques Introduction au logiciel R Intervenants: ELP / AKF J2 (15/12) : Apprentissage supervisé 1 L’exemple de la régression linéaire Le problème du sur-apprentissage Sélection de modèles Intervenants: SG / AG J3 (26/12) : Apprentissage supervisé 2 Classification supervisée Régression logistique Intervenants: EML / AKF Program Data Science Starter Program J4 (17/12) : Apprentissage supervisé 3 Méthode discriminante et estimation de la densité conditionnelle SVM Réseaux de neurones et Deep Learning Intervenants: ELP / AG J5 (18/12) : Filtrage collaboratif Filtrage collaboratif Intervenants: SG / AG Program Data Science Starter Program J6 (25/01) : Apprentissage supervisé 4 et apprentissage non supervisé Méthodes d’arbres Classification non supervisée Intervenants: ELP / AKF J7 (26/01) : Technologie du Big Data 1 Sql / Data-base design NoSql Intervenants: MK / ELP J8 (27/01) : Technologie du Big Data 2 Hadoop / MapReduce Spark Intervenants: MK / ELP Program Data Science Starter Program J9 (28/01) : Text mining Préprocessing de texte, mesure de similarité Classification, Analyse de sentiments Intervenants: ELP / EML J10 (28/01) : Graph mining Propriété des graphes Détection de communautés et visualisation Intervenants: ELP / EML Languages and Softwares Outline 1 Data Science Starter Program 2 Team 3 Program 4 Languages and Softwares Languages and Softwares Programming languages / Softwares Programming languages / Softwares used in the DSSP Open Source Software only! R and RStudio http://www.r-project.org Python (Anaconda distribution) https://www.python.org Java http://www.java.com/en/ Languages and Softwares Librairies Librairies used in the DSSP Scikit-Learn http://scikit-learn.org Hadoop http://hadoop.apache.org Spark https://spark.apache.org