RCP216 - Ingénierie de la fouille et de la visualisation de données

publicité
IMO - Informatique, modélisation et optimisation - UE - 2016-2017
RCP216 - Ingénierie de la fouille et de la
visualisation de données massives
Michel CRUCIANU
Informations
extraites de BDO
le 30-11-2016
Public concerné et conditions d'accès
Bonnes connaissances mathématiques et statistiques générales, maîtrise de méthodes statistiques
pour la fouille de données, connaissance de techniques de gestions de données massives faiblement
structurées, connaissance de techniques de passage à l'échelle par distribution. Capacité à utiliser le
système d'exploitation linux, connaissance d'au moins un langage de programmation.
Vous êtes encouragés à évaluer votre capacité à suivre cette UE en répondant au questionnaire en ligne
accessible ici (section Conditions d'accès). Vous pouvez répondre sans vous identifier, les réponses vous
sont données immédiatement et les résultats ne sont pas enregistrés.
Finalités de l'unité d'enseignement
Contacts
Responsable national
Michel CRUCIANU
Contact à Paris
Objectifs pédagogiques :
Cet enseignement s'intéresse à l'impact des caractéristiques des données massives (volume, variété,
vélocité) sur les méthodes de fouille de données. Sont examinées les approches actuelles qui permettent
de faire passer à l'échelle les méthodes de fouille, en insistant sur les spécificités des opérations de fouille
en environnement distribué.
Les caractéristiques mentionnées sont ensuite considérées de façon plus spécifique pour certains
problèmes fréquents dans le traitement des données massives. Sont ainsi abordés les systèmes de
recommandation et la recherche efficace par similarité, la classification automatique et l'apprentissage
supervisé sur une plate-forme distribuée, les opérations spécifiques au traitement des données textuelles
souvent hétérogènes, les implications de la vélocité sur la fouille de flux de données, l'analyse de grands
graphes et de réseaux sociaux.
L'UE s'intéresse ensuite au rôle de la visualisation et de l'interaction, non seulement dans la présentation
des résultats mais aussi dans les opérations de fouille de données.
Capacités et compétences visées :
Capacité à mettre en œuvre des techniques de fouille de données et de visualisation sur des données
massives. Maîtrise de techniques adaptées à quelques problèmes fréquents.
Organisation
Nombre de crédits enseignements ECTS
6 ECTS
Modalités de validation :
Note finale = ((note de projet + note d'examen) / 2), avec la contrainte note d'examen >= 10
Projet, mémoire
Pour le projet il faudra choisir un problème de fouille (avec un jeu de données) et
. Réaliser une analyse des données et une modélisation permettant de répondre au problème posé, à
l'aide d'une méthode étudiée en RCP216 (ou STA211), en utilisant Spark (éventuellement SparkR) et les
librairies associées. Justifier les choix de méthode et de paramètres ; lier les résultats des éventuelles
analyses préalables au choix de la ou des méthodes de modélisation.
. Utiliser une méthode de visualisation adaptée parmi celles présentées en RCP216, à la fois pour la
présentation de résultats et pour aider vos choix dans des étapes intermédiaires. Justifier le choix de la
ou des méthodes. Expliciter les observations faites à partir de la visualisation.
Le rapport devra inclure une présentation claire mais concise du problème et des données, une définition
de l'objectif de l'étude, la démarche choisie et les résultats obtenus, ainsi qu'une conclusion, sans
dépasser les 20 pages.
Contenu de la formation
2016-12-01T02:00:10
RCP216
1. Introduction : applications, typologie des données, typologie des problèmes
2. Approches : réduction de la complexité, distribution
3. Passage à l'échelle de quelques problèmes fréquents
a. Recherche par similarité, systèmes de recommandation
b. Classification automatique
c. Fouille de données textuelles
d. Fouille de flux de données
e. Apprentissage supervisé à large échelle
f. Fouille de graphes et réseaux sociaux
4. Visualisation d'information : historique, applications, outils
5. Enjeux perceptifs de la visualisation d'information : couleurs, formes, immersion, lecture
6. Techniques de représentations : graphes, hiérarchies, lignes de temps
INFO - Informatique
Fiche informative sans valeur contractuelle
Accès 9B01
Case courrier: 2D4P20
Equipes pédagogiques AISL
et IMO
292 rue Saint Martin
75003 Paris
Tél : 01 40 27 22 58
Swathi RANGANADIN
[email protected]
IMO - Informatique, modélisation et optimisation - UE - 2016-2017
7. Techniques d'interaction : association focus/contexte, distorsion, filtrage
Le cours est complété par des travaux pratiques (TP) permettant de mettre en pratique des techniques
présentées. Pour la partie fouille de données, les TP seront réalisés à l'aide de Apache Spark. Pour
le travail sur le projet, l'auditeur devra installer le logiciel Spark (gratuit) sur un ordinateur personnel de
capacité suffisante, suivant les instructions disponibles en ligne.
Les supports de cours et de TP, ainsi que d'autres explications concernant le déroulement de l'UE sont
accessibles à partir de http://cedric.cnam.fr/vertigo/Cours/RCP216/
Pour la partie visualisation, les TP seront effectués avec le logiciel Processing (gratuit) ; une séance
d'introduction est réservée à son apprentissage.
Bibliographie
2016-12-01T02:00:10
Auteurs
A. Rajaraman and J. D.
Ullman
Ryza, S., U. Laserson,
S. Owen and J. Wills
Titre
Cambridge University Press, New York, NY, USA, 2014.
Advanced Analytics with Spark, O'Reilly, 2014.
INFO - Informatique
Fiche informative sans valeur contractuelle
Téléchargement