Fouille de données Plan de module Fouille de données Promotion IX Semestre II Date début : Date fin : 17/06/2004 23/06/2004 Professeur : Adresse : Dr. Christelle Scharff Pace University, Computer Science Department, One Pace Plaza, New York City, NY, 10038 Téléphone : 00 1 212 346 1016 Courriel : [email protected] (préférable) et [email protected] Site Toile : http://www.csis.pace.edu/~scharff Site Toile du cours : http://www.csis.pace.edu/~scharff/DMIFI/ Description du module La fouille de données est l’étude des techniques et des méthodes pour l’extraction automatique d’informations ou de connaissances nouvelles ou cachées dans des entrepôts de données. Les applications de ce domaine incluent la prise de décision, l’analyse de marchés, l’analyse du panier de la ménagère, l’aide au diagnostique, et l’exploration scientifique. Le site Internet Amazon.fr, populaire pour la vente de livres, cds, dvds, utilise la fouille de données pour analyser les habitudes de ses clients. Ce cours couvre les principales techniques et méthodes de fouille de données : modèles probabilistes, les réseaux de neurones, la segmentation des données en groupes, la classification des données par arbre de décision, et la fouille par règles d’association et par regroupement. Les techniques sont illustrées par de nombreux exemples et l’utilisation d’un logiciel. Objectifs généraux Ce module vise à définir ce qu’est le domaine de la fouille de données et à présenter l’éventail des méthodes utilisées en fouille de données, à comprendre leurs avantages et désavantages, et leurs domaines d’application. Certaines techniques d’évaluation des modèles seront proposées. D’un point de vue pratique, les étudiants utiliseront les différentes méthodes de fouille de données sur divers ensembles de données. Institut Francophone d’Informatique, Titre module, Nom prof, 16/04/17 1/4 Objectifs spécifiques Ce module a comme objectifs plus particuliers de : Présenter les entrepôts de données et les opérations qui leur sont associées Etudier les méthodes de fouille de données suivantes: Arbres de décision Règles d’association Régression logistique Bayes K plus proches voisins Regroupement (cluster) Réseaux neuronaux Familiariser les étudiants avec un logiciel de fouille de données : Weka, XLMiner ou DBMiner Rechercher et pratiquer sur l’utilisation de la fouille de données en géologie Calendrier prévu Jour Dates1 Contenu2 1 17/6/2004 Entrepôt de données 2 (matin) 18/6/2004 Introduction à la fouille de données 2 (après- 18/6/2004 Les arbres de décision midi) 3 21 Règles d’association 4 22 Régression logistique Bayes Algorithme des K plus proches voisins 5 23 Regroupement (cluster) Réseaux neuronaux Travaux Pratiques : Introduction au travail de groupe 2 28/6/2004 EXAMEN FINAL 29/6/2004 TRAVAIL DE GROUPE 1 30/6/2004 TRAVAIL DE GROUPE 2 70% 10% 20% Contenu Les notes de lectures contiennent un plan de chacune des lectures. Evaluation L’évaluation des apprentissages acquis par les auditeurs se fera au moyen de l’évaluation du contrôle continu et des travaux réalisés par les auditeurs. 1 2 Consulter l’emploi du temps de l’IFI. Les notes des lectures seront disponibles à http://www.csis.pace.edu/~scharff/DMIFI/ Institut Francophone d’Informatique, Titre module, Nom prof, 16/04/17 2/4 Un groupe est composé de deux étudiants. Travail de groupe 1 : Recherche 10% Recherche sur les fouilles de données appliquées à la géologie Ces travaux consistent à trouver un article qui concerne les fouilles de données appliquées a la géologie (plus particulièrement, la géologie économique et les méthodes d’exploration), et à résumer succinctement la recherche effectuée et les résultats obtenus. Les références complètes de l’article devront apparaître clairement. Plus de détails concernant ce travail sera posté sur le site toile du cours. Ces travaux seront à envoyer le mardi 29 juin 2004, et à envoyer à : [email protected] avec comme sujet pour le message : Recherche Géologie + les noms des étudiants du groupe. Travail de groupe 2 : Projet de fouille de données 20% Utilisation d’un logiciel (Weka, XLMiner, Dbminer) sur des données particulières et analyse/evaluation de l’importance des résultats Plus de détails concernant ce travail seront postés sur le site toile du cours. Chaque groupe aura un travail précis à réaliser. Ces travaux sont à envoyer le mercredi 30 juin 2004 à : [email protected] avec comme sujet pour le message : Projet IFI + les noms des étudiants du groupe. Examen final 70% L’examen aura lieu le lundi 28 juin 2004. (Consulter l’emploi du temps de l’IFI) Tout retard dans la remise d’un travail entraînera une pénalité de 5% sur la note attribuée à ce travail. La qualité du français sera considérée dans la correction des travaux (pour un maximum de 10%). Les règlements de l’IFI concernant le plagiat ou la fraude seront strictement appliqués. Références Livres M. Berry and G. Linoff. Data Mining : techniques appliquées au marketing, à la vente et aux services clients. InterEditions, 1997. J. Han, and M. Kamber. Data Mining Concepts and Techniques. Morgan Kaufmann. N. R. Nitin, and P. C. Bruce. Data Mining in Excel : Lecture notes and Cases. T. Michell. Machine Learning. McGraw Hill, 1997. Institut Francophone d’Informatique, Titre module, Nom prof, 16/04/17 3/4 R. J. Roiger and M. W. Geatz. Data Mining : A Tutorial-Based Primer. Addison Wesley. I. H. Witten, and E. Frank. Data Mining : Practical Machine Learning Tools and Techniques with Java Implementations. Morgan Kaufmann. Revue U. Fayyad. The KDD Process for Extracting Useful Knowledge from Volumes of Data. Communications of the ACM. R. J. Brachman. Mining Business Databases. Communications of the ACM. Rapports techniques F. Denis and R. Gilleron. Apprentissage à partir d'exemples. Rapport Technique, Grappa, Université de Lille 3, 1999. Sites WEB http://www.grappa.univ-lille3.fr/polys/fouille/ Institut Francophone d’Informatique, Titre module, Nom prof, 16/04/17 4/4