Plan du cours - Pace University

publicité
Fouille de données
Plan de module
Fouille de données
Promotion IX Semestre II
Date début :
Date fin :
17/06/2004
23/06/2004
Professeur :
Adresse :
Dr. Christelle Scharff
Pace University, Computer Science Department, One Pace Plaza, New
York City, NY, 10038
Téléphone :
00 1 212 346 1016
Courriel :
[email protected] (préférable) et [email protected]
Site Toile :
http://www.csis.pace.edu/~scharff
Site Toile du cours : http://www.csis.pace.edu/~scharff/DMIFI/
Description du module
La fouille de données est l’étude des techniques et des méthodes pour l’extraction
automatique d’informations ou de connaissances nouvelles ou cachées dans des entrepôts de
données. Les applications de ce domaine incluent la prise de décision, l’analyse de marchés,
l’analyse du panier de la ménagère, l’aide au diagnostique, et l’exploration scientifique. Le
site Internet Amazon.fr, populaire pour la vente de livres, cds, dvds, utilise la fouille de
données pour analyser les habitudes de ses clients.
Ce cours couvre les principales techniques et méthodes de fouille de données : modèles
probabilistes, les réseaux de neurones, la segmentation des données en groupes, la
classification des données par arbre de décision, et la fouille par règles d’association et par
regroupement. Les techniques sont illustrées par de nombreux exemples et l’utilisation d’un
logiciel.
Objectifs généraux
Ce module vise à définir ce qu’est le domaine de la fouille de données et à présenter
l’éventail des méthodes utilisées en fouille de données, à comprendre leurs avantages et
désavantages, et leurs domaines d’application. Certaines techniques d’évaluation des modèles
seront proposées. D’un point de vue pratique, les étudiants utiliseront les différentes méthodes
de fouille de données sur divers ensembles de données.
Institut Francophone d’Informatique, Titre module, Nom prof, 16/04/17
1/4
Objectifs spécifiques
Ce module a comme objectifs plus particuliers de :
 Présenter les entrepôts de données et les opérations qui leur sont associées
 Etudier les méthodes de fouille de données suivantes:
 Arbres de décision
 Règles d’association
 Régression logistique
 Bayes
 K plus proches voisins
 Regroupement (cluster)
 Réseaux neuronaux
 Familiariser les étudiants avec un logiciel de fouille de données : Weka, XLMiner ou
DBMiner
 Rechercher et pratiquer sur l’utilisation de la fouille de données en géologie
Calendrier prévu
Jour
Dates1 Contenu2
1
17/6/2004 Entrepôt de données
2 (matin) 18/6/2004 Introduction à la fouille de données
2 (après- 18/6/2004 Les arbres de décision
midi)
3
21
Règles d’association
4
22
Régression logistique
Bayes
Algorithme des K plus proches voisins
5
23
Regroupement (cluster)
Réseaux neuronaux
Travaux Pratiques : Introduction au travail de groupe 2
28/6/2004
EXAMEN FINAL
29/6/2004
TRAVAIL DE GROUPE 1
30/6/2004
TRAVAIL DE GROUPE 2
70%
10%
20%
Contenu
Les notes de lectures contiennent un plan de chacune des lectures.
Evaluation
L’évaluation des apprentissages acquis par les auditeurs se fera au moyen de l’évaluation du
contrôle continu et des travaux réalisés par les auditeurs.
1
2
Consulter l’emploi du temps de l’IFI.
Les notes des lectures seront disponibles à http://www.csis.pace.edu/~scharff/DMIFI/
Institut Francophone d’Informatique, Titre module, Nom prof, 16/04/17
2/4
Un groupe est composé de deux étudiants.
Travail de groupe 1 : Recherche

10%
Recherche sur les fouilles de données appliquées à la géologie
Ces travaux consistent à trouver un article qui concerne les fouilles de données appliquées a la
géologie (plus particulièrement, la géologie économique et les méthodes d’exploration), et à
résumer succinctement la recherche effectuée et les résultats obtenus. Les références
complètes de l’article devront apparaître clairement. Plus de détails concernant ce travail sera
posté sur le site toile du cours.
Ces travaux seront à envoyer le mardi 29 juin 2004, et à envoyer à : [email protected]
avec comme sujet pour le message : Recherche Géologie + les noms des étudiants du groupe.
Travail de groupe 2 : Projet de fouille de données

20%
Utilisation d’un logiciel (Weka, XLMiner, Dbminer) sur des données particulières et
analyse/evaluation de l’importance des résultats
Plus de détails concernant ce travail seront postés sur le site toile du cours. Chaque groupe
aura un travail précis à réaliser.
Ces travaux sont à envoyer le mercredi 30 juin 2004 à : [email protected] avec comme
sujet pour le message : Projet IFI + les noms des étudiants du groupe.
Examen final
70%
L’examen aura lieu le lundi 28 juin 2004. (Consulter l’emploi du temps de l’IFI)
Tout retard dans la remise d’un travail entraînera une pénalité de 5% sur la note attribuée à ce
travail.
La qualité du français sera considérée dans la correction des travaux (pour un maximum de
10%).
Les règlements de l’IFI concernant le plagiat ou la fraude seront strictement appliqués.
Références
Livres
M. Berry and G. Linoff. Data Mining : techniques appliquées au marketing, à la vente
et aux services clients. InterEditions, 1997.
J. Han, and M. Kamber. Data Mining Concepts and Techniques. Morgan Kaufmann.
N. R. Nitin, and P. C. Bruce. Data Mining in Excel : Lecture notes and Cases.
T. Michell. Machine Learning. McGraw Hill, 1997.
Institut Francophone d’Informatique, Titre module, Nom prof, 16/04/17
3/4
R. J. Roiger and M. W. Geatz. Data Mining : A Tutorial-Based Primer. Addison
Wesley.
I. H. Witten, and E. Frank. Data Mining : Practical Machine Learning Tools and
Techniques with Java Implementations. Morgan Kaufmann.
Revue
U. Fayyad. The KDD Process for Extracting Useful Knowledge from Volumes of
Data. Communications of the ACM.
R. J. Brachman. Mining Business Databases. Communications of the ACM.
Rapports techniques
F. Denis and R. Gilleron. Apprentissage à partir d'exemples. Rapport Technique,
Grappa, Université de Lille 3, 1999.
Sites WEB
http://www.grappa.univ-lille3.fr/polys/fouille/
Institut Francophone d’Informatique, Titre module, Nom prof, 16/04/17
4/4
Téléchargement