UNIVERSITE DE NICE SOPHIA ANTIPOLIS
Clustering des News
Clustering sous le projet Zone
EL FOUZI Ilhame
06/03/2013
Encadré par :
Mr.Christophe DESCLAUX : Développeur de l’application
ZONE.
Mme.Elena Cabrio : Post-Doctorante dans équipe Wimmics.
Mme.Catherine Faron Zucker : Responsable de la formation
Knowledge and Information Systems.
Remerciement
Tout d’abord, je tiens à remercier mon encadrant principale Mr.Christophe
DESCLAUX pour son soutien, ses conseils pertinents le temps qu’il m’a consacré
tout au long de cette période, sachant répondre à toutes mes interrogations.
De même, j’aimerais exprimer ma gratitude à ma deuxième encadrante Mme.Elena
Cabrio , de ces orientation et ses conseils pertinentes, ainsi de ses encouragement
tout au long du projet, ses motivations et les ressources documentaires.
Ainsi qu’un grand merci à Mme.Catherine Faron Zucker , pour sa confiance qu’il
m’a accordé dès le début en me confiant ce projet, et en me faisant découvrir le
monde de la fouille de données.
Je remercie également, Mme .Celia Pereira ainsi que Mr.Frederic PRECIOSO pour
leur réponse à mes questions et de m’avoir confirmé les bon outils pour la réalisation
de ce projet dans les meilleures conditions.
Enfin, je tiens à remercier mes parents et ma famille qui m’ont offert le soutien moral
et financier tout au long de mes années d’études au Maroc comme en France et pour
lesquels je dédie ce travail.
Table des figures
Figure 1 : Processus de fouille de données [9] ........................................................................... 8
Figure 2: Iris_Flowers_Clustering_kMeans.svg [1]................................................................... 11
Figure 3 : L'algorithme K-Means .............................................................................................. 12
Figure 4 :sélection des centres [5] ........................................................................................... 13
Figure 5 :Affectation des objets [5] .......................................................................................... 13
Figure 6: Recalcule des centres des clusters [5] ....................................................................... 13
Figure 7 : Lemmatisation du Corpus ........................................................................................ 16
Figure 8 : Les documents nettoyés .......................................................................................... 17
Figure 9 :Formule TF-IDF [17] .................................................................................................. 17
Figure 10 : Fichiers contenant les vecteurs .............................................................................. 18
Figure 11 : Clusters ................................................................................................................... 18
Figure 12 : Importantes classes de la phases preprocessing ................................................... 20
Figure 13 : Importantes Classes dans la phase clustering ........................................................ 20
Figure 14 : Structuration de la JVM .......................................................................................... 21
Sommaire
Table des figures .................................................................................................................................. 3
Introduction Général ............................................................................................................................. 5
Présentation du projet .......................................................................................................................... 6
1. Objectifs du projet ........................................................................................................................ 6
2. Contexte du projet ........................................................................................................................ 6
3 Acteurs ............................................................................................................................................ 6
Etat de l'art ............................................................................................................................................. 7
I- Fouille de texte .............................................................................................................................. 7
1. Introduction ................................................................................................................................ 7
2. Processus de la fouille de texte ............................................................................................. 7
II- Apprentissage statistique ............................................................................................................ 9
1. Apprentissage non supervisé ............................................................................................... 10
3. Algorithme K-Means .............................................................................................................. 11
Expérimentation .................................................................................................................................. 15
1. Le mode Prétraitement .......................................................................................................... 15
Spécification logiciels ......................................................................................................................... 19
1. Langage de développement ..................................................................................................... 19
2. outils de développement ........................................................................................................... 19
Problème rencontrés .......................................................................................................................... 21
Perspectives ........................................................................................................................................ 22
Conclusion ........................................................................................................................................... 22
Références .......................................................................................................................................... 23
Introduction Général
Durant ces dernières années, on assiste à une forte augmentation tant dans le
nombre que dans le volume des informations mémorisées par des bases de données
scientifiques, économiques, financières, administratives, médicales etc.
Trouver des relations entre les éléments stockés dans ces bases, et l'interprétation
est un besoin recommandé. Les chercheurs ont focalisé leurs intérêts dans les
nouvelles techniques informatiques afin de répondre à cette problèmatique. Le
"Knowledge Discovery in Databases" (KDD) et le "Data Mining" se sont deux
domaines émergeant répondant à ces objectifs.
Extraction de Connaissance à partir de Données ( Knowledge Discovery in
Databases ) est l'extraction d'information potentiellement utile et non connue, qui est
stockée dans des bases volumineuses. Ils permettent, grâce à plusieurs techniques
spécifiques, de faire apparaître des connaissances. Dans la littérature, KDD a
plusieurs objectifs, à savoir la classification, le regroupement, la régression, la
découverte de règles associatives, etc.
L'information extraite peut être exprimée sous forme d'un ensemble de règles
associatives, qui permettent de définir des liens entre les données, et par la suite,
prédire la conduite d'autres données différentes de celles stockées dans la base.
Le Data Mining ou Fouille de données est souvent vu comme un processus
équivalent au KDD, bien que la plupart des chercheurs voient en lui une étape
essentielle de la découverte de connaissance. C’est en effet une étape non triviale
du processus d’extraction de connaissance qui consiste à identifier des motifs
(patterns) valides, nouveaux, potentiellement utiles et compréhensibles à partir d’une
grande collection de données.
1 / 23 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !