Table des matières
i
Table des matières
Introduction générale ............................................................................................................................. 1
1. Data mining .................................................................................................................................. 3
1.1. Introduction ............................................................................................................................... 3
1.2. Définition: ................................................................................................................................. 3
1.3. Interet du data mining : ............................................................................................................. 4
1.4. Le processus du data mining .................................................................................................... 4
1.4.1. Définition et compréhension du problème ............................................................................ 5
1.4.2. Collecte des données ............................................................................................................. 5
1.4.3. Prétraitement ......................................................................................................................... 5
1.4.4. Estimation du modèle ............................................................................................................ 6
1.4.5. Interprétation du modèle et établissement des conclusions ................................................... 6
1.5. Les algorithmes du data mining ............................................................................................... 7
1.5.1. Les familles d'algorithmes .................................................................................................... 7
1.5.1.1. Les méthodes descriptives ................................................................................................ 7
1.5.1.2. La méthode prédictive ..................................................................................................... 7
1.5.2. Présentation des algorithmes ................................................................................................ 8
1.6. Les techniques du data minnig ................................................................................................. 9
1.6.1. Apprentissage fondée sure l’explication ............................................................................... 9
1.6.2. Apprentissage statique ........................................................................................................... 9
1.6.3. Apprentissage par réseau neuronaux ..................................................................................... 9
1.6.4. Apprentissage par algorithme génétique .............................................................................. 9
1.6.5. Apprentissage par similarité .................................................................................................. 9
1.6.6. Apprentissage symbolique empirique .................................................................................. 9
1.6.7. Apprentissage par analogie .................................................................................................. 9
1.7. Domaine d’application du Data mining ................................................................................ 10
1.8. Les logiciels de data mining ................................................................................................... 11
2. Text mining ................................................................................................................................ 12
2.1. Introduction ............................................................................................................................. 12
2.2. Définition: ............................................................................................................................... 12
2.3. Tâches principales de la fouille de textes : .............................................................................. 13
2.3.1. La classification de textes ................................................................................................... 14
2.3.2. La recherche d'information .................................................................................................. 15
2.3.3. L’extraction d'information ................................................................................................... 15
2.3.4. Autres tâches plus complexes ............................................................................................. 16
Table des matières
ii
2.4. Les étapes de text mining: ....................................................................................................... 17
2.4.1. Analyse ............................................................................................................................... 17
2.4.2. L’interprétation de l'analyse ................................................................................................ 17
2.5. Le processus de text mining : .................................................................................................. 17
2.5.1. La définition du problème et identification des buts .......................................................... 18
2.5.2. La préparation des données ................................................................................................. 18
2.5.3. Le traitement linguistique .................................................................................................... 18
2.5.4. L’étude lexicométrique........................................................................................................ 19
2.5.5. Le traitement des données ................................................................................................... 19
2.6. Applications : .......................................................................................................................... 19
2.6.1. Recherche d'information .................................................................................................... 19
2.6.2. Applications biomédicales ................................................................................................. 19
2.6.3. Filtrage des communications ............................................................................................... 19
2.6.4. Applications de sécurité ...................................................................................................... 19
2.6.5. Gestion des connaissances................................................................................................... 20
2.6.6. Analyse du sentiment .......................................................................................................... 20
2.7. Conclusion : ............................................................................................................................. 20
3. Représentation des données ...................................................................................................... 21
3.1. Introduction ............................................................................................................................. 21
3.2. La représentation de texte ....................................................................................................... 21
3.2.1. Choix des termes ................................................................................................................. 21
3.2.1.1. Représentation en sac de mots (bag-of-words) ............................................................. 22
3.2.1.2. Représentation par phrases ............................................................................................. 23
3.2.1.3. Représentation avec des racines lexicales ...................................................................... 23
3.2.1.4. Représentation avec des lemmes ..................................................................................... 24
3.2.1.5. Représentation basées sur les n-grammes ....................................................................... 24
3.2.1.6. Représentation conceptuelle ........................................................................................... 25
3.2.2. Codage des termes ............................................................................................................... 26
3.2.2.1. Le codage TFIDF ............................................................................................................ 26
3.2.2.2. Le codage TFC .............................................................................................................. 26
3.2.2.3. Le codage Lnu ................................................................................................................ 26
3.2.2. Reduction de la dimension .................................................................................................. 27
4. Clustering spectral .................................................................................................................... 29
4.1. Clustering de données ............................................................................................................. 30
4.1.1. Introduction ......................................................................................................................... 29
4.1.2. Définitions ........................................................................................................................... 30
Table des matières
iii
4.1.2.1. Définition de la classification .......................................................................................... 30
4.1.2.2. Groupe d’objets similaires ............................................................................................... 32
4.1.3. Les trois principales étapes du clustering ............................................................................ 35
4.1.3.1. La préparation des données ............................................................................................. 36
4.1.3.2. Le choix de l’algorithme ................................................................................................. 37
4.1.3.3. L’exploitation des clusters ............................................................................................... 39
4.1.4. Taxonomie des algorithmes de clustering ........................................................................... 39
4.1.4.1. La classification hiérarchique .......................................................................................... 40
4.1.4.2. La classification non hiérarchique (par partitionnement) ................................................ 41
4.1.4.2.1. Les méthodes K-moyennes ............................................................................................. 42
4.1.4.2.2. Les méthodes K-medoïdes .............................................................................................. 45
4.1.4.3. Les méthodes à base de densité ....................................................................................... 46
4.1.4.3.1. La connectivité pour les méthodes à base de densité ...................................................... 46
4.1.4.3.2. La fonction de densité ..................................................................................................... 48
4.1.4.4. Les méthodes à base de grille .......................................................................................... 48
4.1.4.5. Autres méthodes .............................................................................................................. 49
4.1.4.5.1. Self-Organizing Maps (SOM) ......................................................................................... 49
4.2. Clustering spectral ................................................................................................................... 51
4.2.1. Introduction ......................................................................................................................... 51
4.2.2. Théorie spectrale des graphes .............................................................................................. 52
4.2.2.1. Matrices Laplaciennes des graphes ................................................................................. 52
4.2.2.2. Bi-coupe de graphe (  ) .......................................................................................... 53
4.2.2.3. Bi-coupe de graphe ( ) ........................................................................................... 56
4.2.3. Algorithme de classification spectrale................................................................................. 57
4.2.3.1. Algorithme de bi-partition (K = 2) .................................................................................. 58
4.2.3.1.1. Algorithme de Shi et Malik ........................................................................................ 58
4.2.3.1.2. Algorithme de Von Luxburg ....................................................................................... 60
4.2.3.2. Algorithme de bi-partition (K > 2) .................................................................................. 60
4.2.3.2.1. Méthodes de bi-partition récursives ................................................................................ 60
4.2.3.2.2. Méthodes directes de K-partitions ................................................................................... 61
4.2.4. Choix de l’algorithme pour l’étape de partitionnement....................................................... 63
4.2.5. Métriques d’évaluation du partitionnement ......................................................................... 64
4.2.6. Conclusion ........................................................................................................................... 68
5. Implémentation .......................................................................................................................... 70
5.1. Introduction ............................................................................................................................. 70
5.2. Environnement et matériels : ................................................................................................... 70
Table des matières
iv
5.3. Présentation des corpus utilisés : ............................................................................................. 71
5.4. Représentation des données ..................................................................................................... 72
5.4.1. Prétraitement des données ................................................................................................... 72
5.4.1.1. Elimination de ponctuation et la conversion des caractères : .......................................... 72
5.4.1.2. Représentation des textes en « sac de mots » .................................................................. 73
5.4.1.3. Codification des termes ................................................................................................... 74
5.5. L’Application de l’Algorithme de Clustering Spectrale ......................................................... 75
5.5.1. Introduction ..................................................................................................................... 75
5.5.2. Algorithmes ..................................................................................................................... 75
5.5.3. La Mise en œuvre : .......................................................................................................... 76
5.5.3.1. Algorithmes classiques .................................................................................................... 76
5.5.3.2 Algorithmes spectrales .................................................................................................... 76
5.6. Expériences et résultats ........................................................................................................... 75
5.6.1. Comparaison entre les algorithmes de clustering classiques ............................................... 72
5.6.2. Clustering Spectral: Version normalisé ............................................................................... 80
5.6.3. Clustering Spectral: Version non normalisé ........................................................................ 82
5.6.4. Comparaison entre tous les algorithmes de clustering ........................................................ 80
5.7. Interface graphique de l’application ....................................................................................... 75
Conclusion générale ............................................................................................................................ 89
Bibliographie...................................................................................................................................... 91
Table des figures ................................................................................................................................ 95
Liste des tableaux .............................................................................................................................. 96
Introduction générale
1
Introduction générale
Avec l'accroissement de la quantité d'information disponible sur Internet et suite au
développement fulgurant de l'informatique, des besoins réels se posent maintenant au niveau
de l'extraction de l'information pertinente noyée dans des giga-octets voire des téraoctets de
données textuelles véhiculées dans les différents supports, En effet, au vu du flot
d'information que nous connaissons; accéder aujourd'hui à l'information textuelle utile est
devenu un vrai « casse-tête », il devient de plus en plus important d'aider les utilisateurs à
accéder plus rapidement à l'information recherchée et à développer de nouveaux outils de
recherche d'information.
Des milliers de documents sont disponibles facilement à travers les réseaux et les supports
informatiques dont plus de 90% sont des documents textuels, il devient désormais difficile
d'accéder aux informations sans l'aide d'outils spécifique. [1]
Devant les besoins naissant provoqués par cette réalité préoccupante, Le Text Mining ou
fouille de données textuelles qui est une spécialisation du Data minig répond, en parti, à
cette problématique. L'étude du text mining repose particulièrement sur des liens très étroits
entre des recherches en linguistique textuelle et sur les formalisations adéquates en vue
d'une réalisation informatique.
Le text mining est traditionnellement connu pour sa faculté à extraire les concepts clés de
sources d'information texte. Il propose une approche méthodologique pour exploiter
l'information non structurée et la combiner avec les techniques de data mining usuelles. Il
permet de « comprendre» (mining) artificiellement le texte (text) en vue d'extraire une
quantité d'information limitée mais pertinente afin de répondre au besoin recherché qui est
principalement le gain de temps pour une meilleure productivité et parmi ces application
connue on note plus spécialement la classification automatique de textes.
On appelle classification automatique la catégorisation algorithmique d'objets. Celle-ci
consiste à attribuer une classe ou catégorie à chaque objet (ou individu) à classer. Elle peut
être : supervisée dont les classes sont connues à priori, elles ont en général une sémantique
associée ou non-supervisée (en anglais clustering) les classes sont fondées sur la
structure des objets, les classes possibles ne sont pas reconnu à l'avance le but pour les
construire est de regrouper dans un même cluster les objets considérés comme similaires.
1 / 101 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !