Table des matières
ii
2.4. Les étapes de text mining: ....................................................................................................... 17
2.4.1. Analyse ............................................................................................................................... 17
2.4.2. L’interprétation de l'analyse ................................................................................................ 17
2.5. Le processus de text mining : .................................................................................................. 17
2.5.1. La définition du problème et identification des buts .......................................................... 18
2.5.2. La préparation des données ................................................................................................. 18
2.5.3. Le traitement linguistique .................................................................................................... 18
2.5.4. L’étude lexicométrique........................................................................................................ 19
2.5.5. Le traitement des données ................................................................................................... 19
2.6. Applications : .......................................................................................................................... 19
2.6.1. Recherche d'information .................................................................................................... 19
2.6.2. Applications biomédicales ................................................................................................. 19
2.6.3. Filtrage des communications ............................................................................................... 19
2.6.4. Applications de sécurité ...................................................................................................... 19
2.6.5. Gestion des connaissances................................................................................................... 20
2.6.6. Analyse du sentiment .......................................................................................................... 20
2.7. Conclusion : ............................................................................................................................. 20
3. Représentation des données ...................................................................................................... 21
3.1. Introduction ............................................................................................................................. 21
3.2. La représentation de texte ....................................................................................................... 21
3.2.1. Choix des termes ................................................................................................................. 21
3.2.1.1. Représentation en sac de mots (bag-of-words) ............................................................. 22
3.2.1.2. Représentation par phrases ............................................................................................. 23
3.2.1.3. Représentation avec des racines lexicales ...................................................................... 23
3.2.1.4. Représentation avec des lemmes ..................................................................................... 24
3.2.1.5. Représentation basées sur les n-grammes ....................................................................... 24
3.2.1.6. Représentation conceptuelle ........................................................................................... 25
3.2.2. Codage des termes ............................................................................................................... 26
3.2.2.1. Le codage TFIDF ............................................................................................................ 26
3.2.2.2. Le codage TFC .............................................................................................................. 26
3.2.2.3. Le codage Lnu ................................................................................................................ 26
3.2.2. Reduction de la dimension .................................................................................................. 27
4. Clustering spectral .................................................................................................................... 29
4.1. Clustering de données ............................................................................................................. 30
4.1.1. Introduction ......................................................................................................................... 29
4.1.2. Définitions ........................................................................................................................... 30