Introduction générale

Table des matières

i

Table des matières

Introduction générale ............................................................................................................................. 1

1. Data mining .................................................................................................................................. 3

1.1. Introduction ............................................................................................................................... 3

1.2. Définition: ................................................................................................................................. 3

1.3. Interet du data mining : ............................................................................................................. 4

1.4. Le processus du data mining .................................................................................................... 4

1.4.1. Définition et compréhension du problème ............................................................................ 5

1.4.2. Collecte des données ............................................................................................................. 5

1.4.3. Prétraitement ......................................................................................................................... 5

1.4.4. Estimation du modèle ............................................................................................................ 6

1.4.5. Interprétation du modèle et établissement des conclusions ................................................... 6

1.5. Les algorithmes du data mining ............................................................................................... 7

1.5.1. Les familles d'algorithmes .................................................................................................... 7

1.5.1.1. Les méthodes descriptives ................................................................................................ 7

1.5.1.2. La méthode prédictive ..................................................................................................... 7

1.5.2. Présentation des algorithmes ................................................................................................ 8

1.6. Les techniques du data minnig ................................................................................................. 9

1.6.1. Apprentissage fondée sure l’explication ............................................................................... 9

1.6.2. Apprentissage statique ........................................................................................................... 9

1.6.3. Apprentissage par réseau neuronaux ..................................................................................... 9

1.6.4. Apprentissage par algorithme génétique .............................................................................. 9

1.6.5. Apprentissage par similarité .................................................................................................. 9

1.6.6. Apprentissage symbolique empirique .................................................................................. 9

1.6.7. Apprentissage par analogie .................................................................................................. 9

1.7. Domaine d’application du Data mining ................................................................................ 10

1.8. Les logiciels de data mining ................................................................................................... 11

2. Text mining ................................................................................................................................ 12

2.1. Introduction ............................................................................................................................. 12

2.2. Définition: ............................................................................................................................... 12

2.3. Tâches principales de la fouille de textes : .............................................................................. 13

2.3.1. La classification de textes ................................................................................................... 14

2.3.2. La recherche d'information .................................................................................................. 15

2.3.3. L’extraction d'information ................................................................................................... 15

2.3.4. Autres tâches plus complexes ............................................................................................. 16

Table des matières

ii

2.4. Les étapes de text mining: ....................................................................................................... 17

2.4.1. Analyse ............................................................................................................................... 17

2.4.2. L’interprétation de l'analyse ................................................................................................ 17

2.5. Le processus de text mining : .................................................................................................. 17

2.5.1. La définition du problème et identification des buts .......................................................... 18

2.5.2. La préparation des données ................................................................................................. 18

2.5.3. Le traitement linguistique .................................................................................................... 18

2.5.4. L’étude lexicométrique........................................................................................................ 19

2.5.5. Le traitement des données ................................................................................................... 19

2.6. Applications : .......................................................................................................................... 19

2.6.1. Recherche d'information .................................................................................................... 19

2.6.2. Applications biomédicales ................................................................................................. 19

2.6.3. Filtrage des communications ............................................................................................... 19

2.6.4. Applications de sécurité ...................................................................................................... 19

2.6.5. Gestion des connaissances................................................................................................... 20

2.6.6. Analyse du sentiment .......................................................................................................... 20

2.7. Conclusion : ............................................................................................................................. 20

3. Représentation des données ...................................................................................................... 21

3.1. Introduction ............................................................................................................................. 21

3.2. La représentation de texte ....................................................................................................... 21

3.2.1. Choix des termes ................................................................................................................. 21

3.2.1.1. Représentation en sac de mots (bag-of-words) ............................................................. 22

3.2.1.2. Représentation par phrases ............................................................................................. 23

3.2.1.3. Représentation avec des racines lexicales ...................................................................... 23

3.2.1.4. Représentation avec des lemmes ..................................................................................... 24

3.2.1.5. Représentation basées sur les n-grammes ....................................................................... 24

3.2.1.6. Représentation conceptuelle ........................................................................................... 25

3.2.2. Codage des termes ............................................................................................................... 26

3.2.2.1. Le codage TFIDF ............................................................................................................ 26

3.2.2.2. Le codage TFC .............................................................................................................. 26

3.2.2.3. Le codage Lnu ................................................................................................................ 26

3.2.2. Reduction de la dimension .................................................................................................. 27

4. Clustering spectral .................................................................................................................... 29

4.1. Clustering de données ............................................................................................................. 30

4.1.1. Introduction ......................................................................................................................... 29

4.1.2. Définitions ........................................................................................................................... 30

Table des matières

iii

4.1.2.1. Définition de la classification .......................................................................................... 30

4.1.2.2. Groupe d’objets similaires ............................................................................................... 32

4.1.3. Les trois principales étapes du clustering ............................................................................ 35

4.1.3.1. La préparation des données ............................................................................................. 36

4.1.3.2. Le choix de l’algorithme ................................................................................................. 37

4.1.3.3. L’exploitation des clusters ............................................................................................... 39

4.1.4. Taxonomie des algorithmes de clustering ........................................................................... 39

4.1.4.1. La classification hiérarchique .......................................................................................... 40

4.1.4.2. La classification non hiérarchique (par partitionnement) ................................................ 41

4.1.4.2.1. Les méthodes K-moyennes ............................................................................................. 42

4.1.4.2.2. Les méthodes K-medoïdes .............................................................................................. 45

4.1.4.3. Les méthodes à base de densité ....................................................................................... 46

4.1.4.3.1. La connectivité pour les méthodes à base de densité ...................................................... 46

4.1.4.3.2. La fonction de densité ..................................................................................................... 48

4.1.4.4. Les méthodes à base de grille .......................................................................................... 48

4.1.4.5. Autres méthodes .............................................................................................................. 49

4.1.4.5.1. Self-Organizing Maps (SOM) ......................................................................................... 49

4.2. Clustering spectral ................................................................................................................... 51

4.2.1. Introduction ......................................................................................................................... 51

4.2.2. Théorie spectrale des graphes .............................................................................................. 52

4.2.2.1. Matrices Laplaciennes des graphes ................................................................................. 52

4.2.2.2. Bi-coupe de graphe (  ) .......................................................................................... 53

4.2.2.3. Bi-coupe de graphe ( ) ........................................................................................... 56

4.2.3. Algorithme de classification spectrale................................................................................. 57

4.2.3.1. Algorithme de bi-partition (K = 2) .................................................................................. 58

4.2.3.1.1. Algorithme de Shi et Malik ........................................................................................ 58

4.2.3.1.2. Algorithme de Von Luxburg ....................................................................................... 60

4.2.3.2. Algorithme de bi-partition (K > 2) .................................................................................. 60

4.2.3.2.1. Méthodes de bi-partition récursives ................................................................................ 60

4.2.3.2.2. Méthodes directes de K-partitions ................................................................................... 61

4.2.4. Choix de l’algorithme pour l’étape de partitionnement....................................................... 63

4.2.5. Métriques d’évaluation du partitionnement ......................................................................... 64

4.2.6. Conclusion ........................................................................................................................... 68

5. Implémentation .......................................................................................................................... 70

5.1. Introduction ............................................................................................................................. 70

5.2. Environnement et matériels : ................................................................................................... 70

Table des matières

iv

5.3. Présentation des corpus utilisés : ............................................................................................. 71

5.4. Représentation des données ..................................................................................................... 72

5.4.1. Prétraitement des données ................................................................................................... 72

5.4.1.1. Elimination de ponctuation et la conversion des caractères : .......................................... 72

5.4.1.2. Représentation des textes en « sac de mots » .................................................................. 73

5.4.1.3. Codification des termes ................................................................................................... 74

5.5. L’Application de l’Algorithme de Clustering Spectrale ......................................................... 75

5.5.1. Introduction ..................................................................................................................... 75

5.5.2. Algorithmes ..................................................................................................................... 75

5.5.3. La Mise en œuvre : .......................................................................................................... 76

5.5.3.1. Algorithmes classiques .................................................................................................... 76

5.5.3.2 Algorithmes spectrales .................................................................................................... 76

5.6. Expériences et résultats ........................................................................................................... 75

5.6.1. Comparaison entre les algorithmes de clustering classiques ............................................... 72

5.6.2. Clustering Spectral: Version normalisé ............................................................................... 80

5.6.3. Clustering Spectral: Version non normalisé ........................................................................ 82

5.6.4. Comparaison entre tous les algorithmes de clustering ........................................................ 80

5.7. Interface graphique de l’application ....................................................................................... 75

Conclusion générale ............................................................................................................................ 89

Bibliographie...................................................................................................................................... 91

Table des figures ................................................................................................................................ 95

Liste des tableaux .............................................................................................................................. 96

Introduction générale

1

Introduction générale

Avec l'accroissement de la quantité d'information disponible sur Internet et suite au

développement fulgurant de l'informatique, des besoins réels se posent maintenant au niveau

de l'extraction de l'information pertinente noyée dans des giga-octets voire des téraoctets de

données textuelles véhiculées dans les différents supports, En effet, au vu du flot

d'information que nous connaissons; accéder aujourd'hui à l'information textuelle utile est

devenu un vrai « casse-tête », il devient de plus en plus important d'aider les utilisateurs à

accéder plus rapidement à l'information recherchée et à développer de nouveaux outils de

recherche d'information.

Des milliers de documents sont disponibles facilement à travers les réseaux et les supports

informatiques dont plus de 90% sont des documents textuels, il devient désormais difficile

d'accéder aux informations sans l'aide d'outils spécifique. [1]

Devant les besoins naissant provoqués par cette réalité préoccupante, Le Text Mining ou

fouille de données textuelles qui est une spécialisation du Data minig répond, en parti, à

cette problématique. L'étude du text mining repose particulièrement sur des liens très étroits

entre des recherches en linguistique textuelle et sur les formalisations adéquates en vue

d'une réalisation informatique.

Le text mining est traditionnellement connu pour sa faculté à extraire les concepts clés de

sources d'information texte. Il propose une approche méthodologique pour exploiter

l'information non structurée et la combiner avec les techniques de data mining usuelles. Il

permet de « comprendre» (mining) artificiellement le texte (text) en vue d'extraire une

quantité d'information limitée mais pertinente afin de répondre au besoin recherché qui est

principalement le gain de temps pour une meilleure productivité et parmi ces application

connue on note plus spécialement la classification automatique de textes.

On appelle classification automatique la catégorisation algorithmique d'objets. Celle-ci

consiste à attribuer une classe ou catégorie à chaque objet (ou individu) à classer. Elle peut

être : supervisée dont les classes sont connues à priori, elles ont en général une sémantique

associée ou non-supervisée (en anglais clustering) où les classes sont fondées sur la

structure des objets, les classes possibles ne sont pas reconnu à l'avance le but pour les

construire est de regrouper dans un même cluster les objets considérés comme similaires.

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

77

78

79

80

81

82

83

84

85

86

87

88

89

90

91

92

93

94

95

96

97

98

99

100

101

Introduction générale

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Introduction générale

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib