MINISTÈRE DE L’ENSEIGNEMENT SUPÉRIEUR ET DE LA RECHERCHE SCIENTIFIQUE

MINISTÈRE DE L’ENSEIGNEMENT SUPÉRIEUR ET DE LA

RECHERCHE SCIENTIFIQUE

UNIVERSITÉ MOHAMED KHIDHER - BISKRA

FACULTÉ DES SCIENCES EXACTES, DES SCIENCES DE LA

NATURE ET DE LA VIE

DÉPARTEMENT D’INFORMATIQUE

THÈSE

pour obtenir le diplôme de

Docteur en Sciences

SPÉCIALITÉ : INFORMATIQUE

Présentée par

MEADI MOHAMED NADJIB

Technique basée HITS/SVM pour

la réduction et la pondération des

caractéristiques des pages Web

Devant le jury :

Président : Pr. BACHIR Abdelmalik Université de Biskra

Rapporteur : Pr. BABAHENINI Mohamed Chaouki Université de Biskra

Co-Rapporteur : Pr. TALEB AHMED Abdelmalik Université de Valenciennes

Examinateur : Pr. CHIKHI Salim Université de Constantine 2

Examinateur : Pr. MOUSSAOUI Abdelouahab Université de Setif 1

Examinateur : Dr. BITAM Salim Université de Biskra

Dédicaces

À,

mes parents,

ma femme et mes ﬁlles,

Mon frère et mes sœurs,

Toute la famille,

Mes amis.

Remerciements

Je tiens premièrement à prosterner remerciant Allah le tout puissant de m’avoir

donné le courage et la patience pour terminer ce travail.

Je remercie ensuite mon cher encadreur Dr. Babahenini Mohamed Chaouki pour

m’avoir honoré par son encadrement, ses conseils précieux, sa patience et ses nobles

valeurs humaines.

Je remercie également mon co-encadreur Pr. Taleb-Ahmed Abdelmalik, pro-

fesseur à l’université de valenciennes, pour m’avoir accueilli dans son laboratoire

LAMIH, pour ses conseils et son suivi continu.

Mes remerciements vont également aux membres de jury pour m’avoir honoré

par leur évaluation de ce travail.

Je témoigne toute ma reconnaissance à mon ami Dr. TIBERMACINE Okba

pour ses aides et soutiens dans la rédaction et la lecture mon article.

Table des matières

Table des ﬁgures viii

Liste des tableaux ix

1 Introduction générale 1

1.1 Motivations ................................ 1

1.2 Contributions ............................... 2

1.3 Organisation de la thèse ......................... 3

2 Exploration du Web 5

2.1 Introduction ................................ 5

2.2 Exploration des données ......................... 6

2.3 Le Web .................................. 8

2.4 Les caractéristiques du Web ....................... 10

2.5 Exploration du Web ........................... 11

2.6 Les axes du Web mining ......................... 12

2.6.1 Analyse de contenu du Web ................... 13

2.6.2 Analyse d’usage du Web ..................... 14

2.6.3 Analyse de la structure du Web ................. 14

2.7 La diﬀérence entre Web mining et text mining ............ 15

2.8 Recherche d’informations dans le Web ................. 16

2.8.1 Recherche d’information ..................... 17

2.8.2 Processus de RI .......................... 17

2.8.3 Modèles de RI .......................... 18

iv Table des matières

2.8.4 Évaluation de la recherche d’information ............ 25

2.8.5 Moteurs de recherche ....................... 26

2.9 Classiﬁcation des pages Web ....................... 28

2.9.1 Types des classiﬁcations ..................... 28

2.9.2 Domaines d’application de la classiﬁcations des pages Web . . 30

2.10 Analyse des liens ............................. 32

2.10.1 Analyse des réseaux sociaux ................... 33

2.10.2 PAGERANK ........................... 37

2.10.3 HITS ............................... 40

2.11 Conclusion ................................. 43

3 Réduction de dimension 44

3.1 Introduction ................................ 44

3.2 Réduction de la dimension ........................ 45

3.3 Sélection de caractéristiques ....................... 46

3.3.1 Méthodes de Filtrage ....................... 47

3.3.2 Méthodes Enveloppes ...................... 48

3.3.3 Méthodes intégrées ........................ 49

3.4 Techniques statistiques de sélection des caractéristiques ........ 50

3.4.1 Sélection à base de Fréquence du document (FD) ....... 50

3.4.2 Sélection en utilisant le Gain d’Information .......... 51

3.4.3 Sélection en utilisant l’Information Mutuelle .......... 51

3.4.4 Sélection par la méthode Relief ................. 52

3.4.5 Sélection par la statistique χ2................. 53

3.4.6 Sélection en utilisant de l’Indice de Gini ............ 53

3.4.7 Sélection à base de score de Fisher ............... 55

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

77

78

79

80

81

82

83

84

85

86

87

88

89

90

91

92

93

94

95

96

97

98

99

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

MINISTÈRE DE L’ENSEIGNEMENT SUPÉRIEUR ET DE LA RECHERCHE SCIENTIFIQUE

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

MINISTÈRE DE L’ENSEIGNEMENT SUPÉRIEUR ET DE LA RECHERCHE SCIENTIFIQUE

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib