MINISTÈRE DE L’ENSEIGNEMENT SUPÉRIEUR ET DE LA RECHERCHE SCIENTIFIQUE

MINISTÈRE DE L’ENSEIGNEMENT SUPÉRIEUR ET DE LA
RECHERCHE SCIENTIFIQUE
UNIVERSITÉ MOHAMED KHIDHER - BISKRA
FACULTÉ DES SCIENCES EXACTES, DES SCIENCES DE LA
NATURE ET DE LA VIE
DÉPARTEMENT D’INFORMATIQUE
THÈSE
pour obtenir le diplôme de
Docteur en Sciences
SPÉCIALITÉ : INFORMATIQUE
Présentée par
MEADI MOHAMED NADJIB
Technique basée HITS/SVM pour
la réduction et la pondération des
caractéristiques des pages Web
Devant le jury :
Président : Pr. BACHIR Abdelmalik Université de Biskra
Rapporteur : Pr. BABAHENINI Mohamed Chaouki Université de Biskra
Co-Rapporteur : Pr. TALEB AHMED Abdelmalik Université de Valenciennes
Examinateur : Pr. CHIKHI Salim Université de Constantine 2
Examinateur : Pr. MOUSSAOUI Abdelouahab Université de Setif 1
Examinateur : Dr. BITAM Salim Université de Biskra
Dédicaces
À,
mes parents,
ma femme et mes filles,
Mon frère et mes sœurs,
Toute la famille,
Mes amis.
Remerciements
Je tiens premièrement à prosterner remerciant Allah le tout puissant de m’avoir
donné le courage et la patience pour terminer ce travail.
Je remercie ensuite mon cher encadreur Dr. Babahenini Mohamed Chaouki pour
m’avoir honoré par son encadrement, ses conseils précieux, sa patience et ses nobles
valeurs humaines.
Je remercie également mon co-encadreur Pr. Taleb-Ahmed Abdelmalik, pro-
fesseur à l’université de valenciennes, pour m’avoir accueilli dans son laboratoire
LAMIH, pour ses conseils et son suivi continu.
Mes remerciements vont également aux membres de jury pour m’avoir honoré
par leur évaluation de ce travail.
Je témoigne toute ma reconnaissance à mon ami Dr. TIBERMACINE Okba
pour ses aides et soutiens dans la rédaction et la lecture mon article.
Table des matières
Table des figures viii
Liste des tableaux ix
1 Introduction générale 1
1.1 Motivations ................................ 1
1.2 Contributions ............................... 2
1.3 Organisation de la thèse ......................... 3
2 Exploration du Web 5
2.1 Introduction ................................ 5
2.2 Exploration des données ......................... 6
2.3 Le Web .................................. 8
2.4 Les caractéristiques du Web ....................... 10
2.5 Exploration du Web ........................... 11
2.6 Les axes du Web mining ......................... 12
2.6.1 Analyse de contenu du Web ................... 13
2.6.2 Analyse d’usage du Web ..................... 14
2.6.3 Analyse de la structure du Web ................. 14
2.7 La différence entre Web mining et text mining ............ 15
2.8 Recherche d’informations dans le Web ................. 16
2.8.1 Recherche d’information ..................... 17
2.8.2 Processus de RI .......................... 17
2.8.3 Modèles de RI .......................... 18
iv Table des matières
2.8.4 Évaluation de la recherche d’information ............ 25
2.8.5 Moteurs de recherche ....................... 26
2.9 Classification des pages Web ....................... 28
2.9.1 Types des classifications ..................... 28
2.9.2 Domaines d’application de la classifications des pages Web . . 30
2.10 Analyse des liens ............................. 32
2.10.1 Analyse des réseaux sociaux ................... 33
2.10.2 PAGERANK ........................... 37
2.10.3 HITS ............................... 40
2.11 Conclusion ................................. 43
3 Réduction de dimension 44
3.1 Introduction ................................ 44
3.2 Réduction de la dimension ........................ 45
3.3 Sélection de caractéristiques ....................... 46
3.3.1 Méthodes de Filtrage ....................... 47
3.3.2 Méthodes Enveloppes ...................... 48
3.3.3 Méthodes intégrées ........................ 49
3.4 Techniques statistiques de sélection des caractéristiques ........ 50
3.4.1 Sélection à base de Fréquence du document (FD) ....... 50
3.4.2 Sélection en utilisant le Gain d’Information .......... 51
3.4.3 Sélection en utilisant l’Information Mutuelle .......... 51
3.4.4 Sélection par la méthode Relief ................. 52
3.4.5 Sélection par la statistique χ2................. 53
3.4.6 Sélection en utilisant de l’Indice de Gini ............ 53
3.4.7 Sélection à base de score de Fisher ............... 55
1 / 124 100%

MINISTÈRE DE L’ENSEIGNEMENT SUPÉRIEUR ET DE LA RECHERCHE SCIENTIFIQUE

La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !