présentation - (CUI)

publicité
Combating Web
Spam with TrustRank.
OSINI Aurélien.
A propos de l’article.
Publié en mars 2004 par 2 chercheurs
(Zoltán Gyöngyi et Hector Garcia-Molina )
de l’université de Stanford et un chercheur
de Yahoo! (Jan Pedersen).
 Le 16 Mars 2005, Google a déposé aux
Etats-Unis la marque TrustRank.

Web spam et TrustRank
Web spam : sorte de spam utilisant
différentes technique pour fausser le
résultat d’un moteur de recherche.
 TrustRank : Méthode permettant de
classifier les sites (bon / spam) de manière
semi-automatique.

Introduction, motivation de l’article :




Web spam déterminé de manière subjective.
Tout comme les spams mail, difficile
d’automatiser.
Au moment de l’article, détermination
manuelle.
But : rendre le processus semi-automatique.
Introduction, méthodologie :
Formaliser le problème.
 Définir une métrique sur l’efficacité des
algorithme de détections.
 Principe de sélection d’un échantillon de
base évalué manuellement.
 Algorithme du TrustRank donnant la
probabilité qu’une page soit bonne.

Formalisme du problème.
Le web : graphe G=(V,E), un ensemble V
de pages et un ensemble E de liens.
 L’évaluation humaine sera formalisée par
une fonction oracle O (fonction binaire),
pour tout p de V :

0 si p est mauvaise
O(p)  
1 si p est bonne
Fonction de confiance.
Appel à l’oracle coûteux.
 Recherche de la vraisemblance qu’une
page soit bonne.
 Définition de la fonction de confiance T
donnant la probabilité qu’une page p soit
bonne.

Fonction de confiance idéale
T(p) = Pr[O(p) = 1]
Métriques d’évaluation.


Fonction de confiance difficile à obtenir =>
besoin d’avoir une métrique pour évaluer les
résultats.
Precision & Recall :
 Nombre
de bonnes pages par rapport à celles ayant
un score supérieur au seuil.
 Nombre de pages ayant un score supérieur au seuil
parmi les bonnes pages.
Calcul de la confiance : début.


Soit un ensemble
S de pages
prisent au hasard,
évaluées par
l’oracle.
Soit S+ les
bonnes pages de
S et S- les
mauvaises.
Fonction de confiance ignorante
O(p) si p  S
T0(p)  
1/2 sinon
Fonction de confiance à M étapes
O(p) si p  S

TM(p)  1 si p  S et q  S / q  M p
1/2 sinon

Propagation / amortissement de la
confiance.
La fonction de confiance à M étapes
permet une propagation de la confiance.
 Problèmes : liens de bon à mauvais.
 Solution : amortissement de la confiance :

Algorithme du TrustRank.
Algorithme du TrustRank. (fin)
Le PageRank pour la sélection.
But : trouver les pages les plus utiles
(ayant le plus de liens sortants).
 Utiliser le PageRank en modifiant le critère
à optimiser (liens sortant au lieu d’entrant).
 Plusieurs définitions du PageRank. Celle
utilisée donne sous forme matricielle :

SelectSeed : PageRank inversé.

Idée : remplacer dans la formule du
PageRank la matrice de transition par une
‘matrice de transition inverse’ :

Le PageRank inversé donne donc :
PageRank élevé et TrustRank.
Les pages d’un fort niveau de PageRank
se retrouve en première comme résultat
d’une recherche.
 Niveau de confiance très important pour
ces pages.
 Autres pages ne sont de toutes façon pas
bien classées dans les résultats.

Résultat : ensemble de donnée





Ensemble complet des pages crawlées et
indexées par AltaVista en août 2003.
Regroupées en 31 millions de sites.
1/3 sont sans référence (sans importance)
PageRank inversé utilisé sur 7900 sites
sélectionnés. Les 1250 premiers donnent
l’échantillon S.
178 sites désignés comme bons.
Résultats
Sites regroupés en 20 classes en fonction
de leur PageRank ou de leur TrustRank.
 Pourcentage de bonnes pages trouvées.

Relation TrustRank / PageRank

Performance du TrustRank : notion de
déclassement des pages.
Métrique pour ces résultats.



Précision & Recall.
Seuil : valeur limite
de TrustRank
séparant les
classes.
TrustRank :
Précision élevée sur
tout l’échantillon.
Conclusion.
Web toujours en croissance.
 Moteurs de recherches prennent un rôle
stratégique.
 D’après les auteurs (et à l’époque)
première tentative de formalisation du
problème et d’introduction d’une solution.

Téléchargement