Combating Web
Spam with TrustRank.
OSINI Aurélien.
A propos de l’article.
Publié en mars 2004 par 2 chercheurs
(Zoltán Gyöngyi et Hector Garcia-Molina )
de l’université de Stanford et un chercheur
de Yahoo! (Jan Pedersen).
Le 16 Mars 2005, Google a déposé aux
Etats-Unis la marque TrustRank.
Web spam et TrustRank
Web spam : sorte de spam utilisant
différentes technique pour fausser le
résultat d’un moteur de recherche.
TrustRank : Méthode permettant de
classifier les sites (bon / spam) de manière
semi-automatique.
Introduction, motivation de l’article :
Web spam déterminé de manière subjective.
Tout comme les spams mail, difficile
d’automatiser.
Au moment de l’article, détermination
manuelle.
But : rendre le processus semi-automatique.
Introduction, méthodologie :
Formaliser le problème.
Définir une métrique sur l’efficacité des
algorithme de détections.
Principe de sélection d’un échantillon de
base évalué manuellement.
Algorithme du TrustRank donnant la
probabilité qu’une page soit bonne.
1 / 20 100%