Présentation - (CUI)

publicité
Improving Wikipedia’s Accuracy: Is
Edit Age a Solution?
Brendan Luyt, Tay Chee Hsien Aaron, Lim Hai Thian and Cheng
Kian Hong
Wee Kim Wee School of Communication & Information, Nanyang
Technological University, Singapore
Wikipedia: Succès ou Échec?



Encyclopédie “online”
Nupedia Wikipedia
Taille de Wikipedia




Différences


2,644,525 articles en anglais
733,955 articles en français
http://en.wikipedia.org/wiki/Special:Statistics
Tout le monde peut éditer/rédiger un article
Problèmes



Vandalisme
Publicité
Attaque personnelle
L’exactitude de Wikipedia

Etude par la revue ’Nature’


42 articles de Wikipedia et Britannica dans le domaine
science et math
Résultat



Erreurs ou omissions (162/123)
Majeur ou important (4/4)
Etude publié dans une magazine informatique
allemande


66 articles de Wikipedia version allemande, Encarta de
Microsoft et Brockhaus (une encyclopédie allemande)
Résultat

Excellent ou 5 points(24/17/12)
Comment mesurer l’exactitude?

2 approches


Basé sur la validation de l’article par les
‘utilisateurs de confiances’(l’article est évalué
par les experts).
Evaluer automatiquement la qualité de
l’article en calculant les métriques basé sur
les métadonnées
Evaluation automatique

Plusieurs méthodes

Lih propose de calculer les métriques suivantes



McGuinness utilise le ratio de liens


“Rigor” (le nombre total de modification pour un article
jusqu’à présent)
“Diversity” (le nombre total d’éditeur pour un article )
Le nombre de lien entrant pour chaque article comme
l’algorithme ‘Pagerank’
Anthony, Smith, et Williamson utilise une stratégie
contraire de McGuinness

Évaluer un éditeur, ensuite ses articles.
Approche de Cross
Codage de couleur pour les fragments de phrase



Dans un article il y a des paragraphes ou
segments qui sont plus confident que les autres
Cross propose de les coder avec différentes
couleurs selon combien de temps ils sont
survécues dans le sens le nombre d’édition
(modification) sans être effacé.
Hypothèse de Cross


L’exactitude d’un paragraphe est liée à son âge de
survie.
Correct?
Modifications entraînant les erreurs


Le temps de survie en termes de nombre de
édition/modification (nombre de modifications
qu'ils ont survécu sans être enlevé)
Le temps de survie en termes de temps (nombre
de jour qu'ils ont survécu sans être enlevé)
Méthode


Déterminer la version
Rechercher dans les versions passée de l'article
pour la première fois cette erreur apparaît
Interface de wikiblame
Versions précédentes de l’article
Résultat

Analyse de l’erreur en position ordinale

Analyse de l’erreur en longueur de temps
Analyse de l’erreur en position ordinale
Analyse de l’erreur en longueur de
temps
Conclusion


Le mécanisme pour classifier les paragraphes
selon l'âge n’est pas capable d’évaluer le
Wikipedia
Pas de rapport entre l’exactitude et l’âge
d’édition
Téléchargement