Encadré par : BOUHAYATI Najat
Claude MONTACIE QUINTIN Emmanuel
XU Yuanyuan
Objet
Extraction des textes à partir de Wikipédia
Morphématisation
Apprentissage des modèles de langage
Conclusion
comparer
Classification manuelle
Environnement de Wikipédia
Wikipédia, Wiki et Wikitexte
Structure de Wikipédia et catégorisation
- Étiquetage des catégories
- Structure des catégories
Outil d’extraction
Constitution des corpus
Classification manuelle des articles de Wikipédia
Wikipédia, Wiki et Wikitexte
Base de donnée téléchargée
- une version archivée « page-articles.xml.bz2»
- décompressée en taille 5,26 G0
- datant du 2009-12-11 08:41:55
- 2 167 245 pages et 2 167 245 révisions
Un exemple de Wikitexte
Catégorisation de Wikipédia
Etiquetage des catégories
Structure des catégories
Outil d’extraction
Parse::MediaWikiDump
SAX
STX
1 / 25 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !