Slide

Téléchargement

Encadré par : BOUHAYATI Najat

Claude MONTACIE QUINTIN Emmanuel

XU Yuanyuan

Objet

Extraction des textes à partir de Wikipédia

Morphématisation

Apprentissage des modèles de langage

Conclusion

comparer

Classification manuelle

Environnement de Wikipédia

Wikipédia, Wiki et Wikitexte

Structure de Wikipédia et catégorisation

- Étiquetage des catégories

- Structure des catégories

Outil d’extraction

Constitution des corpus

Classification manuelle des articles de Wikipédia

Wikipédia, Wiki et Wikitexte

Base de donnée téléchargée

- une version archivée « page-articles.xml.bz2»

- décompressée en taille 5,26 G0

- datant du 2009-12-11 08:41:55

- 2 167 245 pages et 2 167 245 révisions

Un exemple de Wikitexte

Catégorisation de Wikipédia

Etiquetage des catégories

Structure des catégories

Outil d’extraction

Parse::MediaWikiDump

SAX

STX

1 / 25 100%

Documents connexes

Déroulement de l`évaluation : Excès de vitesse

Wikipédia, comprendre et participer

Présentation de Mr Tondeur

Comment cibler son marché

L`effet Photoélectrique : Fiche descriptive

Réussir sa démarche marketing

M1 management strategique TF

Fondamentaux et base du Marketing

Définition du marketing stratégique

Modélisation linguistique du contexte pour l`extraction d

Marketing stratégique : Positionnement, segmentation et

reflexion sur les concepts

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Slide

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Slide

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib