Encadré par : Claude MONTACIE BOUHAYATI Najat QUINTIN Emmanuel XU Yuanyuan Objet Extraction des textes à partir de Wikipédia Morphématisation Apprentissage des modèles de langage Conclusion comparer Classification manuelle Environnement de Wikipédia Wikipédia, Wiki et Wikitexte Structure de Wikipédia et catégorisation - Étiquetage des catégories - Structure des catégories Outil d’extraction Constitution des corpus Classification manuelle des articles de Wikipédia Wikipédia, Wiki et Wikitexte Base de donnée téléchargée - une version archivée « page-articles.xml.bz2» - décompressée en taille 5,26 G0 - datant du 2009-12-11 08:41:55 - 2 167 245 pages et 2 167 245 révisions Un exemple de Wikitexte Catégorisation de Wikipédia Etiquetage des catégories Structure des catégories Outil d’extraction Parse::MediaWikiDump SAX STX Titre Article Paragraphe Lien interne Lien externe Wikitexte de Wikipédia.fr dump2texte.pl Parse:MediaWi kiDump Texte brut nettoyer.pl segmenté Texte Mots segmenté Morfessor Wikitexte (obtenu par le script dump2texte.pl): Dans l'[[Union européenne]], l''''autorisation d'un [[produit phytopharmaceutique]]''' est définie par la [[directive 91/414/CEE]] du 15 juillet [[1991]], comme suit : Après script nettoyer.pl : Dans l'Union européenne l'autorisation d'un produit phytopharmaceutique est définie par la directive CEE du juillet comme suit Wikitexte de Wikipédia.fr Par exemple: classifier.pl Parseur :MediaWikiDump Article XML Origine : algorithme de Harris Evolution de l’algorithme orienté vers un objectif précis. Morfessor : algorithme de segmentation multilingue Outil de segmentation probabiliste non supervisée Prise en compte des langues à morphologie riche Résultat souhaité : « Unsupervised Morpheme Segmentation and Morphology Induction from Text Corpora Using Morfessor 1.0 » Creutz M., Lagus K., 2002 Texte brut Texte segmenté Option -trace integer: permet l’affichage à l’écran de la segmentation Option -load filename : permet de charger un fichier contenant un découpage que l’on souhaite appliquer à un texte Option gamma : c’est cette option qui permet d’affiner la segmentation ◦ Instanciation facultative par deux paramètres de type float ◦ Instanciation par défaut : 7.0 1.0 Gamma par défaut Gamma instancié Reprendre le fichier résultat de Morfessor pour SRILM Adapter le fichier résultat pour SRILM Autre fonctionnalité : fusion Fichier de résultat Résultat nettoyé 4 étapes : ◦ Extraction d’un lexique à partir d’un corpus ; ◦ Extraction des n-grammes en utilisant le .vocab ◦ Calcul d’un modèle probabiliste à partir des ngrammes ◦ Comparaison avec les articles choisis en test CORPUS APPR -writevocab LEXIQUE ngramcount CORPUS TEST .txt -write Corpus.count -ppl .txt N-gram ngramcount -vocab -lm Corpus.lm MODELE DE LANGAGE PBS : - Mauvaise prise en compte de l’accentuation - Prise en compte de certains caractères (&, ‘) PBS : - Segmentation qui ne prend pas en compte le déterminant (l. 21 & 25) - mots en anglais (THE) Extraction des dumps: Nettoyer profondément le corpus Traitement des entités nommées - Extraction par la majuscule ex: Mer Rouge - Extraction par les tags spécifiques de Wikipédia ex: [[Emirats arabes unis]] Morphématisation: Outil performant mais la segmentation est perfectible Proposer un affichage en arbre Thématisation: Outil peu fiable. Automatiser : parcours d’un fichier et chargement du modèle de langage correspondant