Slide

publicité
Encadré par :
Claude MONTACIE
BOUHAYATI Najat
QUINTIN Emmanuel
XU Yuanyuan

Objet

Extraction des textes à partir de Wikipédia

Morphématisation

Apprentissage des modèles de langage

Conclusion
comparer
Classification manuelle
 Environnement de Wikipédia
 Wikipédia, Wiki et Wikitexte
 Structure de Wikipédia et catégorisation
- Étiquetage des catégories
- Structure des catégories
 Outil d’extraction
 Constitution des corpus
 Classification manuelle des articles de Wikipédia

Wikipédia, Wiki et Wikitexte
 Base de donnée téléchargée
- une version archivée « page-articles.xml.bz2»
- décompressée en taille 5,26 G0
- datant du 2009-12-11 08:41:55
- 2 167 245 pages et 2 167 245 révisions
 Un exemple de Wikitexte

Catégorisation de Wikipédia
 Etiquetage des catégories
 Structure des catégories

Outil d’extraction
 Parse::MediaWikiDump
 SAX
 STX
Titre
Article
Paragraphe
Lien interne
Lien externe
Wikitexte de
Wikipédia.fr
dump2texte.pl
Parse:MediaWi
kiDump
Texte
brut
nettoyer.pl
segmenté
Texte
Mots
segmenté
Morfessor
Wikitexte (obtenu par le script dump2texte.pl):
Dans l'[[Union européenne]], l''''autorisation d'un [[produit phytopharmaceutique]]''' est définie par la [[directive
91/414/CEE]] du 15 juillet [[1991]], comme suit :
Après script nettoyer.pl :
Dans
l'Union
européenne
l'autorisation
d'un
produit
phytopharmaceutique
est
définie
par
la
directive
CEE
du
juillet
comme
suit
Wikitexte de
Wikipédia.fr
Par exemple:
classifier.pl
Parseur :MediaWikiDump
Article XML



Origine : algorithme de Harris
Evolution de l’algorithme orienté vers un
objectif précis.
Morfessor : algorithme de segmentation
multilingue



Outil de segmentation probabiliste non
supervisée
Prise en compte des langues à morphologie
riche
Résultat souhaité :
« Unsupervised Morpheme Segmentation and Morphology Induction from Text Corpora Using Morfessor 1.0 »
Creutz M., Lagus K., 2002
Texte brut
Texte segmenté
Option -trace integer:
permet l’affichage à
l’écran de la
segmentation


Option -load filename :
permet de charger un
fichier contenant un
découpage que l’on
souhaite appliquer à un
texte

Option gamma : c’est
cette option qui
permet d’affiner la
segmentation
◦ Instanciation facultative
par deux paramètres de
type float
◦ Instanciation par défaut :
7.0 1.0
Gamma par défaut
Gamma instancié

Reprendre le fichier résultat de Morfessor
pour SRILM

Adapter le fichier résultat pour SRILM

Autre fonctionnalité : fusion
Fichier de résultat
Résultat nettoyé

4 étapes :
◦ Extraction d’un lexique à partir d’un corpus ;
◦ Extraction des n-grammes en utilisant le .vocab
◦ Calcul d’un modèle probabiliste à partir des ngrammes
◦ Comparaison avec les articles choisis en test
CORPUS
APPR
-writevocab
LEXIQUE
ngramcount
CORPUS
TEST
.txt
-write
Corpus.count
-ppl
.txt
N-gram
ngramcount
-vocab
-lm
Corpus.lm
MODELE
DE
LANGAGE
PBS :
- Mauvaise prise en compte de l’accentuation
- Prise en compte de certains caractères (&, ‘)
PBS :
- Segmentation qui ne prend pas en compte le
déterminant (l. 21 & 25)
- mots en anglais (THE)
Extraction des dumps:
Nettoyer profondément le corpus
Traitement des entités nommées
- Extraction par la majuscule
ex: Mer Rouge
- Extraction par les tags spécifiques de Wikipédia
ex: [[Emirats arabes unis]]
Morphématisation:
Outil performant mais la segmentation est perfectible
Proposer un affichage en arbre
Thématisation:
Outil peu fiable.
Automatiser : parcours d’un fichier et
chargement du modèle de langage
correspondant
Téléchargement