Extraction d’informations
TP2. Reconnaissance d’entités nommées
par apprentissage supervisé.
Prise en main de Wapiti
Le but du TP est de reconnaitre des entités nommées par apprentissage supervisé.
Nous utiliserons le système Wapiti ( http://wapiti.limsi.fr/ ).
1 - Préparation du corpus annoté : découpage en séquences
Pour que Wapiti fonctionne bien, il faut découper le corpus d’apprentissage en
séquences de tokens de la longueur d’une phrase ou de quelques phrases. Dans le corpus
d’apprentissage, chaque séquence doit être séparée de la suivante par une ligne vide. Pour
cela, repartez de corpus80jours-annot.txt.
1.1. On va découper le corpus en séquences en prenant comme critère une séquence
par paragraphe. Chaque paragraphe du roman est terminé par un caractère de fin de ligne.
Insérez un symbole spécial (pas n’importe lequel) à la fin de chaque paragraphe.
1.2. Retouchez le script de tokenisation pour qu’il laisse une ligne vide au lieu du
symbole spécial quand il écrit le fichier de tokens.
2 - Préparation du corpus annoté : séparateur entre token et étiquette
Wapiti impose le format du corpus d’apprentissage. Le séparateur entre un token et
son étiquette doit être un espace ou une tabulation, et non une barre oblique. Modifiez le
corpus pour respecter cette contrainte.
3 - Apprentissage par l’algorithme du maximum d’entropie (option maxent)
Faites un fichier avec un trait qui sélectionne le token.
Faites l’apprentissage par l’algorithme du maximum d’entropie sur le corpus annoté
tokenisé, avec l’option d’optimisation rprop+.
Appliquez le modèle obtenu au corpus de l’Assemblée nationale tokenisé.
Observez les résultats et résumez ce que le modèle arrive à faire.