Extraction d’informations TP2. Reconnaissance d’entités nommées par apprentissage supervisé. Prise en main de Wapiti Le but du TP est de reconnaitre des entités nommées par apprentissage supervisé. Nous utiliserons le système Wapiti ( http://wapiti.limsi.fr/ ). 1 - Préparation du corpus annoté : découpage en séquences Pour que Wapiti fonctionne bien, il faut découper le corpus d’apprentissage en séquences de tokens de la longueur d’une phrase ou de quelques phrases. Dans le corpus d’apprentissage, chaque séquence doit être séparée de la suivante par une ligne vide. Pour cela, repartez de corpus80jours-annot.txt. 1.1. On va découper le corpus en séquences en prenant comme critère une séquence par paragraphe. Chaque paragraphe du roman est terminé par un caractère de fin de ligne. Insérez un symbole spécial (pas n’importe lequel) à la fin de chaque paragraphe. 1.2. Retouchez le script de tokenisation pour qu’il laisse une ligne vide au lieu du symbole spécial quand il écrit le fichier de tokens. 2 - Préparation du corpus annoté : séparateur entre token et étiquette Wapiti impose le format du corpus d’apprentissage. Le séparateur entre un token et son étiquette doit être un espace ou une tabulation, et non une barre oblique. Modifiez le corpus pour respecter cette contrainte. 3 - Apprentissage par l’algorithme du maximum d’entropie (option maxent) Faites un fichier avec un trait qui sélectionne le token. Faites l’apprentissage par l’algorithme du maximum d’entropie sur le corpus annoté tokenisé, avec l’option d’optimisation rprop+. Appliquez le modèle obtenu au corpus de l’Assemblée nationale tokenisé. Observez les résultats et résumez ce que le modèle arrive à faire.