TP2. Reconnaissance d`entités nommées par apprentissage

Téléchargement

Extraction d’informations

TP2. Reconnaissance d’entités nommées

par apprentissage supervisé.

Prise en main de Wapiti

Le but du TP est de reconnaitre des entités nommées par apprentissage supervisé.

Nous utiliserons le système Wapiti ( http://wapiti.limsi.fr/ ).

1 - Préparation du corpus annoté : découpage en séquences

Pour que Wapiti fonctionne bien, il faut découper le corpus d’apprentissage en

séquences de tokens de la longueur d’une phrase ou de quelques phrases. Dans le corpus

d’apprentissage, chaque séquence doit être séparée de la suivante par une ligne vide. Pour

cela, repartez de corpus80jours-annot.txt.

1.1. On va découper le corpus en séquences en prenant comme critère une séquence

par paragraphe. Chaque paragraphe du roman est terminé par un caractère de fin de ligne.

Insérez un symbole spécial (pas n’importe lequel) à la fin de chaque paragraphe.

1.2. Retouchez le script de tokenisation pour qu’il laisse une ligne vide au lieu du

symbole spécial quand il écrit le fichier de tokens.

2 - Préparation du corpus annoté : séparateur entre token et étiquette

Wapiti impose le format du corpus d’apprentissage. Le séparateur entre un token et

son étiquette doit être un espace ou une tabulation, et non une barre oblique. Modifiez le

corpus pour respecter cette contrainte.

3 - Apprentissage par l’algorithme du maximum d’entropie (option maxent)

Faites un fichier avec un trait qui sélectionne le token.

Faites l’apprentissage par l’algorithme du maximum d’entropie sur le corpus annoté

tokenisé, avec l’option d’optimisation rprop+.

Appliquez le modèle obtenu au corpus de l’Assemblée nationale tokenisé.

Observez les résultats et résumez ce que le modèle arrive à faire.

1 / 1 100%

Documents connexes

corpus 10 mai nrc13

BA 7 – EVALUATION ORALE DRAMATURGIE Liste de textes 3

le corps dans tous ses etats dans l`oeuvre de john donne

Révisions pour le brevet blanc 3e2 Séquence 1 : Nouvelles à chute

Verbe ou révérence

Lexico 3

Compte-rendu de l`exercice d`écriture

Rapport Economie

Les groupes compléments Les Groupes compléments

Evaluation des abécédaires

cours1-intro-met-quant-web

TCOF-POS : un corpus libre de français parlé annoté en

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

TP2. Reconnaissance d`entités nommées par apprentissage

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

TP2. Reconnaissance d`entités nommées par apprentissage

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib