INFORMATIQUE 3

Téléchargement

INFORMATIQUE 3

Paola Merlo, a.a. 2004-2005

Projet: Attachement du SP avec Arbres de Décision

Attachement automatique du SP au nom ou au verbe

Comme nous en avons beaucoup parlé en classes, le problème de l’attachement du SP est on

important en analyse syntaxique de texte. Pour ce projet, vous développerez un algorithme

d’apprentissage basé sur les arbres de décision. Vous devrez d’abord extraire les données de

la Penn Treebank à l’aide de TGrep2, un outil vous permettant de faire des recherches sur des

arbres, ensuite reproduire en Perl l’algorithme présenté, et en évaluer la performance.

1. Page web de ressources pour ce projet

Toutes ressources reliées aux projets seront mises à disposition à partir de la page web :

http://www.latl.unige.ch/informatique3/projets/resources-summer-project.html

2. Corpus

Pour ce projet, vous utiliserez le PennTreebank (PTB). Il vous faut en effet un corpus arboré

pour identifier les données dont vous avez besoin. Il serait possible, mais beaucoup plus

difficile, de travailler sans un tel corpus. Le PTB contient environ un million de mots pour

lesquels l’analyse arborescente a été faite semi-automatiquement et corrigée à la main.

3. Extraction des n-uplets

Il est difficile d’extraire les données qui nous intéressent à l’aide de Perl et d’expression

régulières, parce que le langage des parenthèses équilibrées n’est pas un langage régulier. Il

nous faut donc un système plus puissant. Le logiciel Tgrep2, « Tree-Grep 2 », vous sera utile

ici parce qu’il fait une analyse de l’arbre. Téléchargez et installez ce logiciel (voir lien sur la

page du projet), et étudiez le langage de recherche qu’il accepte dans le manuel distribué avec

le logiciel. Vous vous en servirez pour extraire les n-uplets < verbe; nom; prép., nom2; tag

fonctionnel> pour les cas où le SP est rattaché au nom et de même pour les cas où le SP est

rattaché au verbe. Vous pouvez aussi extraire d’autres traits qui vous semblent être pertinent

pour la décision de l’attachement.

N’oubliez pas de diviser le corpus en une partie pour les données d’entraînement (sections

00–19) et une partie pour le données de test (sections 20–24).

Tgrep2 requiert que le corpus soit « préparé ». Nous avons fait cette préparation pour vous—

vous trouverez les fichiers PTB00-19.t2c.gz et PTB20-24.t2c.gz sur la page du projet.

Quelques options utiles à donner à Tgrep2 : -a pour trouver toutes les instance de votre

recherche; -i pour qu’il donne un numéro à chacune de ces instances pour une phrase donnée;

-C pour qu’il imprime le commentaire associé à chaque phrase—un identificateur permettant

de retracer la phrase dans le corpus dans les fichiers t2c que nous vous avons fournis. Il est

utile de garder ces renseignements sous forme d’un identificateur au début de chaque n-uplet,

de sorte à pouvoir retrouver la phrase d’où vient le n-uplet quand vous en aurez besoin.

4. Attachement du SP

Lisez le chapitre 3 de Tom Mitchell, Machine Learning, et implémentez la méthode

d’apprentissage par arbre de décision. Testez-la sur vos données test. Essayez aussi avec des

sous-ensembles de traits d’entrée. Calculez aussi une baseline n’utilisant que la préposition.

Présentez l’exactitude de la méthode, ainsi que la précision et le rappel pour l’attachement au

verbe et pour l’attachement au nom.

1 / 2 100%

Documents connexes

INFORMATIQUE 3 – Programmation en Perl

INFORMATIQUE 3

La dernière photo - editions apostrophe

RTF

Trouver le verbe conjugué La forme négative

Le verbe être au présent de l`indicatif

cristau - CEREGE - Université de La Rochelle

RTF

Verbe ou révérence

Enrique Henestroza Anguiano Mesures d`association lexicale pour

L`attachement et ses difficultés : compréhension et repérages

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

INFORMATIQUE 3

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

INFORMATIQUE 3

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib