
 
INFORMATIQUE 3  
Paola Merlo, a.a. 2004-2005 
 
Projet: Attachement du SP avec Decision Forests 
 
Attachement automatique du SP au nom ou au verbe 
 
Comme nous en avons beaucoup parlé en classes, le problème de l’attachement du SP est 
important en analyse syntaxique de texte.  Dans ce projet, vous développerez un algorithme 
d’apprentissage, qui est basée sur les arbres de décision.  Cet algorithme s’appelle « decision 
forests » ou « random forests ». Il s’agit de construire plusieurs arbres de décisions pour des 
données d’entraînement qui ont subi des petites modifications et de combiner leur réponses. 
 
Vous devrez d’abord extraire les données du Penn Treebank à l’aide de TGrep2, un outil vous 
permettant de faire des recherches sur des arbres, ensuite reproduire en Perl l’algorithme 
présenté, et en évaluer la performance. 
 
1.  Page web de ressources pour ce projet 
Toutes ressources reliées aux projets seront mises à disposition à partir de la page web : 
 http://www.latl.unige.ch/informatique3/projets/resources-summer-project.html 
 
2. Corpus 
Pour ce projet, vous utiliserez le PennTreebank (PTB).  Il vous faut un corpus arboré pour 
identifier les données dont vous avez besoin sans trop de difficulté.  Il serait possible, mais 
beaucoup plus difficile, de travailler sans un tel corpus.  Le PTB contient environ un million 
de mots pour lesquels l’analyse arborescente a été faite semi-automatiquement et corrigée à la 
main. 
 
3. Extraction des n-uplets 
Il est difficile d’extraire les données qui nous intéressent à l’aide de Perl et d’expression 
régulières, parce que le langage des parenthèses équilibrée n’est pas un langage régulier.  Il 
nous faut donc un système plus puissant.  Le logiciel Tgrep2, « Tree-Grep 2 », peut nous être 
utile ici parce qu’il fait une analyse de l’arbre.  Téléchargez et installez ce logiciel (voir lien 
sur la page du projet), et étudiez le langage de recherche qu’il utilise dans le manuel distribué 
avec le logiciel.  Vous vous en servirez pour extraire les n-uplets < verbe; nom; prép., nom2; 
Tag-Fonctionnel> pour les cas où le SP est rattaché au nom et de même pour les cas où le SP 
est rattaché au verbe.  Vous pouvez aussi extraire d’autres traits qui vous semblent être 
pertinent pour la décision de l’attachement. 
 
N’oubliez pas de diviser le corpus en une partie pour les données d’entraînement (sections 
00–19) et une partie pour le données de test (sections 20–24).