Th`
ese de doctorat
pour l’obtention du grade de
Docteur de l’Universit´e Paris-Est
Sp´ecialit´e Informatique Linguistique
au titre de l’ ´
Ecole Doctorale MSTIC
Pr´esent´ee et soutenue publiquement par
Elsa Tolone
le 31 mars 2011
Analyse syntaxique `a l’aide des
tables du Lexique-Grammaire du
fran¸cais
Devant le jury compos´e par :
Rapporteurs : Laurence Danlos (Universit´e Denis Diderot - Paris 7)
Laura Kallmeyer (Universit¨at D¨usseldorf)
Examinateurs : ´
Eric de La Clergerie (INRIA Paris–Rocquencourt)
Denys Duchier (Universit´e d’Orl´eans)
Directeur de th`ese : ´
Eric Laporte (Universit´e Paris-Est)
Co-directeur de th`ese : Matthieu Constant (Universit´e Paris-Est)
2
Remerciements
Avant tout, je tiens `a remercier les membres du jury, Laurence Danlos, Laura
Kallmeyer, ´
Eric de la Clergerie et Denys Duchier, d’avoir accept´e d’´evaluer mon
travail et pour leur commentaires enrichissants.
Je remercie ´egalement mon directeur de th`ese, Eric Laporte, pour toutes ses
pr´ecieuses remarques, notamment lors de la r´edaction de mon travail.
Sans oublier mon co-directeur, Matthieu Constant, pour m’avoir conseill´e durant
mon travail et son aide pour certains outils.
L’aide de Christian Lecl`ere a ´et´e pour moi d’une importance capitale puisqu’il
est l’auteur principal des tables de verbes et qu’il a bien voulu m’accorder le temps
n´ecessaire pour d´emystifier toutes mes interrogations.
Ma collaboration avec Stavroula Voyatzi m’a permis ´egalement d’aborder les ex-
pressions fig´ees et les adverbes avec beaucoup plus de facilit´e.
Enfin, Benoˆıt Sagot m’a ´enorm´ement aid´e quand `a la comparaison des deux for-
mats de lexiques et pour les outils de conversion.
Un grand merci `a ´
Eric de la Clergerie pour sa r´eactivit´e et l’adaptation de son
analyseur syntaxique `a mon lexique.
Certains doctorants ont ´egalement jouer un rˆole important :
Kyriaki Ioannidou avec son optimisme exemplaire et ses questions acharn´ees
qui m’ont permis d’envisager la poursuite de ce travail pour le grec,
Wankawee Puangkor avec sa gentillesse et son aide `a me d´epatauger parmi la
masse de fiches cartonn´ees,
Myriam Rakho et Antony Sigogne avec l’utilisation du fruit de mon travail dans
d’autres applications,
enfin, aussi bien les doctorants de Paris-Est, de Paris 7, de Nancy, que de la
FaMAF m’ont permis de partager de bons moments lors de ces derni`eres ann´ees.
Merci `a No´emi Boubel et son ´equipe du CENTAL, ainsi qu’`a Paul Sabatier et son
´equipe du LIF pour leur accueil chaleureux et leur int´erˆet lors de mes s´eminaires.
Je souhaiterais ´egalement remercier Tita Kyriacopoulou, qui a su me donner goˆut
`a la linguistique, lorsqu’en licence j’ai suivi son cours tout `a fait par hasard, et qui
grˆace `a son dynamisme et `a ses discussions passionnantes, m’a aid´ee `a choisir ma
voie.
Pour finir, je souhaiterais remercier tous mes relecteurs que j’ai d´ej`a cit´es pour la
plupart : j’ajouterais Lidia Varga, ainsi que mes parents, qui ont tous les deux eu le
courage de lire ma th`ese jusqu’au bout.
Enfin, merci `a toute ma famille et `a tous mes amis pour m’avoir soutenue durant
toutes ces ann´ees.
3
4
R´esum´e
Les tables du Lexique-Grammaire, dont le d´eveloppement a ´et´e initi´e par Gross
(1975), constituent un lexique syntaxique tr`es riche pour le fran¸cais. Elles couvrent
diverses cat´egories lexicales telles que les verbes, les noms, les adjectifs et les ad-
verbes. Cette base de donn´ees linguistiques n’est cependant pas directement exploi-
table informatiquement car elle est incompl`ete et manque de coh´erence.
Chaque table regroupe un certain nombre d’entr´ees jug´ees similaires car elles ac-
ceptent des propri´et´es communes. Ces propri´et´es ont pour particularit´e de ne pas
ˆetre cod´ees dans les tables mˆemes mais uniquement d´ecrites dans la litt´erature.
Pour rendre ces tables exploitables, il faut expliciter les propri´et´es intervenant dans
chacune d’entre elles. De plus, un grand nombre de ces propri´et´es doivent ˆetre re-
nomm´ees dans un souci de coh´erence.
Notre objectif est d’adapter les tables pour les rendre utilisables dans diverses
applications de Traitement Automatique des Langues (TAL), notamment l’analyse
syntaxique. Nous expliquons les probl`emes rencontr´es et les m´ethodes adopt´ees pour
permettre leur int´egration dans un analyseur syntaxique.
Nous proposons LGExtract, un outil g´en´erique pour g´en´erer un lexique syntaxique
pour le TAL `a partir des tables du Lexique-Grammaire. Il est reli´e `a une table
globale dans laquelle nous avons ajout´e les propri´et´es manquantes et un unique
script d’extraction incluant toutes les op´erations li´ees `a chaque propri´et´e devant
ˆetre effectu´ees pour toutes les tables. Nous pr´esentons ´egalement LGLex, le nouveau
lexique syntaxique g´en´er´e des verbes, des noms pr´edicatifs, des expressions fig´ees et
des adverbes.
Ensuite, nous montrons comment nous avons converti les verbes et les noms
pr´edicatifs de ce lexique au format Alexina, qui est celui du lexique Lefff (Lexique
des Formes Fl´echies du Fran¸cais) (Sagot,2010), un lexique morphologique et syn-
taxique `a large couverture et librement disponible pour le fran¸cais. Ceci permet son
int´egration dans l’analyseur syntaxique frmg (French MetaGrammar) (Thomasset
et de La Clergerie,2005), un analyseur profond `a large couverture pour le fran¸cais,
bas´e sur les grammaires d’arbres adjoints (TAG), reposant habituellement sur le
Lefff.
Cette ´etape de conversion consiste `a extraire l’information syntaxique cod´ee dans
les tables du Lexique-Grammaire. Nous pr´esentons les fondements linguistiques de
ce processus de conversion et le lexique obtenu. Nous ´evaluons l’analyseur syntaxique
frmg sur le corpus de r´ef´erence de la campagne d’´evaluation d’analyseurs du fran¸cais
Passage (Produire des Annotations Syntaxiques `a Grande ´
Echelle) (Hamon et al.,
2008), en comparant sa version bas´ee sur le Lefff avec notre version reposant sur les
tables du Lexique-Grammaire converties.
5
1 / 340 100%