Th`
ese de doctorat
pour l’obtention du grade de
Docteur de l’Universit´e Paris-Est
Sp´ecialit´e Informatique Linguistique
au titre de l’ ´
Ecole Doctorale MSTIC
Pr´esent´ee et soutenue publiquement par
Elsa Tolone
le 31 mars 2011
Analyse syntaxique `a l’aide des
tables du Lexique-Grammaire du
fran¸cais
Devant le jury compos´e par :
Rapporteurs : Laurence Danlos (Universit´e Denis Diderot - Paris 7)
Laura Kallmeyer (Universit¨at D¨usseldorf)
Examinateurs : ´
Eric de La Clergerie (INRIA Paris–Rocquencourt)
Denys Duchier (Universit´e d’Orl´eans)
Directeur de th`ese : ´
Eric Laporte (Universit´e Paris-Est)
Co-directeur de th`ese : Matthieu Constant (Universit´e Paris-Est)
2
Remerciements
Avant tout, je tiens `a remercier les membres du jury, Laurence Danlos, Laura Kall-
meyer, ´
Eric de la Clergerie et Denys Duchier, d’avoir accept´e d’´evaluer mon travail et
pour leur commentaires enrichissants.
Je remercie ´egalement mon directeur de th`ese, Eric Laporte, pour toutes ses pr´ecieuses
remarques, notamment lors de la r´edaction de mon travail.
Sans oublier mon co-directeur, Matthieu Constant, pour m’avoir conseill´e durant mon
travail et son aide pour certains outils.
L’aide de Christian Lecl`ere a ´et´e pour moi d’une importance capitale puisqu’il est
l’auteur principal des tables de verbes et qu’il a bien voulu m’accorder le temps n´ecessaire
pour d´emystifier toutes mes interrogations.
Ma collaboration avec Stavroula Voyatzi m’a permis ´egalement d’aborder les expres-
sions fig´ees et les adverbes avec beaucoup plus de facilit´e.
Enfin, Benoˆıt Sagot m’a ´enorm´ement aid´e quand `a la comparaison des deux formats
de lexiques et pour les outils de conversion.
Un grand merci `a ´
Eric de la Clergerie pour sa r´eactivit´e et l’adaptation de son analy-
seur syntaxique `a mon lexique.
Certains doctorants ont ´egalement jouer un rˆole important :
Kyriaki Ioannidou avec son optimisme exemplaire et ses questions acharn´ees qui
m’ont permis d’envisager la poursuite de ce travail pour le grec,
Wankawee Puangkor avec sa gentillesse et son aide `a me d´epatauger parmi la masse
de fiches cartonn´ees,
Myriam Rakho et Antony Sigogne avec l’utilisation du fruit de mon travail dans
d’autres applications,
enfin, aussi bien les doctorants de Paris-Est, de Paris 7, de Nancy, que de la FaMAF
m’ont permis de partager de bons moments lors de ces derni`eres ann´ees.
Merci `a No´emi Boubel et son ´equipe du CENTAL, ainsi qu’`a Paul Sabatier et son
´equipe du LIF pour leur accueil chaleureux et leur int´erˆet lors de mes s´eminaires.
Je souhaiterais ´egalement remercier Tita Kyriacopoulou, qui a su me donner goˆut `a
la linguistique, lorsqu’en licence j’ai suivi son cours tout `a fait par hasard, et qui grˆace
`a son dynamisme et `a ses discussions passionnantes, m’a aid´ee `a choisir ma voie.
Pour finir, je souhaiterais remercier tous mes relecteurs que j’ai d´ej`a cit´es pour la
plupart : j’ajouterais Lidia Varga, ainsi que mes parents, qui ont tous les deux eu le
courage de lire ma th`ese jusqu’au bout.
Enfin, merci `a toute ma famille et `a tous mes amis pour m’avoir soutenue durant
toutes ces ann´ees.
3
4
R´esum´e
Les tables du Lexique-Grammaire, dont le d´eveloppement a ´et´e initi´e par Gross (1975),
constituent un lexique syntaxique tr`es riche pour le fran¸cais. Elles couvrent diverses
cat´egories lexicales telles que les verbes, les noms, les adjectifs et les adverbes. Cette base
de donn´ees linguistiques n’est cependant pas directement exploitable informatiquement
car elle est incompl`ete et manque de coh´erence.
Chaque table regroupe un certain nombre d’entr´ees jug´ees similaires car elles acceptent
des propri´et´es communes. Ces propri´et´es ont pour particularit´e de ne pas ˆetre coees
dans les tables mˆemes mais uniquement d´ecrites dans la litt´erature. Pour rendre ces
tables exploitables, il faut expliciter les propri´et´es intervenant dans chacune d’entre
elles. De plus, un grand nombre de ces propri´et´es doivent ˆetre renomm´ees dans un souci
de coh´erence.
Notre objectif est d’adapter les tables pour les rendre utilisables dans diverses applica-
tions de Traitement Automatique des Langues (TAL), notamment l’analyse syntaxique.
Nous expliquons les probl`emes rencontr´es et les m´ethodes adopt´ees pour permettre leur
int´egration dans un analyseur syntaxique.
Nous proposons LGExtract, un outil g´en´erique pour g´en´erer un lexique syntaxique
pour le TAL `a partir des tables du Lexique-Grammaire. Il est reli´e `a une table glo-
bale dans laquelle nous avons ajout´e les propri´et´es manquantes et un unique script
d’extraction incluant toutes les op´erations li´ees `a chaque propri´et´e devant ˆetre effectu´ees
pour toutes les tables. Nous pr´esentons ´egalement LGLex, le nouveau lexique syntaxique
g´en´er´e des verbes, des noms pr´edicatifs, des expressions fig´ees et des adverbes.
Ensuite, nous montrons comment nous avons converti les verbes et les noms pr´edicatifs
de ce lexique au format Alexina, qui est celui du lexique Lefff (Lexique des Formes
Fl´echies du Fran¸cais) (Sagot,2010), un lexique morphologique et syntaxique `a large
couverture et librement disponible pour le fran¸cais. Ceci permet son int´egration dans
l’analyseur syntaxique frmg (French MetaGrammar) (Thomasset et de La Clergerie,
2005), un analyseur profond `a large couverture pour le fran¸cais, bas´e sur les grammaires
d’arbres adjoints (TAG), reposant habituellement sur le Lefff.
Cette ´etape de conversion consiste `a extraire l’information syntaxique cod´ee dans
les tables du Lexique-Grammaire. Nous pr´esentons les fondements linguistiques de ce
processus de conversion et le lexique obtenu. Nous ´evaluons l’analyseur syntaxique frmg
sur le corpus de r´ef´erence de la campagne d’´evaluation d’analyseurs du fran¸cais Passage
(Produire des Annotations Syntaxiques `a Grande ´
Echelle) (Hamon et al.,2008), en
comparant sa version bas´ee sur le Lefff avec notre version reposant sur les tables du
Lexique-Grammaire converties.
5
1 / 340 100%