Vers un lexique syntaxique du français : extraction d`informations de

publicité
Vers un lexique syntaxique du français : extraction d'informations de souscatégorisation à partir du TLFi
1. Introduction et problématique
Que l'on se place dans de nombreux domaines de la linguistique, de la linguistique appliquée ou encore du
traitement automatique des langues (TAL), la communauté scientifique francophone souffre d'un lourd
handicap du fait de l'absence de ressources lexicales sur le français qui soient tout à la fois, libres en
consultation et en téléchargement, valides du point de vue linguistique, pérennes, à large couverture et
exploitables dans les applications du TAL (Véronis 2004). Les systèmes d'analyse automatique en particulier
ne parviennent pas à dépasser le stade du prototype faute de disposer d'une quantité de données lexicales
raisonnables et valides (Crabbé et al. 2003, Bonfante et al. 2003).
Afin de sortir de la pratique trop courante qui consiste à développer son propre lexique selon les besoins,
plusieurs grands organismes de recherche ont développé des lexiques ou des dictionnaires à l'échelle du
français : parmi d'autres, les tables du LADL (Gross 1975), le dictionnaire explicatif et combinatoire (DEC)
(Mel'čuk et al. 1995), le Trésor de la Langue Française informatisé (TLFi) (Dendien et Pierrel 2002), etc.
Cependant, ces ressources ne sont pas directement exploitables en TAL notamment, aussi riches
d'informations soient-elles.
La question s'est donc posée de savoir comment les rendre exploitables, que ce soit en TAL ou pour des
recherches systématiques (c'est-à-dire ne passant pas obligatoirement par une lecture linéaire).
Parallèlement à cela, la communauté internationale qui s'intéresse à toutes sortes d'initiatives de
normalisation a défendu avec justesse l'idée qu'il était aujourd'hui nécessaire d'aller vers une modélisation
générique des données lexicales, cela sur le plan multilingue aussi bien que monolingue (Ide & Romary
2002, Monte 2003, Francopoulo 2003, mais aussi Multext, EAGLES). Une telle entreprise a deux avantages
majeurs. Premièrement, elle constitue une piste de réponse à la question épineuse de la fusion de données
lexicales. Il est en effet bien connu qu'aucune ressource lexicale existante n'est parfaite, tant du point de vue
de la validité linguistique des informations qu'elle recèle que de celui de la couverture linguistique qui la
caractérise. Obtenir une ressource d'informations lexicales satisfaisante impose donc de résoudre cette
question. Deuxièmement, la volonté d'établir une modélisation générique des données lexicales permettra de
mettre en place de manière contrôlée les procédures de transfert nécessaires à l'intégration des données dans
différentes applications du TAL. D'un système d'analyse à l'autre en effet, les informations syntaxiques
nécessaires à son fonctionnement ne sont pas encodées de la même manière (Ide & Romary 2001).
Conscients de ces deux problématiques connexes, les membres de la communauté scientifique nancéenne se
sont regroupés autour d'un projet de constitution d'un lexique syntaxique générique, le projet CPER Lexique
Syntaxique. Ce projet réunit à la fois des compétences sur les données source, les procédures d'extraction et
les systèmes d'analyse syntaxiques. Les données source prises en compte sont principalement celles du TLFi,
mais plusieurs membres du projet travaillent sur l'extraction d'informations à partir des tables du LADL et
sur l'acquisition de cadres de sous-catégorisation à partir de corpus.
Concernant l'acquisition d'informations syntaxiques à partir du TLFi, les critères suivants ont été
pris en compte :
•
•
•
•
acquisition d'informations syntaxiques exclusivement dans un premier temps et plus particulièrement
recherche des cadres de sous-catégorisation (valence, catégorie syntagmatique des arguments, fonction
syntaxique, etc). Les restrictions de sélection en particulier seraient à envisager dans l'instanciation du
contenu sémantique des verbes,
vérification de la compatibilité avec le modèle Lexical Markup Framework (LMF, WD 24613, ISO TC
37/SC 4, Monte 2003 et Francopoulo 2003) afin de permettre la fusion avec des informations provenant
d'autres ressources,
mise à disposition à terme des données acquises auprès de l'ensemble des membres du projet et de
l'ensemble de la communauté scientifique,
concentration sur l'acquisition d'informations syntaxiques.
2. Une première expérience : acquisition de cadres de sous-catégorisation pour les verbes à
partir des objets "construction" du TLFi
Le TLFi comporte environ 100.000 articles dont presque 9.000 articles de verbes. L'informatisation du TLF a
permis d'établir une typologie des contenus, chacun étant appelé un objet textuel. Plusieurs objets textuels
-1-
sont susceptibles de contenir des informations syntaxiques pertinentes du point de vue des cadres de souscatégorisation : certains "indicateurs d'emplois" (ex : Emploi pronom.), certains "crochets" (ex : [Suj.
animé]), certains "syntagmes" (ex : Accorder qqc. à qqn), voire même certaines "définitions" (ex : Quitter
qqn), etc. Cependant, les objets textuels mentionnés ci-dessus ne contiennent pas uniquement des
informations strictement pertinentes pour l'acquisition de cadres de sous-catégorisation.
Afin d'éviter au maximum le bruit pour cette première expérience, nous nous sommes concentrés sur l'objet
textuel "construction" qui contient toujours au moins un schéma de réalisation de surface du verbe défini, dit
par la suite verbe vedette. Sur les 9.000 verbes du TLFi, seuls 2.000 d'entre eux environ contiennent au
moins un objet "construction" dont on trouve en tout 7.800 instances pour l'ensemble des verbes, soit en
moyenne 3,9 objets "construction" par verbe.
2.1. Description des données : le contenu des objets textuels "construction" dans le TLFi
Les schémas indiqués partagent plusieurs caractéristiques : (1) ils sont écrits dans un métalangage, (2)
certains symboles sont très ambigus, aussi bien en signification qu'en portée (les parenthèses ou la virgule
par exemple), (3) ils constituent un corpus fini, (4) ils contiennent beaucoup d'informations utiles pour les
cadres de sous-catégorisation.
Des techniques classiques d'interrogation de corpus nous ont permis d'observer qu'ils pouvaient contenir :
• plusieurs schémas séparés par une virgule dans une même construction : Affubler qqn ou qqc. de qqc.,
s'affubler de qqc., être affublé de qqc.,
• des alternatives transcrites de différentes manières : notamment le mot ou, accompagné ou non de
parenthèses, des parenthèses seules, une virgule, un slash, etc.,
• des indications d'introducteurs de compléments : les prépositions et les conjonctions, précédées ou non
de prépositions,
• des ellipses, très souvent du sujet, et de manière moins récurrente, de certains compléments suivant
directement un introducteur,
• des indications sur le mode des compléments phrastiques (infinitif, indicatif et subjonctif).
Cet examen des schémas nous conduit à la conclusion qu'ils sont exprimés dans un langage
particulière, un métalangage, car ils reposent sur un vocabulaire spécifique dont beaucoup
d'éléments ne sont pas des mots du français, les symboles typographiques n'ont pas la même
signification (le point, par exemple, n'indique pas forcément la fin d'une phrase) et les schémas ne
constituent pas des phrases bien formées du français.
2.2. Procédure établie pour acquérir des informations pertinentes pour les cadres de sous-catégorisation
2.2.1. Descriptif général de l'outil d'analyse du contenu des objets "construction"
Constatant que les schémas n'étaient pas exprimés en langue mais bien par le biais d'un métalangage, un
système d'analyse spécifique a été mis au point. Le système obtenu a été conçu pour pouvoir être utilisé par
des non-informaticiens, linguistes ou lexicographes en particulier. Pour ce faire, le lexique et la grammaire
utilisés sont écrits dans des fichiers XML accompagnés de DTD suffisamment contraignantes. Un moteur
utilisant les technologies combinées de JAVA et de LEX et YACC produit ensuite une batterie de règles
d'analyse en C. L'outil d'analyse final, accompagné de quelques feuilles de transformation XSLT, prend ainsi
en entrée l'ensemble des 9.000 articles de verbe au format XML, et retourne, pour chaque schéma dans
chaque objet "construction" rencontré, un arbre au format XML correspondant à l'analyse en constituant
dudit schéma. Enfin, une dernière transformation XSLT retourne, à partir de l'ensemble des arbres d'analyse
produits, le lexique syntaxique correspond conforme au modèle LMF (Monte 2003 et Francopoulo 2003) et
encodé au format XML.
2.2.2. Un aspect particulier de l'outil d'analyse : la gestion des alternatives
Les alternatives, de portée variable et multiformes, sont traitées par des règles spécifiques qui, chaque fois
qu'un indice d'alternative est rencontré, stoppent l'analyse courante et en relancent une autre avec le reste du
contenu de l'objet "construction". A l'issue des analyses de tout le contenu d'un objet "construction", on
obtient donc plusieurs arbres résultat qu'il s'agit de rattacher. Le premier arbre obtenu est considéré comme le
pivot sur lequel doivent se rattacher les autres arbres. Le meilleur rattachement possible est celui qui
s'applique au plus petit sous-arbre de l'arbre pivot. Une fois qu'un rattachement est trouvé, les règles de
gestion de l'alternative introduisent un noeud <choix> qui domine directement l'arbre résultat à rattacher et le
sous-arbre de l'arbre avec lequel il alterne. Ainsi, dans le schéma Adapter qqn à qqn., qqc. à qqc., le noeud
-2-
"choix" se situe juste au niveau des arguments internes du verbe et distingue deux paires possibles
d'arguments, alors que dans le schéma Affubler qqn ou qqc. de qqc., il domine directement les deux formes
possibles du premier argument interne et que dans S'accoter à, contre, sur qqn ou qqc., un premier noeud
"choix" domine les trois prépositions possibles et le second, les deux formes possibles du groupe nominal,
qqn ou qqc., que chacune de ces prépositions peut introduire. Chaque fois qu'un noeud "choix" est présent
dans l'arbre d'analyse, deux constructions seront produites dans le lexique.
2.3. Description du lexique obtenu
Le lexique obtenu est illustré par l'exemple ci-dessous qui peut être vu comme une proposition
d'informations à retenir dans LMF. Parmi les informations explicitées, on trouve : le lemme, sa catégorie et
pour chaque construction, le rappel du schéma trouvé dans le TLFi /reference_const/ et chacune des
positions syntaxiques <Syntactic_Position> munie d'un identifiant local, de sa catégorie syntagmatique
/syntactic_category/, du cas grammatical /grammatical_case/, de la fonction syntaxique, de l'indication du
caractère obligatoire ou optionnel, du type d'introducteur /introducer_pos/ et de l'introducteur lui-même
/introducer/.
<lexical_Entry lema='ACCEPTER' identifier="TLF6_TSNLP_ACCEPTER" pos="V">
<Sense>
<Constr_Set valence="underspecified">
<Semantic_Formula status="a_completer"/>
<Construction reference_const="Accepter de + inf.">
<Syntactic_Position syntactic_id="sp_0" syntactic_category="np" grammatical_case="nominative" syntactic_function="subj"
status="mandatory" />
<Syntactic_Position syntactic_id="sp_1" syntactic_category="infinitive_clause" grammatical_case="underspecified"
syntactic_function="dirobj" introducer_pos="prep" " introducer="de" status="mandatory" />
</Construction> ....... </Constr_Set></Sense><lexical_Entery/>
Chaque fois qu'un type d'informations ne peut être déterminé précisément, il est laissé sous-spécifié, les
identifiants excepté.
2.4. Evaluation de l'outil d'analyse
Pour évaluer l'outil d'analyse, nous avons utilisé les verbes de la liste de référence TSNLP (http://clwww.dfki.uni-sb.de/tsnlp/) qui contient 149 verbes. A partir de cette liste et des 124 verbes (≈ 83%) qui
contenaient au moins un objet "construction", 638 schémas ont été analysés, sans compter leur duplication
due à la présence d'alternatives. Parmi ceux-ci, environ 500 (≈ 80%) sont analysés avec succès. Les erreurs
restantes sont de natures différentes. Près de la moitié des constructions non analysées sont trop spécifiques
comme par exemple Subst. abstr. + de + aimer. qui correspond à des expressions particulières comme art
d'aimer, faculté d'aimer, etc. La moitié restante correspond à des cas non encore traités par la grammaire : les
constructions négatives, comparatives, causatives, passives et utilisant des verbes modaux comme laisser.
Si ces résultats sont encourageants, il faut néanmoins noter qu'ils ne sont pas complets. Tout d'abord,
l'ensemble des verbes n'est pas couvert. Si seulement 17% des verbes de la liste TSNLP ne possèdent aucun
objet "construction", le nombre de verbes du TLFi dans ce cas est nettement plus importante, 77%. Une
seconde expérience a été menée, dans le même esprit, mais à partir des codes grammaticaux.
3. Une seconde expérience : utilisation des codes grammaticaux des verbes du TLFi
La plupart des verbes du TLFi disposent d'un code grammatical accolé au mot vedette de l'article. Les
valeurs possibles en plus de la chaîne verbe peuvent être les chaînes trans, intrans, trans dir, trans indir et
pronom. Grâce à une extension de l'outil d'analyse, chacune de ces valeurs est associée à un cadre de souscatégorisation aussi précis qu'elles le permettent. Ainsi, trans suppose au moins une position d'argument
interne de statut obligatoire mais il n'est pas possible d'en préciser la catégorie syntagmatique. En revanche,
avec trans indir, nous faisons l'hypothèse que cette position argumentale est de type pp et que la catégorie de
l'introducteur de celle-ci est prep.
Afin de bien contrôler la provenance des différentes informations, chaque construction décrite dans le
lexique est qualifiée par un attribut supplémentaire /TLF_source_info/ qui vaut /const/ lorsque celle-ci est
obtenue par analyse d'un schéma et /cod/ lorsqu'elle est déduite du code grammatical du verbe. De plus, la
famille syntaxique <Syntactic_Familly> est enrichie par l'attribut /cod_TLF6_info/ contient la copie partielle
du code grammatical. Le verbe accepter ayant le code grammatical verbe trans. dans le TLFi, son entrée
lexicale est donc enrichie de la manière suivante :
<lexical_Entry lema='ACCEPTER' identifier="TLF6_TSNLP_ACCEPTER" pos="V">
<Sense>
<Constr_Set valence="underspecified" cod_TLF6_info="trans">
-3-
<Semantic_Formula status="a_completer"/>
<Construction TLF_source_info="cod">
<Syntactic_Position syntactic_id="sp_0" syntactic_category="np" grammatical_case="nominative"
syntactic_function="subj" status="mandatory" />
<Syntactic_Position syntactic_id="sp_1"syntactic_category="underspecified" grammatical_case="underspecified"
syntactic_function="underspecified" status="mandatory" />
</Construction>
....... </Constr_Set></Sense><lexical_Entery/>
Cette seconde expérience assure que chacun des verbes de la liste TSNLP dispose d'au moins une
entrée lexicale dans le lexique obtenu avec au moins une construction.
4. Conclusion
Ces expériences sont encourageantes dans la mesure où elles montrent qu'il est possible d'acquérir des
informations lexicales à partir du TLFi tout en respectant les principes que l'on s'est fixé en termes de
compatibilité avec le modèle LMF, de validité linguistique et d'utilité pour la communauté scientifique. Elles
montrent aussi un certain nombre de lacunes, tant du point de vue des données sources que de celui de la
procédure d'acquisition.
Concernant le TLFi, il faut rappeler qu'il n'a pas été conçu dans une perspective d'exhaustivité syntaxique et
que les objets "construction" analysés ne décrivent donc pas l'ensemble des constructions syntaxiques dans
lesquelles un verbe peut apparaître. D'autre part, l'utilisation de ces objets "construction" a correspondu à une
époque de rédaction et n'est donc pas également représentée sur l'ensemble du dictionnaire. Enfin, la
procédure de rétroconversion n'a pas permis de reconnaître l'ensemble des expressions candidates à devenir
des objets "construction". Cela peut se remarquer pour certaines définitions, certains indicateurs d'emploi,
syntagmes ou crochets dont le contenu fait penser à un objet "construction" mais qui n'a pas été reconnu
comme tel, la plupart du temps du fait du non-respect d'un certain nombre de contraintes typographiques qui
servaient d'indices dans la rétroconversion.
Concernant la procédure d'acquisition, plusieurs aspects n'ont pas encore été pris en compte et devront l'être.
D'une part, les informations utiles pour un cadre de sous-catégorisation peuvent être éclatées sur plusieurs
niveaux hiérarchiques. Le cas du verbe provoquer est éloquant. Dans son emploi B, on trouve la construction
qqn/qqc provoque qqn à, puis en B.1. + subst et + inf. en B.2. Le croisement de B et B.1 permettrait
d'obtenir le cadre plus précis qqn/qqc provoque qqn à + subst, et cela de même en croisant B et B.2.
D'autre part, à la suite de LMF, les cadres de sous-catégorisation obtenus devraient être associés à des sens
du verbe, sous-spécifiés pour l'instant. Pour ce faire, si l'on s'en tient à l'utilisation du TLFi, nous utiliserons
très probablement la structure hiérarchique des articles au format XML. La question encore en suspens
concerne le mode de propagation de l'information entre les sens (ici supposés correspondre aux définitions)
et les objets "construction", héritage, percolation ? La même question se posera aussi concernant la
propagation de l'information fournie par le code grammatical d'un verbe, est-elle valide pour l'ensemble de
l'article ?
Références
BONFANTE, Guillaume, GUILLAUME, Bruno et PERRIER, Guy (2003). Analyse électrostatique. Traitement automatique
des langues.
CRABBE, Benoit, GAIFFE, Bertrand et ROUSSANALY, Azim (2003). Représentation et gestion de grammaires TAG
lexicalisées. Traitement Automatique des Langues.
DENDIEN, Jacques, et PIERREL, Jean-Marie (2002). Le trésor de la langue française informatisé : un exemple
d'informatisation d'un dictionnaire de langue de référence. Traitement Automatique des Langues.
EAGLES Computational Lexicons Working Group Reading Guide, citeseer.nj.nec.com/438129.html
FRANCOPOULO, Gil (2003). Proposition de norme des Lexiques pour le traitement automatique des langues, CN RNIL
N 7, 21 p., http://pauillac.inria.fr/atoll/RNIL/
GROSS, Maurice (1975). Méthodes en syntaxe, Herman, Paris.
IDE, Nancy et ROMARY, Laurent (2001). A Common Framework for Syntactic Annotation. In Association for
Computational Linguistics - ACL'2001. (Toulouse, France), 8 p.
IDE, Nancy et ROMARY, Laurent (2002). Standards for Language Resources. In Third International Conference on
Language Resources and Evaluation - LREC'2002. (Las Palmas, Spain), 9 p.
MEL'CUK, Igor, CLAS, André et POLGUERE, Alain (1995). Introduction à la lexicologie explicative et combinatoire.
Louvain : Editions Duculot.
MONTE, Georges (2003). Terminology and other language resources -- Lexical Markup Framework (LMF), ISO TC
37/SC 4 N088, 16 p., http://pauillac.inria.fr/atoll/RNIL/
ROMARY, Laurent. Site de l'action SYNTAX. http://syntax.loria.fr/
VERONIS, Jean (2004), Quels dictionnaires pour l'étiquetage sémantique, Le français moderne, 2004/1, pp.27-38.
-4-
Téléchargement