Vers un lexique syntaxique du français : extraction d'informations de souscatégorisation à partir du TLFi 1. Introduction et problématique Que l'on se place dans de nombreux domaines de la linguistique, de la linguistique appliquée ou encore du traitement automatique des langues (TAL), la communauté scientifique francophone souffre d'un lourd handicap du fait de l'absence de ressources lexicales sur le français qui soient tout à la fois, libres en consultation et en téléchargement, valides du point de vue linguistique, pérennes, à large couverture et exploitables dans les applications du TAL (Véronis 2004). Les systèmes d'analyse automatique en particulier ne parviennent pas à dépasser le stade du prototype faute de disposer d'une quantité de données lexicales raisonnables et valides (Crabbé et al. 2003, Bonfante et al. 2003). Afin de sortir de la pratique trop courante qui consiste à développer son propre lexique selon les besoins, plusieurs grands organismes de recherche ont développé des lexiques ou des dictionnaires à l'échelle du français : parmi d'autres, les tables du LADL (Gross 1975), le dictionnaire explicatif et combinatoire (DEC) (Mel'čuk et al. 1995), le Trésor de la Langue Française informatisé (TLFi) (Dendien et Pierrel 2002), etc. Cependant, ces ressources ne sont pas directement exploitables en TAL notamment, aussi riches d'informations soient-elles. La question s'est donc posée de savoir comment les rendre exploitables, que ce soit en TAL ou pour des recherches systématiques (c'est-à-dire ne passant pas obligatoirement par une lecture linéaire). Parallèlement à cela, la communauté internationale qui s'intéresse à toutes sortes d'initiatives de normalisation a défendu avec justesse l'idée qu'il était aujourd'hui nécessaire d'aller vers une modélisation générique des données lexicales, cela sur le plan multilingue aussi bien que monolingue (Ide & Romary 2002, Monte 2003, Francopoulo 2003, mais aussi Multext, EAGLES). Une telle entreprise a deux avantages majeurs. Premièrement, elle constitue une piste de réponse à la question épineuse de la fusion de données lexicales. Il est en effet bien connu qu'aucune ressource lexicale existante n'est parfaite, tant du point de vue de la validité linguistique des informations qu'elle recèle que de celui de la couverture linguistique qui la caractérise. Obtenir une ressource d'informations lexicales satisfaisante impose donc de résoudre cette question. Deuxièmement, la volonté d'établir une modélisation générique des données lexicales permettra de mettre en place de manière contrôlée les procédures de transfert nécessaires à l'intégration des données dans différentes applications du TAL. D'un système d'analyse à l'autre en effet, les informations syntaxiques nécessaires à son fonctionnement ne sont pas encodées de la même manière (Ide & Romary 2001). Conscients de ces deux problématiques connexes, les membres de la communauté scientifique nancéenne se sont regroupés autour d'un projet de constitution d'un lexique syntaxique générique, le projet CPER Lexique Syntaxique. Ce projet réunit à la fois des compétences sur les données source, les procédures d'extraction et les systèmes d'analyse syntaxiques. Les données source prises en compte sont principalement celles du TLFi, mais plusieurs membres du projet travaillent sur l'extraction d'informations à partir des tables du LADL et sur l'acquisition de cadres de sous-catégorisation à partir de corpus. Concernant l'acquisition d'informations syntaxiques à partir du TLFi, les critères suivants ont été pris en compte : • • • • acquisition d'informations syntaxiques exclusivement dans un premier temps et plus particulièrement recherche des cadres de sous-catégorisation (valence, catégorie syntagmatique des arguments, fonction syntaxique, etc). Les restrictions de sélection en particulier seraient à envisager dans l'instanciation du contenu sémantique des verbes, vérification de la compatibilité avec le modèle Lexical Markup Framework (LMF, WD 24613, ISO TC 37/SC 4, Monte 2003 et Francopoulo 2003) afin de permettre la fusion avec des informations provenant d'autres ressources, mise à disposition à terme des données acquises auprès de l'ensemble des membres du projet et de l'ensemble de la communauté scientifique, concentration sur l'acquisition d'informations syntaxiques. 2. Une première expérience : acquisition de cadres de sous-catégorisation pour les verbes à partir des objets "construction" du TLFi Le TLFi comporte environ 100.000 articles dont presque 9.000 articles de verbes. L'informatisation du TLF a permis d'établir une typologie des contenus, chacun étant appelé un objet textuel. Plusieurs objets textuels -1- sont susceptibles de contenir des informations syntaxiques pertinentes du point de vue des cadres de souscatégorisation : certains "indicateurs d'emplois" (ex : Emploi pronom.), certains "crochets" (ex : [Suj. animé]), certains "syntagmes" (ex : Accorder qqc. à qqn), voire même certaines "définitions" (ex : Quitter qqn), etc. Cependant, les objets textuels mentionnés ci-dessus ne contiennent pas uniquement des informations strictement pertinentes pour l'acquisition de cadres de sous-catégorisation. Afin d'éviter au maximum le bruit pour cette première expérience, nous nous sommes concentrés sur l'objet textuel "construction" qui contient toujours au moins un schéma de réalisation de surface du verbe défini, dit par la suite verbe vedette. Sur les 9.000 verbes du TLFi, seuls 2.000 d'entre eux environ contiennent au moins un objet "construction" dont on trouve en tout 7.800 instances pour l'ensemble des verbes, soit en moyenne 3,9 objets "construction" par verbe. 2.1. Description des données : le contenu des objets textuels "construction" dans le TLFi Les schémas indiqués partagent plusieurs caractéristiques : (1) ils sont écrits dans un métalangage, (2) certains symboles sont très ambigus, aussi bien en signification qu'en portée (les parenthèses ou la virgule par exemple), (3) ils constituent un corpus fini, (4) ils contiennent beaucoup d'informations utiles pour les cadres de sous-catégorisation. Des techniques classiques d'interrogation de corpus nous ont permis d'observer qu'ils pouvaient contenir : • plusieurs schémas séparés par une virgule dans une même construction : Affubler qqn ou qqc. de qqc., s'affubler de qqc., être affublé de qqc., • des alternatives transcrites de différentes manières : notamment le mot ou, accompagné ou non de parenthèses, des parenthèses seules, une virgule, un slash, etc., • des indications d'introducteurs de compléments : les prépositions et les conjonctions, précédées ou non de prépositions, • des ellipses, très souvent du sujet, et de manière moins récurrente, de certains compléments suivant directement un introducteur, • des indications sur le mode des compléments phrastiques (infinitif, indicatif et subjonctif). Cet examen des schémas nous conduit à la conclusion qu'ils sont exprimés dans un langage particulière, un métalangage, car ils reposent sur un vocabulaire spécifique dont beaucoup d'éléments ne sont pas des mots du français, les symboles typographiques n'ont pas la même signification (le point, par exemple, n'indique pas forcément la fin d'une phrase) et les schémas ne constituent pas des phrases bien formées du français. 2.2. Procédure établie pour acquérir des informations pertinentes pour les cadres de sous-catégorisation 2.2.1. Descriptif général de l'outil d'analyse du contenu des objets "construction" Constatant que les schémas n'étaient pas exprimés en langue mais bien par le biais d'un métalangage, un système d'analyse spécifique a été mis au point. Le système obtenu a été conçu pour pouvoir être utilisé par des non-informaticiens, linguistes ou lexicographes en particulier. Pour ce faire, le lexique et la grammaire utilisés sont écrits dans des fichiers XML accompagnés de DTD suffisamment contraignantes. Un moteur utilisant les technologies combinées de JAVA et de LEX et YACC produit ensuite une batterie de règles d'analyse en C. L'outil d'analyse final, accompagné de quelques feuilles de transformation XSLT, prend ainsi en entrée l'ensemble des 9.000 articles de verbe au format XML, et retourne, pour chaque schéma dans chaque objet "construction" rencontré, un arbre au format XML correspondant à l'analyse en constituant dudit schéma. Enfin, une dernière transformation XSLT retourne, à partir de l'ensemble des arbres d'analyse produits, le lexique syntaxique correspond conforme au modèle LMF (Monte 2003 et Francopoulo 2003) et encodé au format XML. 2.2.2. Un aspect particulier de l'outil d'analyse : la gestion des alternatives Les alternatives, de portée variable et multiformes, sont traitées par des règles spécifiques qui, chaque fois qu'un indice d'alternative est rencontré, stoppent l'analyse courante et en relancent une autre avec le reste du contenu de l'objet "construction". A l'issue des analyses de tout le contenu d'un objet "construction", on obtient donc plusieurs arbres résultat qu'il s'agit de rattacher. Le premier arbre obtenu est considéré comme le pivot sur lequel doivent se rattacher les autres arbres. Le meilleur rattachement possible est celui qui s'applique au plus petit sous-arbre de l'arbre pivot. Une fois qu'un rattachement est trouvé, les règles de gestion de l'alternative introduisent un noeud <choix> qui domine directement l'arbre résultat à rattacher et le sous-arbre de l'arbre avec lequel il alterne. Ainsi, dans le schéma Adapter qqn à qqn., qqc. à qqc., le noeud -2- "choix" se situe juste au niveau des arguments internes du verbe et distingue deux paires possibles d'arguments, alors que dans le schéma Affubler qqn ou qqc. de qqc., il domine directement les deux formes possibles du premier argument interne et que dans S'accoter à, contre, sur qqn ou qqc., un premier noeud "choix" domine les trois prépositions possibles et le second, les deux formes possibles du groupe nominal, qqn ou qqc., que chacune de ces prépositions peut introduire. Chaque fois qu'un noeud "choix" est présent dans l'arbre d'analyse, deux constructions seront produites dans le lexique. 2.3. Description du lexique obtenu Le lexique obtenu est illustré par l'exemple ci-dessous qui peut être vu comme une proposition d'informations à retenir dans LMF. Parmi les informations explicitées, on trouve : le lemme, sa catégorie et pour chaque construction, le rappel du schéma trouvé dans le TLFi /reference_const/ et chacune des positions syntaxiques <Syntactic_Position> munie d'un identifiant local, de sa catégorie syntagmatique /syntactic_category/, du cas grammatical /grammatical_case/, de la fonction syntaxique, de l'indication du caractère obligatoire ou optionnel, du type d'introducteur /introducer_pos/ et de l'introducteur lui-même /introducer/. <lexical_Entry lema='ACCEPTER' identifier="TLF6_TSNLP_ACCEPTER" pos="V"> <Sense> <Constr_Set valence="underspecified"> <Semantic_Formula status="a_completer"/> <Construction reference_const="Accepter de + inf."> <Syntactic_Position syntactic_id="sp_0" syntactic_category="np" grammatical_case="nominative" syntactic_function="subj" status="mandatory" /> <Syntactic_Position syntactic_id="sp_1" syntactic_category="infinitive_clause" grammatical_case="underspecified" syntactic_function="dirobj" introducer_pos="prep" " introducer="de" status="mandatory" /> </Construction> ....... </Constr_Set></Sense><lexical_Entery/> Chaque fois qu'un type d'informations ne peut être déterminé précisément, il est laissé sous-spécifié, les identifiants excepté. 2.4. Evaluation de l'outil d'analyse Pour évaluer l'outil d'analyse, nous avons utilisé les verbes de la liste de référence TSNLP (http://clwww.dfki.uni-sb.de/tsnlp/) qui contient 149 verbes. A partir de cette liste et des 124 verbes (≈ 83%) qui contenaient au moins un objet "construction", 638 schémas ont été analysés, sans compter leur duplication due à la présence d'alternatives. Parmi ceux-ci, environ 500 (≈ 80%) sont analysés avec succès. Les erreurs restantes sont de natures différentes. Près de la moitié des constructions non analysées sont trop spécifiques comme par exemple Subst. abstr. + de + aimer. qui correspond à des expressions particulières comme art d'aimer, faculté d'aimer, etc. La moitié restante correspond à des cas non encore traités par la grammaire : les constructions négatives, comparatives, causatives, passives et utilisant des verbes modaux comme laisser. Si ces résultats sont encourageants, il faut néanmoins noter qu'ils ne sont pas complets. Tout d'abord, l'ensemble des verbes n'est pas couvert. Si seulement 17% des verbes de la liste TSNLP ne possèdent aucun objet "construction", le nombre de verbes du TLFi dans ce cas est nettement plus importante, 77%. Une seconde expérience a été menée, dans le même esprit, mais à partir des codes grammaticaux. 3. Une seconde expérience : utilisation des codes grammaticaux des verbes du TLFi La plupart des verbes du TLFi disposent d'un code grammatical accolé au mot vedette de l'article. Les valeurs possibles en plus de la chaîne verbe peuvent être les chaînes trans, intrans, trans dir, trans indir et pronom. Grâce à une extension de l'outil d'analyse, chacune de ces valeurs est associée à un cadre de souscatégorisation aussi précis qu'elles le permettent. Ainsi, trans suppose au moins une position d'argument interne de statut obligatoire mais il n'est pas possible d'en préciser la catégorie syntagmatique. En revanche, avec trans indir, nous faisons l'hypothèse que cette position argumentale est de type pp et que la catégorie de l'introducteur de celle-ci est prep. Afin de bien contrôler la provenance des différentes informations, chaque construction décrite dans le lexique est qualifiée par un attribut supplémentaire /TLF_source_info/ qui vaut /const/ lorsque celle-ci est obtenue par analyse d'un schéma et /cod/ lorsqu'elle est déduite du code grammatical du verbe. De plus, la famille syntaxique <Syntactic_Familly> est enrichie par l'attribut /cod_TLF6_info/ contient la copie partielle du code grammatical. Le verbe accepter ayant le code grammatical verbe trans. dans le TLFi, son entrée lexicale est donc enrichie de la manière suivante : <lexical_Entry lema='ACCEPTER' identifier="TLF6_TSNLP_ACCEPTER" pos="V"> <Sense> <Constr_Set valence="underspecified" cod_TLF6_info="trans"> -3- <Semantic_Formula status="a_completer"/> <Construction TLF_source_info="cod"> <Syntactic_Position syntactic_id="sp_0" syntactic_category="np" grammatical_case="nominative" syntactic_function="subj" status="mandatory" /> <Syntactic_Position syntactic_id="sp_1"syntactic_category="underspecified" grammatical_case="underspecified" syntactic_function="underspecified" status="mandatory" /> </Construction> ....... </Constr_Set></Sense><lexical_Entery/> Cette seconde expérience assure que chacun des verbes de la liste TSNLP dispose d'au moins une entrée lexicale dans le lexique obtenu avec au moins une construction. 4. Conclusion Ces expériences sont encourageantes dans la mesure où elles montrent qu'il est possible d'acquérir des informations lexicales à partir du TLFi tout en respectant les principes que l'on s'est fixé en termes de compatibilité avec le modèle LMF, de validité linguistique et d'utilité pour la communauté scientifique. Elles montrent aussi un certain nombre de lacunes, tant du point de vue des données sources que de celui de la procédure d'acquisition. Concernant le TLFi, il faut rappeler qu'il n'a pas été conçu dans une perspective d'exhaustivité syntaxique et que les objets "construction" analysés ne décrivent donc pas l'ensemble des constructions syntaxiques dans lesquelles un verbe peut apparaître. D'autre part, l'utilisation de ces objets "construction" a correspondu à une époque de rédaction et n'est donc pas également représentée sur l'ensemble du dictionnaire. Enfin, la procédure de rétroconversion n'a pas permis de reconnaître l'ensemble des expressions candidates à devenir des objets "construction". Cela peut se remarquer pour certaines définitions, certains indicateurs d'emploi, syntagmes ou crochets dont le contenu fait penser à un objet "construction" mais qui n'a pas été reconnu comme tel, la plupart du temps du fait du non-respect d'un certain nombre de contraintes typographiques qui servaient d'indices dans la rétroconversion. Concernant la procédure d'acquisition, plusieurs aspects n'ont pas encore été pris en compte et devront l'être. D'une part, les informations utiles pour un cadre de sous-catégorisation peuvent être éclatées sur plusieurs niveaux hiérarchiques. Le cas du verbe provoquer est éloquant. Dans son emploi B, on trouve la construction qqn/qqc provoque qqn à, puis en B.1. + subst et + inf. en B.2. Le croisement de B et B.1 permettrait d'obtenir le cadre plus précis qqn/qqc provoque qqn à + subst, et cela de même en croisant B et B.2. D'autre part, à la suite de LMF, les cadres de sous-catégorisation obtenus devraient être associés à des sens du verbe, sous-spécifiés pour l'instant. Pour ce faire, si l'on s'en tient à l'utilisation du TLFi, nous utiliserons très probablement la structure hiérarchique des articles au format XML. La question encore en suspens concerne le mode de propagation de l'information entre les sens (ici supposés correspondre aux définitions) et les objets "construction", héritage, percolation ? La même question se posera aussi concernant la propagation de l'information fournie par le code grammatical d'un verbe, est-elle valide pour l'ensemble de l'article ? Références BONFANTE, Guillaume, GUILLAUME, Bruno et PERRIER, Guy (2003). Analyse électrostatique. Traitement automatique des langues. CRABBE, Benoit, GAIFFE, Bertrand et ROUSSANALY, Azim (2003). Représentation et gestion de grammaires TAG lexicalisées. Traitement Automatique des Langues. DENDIEN, Jacques, et PIERREL, Jean-Marie (2002). Le trésor de la langue française informatisé : un exemple d'informatisation d'un dictionnaire de langue de référence. Traitement Automatique des Langues. EAGLES Computational Lexicons Working Group Reading Guide, citeseer.nj.nec.com/438129.html FRANCOPOULO, Gil (2003). Proposition de norme des Lexiques pour le traitement automatique des langues, CN RNIL N 7, 21 p., http://pauillac.inria.fr/atoll/RNIL/ GROSS, Maurice (1975). Méthodes en syntaxe, Herman, Paris. IDE, Nancy et ROMARY, Laurent (2001). A Common Framework for Syntactic Annotation. In Association for Computational Linguistics - ACL'2001. (Toulouse, France), 8 p. IDE, Nancy et ROMARY, Laurent (2002). Standards for Language Resources. In Third International Conference on Language Resources and Evaluation - LREC'2002. (Las Palmas, Spain), 9 p. MEL'CUK, Igor, CLAS, André et POLGUERE, Alain (1995). Introduction à la lexicologie explicative et combinatoire. Louvain : Editions Duculot. MONTE, Georges (2003). Terminology and other language resources -- Lexical Markup Framework (LMF), ISO TC 37/SC 4 N088, 16 p., http://pauillac.inria.fr/atoll/RNIL/ ROMARY, Laurent. Site de l'action SYNTAX. http://syntax.loria.fr/ VERONIS, Jean (2004), Quels dictionnaires pour l'étiquetage sémantique, Le français moderne, 2004/1, pp.27-38. -4-