La méthodologie linguistique au GETALP. Application aux développements linguistiques du français Sylviane Chappuy Août 2011 A la mémoire de Bernard Vauqois et Nicolas Nedobejkine sans qui je ne saurais rien de tout cela. GETALP – S. CHAPPUY - 2011 1 I. Introduction des spécificités de la TA au GETALP Les processus mis en jeu au cours de la traduction automatique sont certainement assez éloignés de ceux de la traduction humaine mais peuvent malgré tout être tous les deux décrits de la manière suivante : « Pour être traduit un message quelconque doit être « compris », « revêtu » d’une nouvelle enveloppe lexicale et « présenté » sous une forme grammaticale conforme à la langue du destinataire ». Il est fondamental dans un système de traduction automatique de restituer le « sens » du texte source dans la langue cible, mais il est tout aussi important de connaître la manière avec laquelle les « idées » y sont exprimées pour pouvoir les exprimer de manière approchante et correcte dans l’autre langue. C’est de cette idée maîtresse qu’est né le modèle linguistique défini au GETALP. 1) La m-structure Pour représenter un énoncé aussi fidèlement que possible, on utilisera le concept de m-structure, décrivant en plus du lexique, l’énoncé sous quatre aspects différents appelés niveaux d’interprétation du texte : − − − − parenthésage en termes de classe ; liens syntaxiques ; liens logiques ; liens sémantiques. Les deux premiers niveaux sont appelés niveaux de surface et liés à la langue ils gardent la mémoire de la façon dont les choses sont dites et les deux derniers niveaux sont appelés niveaux profonds et expriment la « compréhension » que l’on a du texte, ils sont communs à toutes les langues. De la même façon, pour une langue donnée il y a plusieurs façons de dire syntaxiquement la même chose. Au sens profond, le but est donc que tout les paraphrasages d’une même phrase aient la même structure à ces niveaux d’interprétation profonds. C’est le « secouage », on attrape la phrase par un autre bout (le gouverneur à ces niveaux d’interprétation profonds) et on « secoue » la structure en ne gardant que RL et RS. Comme aux niveaux profonds on a calculé les mêmes informations, on a la même structure pour toutes les langues. GETALP – S. CHAPPUY - 2011 2 2) Le processus de traduction en trois phases Il est fondamental de décomposer une traduction en trois phases totalement indépendantes les unes des autres : l’analyse du texte pour la « compréhension » strictement monolingue, le transfert de ce texte pour obtenir la nouvelle enveloppe lexicale et ses potentialités et enfin la génération ou plutôt synthèse de l’énoncé dans une nouvelle langue elle aussi strictement monolingue. Cette approche qui est celle des systèmes de traduction dits de deuxième génération avec transfert a été adoptée par GETALP il y a de nombreuses années1. La phase de transfert étant la seule bilingue, il faut ne jamais perdre de vue que le but est de la réduire à son minimum et donc de pousser au maximum la phase d’analyse de chaque langue et de travailler à des générations « tout terrain » (qui se débrouillent avec très peu, c’est-à-dire même avec une analyse faisant défaut et rien de prédit en transfert qui soit utilisable) qui permettent cette optimisation du transfert. Cette approche est celle du GETALP dont les derniers systèmes développés sous Ariane ont eu pour objectifs de mettre en œuvre cette optimisation (génération du français2). 3) Les bases de données lexicales Il faut que les dictionnaires monolingues soient conçus de telle façon que les dictionnaires de transfert soient réduits à leur minimum. Cette approche est celle du GETALP qui privilégie le développement de bases de données qui, d’un point de vue monolingue, différentient les sens des mots et d’où sont extraits automatiquement les dictionnaires des systèmes de traduction qui permettront les calculs linguistiques en analyse et en génération. Le but ultime étant la génération quasi automatique des dictionnaires de transfert (aujourd’hui très coûteux) à partir de ces bases (faire des petits nœuds : mots/sens entre deux langues dans une base multilingue). Toujours dans un but d’optimisation des coûts, ces bases de données dans leur partie monolingue sont développées par couches successives, dont certaines peuvent être confiées à des outils informatiques, d’autres à des locuteurs sans qualifications particulières, d’autres à des spécialistes dument formés, ce sont les « dictionnaires mille-feuilles ». La jonction mots/sens entre deux langues pour la phase de traduction réduite au minimum devra malgré tout être confiée à un traducteur formé. 4) Les grammaires statiques 1 2 ***CETA ?*** Voir le document Spécification de la Génération syntaxique du français, S. Chappuy (2011) GETALP – S. CHAPPUY - 2011 3 Le but des grammaires statique était initialement de libérer le linguiste des contraintes de la programmation sous les moteurs du système de traduction Ariane. De séparer donc l’aspect spécification linguistiques de l’aspect implémentation linguistique. Les premiers systèmes de traduction avaient été développés sans spécifications préalables et ont posé des problèmes de maintenance et très vite on en a ignoré la couverture linguistique exacte en l’absence des auteurs. Le problème étant surtout le développement des analyses, les grammaires statiques dans leur première version avaient une structure assez sommaire, leur grand intérêt était de décrire les structures linguistiques (arborescentes) une par une et d’être facilement incrémentales. Une première grammaire statique a été développée pour le français dans le cadre du Projet national TAO. Elle a été développée par la société B’VITAL après une analyse de corpus faite sur des manuels de maintenance dans le domaine de l’aéronautique et a servi de base au développement de l’analyse structurale du français pour la traduction de manuel d’aviation 1984-1987, elle a ensuite été réutilisée en 1990 comme base pour les spécifications de l’inplémentation d’une nouvelle GS du français3. Parallèlement une grammaire statique de l’anglais a été développée à partir du même type de corpus (en fait la traduction humaine du corpus choisi pour le français). La grammaire statique a été rebaptisées plus tard « String to Tree Correspondance Grammars » ou STCG par M. Zaharin Yussof. Une version à jour de la grammaire statique du français implémentée est disponible depuis août 20114. 5) En bref La TA au GETALP c’est donc : − − − − II. Une théorie linguistique ou modèle linguistique Une méthode et des outils de spécification linguistiques Une méthode et des outils de développement des dictionnaires Des outils d’implémentation (moteurs) spécialisés. Une théorie linguistique ou modèle linguistique On parlera dans ce qui suit de « langue source » et de « langue cible » pour un système traduisant d’une langue appelée langue source vers une langue appelée langue cible. 1) L’analyse de la langue 3 4 Ce document Spécification de la Génération syntaxique du français ******** TRAOUIERO Mise sur la forge, projet TRAOUIERO, août 2011. GETALP – S. CHAPPUY - 2011 4 L’analyse d’un texte dans une langue donnée a pour objectif de fournir pour ce texte sa m-structure. Quand on parle en traduction automatique de « compréhension », il s’agit bien entendu d’une compréhension implicite, on ne comprend pas un énoncé en en saisissant le contenu informatif, mais en en saisissant seulement l’enveloppe formelle. Dans le processus de traduction, c’est l’analyse qui prendra en charge cette compréhension de l’énoncé. La signification de l’énoncé sera représentée en termes de prédicats logiques et sémantiques auxquels s’ajoutent des informations sémantiques calculées sur les différents éléments de l’énoncé. L’analyse d’un texte a pour objectif de fournir pour ce texte cette mstructure. 2) Le transfert, minimal et prédictif contrastivement Le transfert traite des phénomènes contrastifs entre les deux langues. « Trouver une nouvelle enveloppe lexicale à l’énoncé » revient à traduire chaque élément du lexique qui le compose. Il s’agit d’une traduction de chaque mot utile5 à l’énoncé, dans le contexte dans lequel il apparaît. Ceci est pris en charge par la phase transfert lexical (TL). Il va ainsi traduire le lexique proprement dit, en donnant pour chaque feuille de l’arbre d’analyse la meilleure traduction possible en fonction du contexte logico sémantique calculé par l’AS. Ces traductions seront porteuses de leurs propres potentialités syntaxiques exprimées dans le jeu de variables de la langue cible. Le transfert (TS) qui n’intervient pas du tout sur la structure de fin d’analyse pour les deux niveaux les plus profonds, va par contre étudier les deux niveaux les moins profonds de la langue source et regarder comment dans la langue cible il lui est possible de les rendre au mieux. Il va donc faire des prédictions sur les niveaux de surface de la langue cible en fonction des niveaux de surface de la langue source. Ces prédictions ont pour rôle d’orienter la génération pour la prise en compte de la façon dont les choses ont été exprimées en langue source, tout en permettant à celle-ci de rester strictement monolingue. Dans le traitement contrastifs des variables de la langue source et de la langue cible, le transfert prendra soin de bien restituera les paraphrasages des schémas de dérivations de la langue source qui seraient inconnues de la langue cible de façon à ce que leur traduction soient transparentes à la génération qui ignore de quelle langue elle vient. Certains mots jugés inutiles peuvent avoir été supprimés par l’analyse, d’autre variabilisés, d’autre enfin créés pour restituer du sens. 5 GETALP – S. CHAPPUY - 2011 5 Dans les prochaines versions des grammaires d’AS, la polysémie devra être transparente au TL. L’AS présentera une polysémie / une ambiguïté non résolue comme des feuilles de l’arbre sous une seule feuille mère (comme des « cerises ») et ce sont ces « cerises » que le TL prendra en charge. Ainsi, pour lui, ce sera comme si tout était résolu et il n’a aucun choix stratégique à faire concernant la langue source, il traduit en contexte. Cette stratégie d’analyse va permettre de diminuer considérablement les coûts et les développements des dictionnaires bilingues qui doivent être développés comme si tous les problèmes étaient résolus à l’issue de l’AS. Le TL françaisanglais du modèle aéronautique actuel, même si l’analyse est correcte, se retrouve face à des polysémies non résolues en AS et doit donc « trier » dans ce qu’il reste, il doit donc hiérarchiser les traductions qu’il propose et fournir au cas où, une traduction par défaut, ce qui ne doit pas être son problème. En clair, si on n’a pas réussi à choisir entre deux sens d’un même mot en analyse, le transfert traduira les deux, transfèrera les deux à la génération qui fera au mieux avec le père qui portera toutes les potentialités communes et répercutera ses choix sur les différentes « cerises »). En bref, le transfert ne doit pas prendre en charges les faiblesses ou impossibilités de l’analyse. Sauf à prédire (en TS) en cas d’analyse non terminée un ordre sur les morceaux analysés de façon à tenir compte dans cet ordre de l’aspect contrastif des deux langues. 3) La génération ou synthèse La génération qui doit être strictement monolingue, a pour objectif de fournir pour la structure issue du TS où sont reconnus comme seuls valides les niveaux d’interprétation profonds RL et RS, une m-structure valide pour la langue vers laquelle on traduit, en utilisant au mieux les prédictions aux niveaux de surface fournies par le TS et les potentialités de dérivations (qui sont pour la génération les potentialités de paraphrasages) du lexique de la langue, fournies par le TL . Elle vise à présenter l’énoncé sous une forme grammaticalement conforme à la langue vers laquelle on traduit. Elle va partir de la structure profonde de l’analyse et essayer de restituer le mieux possible les prédictions faites en transfert par les niveaux de surfaces de la langue. Une fois obtenue cette m-structure, elle fournit une suite de formes représentant le texte traduit. La génération doit par ailleurs palier aux faiblesses d’une éventuelle analyse (analyse non terminée ou partielle en présence d’un mot inconnu GETALP – S. CHAPPUY - 2011 6 par exemple) en veillant à toujours faire au mieux et ne rien déplacer intempestivement. III. La m-structure et le classement des variables selon 3 niveaux d’interprétation a) Le premier niveau d’interprétation : Niveau CAT et K La structure de dépendance vs structure en terme de classes syntagmatiques On avait pour ce niveau d’interprétation le choix entre deux approches : Nicolas Nedobejkine, définit ce premier niveau comme celui de la catégorie morphologique avec ses dépendants, Bernard Vauquois, comme celui de la classe syntagmatique6. Structure de dépendance « Pourquoi parler de GN, GADJ, … en fait c’est le nom avec ses dépendants : roman policier : roman nom, policier son dépendant, adjectif qui fonctionne comme un nom. »7 Dans un arbre de dépendance, on ne duplique pas (Nom domine adjectif, qui domine adverbe, etc.) Les problèmes de portée sont exprimables au moyen de variables auxquelles il faudra ajouter d’autres variables qui indiqueraient le sens de dépendance ; dans, Je bois une tasse de thé, il y a inversion de dépendance. Structure en termes de classes syntagmatiques Aux classes terminales (Cat) correspondent des classes non terminales (K) qui n’ont pas grande utilité autre que celle de nous simplifier la tâche. Il y a un cas où cette duplication a une vraie utilité, c’est le cas de la coordination pour résoudre les problèmes de portée : Les gouvernements (pluriel) français (singulier) et américain (singulier) avec pour signification : Le gouvernement français et le gouvernement américain. C’est aussi le cas de deux verbes ayant le même sujet8. En fait, ces deux structures sont équivalentes9, et pour des raisons de simplification des manipulations, la m-structure a retenu le choix d’un parenthésage en termes de classe syntagmatiques. Les classes syntagmatiques ont été introduites par Noam Chomsky. Nicolas Nedobejkine, entretien janvier 2003 8 Ben Zécri parlait de parataxie et d’épitaxie au lieu de lien de coordination et de subordination. Coordination : même niveau, lien horizontal. Subordination : domination, lien vertical. 9 Voir à ce sujet l’article de Bernard Vauquois *** qui a démontrer que l’on passe par un simple algorithme de l’une à l’autre des ces deux structures. 6 7 GETALP – S. CHAPPUY - 2011 7 Au niveau morphologique, il y a les catégories habituelles que nous reprendrons ici telles qu’elles sont. Pour le français dans le modèle FR3 elles sont : CAT= (V, N, A, D, R, S, C, P, PREF, INC, EDIT, NA) catégories syntaxiques. V verbe, N nom, A adjoint i.e. adjectifs ou adverbes, D déterminants (articles et adjectifs possessifs, démonstratifs), R représentants (pronoms), S subordonnants (prépositions et conjonctions de subordination, locutions du même type), C coordonnants (conjonctions de coordinations simples ou "à balance"), P signes de ponctuation, PREF préfixes (ex: post- anti- non-), INC catégorie des mots inconnus i.e. ceux qui ne sont pas dans le dictionnaire, EDIT signes d'édition, NA non alphabétique. A certaines de ces catégories sont associées une ou plusieurs classes syntagmatiques (par exemple le GN est l’extension du N) : K= (PVB, PPART, PINF, PREL, PSUB, NV, GN, GADJ, GADV, GORD, GCARD) PVB proposition verbale (conjuguée), PPART proposition participiale, PINF proposition infinitive, PREL proposition relative, PSUB proposition subordonnée ou complétive, NV noyau verbal (choix stratégique de regrouper autours du verbe ce qui le modifie, négation, modalité, adjoints), GN groupe nominal, GADJ groupe adjectival, GADV groupe adverbial, GORD groupe ordinal, GCARD groupe ordinal. Il serait fructueux de créer en français un groupe déictique ou groupe déterminant GDET dont l'absence à posé des problèmes. Et des sous catégories syntaxiques : Sur les verbes : SUBV= (VF, INF, PPR, PPA) VF pour verbe conjugué, INF pour verbe à l'infinitif, PPR pour participe présent, PPA pour participe passé. Sur les adjoints : SUBA= (ADJ, ADV, CARD, ORD) ADJ adjectif adjoint de nom ou de prédicat attributif (ex: "capable", "beau), voir PLADJ, ADV adverbe adjoint de verbe ou d'adjoint, voir SUBADV et PLADV, CARD cardinal (ex: "sept", "7", "vingt et un", "quatre-vingt"), ORD ordinal (ex: "septième", "1er"). − SUBADV= (ADV, ADADJ, MADV, MADADJ, ADGN) ADV adjoint de verbe (critère: peut être présent dans le noyau verbal entre auxiliaire et verbe) (ex: "rapidement", "autant", "bien", "vite", "souvent", "septièmement"), voir aussi PLADV, ADADJ adjoint d'adjectif (critère: se place entre le nom et l'adjectif pour modifier l'adjectif, "une chose"+ADADJ+"belle") (ex: "très", "bien", "assez", "vraiment"), MADV adjoint d'adjoint de verbe (critère : se place entre le verbe et l'adverbe qu'il modifie, "mange très vite", se combinent, "il mange vraiment très vite = vraiment (très (vite)) ce qui ne signifie pas "vraiment très" mais "très vite" d'une part et "vraiment ...vite" d'autre part. (ex : assez, moins, plus, aussi, bien) Voir ADVNM pour bloquer sur certains adverbes la présence d'un adjoint GETALP – S. CHAPPUY - 2011 8 par exemple sur "vraiment" qui est bloquant pour les MADV, il n'est pas modifiable, de même "très", mais il ne le sont pas pour les négation ), MADADJ adjoint d'adjoint d'adjectif (attention, modifie l'adjoint et non pas l'adjectif modifié), c'est le cas des adverbes de négation (ex: "pas vraiment belle", "pas trop usée"), ADGN adjoint du groupe nominal, on y met aussi en attendant mieux les adjoints de déterminant (ex: avec), voir PLADGN, NEG adverbe de négation, porte pour des problèmes de place la variable NEG et ne sont pas référencés ici. − ADVNM= (1) Le codage des adverbes n'est pas très satisfaisant pour les calculs, il faudrait le refaire à partir des documents rédigés depuis avec Nicolas Nedobejkine qui s'intéressent aux types d'adverbe et à leur sémantique. Il y a forcément des raisons sémantiques à cette "non-modifiabilité". Sur les Adverbes, cette variable permet de repérer ceux qui ne peuvent pas être modifiés par autre chose qu'une négation (ex: "vraiment", on ne dit pas "très vraiment", "très", "tout à fait"," réellement", "beaucoup"). − PLADGN= (1, 2, 3) Le codage des adverbes adjoints de noms n'est pas très satisfaisant pour les calculs, il faudrait le refaire à partir des documents rédigés depuis avec Nicolas Nedobejkine qui s'intéressent au types d'adverbe et à leur sémantique, en fait, ces ADGN sont porteur d'une RS prédite de MODUL (ex: environ, surtout, au maximum) ou de QFIER (ex: tous, bien, aucun). Cette variable est surtout nécessaire en GS pour affecter une place correcte des adjoints, et en l'absence d'une étude plus approfondie, ignorée en AS, où ils sont forcément à leur bonne place. 1 adjoint de groupe nominal qui peut être placé avant la préposition (ex: "surtout par ce temps", "au maximum dans les trois premiers jours", « presque par tous les temps") 2 adjoint de groupe nominal qui peut être placé immédiatement après la préposition (ex: " par presque tous les temps ") 3 adjoint de groupe nominal qui peut être placé après le nom gouverneur (ex: "pour 3 jours au moins", "dans les trois jours au maximum "). − PLADV= (1, 2, 3) Le codage des adverbes n'est pas très satisfaisant pour les calculs, il faudrait le refaire à partir des documents rédigés depuis avec Nicolas Nédobejkine qui s'intéressent aux types d'adverbe et à leur sémantique. 1 adverbe pouvant se trouver en début de phrase (ex: "immédiatement, il a vu le problème") 2 adverbe pouvant se trouver dans le noyau verbal (ex: "il a immédiatement vu le problème", 'il a bien vu le problème") 3 adverbe pouvant se trouver en fin de phrase (ex: "il a vu le problème que ... immédiatement") − PLADJ= (AVANT). Variable placée en morphologie sur les adjectifs qui ont la possibilité de se placer avant le nom (ex: une belle maison") en fait cette propriété est due à la sémantique des adjectifs et à leur longueur, mais en l'absence de meilleurs critères, on a choisit ce raccourci qui marche plutôt bien. Sur les noms : SUBN= (NC, NP, REF) NC nom commun (ex: "clé", "utilité", "formation") NP nom propre (ex: "OTAN", "Grenoble", "NEOPRENE") REF référence (ex: "A380" dans "Airbus A380") Sur les représentants : SUBR= (REL, TELOC, AUTRES) REL pronom relatif qui font partie des classes fermées et sont donc traités par le dictionnaire du "noyau de base" et traité par UL dans les grammaires. TELOC représentant de lieu ou de temps (critère: réponse à "où?" réponse à "quand?") (ex: "ici", "demain"), ils portent SEMN pour les différentier (pb de place) AUTRES tous les autres, qui font partie des classes fermées et sont donc traités par le dictionnaire du "noyau de base" et traité par UL dans les grammaires. Sur les subordonnants : KREG= (GN, PINF, PSUB) Variable portée par la préposition ou le subordonnant pour dire quel type de groupe il introduit. ATTENTION: il est prévu de mettre la même UL sur la préposition, la conjonction de subordination et par la suite l'adverbe pour paraphraser (ex: « placer sur... », « placer dessus », « bien qu'il pleuve », « malgré la pluie », « avant de partir », « avant qu'il ne parte »). GETALP – S. CHAPPUY - 2011 9 GN introduit un GN (ex: "par", "de", "au dessus de") PINF introduit une infinitive ((ex: "par", "pour", "avant de") PSUB introduit une proposition subordonnée (ex: "parce que", "pendant que", "bien que") (PPART) introduit une participiale (ex: "en", "tout en") traité par UL. Sur les déterminants : pas de sous catégorie, traités par UL. Sur les coordonnants : pas de sous catégorie − COORDB= (EL1, EL2) Cette variable, portée par les coordonnants indique qu'ils sont première partie ou deuxième partie de coordination dite "à balance (ex: "non seulement…mais encore….", "soit…soit….soit", "plus…plus…", "ni...ni" mais en fait on ne gère pas d'éventuels croisements. Au niveau morphologique, on trouve le genre, le nombre, le temps, le mode, (parfois l’aspect, mais pas en français où il est syntaxique). GNR= (FEM, MAS) MAS masculin FEM féminin En fait il faudrait rajouter le NEUTRE qui existe en français et serait bien intéressant en TL vers d'autres langues (ex: "ce qui est interressant…"). NB=(SING, PLUR) SING pour singulier (ex: cheval) PLUR pour pluriel (ex: chevaux) TEMPS= (PRES, PAS, FUT, IPF) Pour le temps, trois possibilités: PRES pour présent, PAS pour passé simple, FUT pour futur, IPF pour imparfait. ATTENTION, le passé composé est un présent composé pour nous (voir variable COMPOS) MODE= (IND, COND, SUBJ, IMP, GER10) IND indicatif COND conditionnel SUBJ subjonctif IMP impératif GER gérondif (calculé en français). PERS= (1, 2, 3) Sur les pronoms, PERS indique la personne, 1 pour 1e personne, …. À combiner avec genre. TYPOG= (PCAP, TCAP, SCRIPT, ABBR, DIGIT) PCAP mot dont la première lettre est en majuscule (ex: Paul). TCAP le mot est tout en majuscule (ex: S.N.C.F.). SCRIPT ordre de document format script (ex: .BR). ABBRE le mot est une abréviation (ex: ABBREV.). DIGIT le mot est en chiffre (ex: "deux" écrit "2"). b) Niveau FS 10 Syntaxique en français. GETALP – S. CHAPPUY - 2011 10 La manifestation de ce niveau d’interprétation est au niveau syntaxique en tant que fonction. Au niveau syntaxique, on reprendra les variables précédentes et on pourra y ajouter un rôle syntaxique. Par exemple : « demain » et « hier » adverbe et rôle syntaxique de nom; « bien », « mal », adverbe et rôle syntaxique d’adjectif. Dans la grammaire traditionnelle, on parle de sujet, de complément d’objet direct ou indirect, que l’on différentie des circonstants qui eux, ne sont pas nécessaires à la compréhension de la phrase. Et ceci, sur les verbes uniquement (y compris gérondif et participe). Pour le nom, elle parle de complément de nom même s’il s’agit d’un nom d’action. Il y a la même chose pour les adjectifs où on parle de complément d’adjectif : « sûr de…. », « relatif à… » et pour les adverbes où on parle de complément d’adverbe : « relativement à… ». Pour les propositions infinitives on parle d’objet direct ou indirect et on parle aussi de proposition subordonnées complétive (objet directe) ou complément d’objet indirect. Les adverbes à rôle de complément d’objet ne sont pas nommés dans la grammaire traditionnelle, on les appellera adverbe complément. Pour les mots outils tout dépend de la structure choisie : « préposition ou subordonnant (Nom) » Nedobejkine, préféré par Nicolas Ce choix est justifié par le fait que du point de vue étymologique, toutes ces prépositions étaient des adverbes qui régissaient des groupes nominaux. Même unité lexicale pour adverbe et préposition. Exemples : dessus - sur, dessous - sous. « Nom (préposition ou subordonnant) » choix de Bernard Vauquois : GETALP – S. CHAPPUY - 2011 11 Bien entendu, la m-structure n’impose pas de choisir entre ces deux visions d’une même information. Les variables choisies en français pour ce niveau d’interprétation sont les suivantes : La variable principale de fonction syntaxique : FS= (GOV, SUJ, OBJ, ATSUJ, ATOBJ, CIRC, CIRCP, CPAG, ATG, ATGR, COORD, COMP, RFDG, LXAX, DES, REG, ENUM, APP, INCL) Fonctions syntaxiques. La FS=GOV, dans beaucoup de système au GETALP est interprétée comme FS=GOV, RS=GOV et RL=GOV. Dans le français (GS par exemple et Grammaire Statique) on a GOV=1 pour RL=RS=GOV sur le prédicat principal. Dans l’absolu, il faudrait définir un gouverneur (GOV) par niveau d’interprétation, qui indique par où attraper la structure (avant le « secouage », expliqué plus haut). GOV gouverneur SUJ sujet ou sujet réel OBJ complément d'objet. Personnellement je créerais bien le COD et COI traditionnels qui ne perturbent pas les indexeurs ! ATSUJ attribut du sujet ATOBJ attribut de l'objet CIRC circonstant CIRCP circonstant privilégié pour ce qui est à mis chemin entre l'objet et le circonstant sans que l'on sache réellement qu'elles en sont les rections (réponse à "où?" sur "aller", réponse à "combien de temps?" sur "durer", réponse à "combien?" sur "peser"," payer") CPAG complément d'agent ATG attribut du gouverneur ATGR attribut du groupe (différence de portée entre ATG et ATGR) COORD groupe coordonné COMP complément de nom RFDG référence au degré porté par la deuxième partie des comparatifs et consécutifs. LXAX lexème auxiliaire porté par les préfixes, les éléments séparés d'une expression avant reconstitution, DES désignation REG régisseur ENUM énumération porté par chaque élément de l'énumération, traitée comme une coordination avec le 1e groupe portant la FS commune (s'il y a, ce qui n'est pas forcément le cas), en fait sous Ariane, actuellement on a après le pré-traitement des phrases isolées et on perd la continuité du texte. APP apposition INCL incise, inclusion A laquelle s’ajoutent les variables morphologiques précédemment données qui nous indiquent le comportement syntaxique des mots des différentes catégories et d’autres encore nécessaires aux calculs de ce niveau telles que : AUX= (ETRE, AVETRE) auxiliaire de conjugaison du verbe. ETRE auxiliaire être (ex: partir), AVETRE pour admet les deux (ex: monter), avoir est le cas par défaut. Attention, un verbe qui a deux auxiliaires de conjugaison correspondants à des sens différents, aura des entrées différentes, mais actuellement on a un tas. IMPERS= (VIL, VFIL, PPAIL, PPRIL) Porté par les verbes impersonnels VIL verbe toujours impersonnel (ex: pleuvoir, s'agir) GETALP – S. CHAPPUY - 2011 12 VFIL verbe conjugué utilisé de façon impersonnelle, c'est une sorte de paraphrase (ex: il arrive que + subj, il semble que…) PPAIL adjectif ou ppa employé de façon impersonnelle (ex: il est nécessaire + de ou que , il est entendu que...) PPRIL participe présent impersonnel (ex: il est amusant + de ou que, il est satisfaisant ...) Pour PPAIL et PPRIL, on se demande un peu si ce ne sont pas plutôt des adjectifs et ce codage serait en fait dû à la non présence dans notre modèle actuel français de l'ambigüité adj-ppa et adj-ppr car "il serait amusant que tu viennes" = "ta venue serait amusante". On ne devrait avoir que ADJIL. NEGIMP= (N, P) Indique si la forme négative ou/et la forme positive peut/peuvent être impersonnelle(s) N la forme négative est impersonnelle (ex: il est inacceptable de…', "il est inutile de…") P la forme affirmative est impersonnelle (ex: "il est certain que…", "il est utile de…") NI= (1) Présence d'un ne explétif effectif sur le verbe. Se place sur les mots qui demande le "ne explétif" (ex: 'il NE prend AUCUNE précaution) Attention, je CRAINTS qu'il NE vienne est traité par la variable ************************ Voir aussi NIMOD. POTPASS= (1) Porté par les verbes qui ne peuvent être mis au passif, cette variable est peut-être calculable (verbes transitif se conjuguant avec avoir), (ex: tomber, se repentir, agir). PREF= (NEG, REP) Les préfixes de négation et de répétition, morphologiquement marqués en français sont variabilisés. Ils peuvent aussi être calculés par la suite à partir de la syntaxe (ex : "de nouveau"…) On a pour cela une variable NEG mais on pourrait utiliser la même. Voir NEG et NEGMOD. REFL= (OBL, SE1, SE2) Rôle du pronom réfléchi sur la forme réfléchie du verbe OBL réfléchi toujours présent sur le verbe sans qu'il s'agisse d'une rection du verbe (ex: s'agir, s'évertuer) attention ne pas confondre avec le réflexif passif (ex: s'évaporer= être évaporé) SE1 verbe parfois réfléchi et pour lequel le pronom réfléchi a une place d'ARG1 (ex: se donner, se retourner, se pendre) SE2 verbe parfois réfléchi et pour lequel le réfléchi a une place d'ARG2 (ex: s'attribuer, s'offrir) TPN= (ILS, LES, LEUR, EUX) Type de pronoms en fait ce sont les cas qu’il faudrait avoir. Le nombre est très restreint et on traite par UL, mais en fait des cas et une seule UL serait plus propre. TYPE= (ATROB, FAIRE, INDIR) Type de verbe, pour ceux ayant un comportement syntaxique particulier. Cette variable indique un comportement syntaxique particulier pour un prédicat, elle devrait avoir beaucoup plus de valeurs mais pour des raisons de place, les comportements qui ne touchent que peu de prédicats ont été non indexés car ils pouvaient être traités en testant les UL et portaient sur des prédicats qui font partie du noyau de base du français ou pour des problèmes de variabilisation ont été rentrés sous une variable particulière: ATROB: verbe admettant un attribut de l'objet (ex: croire "il croit X fort, il le croit son ami", considérer: il considère X (comme) fort, comme son ami". FAIRE prédicats introduisant des propositions infinitives avec sujet, ils sont au nombre de 7 : "laisser", "faire", et les verbes dits de perception: "sentir", "entendre", "écouter", "voir", "regarder". (ex: "X laisse Y manger", "il le lui laisse manger, "il laisse manger X à Y", "X laisse manger Y", "il le laisse le manger" . Chacun des ces prédicats à un comportement syntaxique particuliers. (COPULE) prédicats admettant un attribut du sujet, ils sont en nombre limités, 6 UL : "être", "paraître", "semble", "devenir", "demeurer", "rester", "passer pour" "avoir l'air". On a préféré une variable particulière pour leur présence TYPP car on les variabilise. GETALP – S. CHAPPUY - 2011 13 (MODAL) prédicats de modalités ils sont en nombre limités: POUVOIR et DEVOIR auquel il faudrait ajouter la forme impersonnelle de falloir qui en est un paraphrasage. On a préféré une variable particulière MODAL. INDIR prédicats introduisant une interrogative indirecte, n'est pas traité dans le modèle mais devarait être ajouté (ex: "demander", "savoir") Auxquelles s’ajoutent les variables concernant les informations syntaxiques calculées sur les mots et les groupes11. ASPECT= (FUTPROB, PASPROCH, FUTPROCH) Variable d'aspect, essentiellement calculée et variabilisée car devant être transférée par des prédictions d'aspects ou de temps en fonction de la langue cible. FUTPROB futur PROB pour "probable" (ex: il va partir) PASPROCH passé proche (ex: il vient de partir) FUTPROCH futur proche (ex: être sur le point de partir, être en passe de) PROG si il n'a pas été mis avec la variable MODE. COMPOS= (1) Traitement des temps composés: à l'indicatif, le passé composé est un "présent composé", le futur antérieur est un "futur composé", le passé antérieur est un passé composé, le plus que parfait est un imparfait composé. Idem avec les autres modes. COMPOSMOD= (1) La modalité étant variabilisée, la composition sur la modalité doit être dissociée de la composition (ex: il doit avoir vu, il a dû voir). DEG= (COMP, SUP, CONS) Degré de comparaison Il est morphologiquement marqué sur seulement 2 UL : bon et mauvais, aussi ces mots font partie du noyau de base. Ce degré est pour le reste calculé. On aurait pu et on devrait y ajouter le cas de très, qui peut être morphologiquement marqué: "bellissime", "grandissime" et relève du même registre ABS pour absolu. COMP comparatif, ex : plus, moins, plus vite SUP superlatif, ex : le plus, le moins rapide CONS consécutif, ex : si grand (que ---). ENONCP= (DECL, INTER, IMPER) Type d’énonciation DECL déclarative INTER interrogative IMPER impérative On pourrait rajouter des tas d'autres choses utiles: TITRE ALARME (ex: ATTENTION: ….) INT= (1) Variable présente sur la phrase pour signifier qu'elle est interrogative. Variable aussi présente sur les introducteurs ou adverbes pour signifier qu'il introduisent une interrogation (ex: "quel homme ….?", "combien coûte ....?", "combien de personnes...?") MODAL= (DOIT, PEUT) Indique la présence de la modalité. Certaines variables expriment à la fois une valeur calculée au niveau syntaxique et une propriété syntaxique d’un prédicat. C’est bien sûr maladroit, mais pour des problèmes de gain de place sur les variables nous n’avons pu y échapper. 11 GETALP – S. CHAPPUY - 2011 14 Cette variable peut être morphologiquement marquée (ex: "lisible", "calculable") 12, ou peut être calculée (ex: "mesure à prendre = qui doivent être prises") Il faudrait traiter la combinaison pouvoir + pouvoir (ex: peut être illisible = peut ne pas pouvoir être lu"), différentier doit + pouvoir de peut + devoir, etc. MOTCOMP= (1) Cette valeur est portée par les différents éléments d'un mot composé calculé (ex: électro-métallurgies, radio-électricité, franco-suisse, citerne-avion). NEG= (1) Présence d'une négation syntaxique. On aurait pu avoir pour la négation une seule variable mais on a fréquemment ajout de négation sur un préfixe de négation, on a donc gardé les deux PREF=NEG et NEG=1 (ex: s'il n'est pas illisible). NEGMOD= (1) La modalité étant variabilisée, la négation sur la modalité doit être dissociée de la négation (ex: il ne doit pas voir, il n'a pas dû voir). NIMOD= (1) Présence d'un ne explétif effectif sur le modal (car la modalité est variabilisée). Voir NI. PORTEE= (TOUT) Cette variable exprime la portée d'une relation, par défaut la relation est exprimée par rapport au gouverneur qui est le prédicat principal (même si les relations sont inverses), parfois, la portée va au-delà du gov et concerne tous le groupe, la valeur de portée est alors TOUT. (ex: "utile à tous et nécessaire", "utile et nécessaire à tous". REL= (1) Cette trace permet de retrouver l'antécédent d'un pronom relatif en "remontant depuis le pronom jusqu'à la PREL dont le gouverneur du père est l'antécédent et inversement. ROLE= (RSUJ, RCOMP, RADV) Rôle syntaxique des pronoms personnels et aussi repérage des paraphrasages (2 variables en une pour des problèmes de place !) RSUJ rôle de sujet (ex: "il", "je", "nous") RCOMP rôle de complément ou d'objet (ex: "nous", "me") N'a rien à voir, mais mis au même endroit pour des problèmes de gestion de la place des variables : RADV rôle d'adverbe, cette variable est calculée sur des groupes qui sont en fait des paraphrasages adverbiaux, on aurait pu aussi supprimer le paraphrasage, on a laissé ce travail au TS pour l'instant. (calculé sur "avec efficacité", "de façon efficace", "de manière très efficace", "sans la moindre utilité" par exemple) On aurait pu créer aussi RADJ sur des groupes nominaux jouant un rôle d'adjectif (ex: "de couleur= coloré", "en court-circuit"). SUBJONC= (VS, VPS, NGVS, VNIS, NGVNIS, IMPVS) Type de complétive introduite par le prédicat Cette variable est aussi portée par certains introducteurs de circonstants qui induisent le subjonctif (ex: "avant que" + "ne" explétif + subjonctif, "jusqu'à ce que" + subjonctif)) VS la complétive est toujours au subjonctif (ex: "il faut qu'il vienne", ‘j’aimerais qu’il prenne son chapeau », « il est normal que tu finisses en retard » et derrière les introducteurs : « afin que », « pour que », etc. ) VPS La complétive est parfois au subjonctif (ex : « il semble qu’il est/soit venu en notre absence », « je comprend qu’il a/ait des difficultés en classe ») NGVS la complétive est au subjonctif si le prédicat est négatif (ex: "je ne pense pas qu'il vienne", « je n’affirme pas qu’il soit le meilleur ») 12 Elle correspond alors au 1e niveau d’interprétation et se retrouve au 2e niveau. GETALP – S. CHAPPUY - 2011 15 VNIS la complétive est toujours au subjonctif et porte un "ne" explétif (ex: "je crains qu'il ne vienne") et après des introducteurs tels que « avant que » NGVNIS la complétive est au subjonctif et porte un "ne" explétif si le prédicat est négatif (ex: je ne doute pas qu'il ne vienne") IMPVS le prédicat, introduit un subjonctif lorsqu'il est utilisé à la forme impersonnel (ex: "il arrive qu'il vienne") TYPP= (AVOLAIR, EST, SEMBLE, PARAIT, RESTE, DEMEURE, DEVIENT) Les prédicats admettant un attribut du sujet, sont en nombre limités, 6 UL : "être", "paraître", "semble", "devenir", "demeurer", "rester", "passer pour" "avoir l'air". Pour des problèmes de cohérence, i.e. même structure au niveau profond pour tous les paraphrasages d'une même phrase, la description du français a choisi de variabiliser la présence des copules qui sont morphologiquement marquées en français (ex: blanchir) ou absentes dans certaines construction: "une femme forte", "une femme qui est forte" sans que les relations logiques ou sémantiques en soient modifiées, entres les autres éléments. VOIX= (ACT, PAS, RXPAS, IMP, IMPRXPAS) Voix calculée et variabilisée ACT active (ex: il calcule l'équation par la méthode...) PAS passive (ex: l'équation est calculée par la méthode...) RXPAS réflexive passive (ex: l'équation se calcule par la méthode...) IMP impersonnelle (il arrive que…) IMPRXPAS réflexif passif impersonnel (ex: il se calcule beaucoup d'équation par la méthode...) SUBJR= (S, SSUBJ, DEI, N) sujet réel de la forme impersonnelle S "complétive" (ex: "il est vrai que je suis …) SSUBJ "complétive" + subjonctif (ex: "il est nécessaire que tu fasses …" DEI de + infinitif (ex: "il est nécessaire de faire…") N groupe nominal (ex: "il se passe qqchose") c) Niveau RS Les RS retenues seront celles du gros document publié par Nicolas Nedobejkine13 « c’est le minimum, mais suffisant pour tout décrire »14. Au niveau des RS il existe systématiquement la possibilité d’inversion de la relation, cela demanderait simplement de dupliquer par leur inverse toutes celles qui ne l’on pas encore été. On aimerait aussi avoir à ce niveau le type de circonstant attendu par le verbe. Il faudrait pour cela se reporter à Steinberg et à sa classification des verbes. On a par exemple des circonstants qui fonctionnent avec des verbes : « se comporter bien », « se comporter mal », cette catégorie de verbe demande un adverbe, on attend clairement la réponse à « comment ? ». De la même façon, « dormir » demande un temps, au niveau RL, ce sera un argument donc il ne pose pas de problème, mais pour les verbes de mouvement, « aller à », « sortir de », on a aussi un argument, mais parfois on peut avoir à la fois provenance et destination, mais il est très clair que « aller à » est plus fort que « aller de », l’autre est donc circonstant... Document GETA, « Etude de la validité du formalisme choisi pour représenter la structure linguistique interface », Contrat CEE, N. Nedobejkine, Avril 1980 14 Nicolas Nedobejkine, entretien 12 janvier 2003. 13 GETALP – S. CHAPPUY - 2011 16 La définition classique d’un circonstant est qu’il peut être enlevé sans gêner la compréhension. Il est flagrant que là, on gène la compréhension15. Les relations logiques retenues dans nos modèles et communes à toutes les langues sont les suivantes : RS= (GOV, ALTERN, METHODE, CAUSE, MATIERE, GENITIF, COND, FINAL, BENEF, CONSEQ, THEME, INST, CTXT, MANIERE, ACCOMP, ANALOG, CONCESS, QFIER, OBJQTF, MODUL, UNDE, UBI, QUO, QUA, PART, TRAP, QUM, SAUV, QUALF, QUAL, ID) On devrait d'après Nicolas Nedobejkine, avoir pour chaque RS sa RS inverse, il y a probablement des langues où se sera nécessaire, en français j'ai détecté QFIER/OBJQTF, PART/TRAP, CAUSE/CONSEQ (mais ce n'est peut-être pas suffisant si on veut garder la structure syntaxique). GOV, la RL de gouverneur est absente sur beaucoup de systèmes du Geta, elle était prise en charge par FS qui affectait en fait par la FS la valeur de Gov au niveau RL/RS sans le dire. En fait le gouverneur au niveau FS peut ne pas être le même que le gouverneur au niveau profond. On a pallié à ce problème par manque de place dans la GS du français par une variable GOV=1 pour remplacer RL=RS=GOV. ALTERN alternative, (ex: "entre manger et boire") METHODE méthode, (ex: "résoudre par itération") CAUSE causalité, source de l’action (ex: « il est parti car il avait faim ») MATIERE, matière (ex: "gants en caoutchouc") GENITIF génitif (ex: "le siège du pilote, son siège") COND/CONSEQ condition/conséquence (ex: "le faire si nécessaire", « si il pleut, tu rentreras la voiture »)/conséquence « il pleut, donc tu rentreras la voiture ») FINAL finalité ou but, autre que dans le temps et l’espace (ex: "table de travail", "nécessaire pour obtenir", "travailler de manière à réussir") BENEF bénéficiaire de l’action principale (ex: "acheter qqchose pour qqun", "accessoire pour conducteur" THEME ce dont on parle, relatif à (ex: "le manuel entretien", "un livre de géographie") INST instrument ( ex: "ouvrir avec une clé", "rincer à l'eau claire") CTXT contexte, "ambiance" du procès (ex: effectuer le nettoyage porte ouverte) MANIERE manière (ex: "répondre avec gravité", "visser en prenant garde à bien contrôler la verticalité") ACCOMP accompagnement (ex: "faire une promenade avec son chien") ANALOG analogie, comparaison (ex: " un homme tel que lui", "il travaille comme un fou") CONCESS concession (ex: "il viendra malgré la pluie ») QFIER / OBJQTF quantification (ex: "quelques pommes de terre", "une température de 3°C") / objet quantifié (ex: "3 kilo de pommes de terre", "un sac de pomme de terre") MODUL approximation, modulation, modulation d’une quantification (ex: "environ 3 jours", "il est fatigué, surtout le matin") UNDE+SEMN=LIEU lieu d'où l'on vient, provenance (ex: "il marche depuis Paris") UBI+SEMN=LIEU lieu où l'on est (ex: "il se trouve à Paris", "il marche dans la pièce") QUO+SEMN=LIEU lieu où l'on va (ex: intoduire la solution dans le bécher", on aurait aussi pu parler de BUT de LIEU QUA+SEMN=LIEU lieu par où l'on passe (ex: "regarder par la fenêtre" UNDE+SEMN=TEMPS=> BORNPAS, provenance (ex: "il n'a pas téléphoné depuis 3 jours") UBI+SEMN=TEMPS=> DATE (ex: "il sera là lundi", "il est venu hier") QUO+SEMN=TEMPS=> BORNFUT ou TERME (ex: "il faudra rendre le document avant lundi", « faire ce travail pour lundi ») on aurait pus aussi choisir BUT de TEMPS. QUA+SEMN=TEMPS=> SIMUL ou MESURE (ex: "il dort pendant les 3 mois d'hiver", « prendre du travail pour trois ans ») PART/TRAP, partie, constituant d'un tout (ex: "l'ensemble des individus") / tout dont est pris l'objet (ex:" le bouchon d'un réservoir", "chaque individu du groupe") Ou plus simplement « aller quelque part » qui peut prendre de multiples formes syntaxiques, « aller par les chemins », « aller en ville », etc. Si ce n’est pas argumentaire, c’est une RS très forte. 15 GETALP – S. CHAPPUY - 2011 17 QUM en réponse à combien, cette relation sémantique est en fait une RL difficile à cerner car sans valence particulière, elle est prédite comme un CIRCP sur les prédicats ou calculé sur les "quantités mesurables" (ex: "peser 3 kg"," mesurer 3 m", "puissance de 50 watt", "fréquence de 50 Hz", etc.) QUALF qualification forte pour les expressions à la limite de la locution (ex: "fromage de chèvre", "brosse à poils durs") QUAL qualification (ex: "un objet rouge", "une maison de grande taille") ID identité de sémantique avec le nœud père, pour éviter de faire des calculs sur les coordinations par exemple. Le TS rétablira ce qui lui conviendra pour attaquer une GS. SAUV sauvegarde, RS tactique pour ce qu'on ne veut pas perdre en TS, puisqu'on recalcule tout en GS en fonction des RS et RL, ce n'est pas terrible, mais cela palie à ce qu'on ne sait pas calculer au niveau logicosémantique. Voir SEMN utilisée en complément de RS pour palier à des problèmes de place. Par ailleurs les variables sémantiques qui nous permettent de calculer les informations à ce niveau d’interprétation et qu’il faudrait améliorer encore, puis figer, sont les suivantes : POTRS= (ALTERN, METHODE, CAUSE, MATIERE, GENITIF, COND, FINAL, BENEF, CONSEQ, THEME, INST, CTXT, MANIERE, ACCOMP, ANALOG, CONCESS, QFIER, OBJQTF, MODUL, UNDE, UBI, QUO, QUA, PART, TRAP, QUM, SAUV, QUALF, QUAL, ID) portée par les introducteurs ou adjoints. Ces potentialités de RS seront recalculées en RS sur les groupes à partir des sémantiques et serviront par défaut en cas de problème. Elles sont portées par les introducteurs certains adverbes ou adjoints et seront prises comme telles sur les locutions prépositives ou adverbiales plus complexes. **** rajouter exemples************** ATTENTION: Ces potentialités sont prises en charge par RS dans les modèles pour gagner de la place. SEMA= (COUL, FORME, DIMEN, ESTIM) sémantique de l’adjectif (des propriétés) COUL couleur (ex: rouge, ambre) FORME forme (ex: oblong, rond, carré) DIMEN dimension (ex: grand, profond, haut) ESTIM estimation (ex: beau, intelligent, puissant, nécessaire) SEMN= (ANIME, CONCRET, ACTION, ABSTRAIT, UNITE, LIEU, TEMPS) sémantique du nom (des entités) Je sortirais volontiers humain de la sémantique ANIME, on en a besoin séparément dans les calculs contrastifs, ainsi qu'on a besoin des parties d'humain: mains, pieds, etc.) ANIME animé, voir SSANIM CONCRET concret voir SSCONC ACTION action pour les procès, en fait le plus souvent ce sont des dérivés de prédicats verbaux et donc cette sémantique est contenue dans la dérivation (ex: chute, remplissage), mais parfois le verbe n'existe pas ou a disparu, critère de reconnaissance: peut être suspendu par le temps: "pendant la guerre", le verbe serait "faire la guerre". ABSTRAIT voir SSABST UNITE voir SSUNITE LIEU Autres que les unités. 0n doit pouvoir s'y positionner "se trouver dans" y aller "aller à" (ex: jardin, Grenoble) TEMPS Autres que les unités. 0n doit pouvoir s'y positionner dans le temps: il répondent à quand? (ex: lundi, Janvier, hier) Et les sous-sémantiques associées : GETALP – S. CHAPPUY - 2011 18 − SSANIM= (HUMAIN, ANIMAL, PLANTE, PERSON) HUMAIN Il serait bon de sortir HUMAIN de SSANIM et d'en faire une sémantique à part. Ce n’est pas fait dans les modèles actuels, mais on a eu beaucoup de problèmes d’ambigüités non résolues et donc de traductions incorrectes ou imprécises à cause de l’absence de HUMAIN dans SEMZ, SEM1, SEM2 qui doivent être compatibles avec SEMN. Cela nous oblige à utiliser ANIME qui est alors trop général pour nos calculs fins. On a par exemple de gros problèmes vers l’anglais pour la traduction des pronoms qui réfèrent à des noms ANIME (vers le neutre ?). Mais aussi dans nos choix de traduction pour certains prédicats en fonction de la sémantique de leurs arguments qui pourraient être bien améliorer par ce changement. ANIMAL PLANTE PERSON personnifié, devrait peut-être être une propriété particulière sur certains mots, ce classement n'est pas idéal. − SSCONC= (SUBST, OBJCONT, OBJSUP, OBJET, ALTER) SUBST substance voir SSSUBST OBJCONT objet de type contenant (ex: verre, cuiller, réservoir), critère servent de mesure: "un verre de farine" OBJSUP objet de type support (ex: table), critère "poser sur le/la/l'" + nom) OBJET autre objet (ex: clapet, cible, statue) ALTER toutes choses qui sont concrètes mais ne sont pas des objets à proprement parlé mais des altérations, modifications et déformations, voir l'absence de l'objet (ex: trou, orifice, éraflure, fente, bosse, boursoufflure) o SSSUBST= (GAZ, LIQUIDE, SOLIDE) GAZ (ex: gaz, oxygène, vapeur) LIQUIDE (ex: pluie, eau, liquide, carburant, graisse) (critère : voir si coule et remplir avec, enduire avec) SOLIDE (ex: sable, terre, caoutchouc, plastique, ciment) doit être malléable, gélatineux, etc.) − SSABST= (MESUR, DISCIPL, QUALITE, CONCEPT, COLLECT) La sous sémantique d'abstrait pose de gros problèmes pour l'indexage des dictionnaires, on a absolument n'importe quoi, dès qu'il s'agit de mots abstraits. Il faudrait donner des règles strictes pour avoir la bonne info utilisable dans les calculs. MESUR correspond à tout ce que l'on peut mesurer, appelé en physique le phénomène physique mesurable, il doit y correspondre une unité (ex: pression, bruit, temps, température, tension, etc.) DISCIPL discipline, activité (physique, politique, philo, sport, etc.) QUALITE : - elle n'est pas mesurable, mais semble "quantifiable" (ex: beauté, intelligence, clarté, claustrophobie), c'est alors une propriété d'un objet ou d'un être vivant. Attention, certains sont des DRV=AN ou VA...N et ne sont pas indexés en fait, c'est le cas de beauté, intelligence, clarté, claustrophobie d'ailleurs. - elle exprime un état d'un objet ou d'un être vivant (ex: maladie, panne), ceux-ci sont souvent à indexer, souvent paraphrasable par: "état de celui qui est" , "état de celui qui est malade, état de celui qui est en panne" COLLECT mot exprimant un groupent d'objet ou de concepts homogènes. La sémantique final est celle des composants du collectif (ex: ensemble, set, groupe, tas, collection, échantillon) CONCEPT le reste de ce qui est abstrait. − SSUNITE= (MN, KM, PSV*) On n'a différentié que deux ou trois types d'unités particulières les autres qu'il serait nécessaire d'avoir parfois sont trop variées, elles sont dans autres. MN unités de temps (ex: minute, heure, jours, seconde) KM unités de distance (ex: kilomètre, mètre, lieu) PSV* poids surface volume (qui caractérisent tous les objets concrets) AUTRES autres unités (ex: daN.m, ms-1, m/s) d) Niveau RL Pour chaque prédicat, définir la structure argumentaire en fonction du nombre d’arguments (jusqu’à 4 arguments pour « traduire », « transférer » par exemple) : à 4 arguments, 3 arguments, 2 arguments, 1 argument, 0 argument. GETALP – S. CHAPPUY - 2011 19 Dans un cas comme : « coûter 3 francs » ou « coûter une somme importante », on peut se demander si on a affaire à un argument ou un circonstant. Pour Nicolas Nedobejkine et moi, ceci est très clair : un circonstant peut être enlevé sans changer le sens du prédicat, ce qui n’est pas le cas ici, il s’agit donc d’un argument et on retrouve ici ce que l’on a pressenti au niveau RS16 (voir partie II. 5) c)). ARG0, ARG1, ARG2, ARG3 (x traduit y de z en t, transformer…)17. Ensuite, nous avons introduit des arguments doubles ARG01, ARG02, ARG12, Exemples : x échange y avec z, x et y échange z ou x échange y et z. Puis nous avons introduit les arguments inverses GRA0, GRA1, GRA2, GRA01, GRA02, GRA12.18 Nicolas Nedobejkine utilisait déjà les arguments doubles pour exprimer des ambiguïtés, mais il a trouvé mon idée de relations logiques inverse « pas bête ! » Dans cette optique, la RL de TRL0 que l’on retrouve dans beaucoup de systèmes du GETALP et qui est à supprimer (il s’agit d’une relation à l’arg0) n’a été conservée que pour des problèmes de compatibilités entre eux. Exemple : « Il le trouve intéressant » « il » arg0 de « trouve » « le » arg1 de « trouve » « le » arg0 de « intéressant » *************** Les variables de ce niveau, communes à toutes les langues, qui ont été définies sont les suivantes : RL= (ARG0, ARG1, ARG2, ARG01, ARG02, ARG12, GRA0, GRA1, GRA2, GRA01, GRA02, GRA12, TRL0, ID) ARG0 (ex: X calcule, il arrive que….) ARG1 (ex: X calcule Y, Y se calcule, Y est calculé) ARG2 (ex: X tend Y à Z, X attend Y pour faire…) ARG01 (ex: la rencontre de X et Y= X (arg0) rencontre Y (arg1)) ARG02 (ex: échange entre X et Y= X (arg0) échange Z avec Y (arg2)) ARG12 (ex: le mélange de X et Y = Z mélange X (arg1) avec Y (arg2) = mélange des gazs) GRA0 argument inverse de ARG0 (ex: la tige coulissante) GRA1 argument inverse de ARG1 (ex: la maison construite sur la falaise) Cela a été ébauché en français avec les circonstants privilégiés CIRCP qui sont « à cheval » sur le rôle argumentaire et porteur d’une RS et de cette info CIRCP, « peser 3 kilo », « aller quelque part ». 17 Dans nos modèles on s’est jusqu’ici limité à 3 arguments (Arg0, Arg1, Arg2, pour des raisons de place essentiellement). 18 Nicolas Nedobejkine utilisait déjà les arguments doubles pour exprimer des ambiguïtés, mais il a trouvé mon idée de relations logiques inverse « pas bête ! » 16 GETALP – S. CHAPPUY - 2011 20 GRA2 argument inverse de ARG2 (ex: GRA01 argument inverse de ARG01 ? GRA02 argument inverse de ARG02 ? GRA12 argument inverse de ARG12 ? TRL1 et ID (même RL que le père) pour des problèmes de cohérence avec d'autres systèmes Pour chaque langue, les prédicats sont considérés comme porteurs de valences fortes qui expriment des liens privilégiés entres les éléments de la phrase. SEMZ= (ANIME, CONCRET, ACTION, ABSTRAIT, UNITE, LIEU, TEMPS) D’où il conviendrait d’extraire HUMAIN de la catégorie ANIME pour qu’elle apparaisse dans SEMZ puisqu’on a pas accès pour des raisons de place à des « sous-semz » comme c’est la cas pour les SEMN. VAL1= (N, AN, AVECN, CONTREN, DANSN, DEN, ENN, PAR, POUR, SURN, ENTREN, COMMEN, I, AI, DEI, Q) N nom (ex: "manger qqchose") AN à + nom (ex: "réfléchir à qqchose") AVECN avec + nom (ex: "compter avec qqun") CONTREN contre + nom (ex: "lutter contre qqchose") DANSN dans + nom (ex: "rentrer dans le fonction publique") DEN de + nom (ex: "dépendre de qqun") ENN en + nom (ex: « tomber en admiration", "remplir en carburant") PAR par + nom (ex: "procéder par une méthode...") POUR pour + nom (ex: lutter pour qqchose") SURN sur + nom (ex: "insister sur qqchose") ENTREN entre + nom ou entre + coord (ex: hésiter entre deux choses", "hésiter entre x et y")) COMMEN comme + nom (ex: "se comporter comme un imbécile") I infinitif (ex: "voulir faire") AI à + infinitif (ex: "commencer à faire" DEI de + infinitif (ex: "essayer de faire" Q complétive (ex: "penser que...") On aurait besoin de : ENTREI, (ex: "choisir entre faire... et faire...") actuellement lié à entreN ACEQUE (ex: "veiller à ce que...") actuellement lié à AN DECEQUE (ex: dépendre de ce que...") actuellement lié à DEN associé à SEM1= (ANIME, CONCRET, ACTION, ABSTRAIT, UNITE, LIEU, TEMPS) (même remarque que pour semz). VAL2= (AN, AVECN, CONTREN, DANSN, DEN, ENN, PAR, POUR, SURN, ENTREN, COMMEN, AI, DEI) ATTENTION, dans le modèle réel, on a aussi VAL2=N pour pouvoir faire des intersections avec VALE qui est prise en charge par VAL1, mais cette valeur n'a pas de sens. AN à + nom (ex: "révéler qqchose à qqun") AVECN avec + nom (ex: "discuter qqchose avec qqun") CONTREN contre + nom (ex: "protéger qqun contre qqchose") DANSN dans + nom (ex: "insérer qqchose dans qqchose")) DEN de + nom (ex: "charger qqun de qqchose") ENN en + nom (ex: "changer qqchose en qqchose") PAR par + nom (ex: remplacer qqchose par qqchose") POUR pour + nom (ex: "prendre qqun pour qqun") SURN sur + nom (ex: "fonder qqchose sur qqchose") GETALP – S. CHAPPUY - 2011 21 ENTREN entre + nom (ex: "choisir qqchose entre qqchose et qqchose", "interposer qqchose entre qqchose et qqchos") COMMEN comme + nom (ex: "interpréter qqchose comme qqchose") AI à + infinitif (ex: "engager qqun à faire qqchose") DEI de + infinitif (ex: "empécher qqun de faire qqchose") On devrait ajouter: ENTREI (ex: "choisir de faire qqchose entre faire et faire") Q (ex: "informer x que y") ACEQUE (ex: "préférer que... à ce que ...") DECEQUE (ex: "informer qqun de ce que...) associé à SEM2= (ANIME, CONCRET, ACTION, ABSTRAIT, UNITE, LIEU, TEMPS) VAL3 associé à SEM3* SEMC= (LIEU, TEMPS, QUANTUM) circonstant « privilégié » Cette variable est une rection particulière du prédicat, sur laquelle il est difficile d'affecter une valence particulière, celles-ci ayant des formes multiples TEMPS LIEU QUANTUM (ex: "durer", "attendre", "arriver" attendent un temps (combien de temps? à quel heure?, (ex: "aller" attend un lieu, "passer" attend un lieu ou un temps, "peser" attend une quantité de masse ou de poids). Pour TEMPS et LIEU, on y rajoutait une RS qui en fait était une POTRS UBI, QUO, QUA, UNDE pour ne pas ramasser ou générer n'importe quoi et différentier: "quand? Combien de temps? ... ARG0INF= (ARG0, ARG1, ARG2) liens argumentaires entre des arguments d’un même prédicat L'infinitif est lui même ARG1 ou ARG2 du prédicat ARG0 l'ARG0 du verbe introduit est l'ARG0 du verbe introducteur (ex: "je veux manger", "il demande à Pierre à sortir") ARG1 l'ARG0 du verbe introduit est l'ARG1 du verbe introducteur (ex: "il me pousse à utiliser X") ARG2 l'ARG0 du verbe introduit est l'ARG2 du verbe introducteur (ex: "il demande à Pierre de sortir") SYM= (SYM01, SYM02, SYM12) symétrie argumentaire SYM01 prédicat présentant une symétrie entre l'argument 0 et l'argument 1 (critère: possibilité de coordination) (ex: "X rencontre Y", "X et Y se rencontrent", "la rencontre de X et Y") SYM02 prédicat présentant une symétrie entre l'argument 0 et l'argument 2 (critère: possibilité de coordination) (ex: "X échange Y avec Z", "X et Z échangent Y", "un échange entre X et Z") SYM12 prédicat présentant une symétrie entre l'argument 1 et l'argument 2 (critère: possibilité de coordination) (ex: "X mélange Y avec Z/àZ", "X mélange Y et Z", "le mélange de Y et Z"). e) Liens possibles entre relations argumentaires et sémantiques et motivation des choix faits Nous choisissons dans notre description de répartir les relations entre logiques et/ou sémantiques en fonction du degré d’intensité de la relation qui existe entre le subordonnant et le subordonné. L’emploi « argumentaire » est alors d’une grande densité on dira qu’il relève des rapports de place d’argument, il est bien plus fort que l’emploi « circonstanciel », dont la densité est nulle, entre les deux un emploi « particularisateur » permet une précision, extension ou restriction du sens du subordonnant par le subordonné. GETALP – S. CHAPPUY - 2011 22 Nous dirons que les rapports « circonstanciel » et « particularisateur » sont généralement facilement identifiables et donc calculables au cours de l’analyse (calculs se basant sur les classes sémantiques des mots mis en relations, ils peuvent parfois être même totalement prédits par un codage adéquat sur certains régisseurs, voir POTRS, ils peuvent alors aider à régler des problèmes de polysémie sur les mots qu’ils mettent en relation). Les rapports argumentaires, nécessitent eux, un codage lexical très délicat et individualisé car ils ne découlent pas toujours d’une quelconque logique de calcul, ils sont souvent le fruit de l’usage ou d’accidents historiques et la différence d’expression d’un même lien sémantique est parfois très obscure. Cette « obscurité » est aussi manifeste sur certains rapports particularisateurs, (par exemple, pourquoi « salle à manger » et « salle de lecture »), mais généralement le lien sémantique reste calculable. Nous allons voir pour chacune des RS définies pour les modèles français, anglais (et russe), comment les RS peuvent être exprimées en français de façon logique, circonstancielle ou particularisatrice et justifier ainsi pourquoi, nous n’avons pas cherché à être couvrant pour les RS seules, mais à être complets par l’association des deux niveaux : RL + RS. La relation sémantique FINAL finalité, but qui peut être exprimée : − par un emploi « circonstanciel » avec tout un ensemble de régisseurs où l’élément « pour » domine : « courir pour se maintenir en forme », « travailler en vue de la victoire », « travailler pour réussir ». On se rend compte qu’on peut même le prédire sans grand risque (quitte à recalculer quelque peu) sur certains régisseurs tels que « afin de », « dans le but de », « dans l’intension de », etc. − par un emploi argumentaire plus difficile à cerner et difficilement calculable « donner à boire » − par un emploi particularisateur calculable « salle à manger », « salle de lecture », « machine à coudre », « fusil de chasse ». − on peut même y adjoindre les calculs de modalités qui expriment en fait aussi des finalités : « travail à faire », soit « travail qui doit être fait ». La relation sémantique exprimant le but dans l’espace ou le temps est prise en charge par QUO+SEMN=LIEU pour exprimer un but dans l’espace, le lieu où l'on va et la relation sémantique et par QUO+SEMN=TEMPS pour exprimer un but dans le temps, la borne future ou le terme : − Emploi circonstanciel « faire un travail pour demain », « rester ennemis jusqu’à la mort », « regarder au-delà de l’horizon ». Il est prédictible sans grand risque sur « jusqu’à ». GETALP – S. CHAPPUY - 2011 23 − emploi argumentaire, totalement incalculable dans certains cas « couvrir la table d’une nappe » qui est bien équivalent à « mettre une nappe sur la table », le plus souvent il est pris en charge par un emploi circonstanciel « fort ». Il ne s’agit pas vraiment d’une RS car le prédicat attend ce circonstant et son absence est perturbante. Même si les valences de rection sont difficilement exprimables, c’est bien le prédicat qui « crée la RS ». Sur « aller » par exemple on attend très clairement en ARG1 un but dans l’espace et sur « reporter » en ARG2 un but dans le temps. On a parlé dans le modèle français anglais de circonstant privilégié, à cheval sur RS et RL, le prédicat attend un QUO+Temps ou un QUO+Lieu. Ainsi, « monter sur le toit », « se diriger vers la sortie », « attendre demain », « se rendre à un rendez-vous », « s’introduire dans la pièce », « reporter la réunion à lundi ». − emploi particularisateur ************ ? La relation sémantique de BENEF bénéficiaire (cas particulier de BUT en fait et traité ainsi en russe) − emploi « circonstanciel », intervenir en faveur de son ami », acheter quelque chose pour son fils ». Il est prédictible sans grand risque sur « dans l’intérêt de », « au bénéfice de », etc. − emploi argumentaire évident sur « donner de l’argent aux pauvres » (ARG2), « dire quelque chose à quelqu’un » (ARG2), « prendre parti pour quelque chose ou quelqu’un »(ARG1 du prédicat « prendre parti »), plus délicat à voir « Pierre reçoit un colis » (ARG0), « le client emprunte un livre » (ARG0), « le chien vole un os » (ARG0), difficilement décelable « Marie aime Jean », « le chat flaire la souris ». − emploi particularisateur « film pour enfants », « farine à pain », « pot à confiture ». La relation sémantique RESULT a finalement disparu de nos RS en français et anglais, son emploi étant quasiment toujours argumentaire, on la retrouve en effet sur des prédicats exprimant un échange ou une transformation elle est alors le résultat de la transformation exprimable par une relation logique. − emploi argumentaire « échanger des francs contre des euros », « convertir des euros en dollars », « transformer en or», « prendre quelqu’un pour un imbécile », « créer une œuvre », « construire une maison ». un enfant naît », GETALP – S. CHAPPUY - 2011 24 On pourrait toutefois la prédire sur « moyennant », « en échange de », « acheter une maison moyennant 300k€ » mais on sent plutôt la réponse à combien et donc une quantification QFIER (emploi semi-argumentaire). C’est le choix que nous avons fait. La relation sémantique GENITIF était destinée à noter la chose possédée ou dominé (inversement la personne possédante ou dominante). Ces emplois circonstanciels sont très rares dans les autres cas elle est prise en charge par la RL. − Emploi circonstanciel « son père », « le père de cet enfant », « la maison du maire », « la dame aux lunettes » (GENITIF), − emploi argumentaire « il possède une maison », « cette maison appartient au maire », « il obéît à ses parents », « il l’emporte sur eux », « il a des droits sur cet héritage ». − emploi particularisateur « maison paternelle » (GENITIF) La relation sémantique de PART partie, constituant d'un tout, dont la relation inverse est TRAP indique elle aussi une notion de possession ou de domination d’une chose sur une autre − Emploi circonstanciel « une pièce en trois actes » − emploi argumentaire « la pièce comporte trois actes », « l’objet possède huit cotés » − emploi particularisateur « la fille aux yeux bleus » (PART, mais ce sont bien « ses yeux bleus », « les yeux bleus de la fille » (relation inverse TRAP), « la maison à la véranda » (PART) ou « la véranda de la maison (TRAP), « le matelas à ressorts »(TRAP), « des crêpes au beurre »(PART), « école du village »(TRAP), « un village sans école » (PART), « une branche de sapin » (TRAP), « un stock de livre) (PART) La relation sémantique CONTN destinée à exprimer le contenu, qui se rapproche soit de PART (« un stock de livre) soit est toujours difficile à différencier de OBJQTF (« un pot de confiture », « un verre de vin ») n’a pas été conservée. La relation sémantique de CAUSE désigne le pourquoi, la source, l’origine de l’événement − Emploi circonstanciel « malade pour avoir trop mangé », « réagir par bêtise » Il est prédictible sans grand risque sur « à cause de », « parce que », « sous l’empire de », « étant donné », etc. − emploi argumentaire « pleurer de joie », « mourir de soif », la cause peut être négative « se protéger contre le froid/du froid », GETALP – S. CHAPPUY - 2011 25 « lutter contre le froid », ou être une sorte d’origine « provenir de son caractère », « s’expliquer par son caractère » − emploi particularisateur « brûlure de cigarette », « larmes de joie » La relation sémantique initiale de PROV provenance est prise en charge par UNDE+SEMN=LIEU pour le lieu d'où l'on vient, la provenance dans l’espace et par UNDE+SEMN=TEMPS pour exprimer une borne passée, une provenance dans le temps − Emploi circonstanciel « observer du balcon », « surgir de derrière un arbre », « s’ennuyer depuis son départ » Il est prédictible sans grand risque sur « à partir de », « dès que », « de devant », « depuis », « dès », etc. − emploi argumentaire « commencer par réfléchir » (TEMPS ?), « sortir de la pièce », « arracher un objet de ses mains », « puiser l’eau au puit » − emploi particularisateur « gamin des banlieues », « journal du soir », « lampe chinoise » (interprétation venant de chine) La relation initiale EMIT qui exprime la notion d’origine, de source d’un transfert de propriété, n’a aucun emploi autre qu’argumentaire, elle a été supprimée de notre modèle français « la rose sent bon », « emprunter un livre à un ami », « recevoir une lettre d’un parent », l’emploi particularisateur est quant à lui difficilement calculable « tableau par/de Bellini » La relation sémantique de MATIERE désigne la matière utilisée pour fabriquer un objet ou bien l’objet de départ pour une transformation − Emploi circonstanciel « fabriqué en bois » Il est prédictible sans grand risque sur *********** − emploi argumentaire « faire une succès d’une exposition » « convertir des euros en dollars », « faire une épave de sa voiture », transformer un immeuble en hôtel » − emploi particularisateur « une bague en or », « un meuble de bois » La relation sémantique INST instrument désigne la cause physique inanimée qui a servi à l’auteur d’une action pour l’effectuer (cette cause physique peut comporter son absence) − Emploi circonstanciel « il a fait ce branchement sans matériel », « dessiner avec un crayon », « frapper de la main », « avertir par un lettre », « venir à pieds / en voiture » Il est prédictible sans grand risque sur « à l’aide de », « au moyen de », etc. GETALP – S. CHAPPUY - 2011 26 − emploi argumentaire « jurer sur la bible », « vivre d’amour », « affirmer sur l’honneur », « faire signe de la tête » − emploi particularisateur sur les appareils pour exprimer la source de leur énergie « moulin à vent », « poêle à charbon, « machine à sous », sur les noms d’action « pêche à la ligne » « peinture à l’huile » La relation sémantique LOCAL localisation a été décomposée en deux, UBI+SEMN=LIEU soit le lieu où l'on est, pour la localisation dans l’espace d’une personne ou d’une chose et UBI+SEMN=TEMPS soit la date, pour la localisation dans le temps d’une action. − Emploi circonstanciel « marcher sur la route », se rencontrer près de Grenoble, « arriver à 6 heures », « travailler le week-end » Il est prédictible sans grand risque sur « pendant », « au cours de », etc. − emploi argumentaire souvent traité comme une RS et calculé comme une RS bien qu’on sente un lien très fort avec le prédicat car les valence sont trop divers, « se trouver quelque part » qui prend des formes divers « se trouver ici / à Paris / en haut de la tour Eiffel / dans une ville de banlieue / sur un bateau / etc. », de la même façon « avoir lieu le 2 août / un jour sur deux / pendant tout l’été / durant la période estivale / au cours de l’été / etc. » − emploi particularisateur « peinture sur bois » La relation sémantique de QUAL a été décomposée en deux QUAL pour qualification et QUALF pour une qualification jugée comme plus forte (très proche de la tournure ou du mot composé). Pour les groupes nominaux c’est souvent dû à l’absence d’articles, par exemple « avec la force d’un lion » (QUAL), « avec une force de lion » (QUALF)) − Emploi circonstanciel « un homme qui gagne », « pays membre » « ville de Paris », « Airbus A380 » − emploi argumentaire apparaît sur les attributs du sujet sur les adjectifs dérivés « la neige est blanche », un système transformable (GRA1), « un système transformateur » (GRA0) − emploi particularisateur « une plante aromatique », « un système intelligent », « volonté de fer » La relation sémantique MANIERE exprime la qualification d’un procès par un autre procès ou par une propriété − Emploi circonstanciel « répondre avec le sourire », « accepter sans hésitation », « parler gentiment », « regarder en souriant » mais GETALP – S. CHAPPUY - 2011 27 aussi les relatives si les calculs permettaient de les dissocier le la RS QUAL vue précédemment « un homme qui sourit (toujours) » Il est prédictible sans grand risque sur « tout en », et calculable sur des expressions telles que « de manière + adj », « de façon + adj », « avec +adj », « sans + adj », tous paraphrases de l’adverbe associé à l’adjectif. − emploi argumentaire « un homme souriant » (GRA0), on ne se pose plus la question de savoir s’il s’agit de QUAL ou MANIERE, dans le cas des attributs « il reste assis » − emploi particularisateur ************* ? La relation sémantique ACCOMP accompagnement, exclusion ou substitution d’objet participant à l’action − Emploi circonstanciel « venir avec ses enfants », « venir sans », « venir à la place de sa sœur », Il est prédictible sans grand risque sur « en compagnie de », « à la place de », « en plus de », « sauf », « excepté », « hormis », etc. − emploi argumentaire « discuter avec son fils » (ARG1), « échanger un livre avec quelqu’un » (ARG2) − emploi particularisateur *********** ? La relation sémantique ANALOG exprime l’analogie, les comparaisons, la conformité, la distribution, etc. − Emploi circonstanciel « il est grand pour son âge », « agir selon ses désirs », « sur 200 on en a pris 30 », « 10 films bons pour 100 de mauvais », « deux euros le kilo », « rouler à 100 à l’heure », « mesure 50 m sur 30 », « augmenter de 10 pour 100 » Il est prédictible sans grand risque sur « en comparaison avec » « selon » « conformément à », « par rapport à », « à la mode de », « à la façon de » sur la locution adverbiale « à la pièce » aussi − emploi argumentaire sur les verbes de jugement « croire quelqu’un sur parole », « juger quelqu’un sur sa figure », − emploi particularisateur « une robe à la mode », « une tenue année 60 », « des tripes à la mode de Caen », « des pates à la napolitaine ». La relation sémantique THEME (initialement TOPIC) − Emploi circonstanciel « apprendre quelque chose à propos de cette affaire », « travailler sur un problème » Il est prédictible sans grand risque sur « au sujet de », « relatif à », « touchant », « à l’égard de », « quant à », « ès » − emploi argumentaire « étudier un problème » (ARG1), « parler de quelque chose » (ARG1), « questionner un ami sur son travail » (ARG2), « inspecteur des finances » (GRA1) GETALP – S. CHAPPUY - 2011 28 − emploi particularisateur « livre de géométrie », « cours sur l’environnement », « licencié ès-lettre », « diplomé en informatique » La relation sémantique QFIER quantifieur et sa relation inverse OBJQTF objet ou grandeur quantifiés, la relation QUM sert à la notation des mesures de prix, de poids, de pression, attendues par des prédicats, en fait, c’est quasiment une RL, mais de valences trop complexes pour qu’elles soient directement exprimables). − Emploi circonstanciel « 3 kilo de sucre » (OBJQTF), « 3 minutes de retard » (OBJQTF), « un retard de 3 minutes » (QFIER), « situé à 10 km de distance » (OBJQTF), « situé à une distance de 10 km » (QTF), « un billet de 10 euros » (QFIER), « venir 3 fois » (QFIER), « pression de 10 bars » (QFIER), « une intensité de 16A » (QFIER), « 1000$ d’achats » (OBJQTF), « il disjonctera dès 16 ampères d’intensité » (OBJQTF), « un poids de 3 kg » (QFIER) Il est prédictible sans grand risque sur « moyennant », − emploi argumentaire « baisser de 10% » (ARG2), « supérieur à 3 » (ARG1). Il est souvent pris en charge dans le modèle français et anglais par une RS (une pseudo RL, la relation sémantique privilégiée QUM est affectée aux prédicats qui attendent des quantifieurs) : « coûter 10 euros » (QUM), « payer quelque chose entre 20 et 30$ » (QUM), « mesurer 10 m de long » (QUM), « peser plus de 3 kg » (QUM), « peser un poids de 3 kg » (QUM), « parcourir 10 km » (QUM) « acheter quelque chose 1000€ » (QUM) « acheter une maison moyennant 300 000€ » (QUM), « l’acheter au prix de 1000€ » (QUM), « l’acheter pour une somme de 1000$ »(QUM). − emploi particularisateur ************ La relation sémantique INTERV intervalle a été décomposée en deux valeurs QUA+SEMN=LIEU pour exprimer le lieu par ou l’on passe, l’intervalle dans l’espace et QUA+SEMN=TEMPS pour exprimer la simultanéité ou la mesure dans le temps. On devrait pouvoir la généraliser (si on en a la place) à d’autre intervalles de grandeurs ou pour exprimer une progression avec d’autres SEMN (UNITE, ABSTRAIT, ..) « peser entre 5 et 10 kg » (actuellement QUM). − Emploi circonstanciel « chercher de Paris à Marseille » « manger pendant 3 heures » « lire de 9 heures du matin à 6 heures du soir » Il est prédictible sans grand risque sur « pendant », « durant » et sur certains adverbes « longtemps » GETALP – S. CHAPPUY - 2011 29 − emploi argumentaire « distant de 3km » (ARG1), souvent exprimé par une demande de circonstant privilégié « durer 3 heures », − emploi particularisateur « d’années en années », « de jour en jours », « de ville en ville », etc. Avec d’autres SEMN (« faire bêtises sur bêtises », « de 100g jusqu’à 500g ») La relation sémantique de MODUL approximation, modulation − Emploi circonstanciel « coûter près de 100 € », « coûter dans les 100 € », « coûter 100 € environ », « il a presque fini », « il viendra vers minuit » Il est prédictible sans grand risque sur certains adverbes ou locutions « approximativement », « environ », « dans les », « presque », etc. − emploi argumentaire (aucun) − emploi particularisateur « elle a mon âge à quelques jours près » La relation sémantique COND condition et sa relation inverse CONSEQ conséquence − Emploi circonstanciel « s’il pleut, tu ne sortiras pas » (COND), « il pleut, alors tu ne dois pas sortir » (CONSEQ), dans le cas de « s’il pleut alors tu ne sortiras pas, on choisira probablement la partie conséquence comme proposition principale, elle a une condition. Ils sont prédictibles sans grand risque sur « si », « alors » − emploi argumentaire (aucun) − emploi particularisateur (aucun) La relation sémantique ALTERN exprime l’alternative on le trouve essentiellement sur des coordonnants « à balance », elle peut être négative, pour repérer les éléments d’une alternative on dispose d’une variable complémentaire COORDB=(EL1, EL2) − Emploi circonstanciel « tu choisis, soit tu parts, sois tu restes », « une homme ni jeune, ni vieux » Il est prédictible sans grand risque sur − emploi argumentaire « hésiter entre rire et pleurer », « choisir entre sa liberté et son amour ». − emploi particularisateur La relation sémantique METHODE − Emploi circonstanciel « procéder par itération », Il est prédictible sans grand risque sur ********** − emploi argumentaire ************ − emploi particularisateur ************* GETALP – S. CHAPPUY - 2011 30 La relation sémantique CTXT qui exprime le contexte dans lequel s’effectue ou doit s’effectuer l’action, elle est proche de MANIERE et on aurait pu s’en contenter, − Emploi circonstanciel « effectuer ce traitement fenêtres ouvertes », « procéder avion sur roue », « la soleil levé, il est possible de reprendre la route », « son ami mort, il était seul ». − emploi argumentaire (aucun) − emploi particularisateur (aucun) La relation sémantique CONCESS concession, opposition. Cette relation est son propre inverse en fait − Emploi circonstanciel « il reste bien qu’il ne soit pas d’accord », « il n’est pas d’accord, il reste cependant » Il est prédictible sans grand risque sur « bien que », « malgré », « cependant », « toutefois », etc. − emploi argumentaire (aucun) − emploi particularisateur (aucun) Les relations sémantiques tactiques ID identité de sémantique avec le nœud père et SAUV sauvegarde lorsqu’on ne sait rien calculer de spécial sur le nœud. Tous ces exemples montrent clairement l’intérêt qu’il y a à utiliser à la fois les relations logiques et sémantiques pour décrire une langue de façon complète au niveau profond. Pour en analyse d’une langue calculer ces niveaux profonds à partir de la syntaxe et pour repartir de ces deux niveaux pour reconstruire une syntaxe pour la génération d’une langue. Le niveau logique est lié au lexique en cela que les procès et propriétés y sont vus comme des prédicats avec des places d’arguments, les RS, elles étant calculables (en analyse) et restituables (en génération) à partir de la sémantiques des mots apportées par le lexique. f) La description multi-niveau de la langue Dans la démarche de description d’une langue, il faut plutôt partir d’en haut (du plus proche du sens) pour trouver les exemples de la langue, en définir les m-structures valides et en fignoler la représentation sémantique. C’est d’ailleurs en partant d’en haut, et en voulant obtenir la même structure au niveau RL & RS pour tous les paraphrasages de la langue que sont nées les relations logiques et sémantiques inverses, les relations logiques doubles et la variabilisation d’un certain nombre de mots outils utilisées dans les dérivations du français. Pour aborder cette notion de paraphrasage il va falloir introduire pour le français une nouvelle variable « transversale » qui procède de plusieurs GETALP – S. CHAPPUY - 2011 31 niveaux d’interprétation, elle peut être morphologiquement marquée, ou calculée, elle peut induire des comportements syntaxiques et bien entendu donne des informations sur la sémantique du mot et sur son rôle sémantique dans la phrase. On associe donc de façon privilégiée aux informations des niveaux des relations logiques et sémantiques, la notion de dérivation. Chaque type de dérivation correspondant à un comportement sémantique dans une langue donnée (et nous verrons aussi surtout à un comportement logique issu du prédicat d’origine) et doit faire l’objet d’un schéma de paraphrasage figé dans la langue. Les choix faits pour le français ont été les suivants : DRV= (VN, AM, AN, NA, NPA, VAPA, VAPP, VAPAN, VAPPN, VAPAM, VAPPM, VAQP, VAQA) VN verbe --> nom d'action (ex: constuire, construction) (critère d'indexage: on peut placer le nom dans le temps: pendant la construction), (paraphrasage: action de +VB) AM Adjectif --> adverbe (ex: rapidement) (paraphrasage: de façon +adj ou avec + nom si la dérivation AN existe) ATTENTION NE PAS CONFONDRE AVEC VAQAM AN adjectif --> nom (ex: rapidité, suffisance) (paraphrasage : le fait d'être + adj) (critère d'indexage: validité du paraphrasage) PREVOIR D'INDEXER ENSEMBLE LE TRIO Adjectif+nom+adverbe. NA nom-->adjectif (ex: céréalier, lunaire,) (paraphrasage: de+nom), (critère d'indexage: validité du paraphrasage) PREVOIR D'INDEXER ENSEMBLE LE TRIO Adjectif+nom+adverbe car adverbe paraphrasable par le nom "rapidement=avec rapidité"). ATTENTION NE PAS CONFONDRE AVEC VAQAN NPA nom propre--> adjectif (ex: sartrien, stalinien, alsacien) (paraphrasage: de + NP) (critère d'indexage: validité du paraphrasage actuellement, mais on pourrait peut-être améliorer) VAPA verbe---> adjectif de potentialité active (ex: constructif) (paraphrasage: "qui peut + verbe à l'infinitif ") (critère d'indexage: validité du paraphrasage) VAPP verbe-->adjectif de potentialité passive (ex: lisible) (paraphrasage: "qui peut être + verbe au participe passé ") (critère d'indexage: validité du paraphrasage) VAPAM verbe-->adjectif de potentialité active--> adverbe de potentialité active (ex: constructivement) (paraphrasage: "de façon + VAPA ") (critère d'indexage: validité du paraphrasage) VAPPM verbe-->adjectif de potentialité passive--> adverbe de potentialité passive (ex: lisiblement) (paraphrasage: "de façon + adj VAPP ") (critère d'indexage: validité du paraphrasage) VAPAN verbe-->adjectif de potentialité active--> nom de potentialité active (ex: constructibilité) (paraphrasage: "la qualité de qui peut + verbe à l'infinitif ", mais on sent mieux les chose en montrant que le nom sert à paraphraser l'adverbe de type VAPAM s'il existe "constructivement ! =avec constructivité) (critère d'indexage: validité du paraphrasage triangulaire) PREVOIR D'INDEXER ENSEMBLE LE TRIO Adjectif+nom+adverbe VAPPN verbe--> adjectif de potentialité passive --> nom de potentialité passive (ex: lisibilité ) (paraphrasage: "la qualité de ce qui peut être + verbe au participe passé") (critère d'indexage: validité du paraphrasage, mais on sent mieux les chose en montrant que le nom sert à paraphraser l'adverbe de type VAPPM s'il existe "lisiblement =avec lisibilité ) PREVOIR D'INDEXER ENSEMBLE LE TRIO Adjectif+nom+adverbe VAQA verbe--> adjectif de qualité active (ex: suffisant, constructeur) (paraphrasage: "qui + verbe conjugué") (critère d'indexage: validité du paraphrasage) VAQP verbe--> adjectif de qualité passive (ex: connu) (paraphrasage: "que l'on + verbe conjugué ou "qui est+ppa") Remarque, on n'a pas de dérivation card--> ord car un ordinal dérive toujours d'un cardinal, l'ordinal porte l'UL du cardinal. En fait il y a dérivation il faudrait l'avoir. Il existe aussi et il faudrait les rajouter: VAQAM verbe--> adjectif de qualité active--> adverbe (ex: suffisamment) (paraphrasage: "de façon + VAQA) (critère d'indexage: validité du paraphrasage) ATTENTION NE PAS CONFONDRE AVEC AM VAQPM verbe--> adjectif de qualité passive (ex: modérément) (paraphrasage: "de façon+adjectif VAQA") GETALP – S. CHAPPUY - 2011 32 VAQAN verbe--> adjectif de qualité active--> nom (ex: tolérance) (paraphrasage: "la qualité de ce qui est") (critère d'indexage: validité du paraphrasage) PREVOIR D'INDEXER ENSEMBLE LE TRIO Adjectif+nom+adverbe MAIS ATTENTION NE PAS CONFONDRE AVEC AN VAQPN verbe--> adjectif de qualité passive --> nom de qualité passive (ex: modération) (paraphrasage: "la qualité de ce qui est +adjectif VAQP") PREVOIR D'INDEXER ENSEMBLE LE TRIO Adjectif+nom+adverbe La dérivation CARD vers ORD a été ignorée parce que l'ordinal dérive toujours du cardinal, on a l'UL du cardinal sur les deux. g) Exemple de m-structure Pour l’énoncé « Jean aime Marie », la structure attendue au niveau du parenthésage en termes de classe la structure est la suivante : La structure attendue au niveau des fonctions syntaxiques est la suivante: La structure attendue au niveau des relations logiques et sémantique est la suivante : En fait, très souvent on se contentera d’avoir soit une RS, soit une RL, l’une n’apportant pas réellement une information exploitable supplémentaire par rapport à l’autre, c’est pourquoi on parle souvent du niveau logicosémantique. La m- structure qui regroupe ces 4 niveaux d’interprétation est la suivante : GOV est une fonction syntaxique (resp. une relation logico-sémantique) qui exprime que le nœud en question est (dans l’arbre) le prédicat principal au niveau des fonctions syntaxiques (resp. des relations logico-sémantiques). Si on définit une métrique qui donne une distance 0 entre un nœud et son fils étiqueté GOV et 1 pour tous les autres fils, on retrouve dans la mGETALP – S. CHAPPUY - 2011 33 structure la géométrie de la structure fonctionnelle ou de la structure logico-sémantique précédemment décrites. Prenons un autre exemple : « il aime les gros gâteaux ». Au niveau syntaxique, la structure est la suivante: Au niveau logico-sémantique cet énoncé peut s’écrire : AIMER(IL,GATEAU) ⋀ GROS(GATEAU) ce qui peut-être représenté par : La représentation de ce graphe, sous forme arborescente (pour l’intégrer à la m-structure) pose un problème, aussi, nous avons défini les relations inverses. Dans le cas présent, gâteau est argument 0 du prédicat gros, comme la structure représentative reflète l’interprétation en terme de classe, ce n’est pas gâteau qui est fils de gros, mais gros qui est fils de gâteau, on utilisera donc l’argument inverse de ARG0 qui est GRA0 qui correspond dans la structure logico-sémantique à une inversion de l’orientation de l’arc : Voici la m-structure associée à notre exemple : GETALP – S. CHAPPUY - 2011 34 On définira donc au niveau logico-sémantique une équivalence entre les deux structures suivantes : On introduit de la même façon la relation GRA1, GRA2 et par la suite les RS inverses. Prenons l’exemple suivant : « Les gâteaux qu’il aime sont gros » La m-structure associée à cette phrase sera : C’est bien une structure équivalente au niveau logico-sémantique à celle de la phrase précédente. Pour une même structure logique, on peut avoir plusieurs m-structures c’est-à-dire plusieurs énoncés possibles. Dans le cas où les phrases ne sont pas comme notre exemple précédent totalement étiquetables par les seules relations logiques, mais nécessitent un complément au niveau des relations sémantiques, ce sera au niveau logico-sémantiques que les structures seront communes. « Une balle en caoutchouc » Au niveau du parenthésage en terme de classe K / Au niveau syntaxique FS GETALP – S. CHAPPUY - 2011 35 Au niveau logique RL / sémantique RS La m-structure « Etaler la colle avec une spatule » Au niveau du parenthésage en terme de classe K / Au niveau syntaxique FS Au niveau logique RL / sémantique RS GETALP – S. CHAPPUY - 2011 36 La m-structure « Pierre aime Marie depuis leur rencontre en juillet » D’où on peut extraire au niveau RL et RS 4) La puissance de paraphrasage de la m-structure a) La notion d’UL et celle de dérivation Nous avons vu la variable dérivation. Elle permet de reconnaître comme un même prédicat que nous appellerons UL (unité lexicale) plusieurs lemmes qui sont liés (et ce point est très important) par un paraphrasage définitivement fixé ur la langue. Le but étant de pouvoir passer en analyse ou en génération de l’un à l’autre suivant les besoins. En analyse, ce sera l’UL qui sera calculée et transmise au TL pour traduction. En TL, l’UL sera traduite, et ses potentialités de dérivation seront données. Le TS fera des prédictions de FS et de K/cat et la génération essaiera de les restituer, GETALP – S. CHAPPUY - 2011 37 sinon, elle se contentera d’un paraphrasage qui lui permettra de répondre au mieux aux prédictions. Ainsi pour le prédicat LIRE on aura : Lisible : qui peut être lu, qu’on peut lire. Lisiblement : de manière lisible et donc de manière qui peut être lu mais aussi si la dérivation lisibilité existe (ce qui est le cas ici) avec lisibilité Lisibilité : la qualité de ce qui est lisible, … Lecture : action de lire. Lecture : ce qui est lu (absorption de l’ARG1) Lecteur : celui qui lit (absorption de son ARG0 dans le prédicat) Illisible : qui ne peut pas être lu, … Illisiblement : de manière illisible, … Illisibilité : la qualité de ce qui est illisible, de ce qui ne peut pas être lu, … Pour le prédicat CONSTRUIRE Constructible : qui peut être construit, qu’on peut construire. Constructibilité : la qualité de ce qui est constructible, …. Constructivement : de façon constructible, … Constructif : qui construit. Constructivité : de façon contructive, … Construction : action de construire. Construction : ce qui est construit (+ absorption de son ARG1) Constructeur : celui qui construit. Inconstructible : qui ne peut pas être construit. Inconstructibilité : non-constructibilité, la qualité de ce qui ne peut pas être construit. Inconstructif : qui n’est pas constructif, qui ne peut pas construire, … Inconstructivité : la qualité de ce qui ne peut pas construire,… On pourrait imaginer d’autre dérivations à condition d’être capable de les paraphraser de façon figées et qu’elles soient suffisamment productives dans la langue pour justifier un traitement : Ainsi la dérivation adjectivale anglaise « made of » qui est très productive en anglais et qui se paraphraserait en français par en + nom, est pratiquement inexistante en français. Les différences dérivationnelles entre deux langues (puisqu’il s’agit de différences contrastives) devront être prises en charge par le TS qui restituera les paraphrasages en langue source. C’est le cas de la dérivation GETALP – S. CHAPPUY - 2011 38 « made of » anglaise sur « wooden » par exemple qui sera remplacée par une RS matière sur le GN COMPLément qui domine le nom « bois » (traduction du TL et transmission de la dérivation source) pour le français pour faire au plus simple ou par une structure plus complexe qui permettra de générer fait en ou fait de + nom c’est au choix du TS. C’est donc dans ce cas le TS qui devra paraphraser la dérivation anglaise en français, pour le rendre par la suite en français au cours de la GS en lui fournissant ce qui lui serait normalement parvenu d’un tel paraphrasage. Une dérivation existante dans la langue cible mais absente sur un mot (on dit « visible », « regardable », « écoutable » mais pas « entendable », on dit « qui peut pas être entendu », est du ressort de la seule génération qui paraphrasera l’adjectif de potentialité passive. C’est une dérivation propre à la langue cible et traitée comme telle. Quant à l’analyse, nous l’avons vu, son ambition est d’obtenir une structure logico-sémantique similaire pour tout paraphrasage. b) Le paraphrasage Nous avons vu dans les exemples précédemment présentés que le prédicat « prendre » pouvait être aussi bien représenté par le verbe « prendre » que par le nom « prise », de même on aura «le prédicat « rencontrer » sous la forme « rencontre », et le prédicat « lire » sous les formes « lisible », « illisible », « lecture ». Il arrive aussi qu’au niveau logique un prédicat absorbe l’un de ses arguments : Chanteur d’opéra = celui qui chante des opéras (prédicat+arg0) La boisson de Jean : ce que boit jean (prédicat + arg1) Confidente de Marie : celle à qui Marie se confie (prédicat + arg2) c) Exemple de paraphrasage et « secouage » Nous avons déjà abordé la capacité de la m-structure à fournir une même information au niveau profond pour des phrases de syntaxes différentes. Prenons un nouvel exemple : - « Les historiens constatent que la prise de la Bastille par les parisiens a surpris Louis XVI ». - « Les historiens constatent que Louis XVI a été surpris par la prise de la Bastille par les parisiens ». - « Les historiens constatent que Louis XVI a été surpris que les parisiens prennent la Bastille ». GETALP – S. CHAPPUY - 2011 39 Mais aussi : - « La surprise de Louis XVI à la prise de la Bastille par les parisiens a été constatée par les historiens ». Elles auront bien entendu des m-structures différentes qui prendront en compte les différences syntaxiques de ces phrases, mais pour chacune d’entre elles, par « secouage » - soit l’application de la métrique définie plus haut - on obtient cette structure logique commune. La structure logique (ici pas de RS) commune associée à ces 3 phrases est la suivante : Cette capacité de paraphrasage portée par le choix de la m-structure est ce qui donne leur puissance aux systèmes développés sous Ariane. En effet, nous avons vu maintenant que plusieurs énoncés de syntaxes différentes pouvaient avoir la même interprétation au niveau logique (de même la même interprétation au niveau sémantique). Cette approche multi-niveau sera particulièrement intéressante lorsqu’on abordera la synthèse en langue cible d’une phrase équivalente à la phrase analysée en langue source. Il est bien entendu inenvisageable de générer toutes les phrases syntaxiquement correctes en langue cible correspondant à l’interprétation logico-sémantique de la phrase en langue source, même si seuls les niveaux logiques et sémantiques sont pertinents pour aborder la traduction. Pour faire un choix entre les différentes solutions possibles, des prédictions devront être faites par le transfert à partir des niveaux inférieurs (K et FS) ces prédictions seront établies contrastivement (potentialités de FS, voix prédite, K prédite sur le nœud père de la structure, etc.). La GS se basera sur les potentialités de dérivation de son lexique et sur les prédiction pour, ne sachant pas d’où elle vient, refléter au mieux le texte en langue source par l’accomplissement de ces prédictions, et pour, en l’absence de celles-ci faire au mieux (i.e. le plus souvent au plus simple) avec ce qu’elle a. De même, si la synthèse ne suit pas une phase d’analyse dans le cadre d’une utilisation autre que la TA, un certain nombre de prédiction pourront être effectuées pour orienter ces choix. Ainsi, si on reprend simplement notre précédent exemple au niveau logique : GETALP – S. CHAPPUY - 2011 40 On aura ainsi, suivant le contexte local et en fonction du contexte du reste de la phrase en attaquant le problème suivant différents angles. En « attrapant » par exemple par le prédicat « aimer » et en cherchant une K=PVB «Je suis surprise qu’il aime les gros gâteaux », « Je crois qu’il aime que les gâteaux soit gros », mais en cherchant une K=GN « je connais son amour des gros gâteaux », dans un autre contexte encore « son amour des gâteaux qui sont gros » En « attrapant » par le prédicat « gâteaux » on obtiendra aussi bien « son appétit est légendaire et les gâteaux qu’il aime sont gros », « son poids s’explique par les gros gâteaux qu’il aime » En attrapant par gros, « Il faut reconnaître qu’ils sont gros les gâteaux qu’il aime ». Pour un simple exemple Prédicat (Arg0, Arg1/BENEF) comme AIMER (JEAN, MARIE) On peut choisir une structure syntaxique active AIMER (SUJ, OBJ) jean aime Marie On peut choisir une structure syntaxique passive AIMER (SUJ, CPAG) Marie est aimée par jean Une structure nominale avec AIMER (COMP, COMP) l’amour de jean pour Marie. Les formes de surfaces, en fonctions des informations transmise pourront être multiples et plus ou moins « légères » : « Jean aimera Marie, le nonamour de Jean pour Marie, Jean n’a pas aimé Marie, Marie est aimée de Jean, Jean aime-t-il Marie, etc. Dans un autre contexte que la TA, les prédictions pourront être faites en fonction de critères qui devront être étudiés, formulation de question par exemple ou sujet sur lequel porte une réponse, ainsi : « Qui Jean aime-t-il ? Jean aime marie De qui Marie est-elle aimée ? Marie est aimée de Jean Que raconte A la recherche du temps perdu, GETALP – S. CHAPPUY - 2011 41 A la recherche du temps perdu raconte l’amour de Swan pour Odette. IV. Une méthode et des outils de spécification linguistiques 1) Les grammaires statiques Les grammaires dont nous parlons dans le cadre du traitement automatique des langues, même si elle décrivent des langues naturelles n’ont pas grandchose à voir avec les grammaires usuelles (Le Bon Usage…). Il n’est pas simple d’implémenter une grammaire sur ordinateur à partir d’une grammaire naturelles. Le problème est de déterminer des méthodes de calcul des phénomènes décrits dans ces grammaires naturelles. Beaucoup de formalismes ont été proposés pour permettre de décrire une langue naturelle de manière plus formelle. Le formalisme des grammaire statiques est un de ces formalismes. Cette description pourra être implémentée sans trop de difficultés, c'est-à-dire avec beaucoup moins d’intervention humaine que si l’on partait dune grammaire naturelle. Un concept classique en grammaire (tout au moins en ce qui concerne les langues occidentales) est celui de groupe ou de phrase (on parle de groupe nominal, de proposition verbale, etc.). On va s’intéresser à la construction de la langue à partir d’éléments de base (qui peuvent être les morphes si on s’intéresse à la morphologie d’une langue, ou les mots si on s’intéresse à la syntaxe) d’éléments plus ou moins complexes (mots ou expressions dans le cas de la description morphologique, groupes ou phrases dans le cas de la description de la syntaxe). Ceci étant posé, on se propose avec le formalisme des grammaires statiques de décrire pour un phénomène linguistique donné, les différents éléments qui le composent. La structure finale représentant le groupe ainsi que la manière de passer de la liste des composants au groupe ou vice versa. On choisira dans le formalisme des grammaires statiques de représenter le groupe sous forme d’un arbre décoré, c'est-à-dire que chaque nœud de l’arbre sera décrit par un ensemble de couples variable-valeur où variable provient d’une liste donnée de façon exhaustive et valeur provient d’une liste donnée de façon exhaustive et liée à chaque variable. Il existe deux types de variables, les variables simples et les variables ensemblistes (voir exemple plus loin). Dans le formalisme des grammaires statiques, on appellera domaine d’information l’ensemble des arbres décorés (étant donné la liste des couples variable/valeurs). a) Indépendance et liens entre les phénomènes linguistiques GETALP – S. CHAPPUY - 2011 42 Un phénomène linguistique sera donc décrit dans le formalisme des Grammaires Statiques par un triplet Chaîne/Arbre/Correspondance. Un tel triplet sera appelé Planche (de la Grammaire) Statique. Cette modularité est dictée par le fait que les phénomènes de la langue sont « indépendants », en effet, en français par exemple, la constitution du groupe nominal est un phénomène tout à fait indépendant de celui de la constitution de la proposition complétive. Mais, d’autre part, les phénomènes de la langue sont liés les uns aux autres, en effet, toujours en français, le groupe nominal sujet est un des composants de la proposition complétive, il faut donc définir une manière d’exprimer ces liens. Dans le cadre de la Grammaire Statique, ceci est réalisé grâce à la notion de référence entre les Planches Statiques. b) Les différentes composantes d’une planche statique Nous utiliserons des exemples linguistiques réels volontairement très simples pour illustrer cette partie et la rendre plus parlante. La description de la chaîne La description de la chaîne revêt deux aspects, la description des éléments constitutifs de la chaîne et la description de la position relative de ces éléments dans l’énoncé. Par exemple : x , x , x 1 2 3 décrit une chaîne composée de 3 éléments nommés 1, 2 et 3 apparaissant dans cet ordre dans l’énoncé. Cette chaîne est donnée de façon formelle par son expression « parenthésée » (chaîne d’arbres, ici unaires) de la façon suivante : Chaîne : 1, 2, 3. Si de plus nous ajoutons CAT(1)=det, CAT(2)=adj, CAT(3)=nom, nous décrivons une chaîne composée d’un déterminant suivi d’un adjectif, suivi d’un nom. Ces contraintes sont dites contraintes propres, car elles ne portes que sur un élément à la fois. On peut encore ajouter des conditions dites « contraintes inter-éléments » (car elles portent sur plusieurs éléments de la chaîne) : NBRE(1)=NBRE(2)=NBRE(3), GNR(1)=GNR(2)=GNR(3). Ces contraintes indiquant que le genre et le nombre des 3 éléments doivent être les mêmes. La description de la chaîne que nous avons maintenant est celle d’un groupe nominal en français. Cette description peut correspondre à : « le petit GETALP – S. CHAPPUY - 2011 43 chien », « la petite chienne », « les petits chiens », …, mais pas « la petit chiens ». Nous voyons ici, que nous n’avons pas la description d’une chaîne du français, mais d’une famille de chaînes. Les contraintes sur les éléments de la chaîne sont exprimées à l’aide d’expressions booléennes. Les expressions simples ont la forme suivante : − variable(élément)=valeur − variable(élément)≠valeur − variable(élément) dans ensemble de valeur − variable(élément) nondans ensemble de valeurs, si variable est de type simple ; − variable(élément)=valeur − variable(élément)≠valeur − variable(élément) contient valeur (⊂) − variable(élément) noncontient de valeurs , si variable est de type ensembliste. Les expressions booléennes plus complexes sont obtenues grâce aux connecteurs classiques de l’algèbre de Boole : et (⋀), ou ⋁, implique (→), équivalent (↔), non. La chaîne est donc décrite dans une Planche Statique par une suite ordonnée d’éléments et par des contraintes sur ces éléments, ces contraintes pouvant être propres ou inter-éléments. Nous développerons plus loin l’aspect obligatoire, itératif, optionnel des nœuds de la chaîne. La description de l’arbre Comme la description de la chaîne, la description de l’arbre présente deux aspects qui sont la description des différents nœuds de l’arbre et la description de la géométrie de l’arbre. La géométrie de l’arbre est donnée pour plus de clarté par sa représentation graphique : De façon plus formelle elle est donnée par son expression parenthésée : Arbre : 0(A,B,C) L’arbre peut avoir la complexité désirée, tant en largeur qu’en profondeur. GETALP – S. CHAPPUY - 2011 44 Les contraintes sur les nœuds de l’arbre sont exprimées de la même manière que les contraintes sur les éléments de la chaîne. Dans le cas de la chaîne, on obtenait la description d’une famille de chaînes, on obtient de la même manière une famille d’arbre associée. Nous reviendrons plus loin sur l’aspect obligatoire itératif ou optionnels des nœuds de l’arbre. La description de la correspondance entre chaîne et arbre Etant donné la famille de chaîne et la famille d’arbresdécrite par la Planche Statique, il faut définir la correspondance qui existe entre ces deux familles, c'est-à-dire déterminer pour une chaîne donnée l’arbre qui lui sera associé et réciproquement. Lorsqu’une telle correspondance sera déterminée, il faudra encore définir comment les éléments de la chaîne et les nœuds de l’arbre entrent en correspondance. La correspondance entre chaîne et arbre est de deux types : o une correspondance implicite dans la forme parenthésée et dans la représentation graphique associée : en ce qui concerne les noms des nœuds (l’élément 1 de la chaîne est le nœud 1 de l’arbre) ; Un élément présent dans la chaîne et dans l’arbre sera présent dans les deux parenthésages. Dans le graphe explicatif, il sera noté x dans la chaîne et sera relié à l’arbre ; Chaîne : A, B, C Arbre : 0(A,B,C) un élément présent dans la chaîne et absent dans l’arbre (cas fréquent) sera dans l’expression de la chaîne et ne se retrouvera pas dans celle de l’arbre. Dans le graphe explicatif , il sera noté x dans la chaîne et il ne sera pas relié à l’arbre. Chaîne : A, B, C Arbre : 0(B,C) Si l’ordre des éléments est différent dans la chaîne et dans l’arbre (si ordre il y a), on retrouvera chaque élément à sa GETALP – S. CHAPPUY - 2011 45 place dans l’expression parenthésée de la chaîne et à sa place dans l’expression parenthésée de l’arbre, sous l’étiquette commune. Pour la représentation explicative commune, il sera marqué x dans la chaîne et o dans l’arbre pour signaler ce « déplacement ». Chaine : A, B, C Arbre : 0(B,C,A) Un élément absent de la chaîne et présent dans l’arbre (reconstruction d’une élision par exemple), sera dans le parenthésage de l’arbre seulement. Dans le graphe explicatif, il sera noté o dans la chaîne et relié à l’arbre. Chaîne : B, C Arbre : 0(B,C,A) On peut imaginer aussi de dupliquer des éléments, etc. o une correspondance explicite en ce qui concerne la décoration des éléments de chaîne et des nœuds de l’arbre. Nous y reviendrons plus loin. Non pas une chaîne, mais une chaîne d’arbres Nous avons vu qu’une des composante de la Planche Statique est la description de la chaîne. Nous avons pris l’exemple « le petit chien » en disant que la chaîne, composée d’un déterminant, d’un adjectif et d’un nom est un groupe nominal en français. Mais « le très petit chien » est aussi une chaîne de groupe nominal en français. Il faudrait donc un nombre énorme de planches pour décrire les phénomènes de la langue française. Bien sûr, il en va tout autrement dans le formalisme des Grammaires Statiques. Nous allons dire que la chaîne du groupe nominal n’est pas composé d’un déterminant d’un adjectif et d’un nom, mais d’un déterminant, d’un groupe adjectival et d’un nom. Il n’y a alors qu’une chaîne pour décrire « le petit chien » et « le très petit chien ». Le fait que « petit » est un groupe adjectival au même titre que « très petit » est externalisé, il est décrit dans une (ou des) planche statique du groupe adjectival. Le groupe adjectival est décrit par un arbre, l’élément de chaîne qui y fait référence, n’est plus un mot, mais un arbre. Les éléments de la chaîne ne sont pas forcément des mots, on a donc une chaîne d’arbre. L’élément B dans notre chaîne n’est plus un mot (terminal) mais un arbre décrit ailleurs et qu’il faudra donc dûment GETALP – S. CHAPPUY - 2011 46 référencer. Il faudra donc introduire la notion de planches référées, chaque élément de chaîne non terminal devant être référencé. Pour cela, chaque planche statique porte un nom qui permet de l’identifier. La définition d’un élément de chaîne d’arbres (s’il est non terminal) se fera donc en donnant le nom de la ou des planches qui le décrive par ailleurs. Les contraintes données par la suite sur les éléments de la chaîne pourront limiter la validité de cette référence (accord, etc.) Une référence peut-être exprimée simplement : B, ou en donnant accès à la totalité de l’arbre référé au 1e niveau : B($L1,G,$L2), ou B($L1,G,3,$L2), etc. Deux types de représentations graphiques explicatives, suivant qu’on s’intéresse ou non aux nœuds de l’arbre référé : Les forêts gauches et droites sont représentées par des boîtes ou par (un ou) des nœuds itératifs associées à (une ou) des boîtes vides suivant ce que l’on veut tester ou affecter. Les boîtes vides sont notées en les suffixant par 0. On peut aussi avoir une boîte CI ou CI0 ou d’autres nœuds dûment explicités dans une référence. Enfin pour clore le chapitre des références, on trouve à un certain niveau de description des éléments dont la place dans la chaîne d’arbre est située à l’intérieure de la chaîne d’un arbre référé mais ne se trouvent pas dans l’arbre référé où il n’aurait aucun sens (éléments qui se trouveraient dans notre GADJ par exemple au niveau chaîne, mais ne ferait pas partie du GADJ, alors qu’il ferait clairement partie du GN) . On les exprime sous la forme d’une flèche verticale, pour exprimer cette insertion intempestive. Chaîne :A, B(↑1,G,$L2), C Arbre : 0(A,B(G,$L2),C,1) GETALP – S. CHAPPUY - 2011 47 La planche référée par B ne contient pas le nœud 1 qui n’aurait aucun sens dans la chaîne de B, dans notre exemple, elle décrit des arbres de la forme B(G,$L2). La syntaxe d’une Planche Statique (Sandhi) Pour permettre de décrire la chaîne d’arbre (ou plutôt la famille de chaîne d’arbre), l’arbre (ou plutôt la famille d’arbres) ainsi que la correspondance entre ces deux familles, la planche statique sera découpée en plusieurs zones. Chaque zone prend en charge une partie bien définie de la description. Langue décrite : Zone d’en-tête Numéro de la planche : Type de planche ; Cas traité ZREF Zone des références ZGRAPHE Zone graphique Chaine : parenthésage de la chaîne Arbre : parenthésage de l’arbre Graphe graphique qui permet de fixer les idées et d’aider à la compréhension (parenthésages et zones suivantes suffisent à la connaissance) ZCA Zone chaîne d’arbres ZA Zone arbre ZCORR Zone de correspondance ZEX Zone exemples et commentaires a) Zone d’en-tête b) La zone graphique ZGRAF (en fait ZGRAPH1 et ZGRAPH2) c) La zone référence ZREF d) La zone contrainte sur la chaîne d’arbre ZCA e) La zone contraintes sur l’arbre ZA f) La zone commune à l’arbre et à la chaine d’arbre ZACA (non implémentée dans la grammaire statique du français) g) La zone correspondance ZCORR GETALP – S. CHAPPUY - 2011 48 h) La zone exemples et commentaires ZEX 2) Interprétation sémantique19 V. Stratégie d’implémentation 1) Statégie d’implémentation en analyse a) L’ambiguïté (Sandhi) b) L’obtention de la m-structure associée au texte 2) Stratégie d’implémentation en génération (synthèse) La phase de génération se situant dans un processus de traduction, elle suit une phase d’analyse d’un texte ayant un « sens » contrôlé par l’analyse. Elle ne contrôle donc pas l’énoncé à généré a un sens ou pas. On s’intéressera en génération uniquement à reformuler le message sémantique que l’on trouve en entrée de génération, sous une forme grammaticalement correcte. Passage de la m-structure niveaux profond à l’une des m-structures valides (heuristique)**** Descente récursive et remonté pour la mise en branchement récursif sur paraphrasage. ordre en français a) L’entrée de GS (Sandhi + doc GS) b) Passage de la grammaire statique à l’implémentation (Sandhi) c) Stratégie (document Sandhi) VI. Une méthode et des outils de développement des dictionnaires 1) La base lexicale 2) Dictionnaires mille-feuille 3) Stratégie de traitement de l’ambigüité lexicale (≠ niveaux) VII. Des méthodes d’implémentations des grammaires spécifiées. (Des outils d’implémentation (moteurs) spécialisés) 19 Zaharin Yusoff The Static Grammar Formalism Mai 1990. GETALP – S. CHAPPUY - 2011 49 ANNEXE : Variables Ariane de la GS du français ANETT:=(OUI). $ARTICL:=(DEF,NART). $ASPECT:=(FUTPROB,PASPROCH). ** ATTENTION: $ASPECT:=(FUTPROB,PROG,PASPROCH). $AUXG:=(ETRE). $CAT:=(V,NOM,A,D,R,S,C,P,PREF,INC,EDIT,NALF). CATLOCK:=(1). $CI:=(G,DR). $CLTYPE:=(DECL,INTER,IMPER). $COMPMOD:=(1). $COMPOS:=(1). $COORDBG:=(EL1,EL2). $CPWORD:=(CONCAT). $DAMNEG:=(P). $DANNEG:=(P). $DEG:=(COMP,SUP,CONS). $DVNVA:=(P). $DVNVAN:=(P). $DVNVP:=(P). $DVNVPM:=(P). $DVNVPN:=(P). $DVRVN:=(P). $DVRVP:=(P). ELID:=(1). $FEUIL:=(1). FS:=(GOV,SUJ,OBJ,CIRCP,CIRC,COMP,ATSUJ,ATOBJ,ATGR,ATG, COORD,ENUM,NUMERO,DES,REG,JUXT,RFDG,LXAX,APP). FSLOCK:=(1). $GNRAVN:=(MAS). $GNRVAN:=(MAS). $GNRVPN:=(MAS). $GOV:=(1). $IMPERSG:=(VIL,PPAIL,PPRIL). $INT:=(INT1). **$IPLRECT:=(V0I0,V1I0,V2I0). $K:=(GN,GADJ,GCARD,GORD,GADV,NV,PVB,PINF,PPART,PREL,PSUB). KLOCK:=(1). $LOCAL:=(A,EN). $MODEG:=(IND,COND,SUBJ,IMP,GER). $NEG:=(1). $NEGMOD:=(1). $NI:=(1). $NLEUR:=(1). $ON:=(1). $PLADGNG:=(PLADGN1,PLADGN2,PLADGN3). $PLADJG:=(AVPOS,AVANT). PLCIRC:=(AVANT,APRES). $POTPAS:=(1). $PREDC:=(AVOIR,DONNER,FAIRE,MAINTENU,METTRE,PRENDRE,TENIR,VENIR,REVENIR, YAVOIR). $PORTEE:=(TOUT). $REFLG:=(OBL,REC1,REC2,SE1,SE2). $REL:=(1). $REP:=(1). $RL:=(ARG0,ARG1,ARG2,ARG01,ARG02,ARG12,TRL1, GRA1,GRA2,GRA0,TRL0,ID,GRA12,GRA02,GRA01). ** GRA1,GRA2,GRA0,TRL0,ID). $ROLE:=(RSUJ,RCOMP,RADV). GETALP – S. CHAPPUY - 2011 50 $RS:=(ALTERN,METHODE,CAUSE,MARIERE,GENITIF,COND,FINAL,BENEF,CONSEQ, THEME,INST,CTXT,MANIERE,ACCOMP,ANALOG,CONCESS,QFIER,OBJQTF,MODUL, UNDE,UBI,QUO,QUA,PART,TRAP,QUM,SAUV,QUALF,QUAL,ID). ** $SEMA:=(COUL,FORM,,AGE,DIMEN,AUTRE). $SEMCG:=(LIEU,TEMPS,QUANTUM). SERIE:=(1A,1B,2A,2B,3A,3B,4,5,6A,6B,7,8A,8B). $SUBA:=(ADJ,CARD,ORD). $SUBJONG:=(VS,VNIS). $SUBN:=(NC,NP,REF). $SUBR:=(REL,TELOC,AUTRES). $SUBVG:=(VF,INF,PPR,PPA). $SYM:=(SYM01,SYM02,SYM03). $TEMPSG:=(PRES,PAS,FUT,IPF). **TPN:=(ILS,LES,LEUR,EUX). $TYPE:=(ATROB,FAIRE,INDIR). $TYPP:=(AVOLAIR,EST,SEMBLE,PARAIT,RESTE,DEMEUR,DEVIENT). $VAL1I:=(I,AI,PARI,POURI,DEI). $VAL1N:=(N,AN,AVECN,CONTREN,DANSN,DEN,ENN,PARN,POURN,SURN,ENTREN,COMMEN). $VAL1S:=(ACEQUE,DECEQUE,Q). $VAL2I:=(AI,PARI,POURI,DEI,I). $VAL2N:=(N,AN,AVECN,CONTREN,DANSN,DEN,ENN,PARN,POURN,SURN,ENTREN,COMMEN). $VAL2S:=(ACEQUE,DECEQUE,Q). VCALC:=(1). $VOIX:=(ACT,PAS,RXPAS,IMP,IMPRXPAS). VPRISE:=(1). VLOCK:=(1). -NEX$GNR:=(FEM,MAS). INTCAT:=(V,N,A,M). $KREG:=(GN,PINF,PSUB **,PPART.). $MODAL:=(DOIT,PEUT). $NB:=(SING,PLUR). **$NEGIMP:=(N,P). $PERS:=(1,2,3). $PLADV:=(PLADV1,PLADV2,PLADV3). $POTDRVA:=(AM,DAN). $POTDRVN:=(NA,NPA). $POTDRVV:=(VN,VAPA,VAPP,VAPAN,VAPPN,VAPAM,VAPPM **,VAQP.,VAQA). $POTPREF:=(NEG,REP). $SEMN:=(ANIME,CONCRET,ACTION,ABSTRAIT,UNITE,LIEU,TEMPS). $SUBADV:=(ADV,ADADJ,MADV,MADADJ,ADGN). $SUBJR:=(S,SSUBJ,DEI,N). $TYPOG:=(PCAP,TCAP,SCRIPT,ABBR,DIGIT). -ARITHNOEUD:=(100). POIDS:=(200). GETALP – S. CHAPPUY - 2011 51