LINGVATA Claude Roux Parsing and Semantics Group 1 Le problème • Il existe une branche qui étudie les langues: la linguistique • Elle se heurte à un ennemi insidieux: l’ambiguïté… Exemple Le monsieur parle à la dame de la maison… Phrase simple, pourtant: Page 2 Le monsieur [parle [à la dame] [de la maison]] Le monsieur [parle [à la dame de la maison]] Le monsieur [parle à la dame] de la maison Ambiguïté L’ambiguïté est partout… • • Dans la syntaxe, dans la sémantique, dans le moindre énoncé. Il est très difficile d’obtenir des analyses fiables. Pire, les erreurs s’accumulent à chaque étape: Erreur dans la segmentation en mots Erreur dans l analyse morphologique Erreur dans la constitution des syntagmes Erreur dans l extraction des dépendances Erreur dans la transformation sémantique Pas étonnant que les traductions automatiques restent aussi mauvaises. Page 3 Modèles statistiques / Modèles symboliques • Soyons clair, c’est une opposition fondamentale en linguistique mais: Page 4 Bonnet blanc et blanc bonnet SYMBOLIQUE: Le linguiste fournit une grammaire explicite mais organise ses règles selon des probabilités implicites STATISTIQUE Le système extrait une grammaire implicite à partir des annotations et les organise selon des probabilités explicites. En fait… Les deux approches donnent souvent des résultats similaires… Page 5 Google o Traduction automatique à la Google… Les moyens employés sont hors de portée de la plupart des labos. Il faut des corpus en grande quantité ce qui favorise les langues déjà fortement représentées. Pas de vrai syntaxe ni de vrai sémantique… Page 6 Langues Artificielles: Nihil nove sub sole John McCarthy 1976: Artificial Natural Language ou Langue Artificielle Différent du Volapük ou de l’Esperanto. Mais, comme le Lobjan (basé sur les prédicats de premier degré, lexique basé sur des concaténations de racines sémantiques) • Le but est de communiquer avec une machine, pas avec un être humain. Page 7 Quelques exemples En Lobjan mi prami do je t’aime En Esperanto mi amas vin Page 8 je t’aime Autre possibilité Pour tenter d’analyser le passage de la syntaxe à la sémantique, certains ont développé des langues simplifiées. Ce ne fut pas un vrai succès, car les limites d’une telle langue sont artificielles et échappent vite à un utilisateur. On ne dispose pas en linguistique de l’équivalent d’une souris ou d’une mouche drosophile. Page 9 LINGVETA o Un pas en avant pour la machine o Un pas en arrière pour un humain Nous voulons créer une langue qui soit à michemin entre un langage informatique et une langue humaine. Page 10 Principe de base Le principe de base est le suivant: Tout énoncé dans une Langue Artificielle ne peut avoir qu’une seule interprétation aussi bien syntaxique que sémantique. Corolaire: Un énoncé dans cette langue ne présente aucun ambiguïté ni lexicale ni syntaxique. Page 11 Xerox Internal Use Only – Xerox Confidential – Xerox Third Party Confidential – Xerox Personal Confidential IMPORTANT La langue que nous allons décrire par la suite va vous sembler aussi bizarre qu’étrange. Peut-être même comique*… Ce que nous présentons ici est un simple exemple de ce à quoi une telle langue pourrait ressembler, ainsi que les éléments qui sont nécessaires à son fonctionnement. Car pour qu’une telle langue soit possible il faut un lexique et une grammaire. De plus pour supprimer les ambigüités, cette langue est assez complexe pour une humain mais TRÈS SIMPLE À AUTOMATISER… *Je n’ai aucun sens de l’humour… Page 12 Lexique o Nous avons un peu triché… Nous avons emprunté à l’Esperanto ses mots qui suivent des règles très strictes de combinaison de racines sémantiques. Nous avons simplifié les mots de l’Esperanto pour les transformer en mots lingveta. Nous disposons de dictionnaires bilingues pour le français (13.000 mots) et pour l’anglais (10.000 mots) Mais partiellement nettoyé Page 13 Exemples Page 14 Français Esperanto Lingveta chien hundo hundeta dame damo dameta voiture veturilo vetureleta aimer ami ameiag voir vidi videiag penser pensi penseiag utiliser uzi uzeiag Problèmes linguistiques Quels sont les soucis les plus communs en linguistique a. b. c. d. e. a. b. c. d. e. L’ambiguïté catégorielle Le rattachement prépositionnel et les arguments du verbe L’antécédent des pronoms Le complément du nom Les coordinations La belle ferme le voile La dame parle au propriétaire de la maison Le chien du propriétaire qui aboie toutes les nuits La voiture de la dame du garage Le chien, le chat et le lion Et ce ne sont que des échantillons…. Page 15 Catégories Syntaxiques LINGVETA offre toutes les catégories d’une langue européenne: Nom: Adjectif: Pronom: Préposition: Verbe: Adverbe: Article: _ta _ca _ier _iar _iag _no _la Mais aucune de ces formes n’est ambigüe, ce qui simplifie l’analyse… Page 16 Catégories Sémantiques LINGVETA offre aussi des terminaisons sémantique particulières, valables pour les adjectifs, les noms et les déterminants. Temporel: Nombre: Lieu: Nom propre: Page 17 i u e o (nokti: la nuit) (dotu: le deux) (domete: la maison comme lieu) (Pierreto: Pierre) Ordre des mots L’ordre des mots est relativement strict: LINGVETA est une langue SOV: Sujet Objet Verbe. Autrement dit, le verbe est toujours placé à la fin de la phrase. De cette façon, il est relativement simple de repérer le verbe principal d’une phrase, surtout que la catégorie est non ambiguë. La dame voiture conduire. Page 18 Le latin Le but est donc de faire en sorte que chacun des problèmes précédents ait une représentation non ambiguë. Pour cela nous allons définir une langue qui fonctionne comme le latin, avec des déclinaisons… Domina rosam amat… La maîtresse aime la rose Dominam rosa amat… La rose aime la maîtresse Ainsi l’accusatif ou le complément d’objet direct en latin est exprimée par une désinence particulière: am Page 19 Mais… Nous allons en revanche éviter la complexité propre au latin, où les déclinaisons sont très riches et très complexes. Ni exceptions ni variations bizarres: Templum civis videt… Le citoyen voit le temple Templum civem videt… Le temple voit le citoyen Nous voulons éviter ce genre d’incohérence Page 20 Déclinaisons La lingveta comprend quatre formes: a. b. c. d. Nominatif ou sujet: Accusatif ou COD: Génitif ou complément du nom: Datif ou syntagme prépositionnel: _ _n _s _d Ces formes à la différence du latin sont les mêmes pour toutes les catégories sans aucune exceptions. De même, le choix d’une désinence obéit à des règles très strictes. Page 21 Accusatif L’accusatif est utilisé pour définir le COD. La plupart des verbes ont des compléments d’objet direct. Exemple: La dame voit le chien Page 22 Dameta hundetan videiag Génitif Le génitif sert à exprimer une relation entre deux noms, ou deux groupes nominaux. En lingveta, nous avons choisi le « s » à la façon des langues germaniques (le génitif saxon) Exemple: Le chien de la dame mange Page 23 Hundeta dametas mandjeiag. Datif Le datif est utilisé pour identifier les noms ou adjectifs placés après une préposition. De cette façon, il devient très simple d’isoler un PP au milieu d’une phrase. Exemple: La dame parle dans le jardin Page 24 Dameta iniar djardeneted paroleiag. Accord Les adjectifs, les déterminants et les noms s’accordent en genre et en cas. L’adjectif est toujours placé avant le nom, mais devant le déterminant. L’homme achète la voiture neuve Hometa alan novecan vetureletan atceteiag Page 25 Les pronoms en français o Avant d’introduire les pronoms et les prépositions, nous allons présenter un pronom du français dont le fonctionnement nous a inspiré: lequel Ce pronom a en effet une particularité: Il s’accorde en genre et en nombre avec son antécédent Exemple: Les voitures avec lesquelles je suis parti en vacances. Cette idée est exactement celle dont nous avons besoin pour établir des liens entre les mots dans la phrase. Nous rajouterons aussi le cas parmi les éléments d’accord. Page 26 Préposition La préposition en lingveta est repérée grâce à sa terminaison: iar. Dameta iniar dometed domeiag (La dame habite dans la maison) La forme par défaut de la préposition en fait un argument du verbe. Comment lier cette préposition avec son « antécédent »? Page 27 Préposition au…génitif o Le génitif permet à deux groupes nominaux de se lier… Il va aussi permettre de lier un nom et le PP qui le modifie. Iar va donc prendre la marque du génitif et se transformer en iars. iars est d’ailleurs non seulement une préposition au génitif, mais elle ne peut se lier qu’avec un nominatif. Dameta hundetan iniars domited videiag La dame dans la maison regarde le chien Page 28 Préposition lié à un accusatif… Dans ce cas, comment lier une préposition avec un accusatif? Simple, en changeant encore une fois sa forme: inars inars porte deux informations: le n de son antécédent et le s de son rôle dans la phrase Dameta hundetan ininars domitad videiag La dame regarde le [chien dans la maison] Page 29 Exemple • Voici un exemple un peu plus riche Dameta kumiars hundetad inidars dometed kumiar kelneterad paroleiag. La dame [avec [le chien dans la maison]] parle avec le serveur. Page 30 Génitif et préposition Par défaut, le génitif se rapporte toujours au groupe nominal qui précède. Comment faire pour que le lien saute un groupe? Il faut utiliser la préposition: deiar au génitif… Si l’on veut traduire: le chien de la dame de la bergerie On peut écrire: hundeta dametas cafeytas Dans ce cas, c’est la « dame de la bergerie » Ou bien, utiliser la préposition deiar qui va sauter un groupe… hundeta dametas deiars cafeytad. Noter que la phrase précédente pourrait s’écrire: hundeta dametas deisars cafeytad Page 31 Les verbes Les verbes en LINGVETA ont un grand nombre de formes différentes. Formes pour différents temps (présent, passé, futur, conditionnel, infinitif) Formes différentes pour les subordonnées. Présent: Passé: Futur: Conditionnel: Infinitif verbal: Infinitif prépositionnel: Page 32 iap iaf iad iagas iagad iag iep ief ied iages iaged ieg Infinitif • On distingue deux infinitifs… • On distingue un infinitif au sein d’une structure verbale • La dame fait manger son chien. • Dameta hundetan mandgeiagas igeiag. • D’un infinitif introduit par une préposition.. • Il étudie pour partir. • Ema udiar forireiagad studeiag… D’où le “d” • Noter que la phrase: Il étudie pour réussir son examen ne peut se traduire par un infinitif mais par une subordonnée. • Ema udier ekzamenetan suktseseieg studeiag. Page 33 Verbe dans une subordonnée Le verbe dans une subordonnée a une forme particulière: ieg De cette façon, on peut facilement repérer ce verbe au milieu d’une phrase. C’est un peu équivalent au datif pour les prépositions… L’idée principale est de faire en sorte que tous les éléments d’une phrase soient suffisamment uniques pour que l’analyse se fasse sans difficulté ni ambigüité. Page 34 Conjonction de subordination o Le pronom principal est: kaier dont la traduction dépend du contexte. o kaier comprend plusieurs formes: o o o o kaier kaiern kaiers kaierd sujet (qui) objet (que) génitif (dont) datif o Il comprend aussi toutes les variations pour refléter le cas de l’antécédent: kainer, kaiser, kaider etc… Page 35 Temps, lieu et nombre o Nous avons déjà mentionné les terminaisons particulières sémantiques: Temporel: Nombre: Lieu: Nom propre: i u e o Nous allons les réutiliser pour nos conjonctions de subordination: • • • • kiier kuier keier koier Page 36 quand combien où qui (pour une personne) Exemples Antécédent sujet et sujet de la subordonnée Dameta kaier televedetan videieg tcarmecan beiag. La dame qui regarde la télévision est gentille. Avec un sujet comme antécédent, mais comme accusatif dans la subordonnée Vetureleta kaiern meta viedieg rudgecan beiag. la voiture que je vois est rouge Page 37 Exemples (suite) Avec un accusatif comme antécédent… Dameta hundetan kainer supetan mandgeieg videiag. La dame voit le chien qui mange une soupe. Avec un accusatif comme antécédent mais aussi comme accusatif de la subordonnée Dameta supetan kainern hundeta mandgeieg videiag. La dame voit la soupe que le chien mange. Page 38 Coordination o o La coordination en français est terriblement compliquée. Le chien noir, la dame et le chat verts de rage. La coordination en latin: SENATUS POPULUSQUE ROMANUM Lingveta en propose deux: que(et) et quo (ou) Le dernier mot de la coordination porte cette marque. Tous les mots partageant les mêmes traits et les mêmes catégories en font partie. Noireca hundeta dameta katetaque verdecan kuminars rabiotad Le chien noir, la dame et le chat vert de rage. Noireca hundeta dameta verdeca kumiars rabiotad katetaque Page 39 Antécédent d’une coordination Une coordination forme un bloc dont les éléments ne peuvent être séparés. Le chat noir, la dame et le chat qui mangent une souris. [Noireca hundeta dameta katetaque] kaier musetan mandgeieg L’antécédent fait donc référence au bloc qui le précède et non à un individu en particulier. Pour forcer le focus du pronom, il suffit de placer la première voyelle après le t en majuscule. Le chat noir, la dame et le chat qui mange une souris. [Noireca hundeta dameta katetAque] kaier musetan mandgeieg Ici, on force le focus sur le chat… Page 40 Bon… Encore une fois, cette langue est destinée à communiquer avec une machine, pas un humain. Nous avons donc le droit de TOUT faire tant que le résultat est structuré et cohérent. Page 41 Nos exemples précédents Voici donc leur traduction… o La belle ferme le voile Beleca farmeta etan kaceiag o La dame parle au propriétaire de la maison Dameta kumiars proprieteletad dometas paroleiag o Le chien du propriétaire qui aboie toutes les nuits Hundeta proprieteletas kaier tciolan noktetin boyageieg ou Hundeta proprieteletas kaiser tciolan noktetin boyageieg o La voiture de la dame du garage Vetureleta dametas garadjetas ou Vetureleta dametas deiars garadjetad Page 42 Graphes Finalement qu’est-ce que LINGVATA? Il s’agit d’une langue dont le but est de représenter le graphe sémantique d’un énoncé sous une forme non ambigüe… En effet, le moindre énoncé se traduit sous la forme d’un graphe complet de relations entre les mots. Hundetan dameta dometas ameiag. La dame de la maison aime le chien Page 43 Base de connaissance Par conséquent, les énoncés eux-mêmes sont tout à la fois une représentation syntaxico-sémantique mais aussi en même temps une base de connaissance dont on peut se servir pour interpréter des énoncés… De plus, ces énoncés peuvent s’accumuler lors d’une analyse pour permettre l’utilisation d’un contexte de façon à guider aussi les analyses suivantes. Un simple mécanisme de projection de graphes, à la façon de Sowa, permet alors d’exploiter ces informations. Page 44 Équivalences En particulier, la langue est prévue pour offrir certaines équivalences gratuites… « L’arrivée du train en gare le train arrive en gare » aboutissent à des représentations équivalentes dans cette langue. Alveneta traytetas inisars statsidometad Trayteta iniar statsidometad alveneiag Page 45 Utilisation o Nous envisageons l’utilisation d’une telle langue dans les contextes suivants: Traduction automatique Représentation des connaissances Dialogue homme machine Tout domaine où la communication avec une machine est nécessaire Page 46 Démonstration et Questions Voici maintenant une petite démonstration de traduction du français vers lingveta sur quelques phrases. Questions… Page 47