Téléchargement du diaporama

publicité
LINGVATA
Claude Roux
Parsing and Semantics Group
1
Le problème
• Il existe une branche qui étudie les langues: la linguistique
• Elle se heurte à un ennemi insidieux: l’ambiguïté…
Exemple
Le monsieur parle à la dame de la maison…
Phrase simple, pourtant:
Page 2
Le monsieur [parle [à la dame] [de la maison]]
Le monsieur [parle [à la dame de la maison]]
Le monsieur [parle à la dame] de la maison
Ambiguïté
L’ambiguïté est partout…
•
•
Dans la syntaxe, dans la sémantique, dans le moindre énoncé. Il est très
difficile d’obtenir des analyses fiables.
Pire, les erreurs s’accumulent à chaque étape:
Erreur dans la segmentation en mots
Erreur dans l analyse morphologique
Erreur dans la constitution des syntagmes
Erreur dans l extraction des dépendances
Erreur dans la transformation sémantique
Pas étonnant que les traductions automatiques restent aussi
mauvaises.
Page 3
Modèles statistiques / Modèles symboliques
• Soyons clair, c’est une opposition
fondamentale en linguistique mais:
Page 4
Bonnet blanc et blanc bonnet
SYMBOLIQUE:
Le linguiste fournit une grammaire explicite mais organise ses règles
selon des probabilités implicites
STATISTIQUE
Le système extrait une grammaire implicite à partir des annotations
et les organise selon des probabilités explicites.
En fait… Les deux approches donnent souvent des résultats
similaires…
Page 5
Google
o Traduction automatique à la Google…
Les moyens employés sont hors de portée de la plupart des labos.
Il faut des corpus en grande quantité ce qui favorise les langues
déjà fortement représentées.
Pas de vrai syntaxe ni de vrai sémantique…
Page 6
Langues Artificielles: Nihil nove sub sole
John McCarthy 1976: Artificial Natural Language ou Langue Artificielle
Différent du Volapük ou de l’Esperanto.
Mais, comme le Lobjan (basé sur les prédicats de premier degré,
lexique basé sur des concaténations de racines sémantiques)
• Le but est de communiquer avec une machine, pas avec
un être humain.
Page 7
Quelques exemples
En Lobjan
mi prami do
je t’aime
En Esperanto
mi amas vin
Page 8
je t’aime
Autre possibilité
Pour tenter d’analyser le passage de la syntaxe à la sémantique,
certains ont développé des langues simplifiées.
Ce ne fut pas un vrai succès, car les limites d’une telle langue sont
artificielles et échappent vite à un utilisateur.
On ne dispose pas en linguistique de l’équivalent d’une souris ou
d’une mouche drosophile.
Page 9
LINGVETA
o Un pas en avant pour la machine
o Un pas en arrière pour un humain
Nous voulons créer une langue qui soit à michemin entre un langage informatique et une
langue humaine.
Page 10
Principe de base
Le principe de base est le suivant:
Tout énoncé dans une Langue Artificielle ne peut avoir
qu’une seule interprétation aussi bien syntaxique que
sémantique.
Corolaire: Un énoncé dans cette langue ne présente aucun
ambiguïté ni lexicale ni syntaxique.
Page 11
Xerox Internal Use Only – Xerox Confidential –
Xerox Third Party Confidential – Xerox Personal
Confidential
IMPORTANT
La langue que nous allons décrire par la suite va vous sembler aussi
bizarre qu’étrange. Peut-être même comique*…
Ce que nous présentons ici est un simple exemple de ce à quoi une telle
langue pourrait ressembler, ainsi que les éléments qui sont nécessaires
à son fonctionnement.
Car pour qu’une telle langue soit possible il faut un lexique et une
grammaire.
De plus pour supprimer les ambigüités, cette langue est assez complexe
pour une humain mais TRÈS SIMPLE À AUTOMATISER…
*Je n’ai aucun sens de l’humour…
Page 12
Lexique
o Nous avons un peu triché…
Nous avons emprunté à l’Esperanto ses mots qui suivent des règles
très strictes de combinaison de racines sémantiques.
Nous avons simplifié les mots de l’Esperanto pour les transformer
en mots lingveta.
Nous disposons de dictionnaires bilingues pour le français (13.000
mots) et pour l’anglais (10.000 mots)
Mais partiellement nettoyé Page 13
Exemples
Page 14
Français
Esperanto
Lingveta
chien
hundo
hundeta
dame
damo
dameta
voiture
veturilo
vetureleta
aimer
ami
ameiag
voir
vidi
videiag
penser
pensi
penseiag
utiliser
uzi
uzeiag
Problèmes linguistiques
Quels sont les soucis les plus communs en linguistique
a.
b.
c.
d.
e.
a.
b.
c.
d.
e.
L’ambiguïté catégorielle
Le rattachement prépositionnel et les arguments du verbe
L’antécédent des pronoms
Le complément du nom
Les coordinations
La belle ferme le voile
La dame parle au propriétaire de la maison
Le chien du propriétaire qui aboie toutes les nuits
La voiture de la dame du garage
Le chien, le chat et le lion
Et ce ne sont que des échantillons….
Page 15
Catégories Syntaxiques
LINGVETA offre toutes les catégories d’une langue européenne:
Nom:
Adjectif:
Pronom:
Préposition:
Verbe:
Adverbe:
Article:
_ta
_ca
_ier
_iar
_iag
_no
_la
Mais aucune de ces formes n’est ambigüe, ce qui simplifie l’analyse…
Page 16
Catégories Sémantiques
LINGVETA offre aussi des terminaisons sémantique particulières,
valables pour les adjectifs, les noms et les déterminants.
Temporel:
Nombre:
Lieu:
Nom propre:
Page 17
i
u
e
o
(nokti: la nuit)
(dotu: le deux)
(domete: la maison comme lieu)
(Pierreto: Pierre)
Ordre des mots
L’ordre des mots est relativement strict:
LINGVETA est une langue SOV: Sujet Objet Verbe.
Autrement dit, le verbe est toujours placé à la fin de la phrase. De
cette façon, il est relativement simple de repérer le verbe principal
d’une phrase, surtout que la catégorie est non ambiguë.
La dame voiture conduire.
Page 18
Le latin
Le but est donc de faire en sorte que chacun des problèmes
précédents ait une représentation non ambiguë.
Pour cela nous allons définir une langue qui fonctionne comme le
latin, avec des déclinaisons…
Domina rosam amat… La maîtresse aime la rose
Dominam rosa amat… La rose aime la maîtresse
Ainsi l’accusatif ou le complément d’objet direct en latin est
exprimée par une désinence particulière: am
Page 19
Mais…
Nous allons en revanche éviter la complexité propre au latin, où les
déclinaisons sont très riches et très complexes.
Ni exceptions ni variations bizarres:
Templum civis videt… Le citoyen voit le temple
Templum civem videt… Le temple voit le citoyen
Nous voulons éviter ce genre d’incohérence
Page 20
Déclinaisons
La lingveta comprend quatre formes:
a.
b.
c.
d.
Nominatif ou sujet:
Accusatif ou COD:
Génitif ou complément du nom:
Datif ou syntagme prépositionnel:
_
_n
_s
_d
Ces formes à la différence du latin sont les mêmes pour toutes les
catégories sans aucune exceptions.
De même, le choix d’une désinence obéit à des règles très strictes.
Page 21
Accusatif
L’accusatif est utilisé pour définir le COD.
La plupart des verbes ont des compléments d’objet direct.
Exemple:
La dame voit le chien
Page 22
Dameta hundetan videiag
Génitif
Le génitif sert à exprimer une relation entre deux noms, ou deux
groupes nominaux.
En lingveta, nous avons choisi le « s » à la façon des langues
germaniques (le génitif saxon)
Exemple:
Le chien de la dame mange
Page 23
Hundeta dametas mandjeiag.
Datif
Le datif est utilisé pour identifier les noms ou adjectifs placés après
une préposition. De cette façon, il devient très simple d’isoler un PP
au milieu d’une phrase.
Exemple:
La dame parle dans le jardin
Page 24
Dameta iniar djardeneted paroleiag.
Accord
Les adjectifs, les déterminants et les noms s’accordent en genre et
en cas. L’adjectif est toujours placé avant le nom, mais devant le
déterminant.
L’homme achète la voiture neuve
Hometa alan novecan vetureletan atceteiag
Page 25
Les pronoms en français
o Avant d’introduire les pronoms et les prépositions, nous allons
présenter un pronom du français dont le fonctionnement nous a
inspiré: lequel
Ce pronom a en effet une particularité:
Il s’accorde en genre et en nombre avec son antécédent
Exemple: Les voitures avec lesquelles je suis parti en vacances.
Cette idée est exactement celle dont nous avons besoin pour établir
des liens entre les mots dans la phrase. Nous rajouterons aussi le
cas parmi les éléments d’accord.
Page 26
Préposition
La préposition en lingveta est repérée grâce à sa terminaison: iar.
Dameta iniar dometed domeiag (La dame habite dans la maison)
La forme par défaut de la préposition en fait un
argument du verbe.
Comment lier cette préposition avec son « antécédent »?
Page 27
Préposition au…génitif
o Le génitif permet à deux groupes nominaux de se lier…
Il va aussi permettre de lier un nom et le PP qui le modifie. Iar va
donc prendre la marque du génitif et se transformer en iars.
iars est d’ailleurs non seulement une préposition au
génitif, mais elle ne peut se lier qu’avec un nominatif.
Dameta hundetan iniars domited videiag
La dame dans la maison regarde le chien
Page 28
Préposition lié à un accusatif…
Dans ce cas, comment lier une préposition avec un accusatif?
Simple, en changeant encore une fois sa forme: inars
inars porte deux informations: le n de son antécédent et le
s de son rôle dans la phrase
Dameta hundetan ininars domitad videiag
La dame regarde le [chien dans la maison]
Page 29
Exemple
• Voici un exemple un peu plus riche
Dameta kumiars hundetad inidars dometed kumiar kelneterad
paroleiag.
La dame [avec [le chien dans la maison]] parle avec le serveur.
Page 30
Génitif et préposition
Par défaut, le génitif se rapporte toujours au groupe nominal qui précède.
Comment faire pour que le lien saute un groupe?
Il faut utiliser la préposition: deiar au génitif…
Si l’on veut traduire: le chien de la dame de la bergerie
On peut écrire: hundeta dametas cafeytas
Dans ce cas, c’est la « dame de la bergerie »
Ou bien, utiliser la préposition deiar qui va sauter un groupe…
hundeta dametas deiars cafeytad.
Noter que la phrase précédente pourrait s’écrire: hundeta dametas deisars
cafeytad
Page 31
Les verbes
Les verbes en LINGVETA ont un grand nombre de formes différentes.
Formes pour différents temps (présent, passé, futur, conditionnel,
infinitif)
Formes différentes pour les subordonnées.
Présent:
Passé:
Futur:
Conditionnel:
Infinitif verbal:
Infinitif prépositionnel:
Page 32
iap
iaf
iad
iagas
iagad
iag
iep
ief
ied
iages
iaged
ieg
Infinitif
• On distingue deux infinitifs…
• On distingue un infinitif au sein d’une structure verbale
• La dame fait manger son chien.
• Dameta hundetan mandgeiagas igeiag.
• D’un infinitif introduit par une préposition..
• Il étudie pour partir.
• Ema udiar forireiagad studeiag… D’où le “d”
• Noter que la phrase: Il étudie pour réussir son examen ne peut se
traduire par un infinitif mais par une subordonnée.
• Ema udier ekzamenetan suktseseieg studeiag.
Page 33
Verbe dans une subordonnée
Le verbe dans une subordonnée a une forme particulière: ieg
De cette façon, on peut facilement repérer ce verbe au milieu d’une
phrase.
C’est un peu équivalent au datif pour les prépositions…
L’idée principale est de faire en sorte que tous les
éléments d’une phrase soient suffisamment uniques
pour que l’analyse se fasse sans difficulté ni ambigüité.
Page 34
Conjonction de subordination
o Le pronom principal est: kaier dont la traduction dépend du
contexte.
o kaier comprend plusieurs formes:
o
o
o
o
kaier
kaiern
kaiers
kaierd
sujet (qui)
objet (que)
génitif (dont)
datif
o Il comprend aussi toutes les variations pour refléter le cas de
l’antécédent: kainer, kaiser, kaider etc…
Page 35
Temps, lieu et nombre
o Nous avons déjà mentionné les terminaisons particulières
sémantiques:
Temporel:
Nombre:
Lieu:
Nom propre:
i
u
e
o
Nous allons les réutiliser pour nos conjonctions de subordination:
•
•
•
•
kiier
kuier
keier
koier
Page 36
quand
combien
où
qui (pour une personne)
Exemples
Antécédent sujet et sujet de la subordonnée
Dameta kaier televedetan videieg tcarmecan beiag.
La dame qui regarde la télévision est gentille.
Avec un sujet comme antécédent, mais comme accusatif dans la
subordonnée
Vetureleta kaiern meta viedieg rudgecan beiag.
la voiture que je vois est rouge
Page 37
Exemples (suite)
Avec un accusatif comme antécédent…
Dameta hundetan kainer supetan mandgeieg videiag.
La dame voit le chien qui mange une soupe.
Avec un accusatif comme antécédent mais aussi comme accusatif
de la subordonnée
Dameta supetan kainern hundeta mandgeieg videiag.
La dame voit la soupe que le chien mange.
Page 38
Coordination
o
o
La coordination en français est terriblement compliquée.
Le chien noir, la dame et le chat verts de rage.
La coordination en latin: SENATUS POPULUSQUE ROMANUM
Lingveta en propose deux: que(et) et quo (ou)
Le dernier mot de la coordination porte cette marque. Tous les mots partageant les
mêmes traits et les mêmes catégories en font partie.
Noireca hundeta dameta katetaque verdecan kuminars rabiotad
Le chien noir, la dame et le chat vert de rage.
Noireca hundeta dameta verdeca kumiars rabiotad katetaque
Page 39
Antécédent d’une coordination
Une coordination forme un bloc dont les éléments ne peuvent être séparés.
Le chat noir, la dame et le chat qui mangent une souris.
[Noireca hundeta dameta katetaque] kaier musetan mandgeieg
L’antécédent fait donc référence au bloc qui le précède et non à un individu en
particulier.
Pour forcer le focus du pronom, il suffit de placer la première voyelle après le t en
majuscule.
Le chat noir, la dame et le chat qui mange une souris.
[Noireca hundeta dameta katetAque] kaier musetan mandgeieg
Ici, on force le focus sur le chat…
Page 40
Bon…
Encore une fois, cette langue est destinée
à communiquer avec une machine, pas un
humain. Nous avons donc le droit de
TOUT faire tant que le résultat est
structuré et cohérent.
Page 41
Nos exemples précédents
Voici donc leur traduction…
o La belle ferme le voile
Beleca farmeta etan kaceiag
o La dame parle au propriétaire de la maison
Dameta kumiars proprieteletad dometas paroleiag
o Le chien du propriétaire qui aboie toutes les nuits
Hundeta proprieteletas kaier tciolan noktetin boyageieg ou
Hundeta proprieteletas kaiser tciolan noktetin boyageieg
o La voiture de la dame du garage
Vetureleta dametas garadjetas ou
Vetureleta dametas deiars garadjetad
Page 42
Graphes
Finalement qu’est-ce que LINGVATA?
Il s’agit d’une langue dont le but est de représenter le graphe
sémantique d’un énoncé sous une forme non ambigüe…
En effet, le moindre énoncé se traduit sous la forme d’un graphe
complet de relations entre les mots.
Hundetan dameta dometas ameiag.
La dame de la maison aime le chien
Page 43
Base de connaissance
Par conséquent, les énoncés eux-mêmes sont tout à la fois une
représentation syntaxico-sémantique mais aussi en même temps
une base de connaissance dont on peut se servir pour interpréter
des énoncés…
De plus, ces énoncés peuvent s’accumuler lors d’une analyse pour
permettre l’utilisation d’un contexte de façon à guider aussi les
analyses suivantes.
Un simple mécanisme de projection de graphes, à la façon de
Sowa, permet alors d’exploiter ces informations.
Page 44
Équivalences
En particulier, la langue est prévue pour offrir certaines
équivalences gratuites…
« L’arrivée du train en gare le train arrive en gare » aboutissent à
des représentations équivalentes dans cette langue.
Alveneta traytetas inisars statsidometad
Trayteta iniar statsidometad alveneiag
Page 45
Utilisation
o Nous envisageons l’utilisation d’une telle langue dans les contextes
suivants:
Traduction automatique
Représentation des connaissances
Dialogue homme machine
Tout domaine où la communication avec une machine est
nécessaire
Page 46
Démonstration et Questions
Voici maintenant une petite démonstration de traduction du français
vers lingveta sur quelques phrases.
Questions…
Page 47
Téléchargement