Situation

publicité
Environnements centralisés et
distribués pour lexicographes et
lexicologues en contexte multilingue
Mathieu Mangeot Lerebours
GETA-CLIPS & XRCE
Grenoble, France
[email protected]
Jeudi 27 septembre 2001
1/43
Situation
 Problème industriel
 Projet EDR : dictionnaire ja-en de 300 000 articles, 1500
hommes/année, prix prohibitif
 Projet GENELEX : seulement 3000 articles publics
 Problème social pour la francophonie
 Manque de dictionnaires fr-autre langue
 Problème logique
 Comment créer des dictionnaires multilingues ?
EURODICAUTOM fonctionne pour 12 langues mais c’est
une base terminologique.
 Progrès sur
 La récupération de dictionnaires (thèse de Haï Doan)
 La construction coopérative de dictionnaires
 EDict ja-en de Jim Breen
 SAIKAM ja-th
Jeudi 27 septembre 2001
2/43
Plan de l'exposé
 Présentation de la problématique
 Objectifs et problèmes durs
 Expériences préliminaires
 Consultation de ressources hétérogènes
 Constructions "démocratique" et en ligne
 Personnalisation du résultat
 Spécification de l'environnement
 Architecture générale et noyau
 Gestion des données avec XML
 Application au projet Papillon
 Description du projet
 Exemples d'utilisation
 Conclusion
 Bilan, problèmes restants et perspectives
Jeudi 27 septembre 2001
3/43
Objectifs
 Concevoir un environnement qui permette :
 la manipulation de ressources hétérogènes
 Utilisation de ressources distantes
 Récupération de ressources existantes
 Export dans des formats variables
 la consultation de plusieurs ressources
 Par des humains et des machines
 la construction en collaboration sur Internet de
ressources multilingues
Jeudi 27 septembre 2001
4/43
Problèmes durs
 Unifier et réutiliser les ressources
 Structures internes hétérogènes
 Format commun ? Formalisme générique ?
 Visualisation d'une grande quantité de données
 Développer des ressources en collaboration
 Concevoir des outils accessibles et portables
 Contributeurs aux compétences variées
 Risque de pollution par contributions erronées
Jeudi 27 septembre 2001
5/43
Plan de l'exposé
 Présentation de la problématique
 Objectifs et problèmes durs
 Expériences préliminaires
 Consultation de ressources hétérogènes
 Constructions "démocratique" et en ligne
 Personnalisation du résultat
 Spécification de l'environnement
 Architecture générale et noyau
 Gestion des données avec XML
 Application au projet Papillon
 Description du projet
 Exemples d'utilisation
 Conclusion
 Bilan, problèmes restants et perspectives
Jeudi 27 septembre 2001
6/43
Jeudi 27 septembre 2001
7/43
Consultation de ressources
hétérogènes en ligne : DicoWeb
 Fichiers source au format d’origine (SGML)
 Temps de réponse très convenable (< 1s)
 Outil programmé en CGI Perl
 270 lignes pour le module principal
 1000 lignes en tout
 1 mois de programmation
 Fréquentation du serveur à XRCE
 110 requêtes/jour sur un intranet de 120 machines
Jeudi 27 septembre 2001
8/43
Construction "démocratique"
menu spécial boutons des macros
Entrée
UW
Équivalent
français
Glose
Catégorie anglaise
Catégorie française
Jeudi 27 septembre 2001
9/43
Construction en ligne
Jeudi 27 septembre 2001
10/43
Personnalisation du résultat
villes
Jeudi 27 septembre 2001
11/43
Plan de l'exposé
 Présentation de la problématique
 Objectifs et problèmes durs
 Expériences préliminaires
 Consultation de ressources hétérogènes
 Constructions "démocratique" et en ligne
 Personnalisation du résultat
 Spécification de l'environnement
 Architecture générale et noyau
 Gestion des données avec XML
 Application au projet Papillon
 Description du projet
 Exemples d'utilisation
 Conclusion
 Bilan, problèmes restants et perspectives
Jeudi 27 septembre 2001
12/43
Idées forces
 Pour la manipulation des données
 Formalisme souple et générique
 Technologie XML
 Pour la consultation
 Outils annexes : lemmatiseurs, conjugueurs, etc.
 Personnalisation du résultat des requêtes
 Annotation des articles
 Pour la construction
 Droits d'accès (Utilisateurs et groupes)
 Contrôle des contributions (spécialistes lexicologues)
Jeudi 27 septembre 2001
13/43
Architecture externe
DicOrig
Ressource distante
DicDist Serveur partenaire
API fournisseur
•Lemmatiseur
•Phonétiseur
API service
Noyau
Import
API consultation
Articles
API préférences
Articles
Consulteurs
Jeudi 27 septembre 2001
Service
API modification
Articles
Contributeur
Lexicographe
Export
DicGen
14/43
Architecture interne
SUBLIM = G. Sérasset
DicOrig
Poids Historique
Ressources locales
Manipulation avec le
formalisme SUBLIM
Import
Spécialiste
Lexicologue
Format
propre
Format
DML
Export
PRODUCDIC
Prefs Users & Profils
Groups
DicGen
Administrateur
Jeudi 27 septembre 2001
15/43
Gestion des ressources
Format propre
Ressources locales
DicDist
DicRec1
DicRec2
Format DML
Purgatoire
DicRec3
Format S
Paradis
DicRec4
DicOrig
Import
•Récupération =
RÉCUPDIC
•Export =
PRODUCDIC
De Haï Doan
Jeudi 27 septembre 2001
Contrib1
Structure S
Contrib5
Contrib2
Contrib4
Contrib3
DicGen
16/43
Le formalisme SUBLIM
 LEXARD architecture lexicale, macrostructure
 Définition de bases lexicales contenant les dictionnaires
 Définition de dictionnaires monolingues, bilingues, etc.
 LINGARD architecture linguistique, microstructure
 Définitions d'objets linguistiques : arbres, graphes, automates,
structures de traits, liens, fonctions, etc.
 Langage de vérification de contraintes
 sur les objets définis en LEXARD et LINGARD
Jeudi 27 septembre 2001
17/43
Exemple d'utilisation de LEXARD
Dictionnaire multilingue
à structure pivot
Fra
Jpn
(define-interlingual-dictionary int
:links (eng fra jpn tha)
:owner "GETA")
Int
Eng
Jeudi 27 septembre 2001
(define-monolingual-dictionary eng
:language "English"
:owner "GETA"
)
(define-monolingual-dictionary fra
:language "French"
:owner "GETA"
)
...
Tha
(define-lexical-database GETA-base
:dictionaries
(eng fra jpn tha int)
:owner "GETA"
:comment "base lexicale du GETA")
18/43
Extensions de SUBLIM
 Extension du langage LEXARD
 Traitement de l'aspect communication (API)
 Gestion des utilisateurs et groupes
 Ajout d'information sur les ressources
Jeudi 27 septembre 2001
19/43
Extension de LEXARD
 Ajout d'un niveau : les volumes
 Ensemble d'objets linguistiques de même structure
Base lexicale
 Ajout des utilisateurs et groupes
 Profils, préférences,
annotations, contributions
Dictionnaires
Monolingue
Bilingue
1 volume
2 volumes
 Ajout de méta-information sur les ressources
 Dates, domaine, taille, propriétaire, droits, etc.
Eng
Eng
Eng
Fra
Eng
Fra
Eng
Eng
Fra
Eng
Fra
 Ajout des API fournisseur, consultation, etc.
Jeudi 27 septembre 2001
20/43
Extensions de SUBLIM (2)
 Extension du langage LEXARD
 Traitement de l'aspect communication (API)
 Gestion des utilisateurs et groupes
 Ajout d'information sur les ressources
 Besoin de descripteurs communs dans les
dictionnaires
=> Définir un ensemble d'éléments communs ayant
la même sémantique pour tous les dictionnaires
Jeudi 27 septembre 2001
21/43
Éléments communs CDM
Common Dictionary Markup
éléments CDM
<entry>
<headword>
<pronunciation>
<etymology>
<syntactic-sense>
<pos>
<lexie>
<indicator>
<label>
<example>
<definition>
<translation>
FeM
<fem-entry>
<entry>
<french_pron>
<collocate>
<link>
<note>
<co>
<cross_ref_entry> <xr>
<ann>
Jeudi 27 septembre 2001
DHO
<se>
<hw>
<pr><ph>
<sense n=1>
<french_cat>
<pos>
<sense n=2>
<gloss>
<id>
<label>
<li>
<french_sentence> <ex>
<english_equ>
<malay_equ>
NODE
<se>
<hw>
<pr><ph>
<etym>
<s1>
<ps>
<s2>
<la>
<ex>
<df>
<tr>
<xg>/<vg>
22/43
Extensions de SUBLIM (3)
 Extension du langage LEXARD
 Traitement de l'aspect communication (API)
 Gestion des utilisateurs et groupes
 Ajout d'information sur les ressources
 Besoin de descripteurs communs dans les
dictionnaires
 Définition de l’ensemble d’éléments communs CDM
 Gestion des données avec la technologie XML
Jeudi 27 septembre 2001
23/43
Gestion des données avec XML
 Espace de noms DML (Dictionary Markup Language)
<MyElement
xmlns:dml="http://clips.imag.fr/geta/services/dml">
 Types génériques
 Langue, date, durée, historique, ids, etc.
 Objets lexicaux de LEXARD++
 Base lexicale, dico, volume, profils, prefs, API
 Objets linguistiques de LINGARD
 Arbre, graphe, automate, lien, fonction, etc.
 Sous-ensemble d'éléments communs CDM
=> Schéma XML de 1500 lignes pour DML
Jeudi 27 septembre 2001
24/43
Exemple de représentation en XML :
Le régime d'enseigner : X enseigne Y à Z
X
Y
à Vinf
Automate :
1
N
2
N
Z
3

5
Exemples :
Jeudi 27 septembre 2001
àN
4
àN

6
N (rare)
Pierre enseigne la grammaire / à faire cela
Pierre enseigne la grammaire à ses élèves
25/43
Passage de SUBLIM à XML
(def-linguistic-class régime
(feature-structure (
(automate automate-régime)
(exemples exemples-regime))
)
)
(def-linguistic-class automaterégime
automaton :arcs real-args)
)
(def-linguistic-class exemplesrégime
(set-of (feature-structure (
(réalisations (list-of
(string))
(exemple string)))
)
)
Jeudi 27 septembre 2001
<element name="régime">
<complexType><sequence>
<element ref="automate-regime"/>
<element ref="exemples-regime"/>
</sequence></complexType>
</element>
<element name="automate-regime"
type="automaton"/>
<complexType name="arcType">
<extension base="arcType">
<sequence>
<element name="real-args"/>
</sequence></extension>
</complexType>
<element name="exemples-regime">
<complexType><sequence>
<element name="realisations"/>
<element name="exemple"/>
</sequence></complexType>
</element>
26/43
Bilan sur l'environnement
 Notre environnement permet de :
 Récupérer, manipuler et exporter des ressources
hétérogènes existantes
 Définir de nouvelles structures de dictionnaires
 Gérer des utilisateurs et groupes avec leurs
préférences et leurs profils
 Construire, compléter et corriger des données
lexicales en collecticiel et à distance avec contrôle
 Consulter plusieurs ressources hétérogènes en
même temps avec des outils d'aide
Jeudi 27 septembre 2001
27/43
Plan de l'exposé
 Présentation de la problématique
 Objectifs et problèmes durs
 Expériences préliminaires
 Consultation de ressources hétérogènes
 Constructions "démocratique" et en ligne
 Personnalisation du résultat
 Spécification de l'environnement
 Architecture générale et noyau
 Gestion des données avec XML
 Application au projet Papillon
 Description du projet
 Exemples d'utilisation
 Conclusion
 Bilan, problèmes restants et perspectives
Jeudi 27 septembre 2001
28/43
Une Application : le projet Papillon
 Objectif de départ :
 Dictionnaire multilingue incluant le français et le japonais
 Initiateurs :
 Emmanuel Planas, François Brown de Colstoun & Mutsuko
Tomokiyo
 Motivations :
 Manque d'informations dans les ressources existantes
(spécificateurs, kanji+kana+romaji)
 Très peu de ressources existantes
 Partenaires :
 National Institute of Informatics à Tokyo, Japon
 GETA-CLIPS à Grenoble
Jeudi 27 septembre 2001
29/43
Méthodologie de construction
 Récupération de ressources existantes




Base DiCo (fr, 3 000 articles)
FeM (fr-en-ms, 20 000 art; 70 000 lexies fr)
JMDict (ja-en, 70 000 art), (ja-fr, 10 000 art)
SAIKAM (th-ja, 4 000 art)
 Correction/ajout par des contributeurs
bénévoles
 Disponibilité des ressources en logiciel libre
 Dictionnaires pour humains et machines
Jeudi 27 septembre 2001
30/43
Intérêts scientifiques du projet
 Application concrète de notre environnement
 Personnalisation du résultat des requêtes
 Enrichissement de la consultation
 Mise au point des interfaces utilisateurs
 Dictionnaire à structure pivot
 Utilisation de liens interlingues ou axies
 Développement de dictionnaires en communauté
 Paradigme de construction de LINUX
 Profils et préférences utilisateurs
Jeudi 27 septembre 2001
31/43
Architecture externe
Serveur Enhydra
Web dynamique
Couche de présentation
(presentation)
HTML
+ CSS
+ Applet Java
Listes de
Manipulant des données XML distribution
Couche de travail
(business)
Couche données
(data)
Jeudi 27 septembre 2001
MHonArc
Relationnel
SGBD PostgreSQL
(UNICODE)
table d'objets XML
SGBD
32/43
Gestion des ressources Papillon
Format propre
Ressources locales
DicDist
Format DML
Soupe lexicale
FeM SAIKAM
JMDict
Format
Papillon
DiCo
DicOrig
Import
Spap
Contrib1
Contrib5
Contrib2
Contrib4
Contrib3
Jeudi 27 septembre 2001
DicGen
33/43
Macrostructure de la base
DiCo français
Vocable affection n.f.
lexie affection.1
DiCo anglais
Liens interlingues
Vocable affection N
lexie affection
(tendresse)
lexie affection.2
(médecine)
Vocable disease N
lexie disease
Vocable maladie n.f.
lexie maladie
DiCo japonais
病気
【びょうき】
1 concept = 3 acceptions
Liens de raffinement
Jeudi 27 septembre 2001
34/43
Article monolingue : lexie








Nom de l'unité lexicale : MEURTRE
Propriétés grammaticales : nom, masc
Formule sémantique : action de tuer: ~ PAR L'individu X DE
L'individu Y
Régime : X = I = de N, A-poss Y = II = de N, A-poss
Fonctions lexicales :

{QSyn} assassinat, homicide#1; crime/*Quasi synonymes*/

{Oper1} accomplir, commettre, perpétrer [ART ~];
tremper [dans ART ~]
/*Causer que X fasse un M.*/

{S1} auteur [de ART Ø] // meurtrier-n /*Nom pour X*/

{S2} victime [de ART Ø]
/*Nom pour Y*/
Exemples : La mésentente pourrait être le mobile du meurtre.
Idiomes :

_appel au meurtre_

_crier au meurtre_
Lien vers une acception interlingue axie
Structure DiCo d'Alain Polguère dérivée du DEC d'Igor Mel'čuk
Jeudi 27 septembre 2001
35/43
Article interlingue : axie
<axie id="a01">
<semantic-cat>entity</semantic-cat>
<fra>
<reflexie href="meurtre$1"/>
</fra>
<eng>
<reflexie href="murder$1"/>
</eng>
<external-references>
<UNL resource="UNL-fr.unl">
<uw>murder(icl>action,agt>human,obj>human)</uw>
</UNL>
<WordNet resource="Wordnet.txt">
<synset>00143589</synset>
</WordNet>
</external-references>
</axie>
Jeudi 27 septembre 2001
36/43
Interface de consultation
Jeudi 27 septembre 2001
37/43
Présentation à la DEC
Jeudi 27 septembre 2001
38/43
Présentation compacte (LAF)
Jeudi 27 septembre 2001
39/43
Plan de l'exposé
 Présentation de la problématique
 Objectifs et problèmes durs
 Expériences préliminaires
 Consultation de ressources hétérogènes
 Constructions "démocratique" et en ligne
 Personnalisation du résultat
 Spécification de l'environnement
 Architecture générale et noyau
 Gestion des données avec XML
 Application au projet Papillon
 Description du projet
 Exemples d'utilisation
 Conclusion
 Bilan, problèmes restants et perspectives
Jeudi 27 septembre 2001
40/43
Principes dégagés devant ce travail
 Structuration logique  Gestion des données
 Exhaustivité
 Abstraction du
niveau de données
 Aspect collaboratif
 Mutualisation
 Consultation gratuite
 Personnalisation
générale
Jeudi 27 septembre 2001
 Héritage
 Traçabilité
 Protection des données
 Mise en œuvre
 Récupération totale
 Réciprocité
41/43
Problèmes restants à résoudre
 Interfaces pour lexicologues
 Pour récupérer et exporter des ressources
 Pour spécifier des structures de dictionnaires
 Pour visualiser et contrôler le contenu de la base
 Gestion des liens interlingues (axies)
 Automatiser la fusion des liens
 Calcul automatique des profils utilisateurs
 Intérêts, compétences, réalisations
Jeudi 27 septembre 2001
42/43
Perspectives à court terme
 PostDoc sur le projet Papillon à Tokyo :
 Implémentation du serveur
 Préparation de la soupe lexicale
 Récupérer des ressources existantes et les convertir
 Recherche sur les interfaces
 pour lexicologues : manipulation des ressources
 pour consulteurs : spécifier ses préférences
 pour contributeurs : contribuer sur des articles en ligne
Jeudi 27 septembre 2001
43/43
Téléchargement