Environnements centralisés et distribués pour lexicographes et lexicologues en contexte multilingue Mathieu Mangeot Lerebours GETA-CLIPS & XRCE Grenoble, France [email protected] Jeudi 27 septembre 2001 1/43 Situation Problème industriel Projet EDR : dictionnaire ja-en de 300 000 articles, 1500 hommes/année, prix prohibitif Projet GENELEX : seulement 3000 articles publics Problème social pour la francophonie Manque de dictionnaires fr-autre langue Problème logique Comment créer des dictionnaires multilingues ? EURODICAUTOM fonctionne pour 12 langues mais c’est une base terminologique. Progrès sur La récupération de dictionnaires (thèse de Haï Doan) La construction coopérative de dictionnaires EDict ja-en de Jim Breen SAIKAM ja-th Jeudi 27 septembre 2001 2/43 Plan de l'exposé Présentation de la problématique Objectifs et problèmes durs Expériences préliminaires Consultation de ressources hétérogènes Constructions "démocratique" et en ligne Personnalisation du résultat Spécification de l'environnement Architecture générale et noyau Gestion des données avec XML Application au projet Papillon Description du projet Exemples d'utilisation Conclusion Bilan, problèmes restants et perspectives Jeudi 27 septembre 2001 3/43 Objectifs Concevoir un environnement qui permette : la manipulation de ressources hétérogènes Utilisation de ressources distantes Récupération de ressources existantes Export dans des formats variables la consultation de plusieurs ressources Par des humains et des machines la construction en collaboration sur Internet de ressources multilingues Jeudi 27 septembre 2001 4/43 Problèmes durs Unifier et réutiliser les ressources Structures internes hétérogènes Format commun ? Formalisme générique ? Visualisation d'une grande quantité de données Développer des ressources en collaboration Concevoir des outils accessibles et portables Contributeurs aux compétences variées Risque de pollution par contributions erronées Jeudi 27 septembre 2001 5/43 Plan de l'exposé Présentation de la problématique Objectifs et problèmes durs Expériences préliminaires Consultation de ressources hétérogènes Constructions "démocratique" et en ligne Personnalisation du résultat Spécification de l'environnement Architecture générale et noyau Gestion des données avec XML Application au projet Papillon Description du projet Exemples d'utilisation Conclusion Bilan, problèmes restants et perspectives Jeudi 27 septembre 2001 6/43 Jeudi 27 septembre 2001 7/43 Consultation de ressources hétérogènes en ligne : DicoWeb Fichiers source au format d’origine (SGML) Temps de réponse très convenable (< 1s) Outil programmé en CGI Perl 270 lignes pour le module principal 1000 lignes en tout 1 mois de programmation Fréquentation du serveur à XRCE 110 requêtes/jour sur un intranet de 120 machines Jeudi 27 septembre 2001 8/43 Construction "démocratique" menu spécial boutons des macros Entrée UW Équivalent français Glose Catégorie anglaise Catégorie française Jeudi 27 septembre 2001 9/43 Construction en ligne Jeudi 27 septembre 2001 10/43 Personnalisation du résultat villes Jeudi 27 septembre 2001 11/43 Plan de l'exposé Présentation de la problématique Objectifs et problèmes durs Expériences préliminaires Consultation de ressources hétérogènes Constructions "démocratique" et en ligne Personnalisation du résultat Spécification de l'environnement Architecture générale et noyau Gestion des données avec XML Application au projet Papillon Description du projet Exemples d'utilisation Conclusion Bilan, problèmes restants et perspectives Jeudi 27 septembre 2001 12/43 Idées forces Pour la manipulation des données Formalisme souple et générique Technologie XML Pour la consultation Outils annexes : lemmatiseurs, conjugueurs, etc. Personnalisation du résultat des requêtes Annotation des articles Pour la construction Droits d'accès (Utilisateurs et groupes) Contrôle des contributions (spécialistes lexicologues) Jeudi 27 septembre 2001 13/43 Architecture externe DicOrig Ressource distante DicDist Serveur partenaire API fournisseur •Lemmatiseur •Phonétiseur API service Noyau Import API consultation Articles API préférences Articles Consulteurs Jeudi 27 septembre 2001 Service API modification Articles Contributeur Lexicographe Export DicGen 14/43 Architecture interne SUBLIM = G. Sérasset DicOrig Poids Historique Ressources locales Manipulation avec le formalisme SUBLIM Import Spécialiste Lexicologue Format propre Format DML Export PRODUCDIC Prefs Users & Profils Groups DicGen Administrateur Jeudi 27 septembre 2001 15/43 Gestion des ressources Format propre Ressources locales DicDist DicRec1 DicRec2 Format DML Purgatoire DicRec3 Format S Paradis DicRec4 DicOrig Import •Récupération = RÉCUPDIC •Export = PRODUCDIC De Haï Doan Jeudi 27 septembre 2001 Contrib1 Structure S Contrib5 Contrib2 Contrib4 Contrib3 DicGen 16/43 Le formalisme SUBLIM LEXARD architecture lexicale, macrostructure Définition de bases lexicales contenant les dictionnaires Définition de dictionnaires monolingues, bilingues, etc. LINGARD architecture linguistique, microstructure Définitions d'objets linguistiques : arbres, graphes, automates, structures de traits, liens, fonctions, etc. Langage de vérification de contraintes sur les objets définis en LEXARD et LINGARD Jeudi 27 septembre 2001 17/43 Exemple d'utilisation de LEXARD Dictionnaire multilingue à structure pivot Fra Jpn (define-interlingual-dictionary int :links (eng fra jpn tha) :owner "GETA") Int Eng Jeudi 27 septembre 2001 (define-monolingual-dictionary eng :language "English" :owner "GETA" ) (define-monolingual-dictionary fra :language "French" :owner "GETA" ) ... Tha (define-lexical-database GETA-base :dictionaries (eng fra jpn tha int) :owner "GETA" :comment "base lexicale du GETA") 18/43 Extensions de SUBLIM Extension du langage LEXARD Traitement de l'aspect communication (API) Gestion des utilisateurs et groupes Ajout d'information sur les ressources Jeudi 27 septembre 2001 19/43 Extension de LEXARD Ajout d'un niveau : les volumes Ensemble d'objets linguistiques de même structure Base lexicale Ajout des utilisateurs et groupes Profils, préférences, annotations, contributions Dictionnaires Monolingue Bilingue 1 volume 2 volumes Ajout de méta-information sur les ressources Dates, domaine, taille, propriétaire, droits, etc. Eng Eng Eng Fra Eng Fra Eng Eng Fra Eng Fra Ajout des API fournisseur, consultation, etc. Jeudi 27 septembre 2001 20/43 Extensions de SUBLIM (2) Extension du langage LEXARD Traitement de l'aspect communication (API) Gestion des utilisateurs et groupes Ajout d'information sur les ressources Besoin de descripteurs communs dans les dictionnaires => Définir un ensemble d'éléments communs ayant la même sémantique pour tous les dictionnaires Jeudi 27 septembre 2001 21/43 Éléments communs CDM Common Dictionary Markup éléments CDM <entry> <headword> <pronunciation> <etymology> <syntactic-sense> <pos> <lexie> <indicator> <label> <example> <definition> <translation> FeM <fem-entry> <entry> <french_pron> <collocate> <link> <note> <co> <cross_ref_entry> <xr> <ann> Jeudi 27 septembre 2001 DHO <se> <hw> <pr><ph> <sense n=1> <french_cat> <pos> <sense n=2> <gloss> <id> <label> <li> <french_sentence> <ex> <english_equ> <malay_equ> NODE <se> <hw> <pr><ph> <etym> <s1> <ps> <s2> <la> <ex> <df> <tr> <xg>/<vg> 22/43 Extensions de SUBLIM (3) Extension du langage LEXARD Traitement de l'aspect communication (API) Gestion des utilisateurs et groupes Ajout d'information sur les ressources Besoin de descripteurs communs dans les dictionnaires Définition de l’ensemble d’éléments communs CDM Gestion des données avec la technologie XML Jeudi 27 septembre 2001 23/43 Gestion des données avec XML Espace de noms DML (Dictionary Markup Language) <MyElement xmlns:dml="http://clips.imag.fr/geta/services/dml"> Types génériques Langue, date, durée, historique, ids, etc. Objets lexicaux de LEXARD++ Base lexicale, dico, volume, profils, prefs, API Objets linguistiques de LINGARD Arbre, graphe, automate, lien, fonction, etc. Sous-ensemble d'éléments communs CDM => Schéma XML de 1500 lignes pour DML Jeudi 27 septembre 2001 24/43 Exemple de représentation en XML : Le régime d'enseigner : X enseigne Y à Z X Y à Vinf Automate : 1 N 2 N Z 3 5 Exemples : Jeudi 27 septembre 2001 àN 4 àN 6 N (rare) Pierre enseigne la grammaire / à faire cela Pierre enseigne la grammaire à ses élèves 25/43 Passage de SUBLIM à XML (def-linguistic-class régime (feature-structure ( (automate automate-régime) (exemples exemples-regime)) ) ) (def-linguistic-class automaterégime automaton :arcs real-args) ) (def-linguistic-class exemplesrégime (set-of (feature-structure ( (réalisations (list-of (string)) (exemple string))) ) ) Jeudi 27 septembre 2001 <element name="régime"> <complexType><sequence> <element ref="automate-regime"/> <element ref="exemples-regime"/> </sequence></complexType> </element> <element name="automate-regime" type="automaton"/> <complexType name="arcType"> <extension base="arcType"> <sequence> <element name="real-args"/> </sequence></extension> </complexType> <element name="exemples-regime"> <complexType><sequence> <element name="realisations"/> <element name="exemple"/> </sequence></complexType> </element> 26/43 Bilan sur l'environnement Notre environnement permet de : Récupérer, manipuler et exporter des ressources hétérogènes existantes Définir de nouvelles structures de dictionnaires Gérer des utilisateurs et groupes avec leurs préférences et leurs profils Construire, compléter et corriger des données lexicales en collecticiel et à distance avec contrôle Consulter plusieurs ressources hétérogènes en même temps avec des outils d'aide Jeudi 27 septembre 2001 27/43 Plan de l'exposé Présentation de la problématique Objectifs et problèmes durs Expériences préliminaires Consultation de ressources hétérogènes Constructions "démocratique" et en ligne Personnalisation du résultat Spécification de l'environnement Architecture générale et noyau Gestion des données avec XML Application au projet Papillon Description du projet Exemples d'utilisation Conclusion Bilan, problèmes restants et perspectives Jeudi 27 septembre 2001 28/43 Une Application : le projet Papillon Objectif de départ : Dictionnaire multilingue incluant le français et le japonais Initiateurs : Emmanuel Planas, François Brown de Colstoun & Mutsuko Tomokiyo Motivations : Manque d'informations dans les ressources existantes (spécificateurs, kanji+kana+romaji) Très peu de ressources existantes Partenaires : National Institute of Informatics à Tokyo, Japon GETA-CLIPS à Grenoble Jeudi 27 septembre 2001 29/43 Méthodologie de construction Récupération de ressources existantes Base DiCo (fr, 3 000 articles) FeM (fr-en-ms, 20 000 art; 70 000 lexies fr) JMDict (ja-en, 70 000 art), (ja-fr, 10 000 art) SAIKAM (th-ja, 4 000 art) Correction/ajout par des contributeurs bénévoles Disponibilité des ressources en logiciel libre Dictionnaires pour humains et machines Jeudi 27 septembre 2001 30/43 Intérêts scientifiques du projet Application concrète de notre environnement Personnalisation du résultat des requêtes Enrichissement de la consultation Mise au point des interfaces utilisateurs Dictionnaire à structure pivot Utilisation de liens interlingues ou axies Développement de dictionnaires en communauté Paradigme de construction de LINUX Profils et préférences utilisateurs Jeudi 27 septembre 2001 31/43 Architecture externe Serveur Enhydra Web dynamique Couche de présentation (presentation) HTML + CSS + Applet Java Listes de Manipulant des données XML distribution Couche de travail (business) Couche données (data) Jeudi 27 septembre 2001 MHonArc Relationnel SGBD PostgreSQL (UNICODE) table d'objets XML SGBD 32/43 Gestion des ressources Papillon Format propre Ressources locales DicDist Format DML Soupe lexicale FeM SAIKAM JMDict Format Papillon DiCo DicOrig Import Spap Contrib1 Contrib5 Contrib2 Contrib4 Contrib3 Jeudi 27 septembre 2001 DicGen 33/43 Macrostructure de la base DiCo français Vocable affection n.f. lexie affection.1 DiCo anglais Liens interlingues Vocable affection N lexie affection (tendresse) lexie affection.2 (médecine) Vocable disease N lexie disease Vocable maladie n.f. lexie maladie DiCo japonais 病気 【びょうき】 1 concept = 3 acceptions Liens de raffinement Jeudi 27 septembre 2001 34/43 Article monolingue : lexie Nom de l'unité lexicale : MEURTRE Propriétés grammaticales : nom, masc Formule sémantique : action de tuer: ~ PAR L'individu X DE L'individu Y Régime : X = I = de N, A-poss Y = II = de N, A-poss Fonctions lexicales : {QSyn} assassinat, homicide#1; crime/*Quasi synonymes*/ {Oper1} accomplir, commettre, perpétrer [ART ~]; tremper [dans ART ~] /*Causer que X fasse un M.*/ {S1} auteur [de ART Ø] // meurtrier-n /*Nom pour X*/ {S2} victime [de ART Ø] /*Nom pour Y*/ Exemples : La mésentente pourrait être le mobile du meurtre. Idiomes : _appel au meurtre_ _crier au meurtre_ Lien vers une acception interlingue axie Structure DiCo d'Alain Polguère dérivée du DEC d'Igor Mel'čuk Jeudi 27 septembre 2001 35/43 Article interlingue : axie <axie id="a01"> <semantic-cat>entity</semantic-cat> <fra> <reflexie href="meurtre$1"/> </fra> <eng> <reflexie href="murder$1"/> </eng> <external-references> <UNL resource="UNL-fr.unl"> <uw>murder(icl>action,agt>human,obj>human)</uw> </UNL> <WordNet resource="Wordnet.txt"> <synset>00143589</synset> </WordNet> </external-references> </axie> Jeudi 27 septembre 2001 36/43 Interface de consultation Jeudi 27 septembre 2001 37/43 Présentation à la DEC Jeudi 27 septembre 2001 38/43 Présentation compacte (LAF) Jeudi 27 septembre 2001 39/43 Plan de l'exposé Présentation de la problématique Objectifs et problèmes durs Expériences préliminaires Consultation de ressources hétérogènes Constructions "démocratique" et en ligne Personnalisation du résultat Spécification de l'environnement Architecture générale et noyau Gestion des données avec XML Application au projet Papillon Description du projet Exemples d'utilisation Conclusion Bilan, problèmes restants et perspectives Jeudi 27 septembre 2001 40/43 Principes dégagés devant ce travail Structuration logique Gestion des données Exhaustivité Abstraction du niveau de données Aspect collaboratif Mutualisation Consultation gratuite Personnalisation générale Jeudi 27 septembre 2001 Héritage Traçabilité Protection des données Mise en œuvre Récupération totale Réciprocité 41/43 Problèmes restants à résoudre Interfaces pour lexicologues Pour récupérer et exporter des ressources Pour spécifier des structures de dictionnaires Pour visualiser et contrôler le contenu de la base Gestion des liens interlingues (axies) Automatiser la fusion des liens Calcul automatique des profils utilisateurs Intérêts, compétences, réalisations Jeudi 27 septembre 2001 42/43 Perspectives à court terme PostDoc sur le projet Papillon à Tokyo : Implémentation du serveur Préparation de la soupe lexicale Récupérer des ressources existantes et les convertir Recherche sur les interfaces pour lexicologues : manipulation des ressources pour consulteurs : spécifier ses préférences pour contributeurs : contribuer sur des articles en ligne Jeudi 27 septembre 2001 43/43