EDF et TAL

publicité
Le Traitement automatique des langues
à EDF Recherche & Développement
Des échecs et des succès
Le Traitement automatique des langues
à EDF Recherche & Développement
Depuis 1986 jusqu’en 2005
– Traitement de l’information textuelle
• Projet européen Graal,, logiciel KES
• Maîtrise du contenu fin du programme de recherche :
Bibliothèque Electronique, Sphère,
• Résumé automatique (Séraphin)
• Indexation automatique (SCDT)
• Extraction et gestion de terminologie
(Lexter, Lexiclass, Coatis, WorldTrek)
– Aide à la rédaction
• Exploitation d ’une terminologie de référence (Merlin)
• Mémoire de rédaction (HyTech)
– Aide à la Traduction
• Terminologies multilingues (web, communication avec les filiales)
– Constitution d’ontologies formelles
• Transformations terminologie-ontologie XTM et OWL
 EDF R&D - sept 2001 - Daniela GARCIA
Exemple 1 - SCDT
• Système de Consultation de Documentation Technique
– Intranet
– Textes et Schémas CAO
– Fonctionnalités d ’accès et de Navigation
• Table des matières
• Texte intégral + Terminologie
• Index
– La terminologie sert de pivot pour naviguer entre des données de
formats distincts (textes et 2D)
 EDF R&D - sept 2001 - Daniela GARCIA
Le contexte d’élaboration du SCDT
• Informatisation de la documentation technique
– faciliter la consultation et la mise à jour
• Propriétés de la documentation technique traitée
– nature : domaine donné, activité bien déterminée
– taille : quelques centaines de pages
• Besoins des utilisateurs
– moyens d’accès sûrs et rapides
– prise en compte de leur activité
 EDF R&D - sept 2001 - Daniela GARCIA
Le SCDT n’est pas une application
de recherche documentaire
Le problème est différent de la recherche d’information
dans des fonds documentaires, ou sur Internet
• Le profil et les besoins des utilisateurs peuvent être
bien spécifiés à priori,
• La documentation porte sur un domaine fermé
(produit ou processus industriel donné),
• La taille du corpus permet d’envisager
des traitements fins
 EDF R&D - sept 2001 - Daniela GARCIA
L'interrogation texte intégral
assistée d’une terminologie
Correspondance entre mots de la terminologie
et termes de la requête
Réduction du silence
contrôle des mots de la requête
précision de l'interrogation
Réutilisabilité dans le cadre d’autres documents
La terminologie est un produit en soi qui peut rendre
d’autres services
 EDF R&D - sept 2001 - Daniela GARCIA
L’interrogation plein texte
sans assistance terminologique
...... Définir pour les tranches thermiques et nucléaires
REP et RNR les prescriptions de réalisation des
schémas mécaniques. ......
Recherche
tranche* nucléaire*
......
- Schéma d'ensemble des systèmes de sûreté des
tranches nucléaires, ......
...... Repérage fonctionnel et matériel des
centrales thermiques et nucléaires. (MIR
II.01.01 ou DT 91.D.013) ......
 EDF R&D - sept 2001 - Daniela GARCIA
L'interrogation texte intégral
assistée d’une terminologie
...... Définir pour les tranches thermiques et
nucléaires REP et RNR les prescriptions de
réalisation des schémas mécaniques. ......
Recherche
tranche* nucléaire*
......
- Schéma d'ensemble des systèmes de sûreté des
tranches nucléaires, ......
...... Repérage fonctionnel et matériel des centrales
thermiques et nucléaires. (MIR II.01.01 ou DT 91.D.013)
......
 EDF R&D - sept 2001 - Daniela GARCIA
Recherche en texte intégral : Apport d ’une terminologie
 EDF R&D - sept 2001 - Daniela GARCIA
L’index, à mi-chemin
entre réseau syntaxique et ontologie
ouvrages électriques
liaisons

Classement de haut niveau par
«est-un»

Liens plus «flous» :
liaisons souterraines
liaisons aériennes

Non formels

La plupart du temps issus du
réseau terminologique
liaisons aériennes anciennes

Compréhensibles par le lecteur
guide d’expertise d’une ligne aérienne

Utiles à la consultation
GDP-B-3
ligne
coût d’investissement des lignes
critère de choix d’une ligne aérienne
GDP-A-5
postes
données économiques
 Liens sémantiques :

de causalité (COATIS)

statiques (SEEK)
coûts
coût d’investissement des lignes
 EDF R&D - sept 2001 - Daniela GARCIA
Méthodologie d’élaboration
du Système de Consultation de Documentation Technique
EXPERT DU DOMAINE
Modélisation
INDEX de l’ACTIVITE
INDEX du DOMAINE
SYSTEME DE CONSULTATION
TERMINOLOGIE
Linguistic based toolbox for
hypertext automatic linking on
large technical
documentation.
Les décisions
de
A paperdes
by Cécile
Gros, Didier
renforcement
réseaux
Bourigault
and
Jean-Louis Vuldy.
régionaux
doivent
s'inscrire
dans un plan de
We
have
developped
développement à long termea
terminology
extraction software
cohérent
avec les objectifs
that parses
texts on any technical
stratégiques
de l'Entreprise.
subject and
supplies
a web of
En particulier,
ce plan
à long
likely
terminological
This
terme doit, par la structure units.
et
web, together with the original
les caractéristiques
corpus
it has
beenqu'il
extracted from
techniques
des
réseaux
is organized
contient,
favoriser :as an hypertext,
known asd'un
terminological
- la fourniture
produit
hypertext, which is submitted to a
de qualité,
terminologist
for validation.
- l'implantation de clients
potentiels.
TERMES
RELATIONS ENTRE TERMES
CLASSES DE TERMES
Analyse automatique de texte
DOCUMENTS TECHNIQUES
 EDF R&D - sept 2001 - Daniela GARCIA
Les outils : LEXTER
• Un Logiciel d'EXtraction de TERminologie
– en entrée : un corpus de textes techniques
– en sortie : un réseau de candidats termes
• Type d'analyse
– Premier module : étiquetage grammatical (Sylex, Cordial, ...)
– Analyse syntaxique (repérage de frontières entre groupes
nominaux terminologiques, apprentissage endogène)
• Indépendance vis-à-vis d'un domaine
• L'interface de validation et de consultation : WorldTrek
 EDF R&D - sept 2001 - Daniela GARCIA
Exemple de réseau terminologique LEXTER
T
T
ligne aérienne haute tension
ligne aérienne moyenne tension
ligne aérienne
ligne simple
ligne d'alimentation
ligne
E
alimentation
E
capacité de transit de la ligne
déclenchement de la ligne
E
ordre de déclenchement de la ligne
 EDF R&D - sept 2001 - Daniela GARCIA
Les outils : modules de post-traitement
du réseau terminologique
• Module de typage
– analyse statistique de la position des termes dans le réseau
– propositions de typage en objet, attribut, valeur d'attribut, action
RESEAU, POSTE
COUT, PUISSANCE
objet
attribut
• Module de classification (LEXICLASS)
AERIEN
SOUTERRAIN
LIAISON
LIGNE
LIGNE ELECTRIQUE
TECHNIQUE
 EDF R&D - sept 2001 - Daniela GARCIA
Groupe turbo-alternateur
Domaine
Centrale nucléaire
Domaine
Cycle de la vapeur
Groupe
turboalternateur
Chaudière
nucléaire
Groupe
turboalternateur
Turbine
Pompe
d’extraction
Condenseur
Pompe
Condenseur
d’alimentation
Sécheursurchauffeur
Liens tout-partie
15/01/99
Liens fonctionnels
DESS Traductique et Gestion de
l'Information
15
Structuration manuelle qui aurait pu être assistée du TAL  EDF R&D - sept 2001 - Daniela GARCIA
Liens de synonymie : SynoTerm
• Abréviations : possibilité d’aide à la détection
automatique
– END / Energie Non Distribuée
• Variantes grammaticales : proposées par Lexter
– alimentation (du/d’un/des) poste(s)
• Expérience d’utilisation de dictionnaire de synonymes
– très positif et utilisé dans le domaine du nucléaire
 EDF R&D - sept 2001 - Daniela GARCIA
Les outils : COATIS
• Fonction :
typage de candidats termes Lexter en termes d'action
• Principe : repérage de marqueurs verbaux de la causalité
« le raccordement d'une charge monophasée provoque l'apparition
d'une composante inverse »
RACCORDEMENT D'UNE CHARGE MONOPHASEE
terme d'action
APPARITION D'UNE COMPOSANTE INVERSE
terme d'action
RACCORDEMENT , APPARITION
termes d'action
CHARGE MONOPHASEE, COMPOSANTE INVERSE
termes d ’objet
 EDF R&D - sept 2001 - Daniela GARCIA
Exemple 1: Navigation documentaire
hypertexte en XTM
Racine
méta
Scope :
Contenu
consultation
Association (2 rôles, 1 type) :
Scopé Métastructure : trait gras
Structuration indexation
Scopé Hiérarchie : trait fin
Structuration données
Entrée Structure
Entrée Ressources
Variant scopé :
DSE
Pour
Affichage
Pour Tri
1300
KR
LB002
ASG
Matériel
ASG
VR
Topic
Occurence
RRI
Bâtiment
K
Topic
AA
XXX
Tdm
ASG
XX
ASG42A
A
Instance of
Instance of
Tdm
doc 1
Matériel
Chap 1
Local
Index
Visualisation de schémas de tuyauterie 2D sur l ’Intranet
 EDF R&D - sept 2001 - Daniela GARCIA
Chapitre 1 - Liste et contenu des mises à jour.html
 EDF R&D - sept 2001 - Daniela GARCIA
Exemple 2 : Merlin
• Le système Merlin d ’aide à la rédaction
• Rédaction conforme avec une terminologie de
référence
–
–
–
–
terme le plus précis possible
évacuer les termes interdits
utiliser des synonymes
.....
 EDF R&D - sept 2001 - Daniela GARCIA
Merlin
Aide à la rédaction
 EDF R&D - sept 2001 - Daniela GARCIA
Exemple 3 : HyTec
• Aide à la rédaction de réponses au lettres de
réclamation des clients résidentiels
• Création automatisée d ’hypertexte
 EDF R&D - sept 2001 - Daniela GARCIA
Aide au traitement des lettres de réclamation
• Aide à la rédaction de la réponse au courrier clientèle
• Analyse de la cohérence des réponses
• Amélioration de la qualité de la mémoire de rédaction
 EDF R&D - sept 2001 - Daniela GARCIA
 EDF R&D - sept 2001 - Daniela GARCIA
Aller à la réponse associée
 EDF R&D - sept 2001 - Daniela GARCIA
Liens dynamiques entre syntagmes nominaux
caractérisés par leur contexte d’utilisation
Mémoire de rédaction
Nouveau courrier à traiter
___________
___________
___________
___________
___________
___________
___________
___________
___________
___________
___________
___________
___________
___________
___________
___________
___________
___________
___________
___________
___________
___________
___________
___________
___________
___________
___________
___________
___________
___________
___________
___________
___________
___________
___________
___________
___________
___________
___________
___________
___________
___________
___________
___________
___________
___________
___________
___________
___________
portion de texte contenant
un syntagme nominal
dans un contexte pertinent
___________
___________
___________
___________
___________
___________
___________
___________
___________
___________
___________
___________
___________
___________
___________
___________
Réponses
associées
 EDF R&D - sept 2001 - Daniela GARCIA
Exemple 4 : WorldTrek
• Outil générique
– visualisation de terminologie et ontologies reliés à
des documents textuels
– création, validation et gestion de terminologies et
ontologies
– atelier de fabrication et de mise à jour d ’index
• Utilisés dans les projets
– SCDT
– Merlin
 EDF R&D - sept 2001 - Daniela GARCIA
Visualisation des résultats de l’analyse Lexter + ContextO
WORLDTREK
 EDF R&D - sept 2001 - Daniela GARCIA
Exemple 5 Safir : terminologie multilingue
chambre à combustion
centrale de cogénération
De TML à OWL
ou de WorldTrek à Protégé
Téléchargement