N - Institut d`électronique et d`informatique Gaspard

publicité
Utilisation de ressources linguistiques
Eric Laporte
Institut Gaspard-Monge
Université de Marne-la-Vallée, CNRS
France
http://www-igm.univ-mlv.fr/~laporte/
1. Ressources linguistiques de l’IGM : contenu,
statut
Comment les exploiter sans introduire de la
complexité dans les structures de données et
les algorithmes ?
2. Lemmatisation améliorée
3. Cascades de transducteurs
4. Enrichissement de lexiques
1. Ressources linguistiques de l’IGM
L’IGM est spécialiste de construction, maintenance et exploitation
de ressources linguistiques de qualité
Les données linguistiques et le personnel du LADL ont été intégrés
à l’IGM en 2001 et 2002
1.1. Lexiques morpho-syntaxiques
Les informations morpho-syntaxiques ne sont pas prévisibles à
partir de la forme des mots :
mouvement, nom
brièvement, adverbe
tendre, verbe
tendre, adjectif
Les lexiques électroniques recensent les mots et les étiquettes
correspondantes
Une entrée lexicale est l’association d’une forme et des
informations lexicales correspondantes
Mots composés, termes techniques
Exemples
metteur en scène
petit déjeuner
point de vue
base de données
à peine
tout à fait
acteur
déjeuner
opinion
annuaire
juste
complètement
Nombre d’entrées dans les dictionnaires DELA
90 000 entrées de lemmes simples (680 000 entrées fléchies simples)
Mémoire occupée : 21 Mo
Forme comprimée avec accès rapide adaptée au traitement direct :
1,8 Mo (automate minimal, 100 000 états, 230 000 transitions)
270 000 entrées fléchies composées
Mémoire occupée : 13 Mo
Forme comprimée avec consultation rapide : 7,2 Mo (automate
minimal, 840 000 états, 1 080 000 transitions)
Quantité d’information lexicale
Nombre de valeurs possibles d’un trait donné :
- 2 (mot grammatical/mot plein) : Google
- 15 (catégorie grammaticale) : corpus classiques
- des dizaines de milliers (lemme) : lexiques inclus dans Unitex,
thésaurus
Le nombre de valeurs différentes d’un trait mesure la quantité
d’information qu’il apporte
Jeux d’étiquettes lexicales
Les corpus classiques n’incluent pas le lemme parmi les
informations lexicales
Brown (1981) : 4 lemmes, 119 étiquettes, presque sans mots
composés
Penn (1993) : 1 lemme, 36 étiquettes, presque sans mots composés
Les lexiques inclus dans Unitex sont beaucoup plus informatifs :
DELAF (1990) : 170 000 lemmes, 950 000 étiquettes, réductibles à
1 000 sans perte d’information
Normes de codage des lexiques
Norme en construction (ISO), XML
Projets associés : plate-forme Outilex, RNIL Normalangue
Le projet de norme concerne seulement la forme lisible des
lexiques, non adaptée au traitement direct
Statut des ressources lexicales
La majeure partie des ressources lexicales est licenciée
LGPL-LR
LGPL-LR : licence agréée par la FSF, équivalent de la LGPL pour les
ressources linguistiques
- Possibilité d’inclure une ressource dans un produit commercial
payant comportant aussi du logiciel ou des ressources non libres
- En cas de modification de la ressource en clair (nouvelle version),
obligation de rendre la nouvelle version publiquement disponible en
clair
- Obligation de mentionner l’origine de la ressource
Reliquat hors licence LGPL-LR
Contrat avec l’UMLV, suivant les cas : recherche ou développement,
gratuit ou onéreux
Permet d’établir une collaboration avec les utilisateurs les plus
avancés pour orienter la construction et la maintenance des
ressources
Consultation d’un lexique sur un texte
Les informations lexicales trouvées dans le lexique sont incluses
dans la représentation du texte
En cas d’ambiguïtés, toutes les hypothèses peuvent être
représentées
Unitex :
- pré-traitement
- application des ressources lexicales (par la fenêtre du prétraitement, ou par le menu Text)
- pour visualiser les entrées trouvées dans le lexique : Word Lists
- pour engendrer les automates des phrases : menu Text,
Construct FST-Text
Norme de codage de textes
En construction
Mot au sens typographique : <token>
Mot au sens linguistique : <wordForm>
Elément <wordForm>, attributs "entry" et "tokens"
Les mots composés produisent des ambiguïtés lexicales
Pendant certaines phases des traitements, les ambiguïtés peuvent
ne pas avoir été levées
Les ambiguïtés lexicales sont représentées par des automates finis
acycliques
Eléments <token>
Elément <fsm>
Eléments <state>, attributs "id" et "type"
Eléments <transition>, attributs "source" et "target"
1.2. Graphes de mots
Représentation d’ensembles de séquences de mots par des
automates finis, par exemple comme profil de recherche
(Glossanet) ou pour produire des concordances
Organisation en petits graphes lisibles : chaque graphe a un nom ;
une boîte peut invoquer un graphe
L’ensemble constitue un réseau de transitions récursif (RTN)
Exemple : noms propres de personnes
En préparation : bibliothèque de graphes (M. Constant, J. Sastre)
Représentation des automates dans
Unitex
FST-XML : format XML d’échange de FST2 (J. Sastre, 2004)
GRF
Graphe orienté, une boîte initiale, une boîte finale, séquences dans
les boîtes
Equivalence mathématique avec les automates finis
GRF-XML : format XML d’échange de GRF (J. Sastre, 2004)
Editeur FSGraph
Construction manuelle de graphes. Exemple : ". <PRE>"
Plusieurs lignes dans une boîte représentent des chemins parallèles
Génération de FST2 à partir de GRF
1.3. Lexique-grammaire
Arguments : remplacés par des appels à des sousgraphes
Prédicat : si on le remplace par un autre prédicat, le
reste du graphe peut ne plus être valable
N0
N0
N0
N0
N0
N0
N0
N0
recouvrir N1 de N2
demander N1 à N2
placer N1 Loc N2
regarder N1
étudier N1
faire une étude sur N1
maquiller N1
faire le maquillage de N1
Lexique-grammaire : liens interlexicaux
Les relations sont de nature sémantique et syntaxique
Dérivation : confondre/confusion
Elles sont liées aux autres informations lexicales : la dérivation
tendre/tension n’est valable que pour tendre verbe
Relations purement sémantiques (thésaurus) :
manger/repas
Relations sémantico-syntaxiques (lexique-grammaire) :
N0 confondre N1 (avec + et) N2
N0 faire Det confusion entre N1 et N2
Lexicalisation
- On construit à la main des graphes valables pour plusieurs
prédicats (graphes paramétrés)
- On les adapte automatiquement à chaque prédicat (lexicalisation)
Lexicalisation au niveau de classes de prédicats
Le graphe contient des paramètres qui prennent une valeur pour
chaque classe :
- interrompre ou non un chemin
- valeur d'un mot grammatical
Une table donne les valeurs des paramètres pour chaque classe
- lignes : les classes
- colonnes : les paramètres
Lexicalisation au niveau des prédicats
Le graphe contient des paramètres qui prennent une valeur pour
chaque prédicat
2. Lemmatisation améliorée
Traitements sans lexique
Lemmatisation sans lexique (stemming)
Algorithme de Martin Porter (1980)
Etiquetage par apprentissage automatique
Compatible avec des jeux d’étiquettes réduits (10 à 100)
Résultats : une séquence d’étiquettes
Complexité des résultats d’Unitex
- étiquettes structurées
- ambiguïtés lexicales, représentation du texte par un
automate acyclique (« treillis » de mots)
La levée des ambiguïtés reste un problème ouvert
Approximations pour linéariser l’automate acyclique du
texte
Les traitements appelés par Unitex peuvent être appelés
depuis un script, et combinés avec d’autres
traitements (cf. Info Console ou le manuel)
Les résultats des traitements sont des fichiers
intermédiaires dont le format est décrit dans le
manuel d’utilisation
Méthodes de simplification
Priorités entre analyses d’une séquence
- une analyse comportant un mot composé est presque toujours
meilleure qu’une analyse concurrente sans mots composés
- les lexiques morpho-syntaxiques comportent un marquage de
plausibilité d’emploi des mots simples (+z1, +z2, +z3)
ex. :
continuer,.V+z1:W
impériale,.N+z2:fs
parsi,.A+z3:ms
Poids : même principe, mais on conserve des analyses
concurrentes avec une pondération des analyses ou des
étiquettes
3. Cascades de transducteurs
But : reconnaissance et marquage de motifs
Exemple : entités nommées
Applications :
indexation,
classification,
classement par pertinence,
extraction d’informations,
extraction de terminologie,
élimination des mots grammaticaux...
Ne nécessite pas de lever les ambiguïtés lexicales du texte : Unitex
applique le transducteur à l’automate et produit une nouvelle
version (linéaire) du texte. Composition de plusieurs
transducteurs possible (« cascade »)
Unitex fait une application glissante des transducteurs (en
commençant à tous les mots du texte ; l’application peut se
terminer à n’importe quel mot)
Transducteurs
Un automate fini contient des séquences qui peuvent être
reconnues dans un texte existant
Un transducteur fini est utilisé pour engendrer une nouvelle
version du texte : il contient des séquences qui seront reconnues
(séquences d’entrée) et d’autres qui seront insérées
(séquences de sortie)
Exemple : insérer des balises <campus> et </campus> avant et
après les séquences désignant le campus de l’université
(nombreuses variantes)
Avec Unitex, les séquences de sortie sont affichées au-dessous
des boîtes
Pour créer un transducteur, insérer une barre (/) entre la séquence
d’entrée et la séquence de sortie correspondante
Pour appliquer le transducteur, indiquer si les séquences de sortie
doivent être insérées à gauche des séquences d’entrée
correspondantes, ou si elles doivent les remplacer
Informations lexicales et recherche de formes
Une fois les lexiques appliqués à un texte, les informations incluses
dans le texte peuvent être exploitées pour rechercher des formes
linguistiques dans le texte (Unitex)
Masques lexicaux
Expressions qui reconnaissent des mots en fonction de propriétés
lexicales
- lemme : <droit> reconnaît droit, droits, droite, droites
- catégorie grammaticale : <V> reconnaît n’importe quel verbe
(utiliser les conventions des lexiques consultés)
- autres traits présents dans le lexique : <N:s> reconnaît n’importe
quel substantif singulier
- combinaisons de ces informations : <pouvoir.N> reconnaît
seulement pouvoir et pouvoirs
- autres masques lexicaux : <MOT>, <PRE>, <MAJ>... (v. manuel)
- les informations issues du lexique-grammaire sont utilisables
Ambiguïtés des transducteurs
Un transducteur est ambigu lorsque plusieurs chemins distincts
s’appliquent à une même séquence d’entrée
Comme Unitex ne produit qu’une sortie linéaire, seul un des
chemins sera pris en compte (choix arbitraire)
Pour contrôler le résultat du traitement, éviter de construire des
transducteurs trop ambigus
Ambiguïtés de recouvrement : deux séquences reconnues ont une
partie commune
4. Enrichissement de lexiques
Unitex offre des fonctions de traitement de lexiques
(forme en clair/forme comprimée)
- compression d’un lexique avec accès rapide
- flexion automatique
Ajouts d’information possibles :
- fréquences d’emploi tirées d’un corpus
- mesure de la spécificité des mots à un domaine
spécialisé
- interfaçage entre lexique morpho-syntaxique (avec
formes fléchies) et thésaurus ou ontologies
Ajouts d’entrées :
- liens avec formes dérivées (face/facial), par graphes
de dérivation approximatifs
- inclusion de collocations spécifiques à un domaine,
ex. : dans les bulletins météo, alternance de passages
nuageux et d’éclaircies
Conclusion
Des ressources linguistiques complexes, élaborées à la
main par des linguistes (1967-2005)
Des outils logiciels adaptés
Les méthodes de TALN avec et sans ressources lexicales
sont restées très cloisonnées, mais sont combinables
(systèmes hybrides)
Téléchargement