N - Institut d`électronique et d`informatique Gaspard

Eric Laporte
Institut Gaspard-Monge
Université de Marne-la-Vallée, CNRS
France
http://www-igm.univ-mlv.fr/~laporte/
Utilisation de ressources linguistiques
1. Ressources linguistiques de l’IGM : contenu,
statut
Comment les exploiter sans introduire de la
complexité dans les structures de données et
les algorithmes ?
2. Lemmatisation améliorée
3. Cascades de transducteurs
4. Enrichissement de lexiques
L’IGM est spécialiste de construction, maintenance et exploitation
de ressources linguistiques de qualité
Les données linguistiques et le personnel du LADL ont été intégrés
à l’IGM en 2001 et 2002
1.1. Lexiques morpho-syntaxiques
Les informations morpho-syntaxiques ne sont pas prévisibles à
partir de la forme des mots :
mouvement
, nom
brièvement
, adverbe
tendre
, verbe
tendre
, adjectif
Les lexiques électroniques recensent les mots et les étiquettes
correspondantes
Une entrée lexicale est l’association d’une forme et des
informations lexicales correspondantes
1. Ressources linguistiques de l’IGM
Exemples
metteur en scène acteur
petit déjeuner déjeuner
point de vue opinion
base de données annuaire
à peine juste
tout à fait complètement
Mots composés, termes techniques
Nombre d’entrées dans les dictionnaires DELA
90 000 entrées de lemmes simples (680 000 entrées fléchies simples)
Mémoire occupée : 21 Mo
Forme comprimée avec accès rapide adaptée au traitement direct :
1,8 Mo (automate minimal, 100 000 états, 230 000 transitions)
270 000 entrées fléchies composées
Mémoire occupée : 13 Mo
Forme comprimée avec consultation rapide : 7,2 Mo (automate
minimal, 840 000 états, 1 080 000 transitions)
1 / 26 100%

N - Institut d`électronique et d`informatique Gaspard

La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !