N - Institut d`électronique et d`informatique Gaspard

Téléchargement

Eric Laporte

Institut Gaspard-Monge

Université de Marne-la-Vallée, CNRS

France

http://www-igm.univ-mlv.fr/~laporte/

Utilisation de ressources linguistiques

1. Ressources linguistiques de l’IGM : contenu,

statut

Comment les exploiter sans introduire de la

complexité dans les structures de données et

les algorithmes ?

2. Lemmatisation améliorée

3. Cascades de transducteurs

4. Enrichissement de lexiques

L’IGM est spécialiste de construction, maintenance et exploitation

de ressources linguistiques de qualité

Les données linguistiques et le personnel du LADL ont été intégrés

à l’IGM en 2001 et 2002

1.1. Lexiques morpho-syntaxiques

Les informations morpho-syntaxiques ne sont pas prévisibles à

partir de la forme des mots :

mouvement

, nom

brièvement

, adverbe

tendre

, verbe

tendre

, adjectif

Les lexiques électroniques recensent les mots et les étiquettes

correspondantes

Une entrée lexicale est l’association d’une forme et des

informations lexicales correspondantes

1. Ressources linguistiques de l’IGM

Exemples

metteur en scène acteur

petit déjeuner déjeuner

point de vue opinion

base de données annuaire

à peine juste

tout à fait complètement

Mots composés, termes techniques

Nombre d’entrées dans les dictionnaires DELA

90 000 entrées de lemmes simples (680 000 entrées fléchies simples)

Mémoire occupée : 21 Mo

Forme comprimée avec accès rapide adaptée au traitement direct :

1,8 Mo (automate minimal, 100 000 états, 230 000 transitions)

270 000 entrées fléchies composées

Mémoire occupée : 13 Mo

Forme comprimée avec consultation rapide : 7,2 Mo (automate

minimal, 840 000 états, 1 080 000 transitions)

1 / 26 100%

Documents connexes

Exemple d`un cahier de mots en plusieurs parties

Rappel - Institut d`électronique et d`informatique Gaspard

N - Institut d`électronique et d`informatique Gaspard

Rappel - Institut d`électronique et d`informatique Gaspard

FLS-FRE030 - Université de Sherbrooke

DOCX - Portfolio Smail STOUTAH

Séquences Littérature CE2 (2019/2020) - Programmation

Le fonctionnement de l`objet technique

Linguistique française – Bibliographie

document 1

Algorithme sur les graphes en C++ (C. Labruère Chazal) Ce projet a

TP 2 - Unitex, recherche de motifs

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

N - Institut d`électronique et d`informatique Gaspard

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

N - Institut d`électronique et d`informatique Gaspard

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib