Stage intensif : traiter un corpus avec NooJ

publicité
Stage intensif : traiter un corpus avec NooJ
Formation organisée par le Cercle de linguistique de l’Inalco
26-30 janvier 2009
de 9h30 à 17h30
Centre Clichy
104, quai de Clichy 92110 CLICHY – Salle d’informatique de Clichy (à confirmer)
Ouvert aux étudiants de Master et de doctorat, ainsi qu’aux enseignants chercheurs
(validable en Master)
Animé par :
Max Silberztein, INALCO, Université de Franche-Comté
www.nooj4nlp.net
NooJ est un environnement de développement linguistique qui propose des
méthodologies et des outils pour annoter et étudier des corpus linguistiques dans des langues
de tous types. Il permet de construire des ressources linguistiques, les tester en les appliquant
à des textes de taille importante, et d’explorer un corpus en élaborant des requêtes adaptées à
l’objectif et au cadre théorique de l’utilisateur. NooJ est un outil puissant, permettant de traiter
des corpus de très grande taille. Son utilisation ne requiert pas de connaissances en
programmation ou traitement automatique des langues. Au cours de ce séminaire intensif, je
présenterai les points suivants :
1. Traitement de corpus : ouvrir un texte, gérer des corpus, lancer des requêtes et construire
des concordances
2. Formalisation de la morphologie : morphologie flexionnelle (ex. conjugaison des verbes),
morphologie dérivationnelle (ex. nominalisation d’un verbe), morphologie productive (ex.
néologismes)
3. Construction d’un lexique NooJ : mots simples, mots composés et expressions figées
4. Syntaxe : requêtes syntaxiques, grammaires locales, le groupe nominal
5. Sémantique : extraction d’entités nommées, construction de paraphrases, analyse
sémantique
Les atouts de NooJ :
NooJ permet de formaliser cinq niveaux de phénomènes linguistiques : orthographe,
morphologie, lexique, syntaxe et sémantique. Pour chacun de ces niveaux, NooJ propose une
méthodologie, un ou plusieurs formalismes adaptés, des outils-logiciels de développement et
un ou plusieurs analyseurs automatiques de textes. Par exemple, au niveau morphologique,
NooJ fournit deux formalismes pour décrire la flexion et la dérivation, un formalisme pour
décrire la morphologie lexicale (par ex. pour représenter les familles de mots) et un
formalisme pour entrer des règles de morphologie productive (par ex. pour formaliser la
création de néologismes).
Les outils et formalismes de NooJ sont tous compatibles entre eux de façon ascendante,
et sont graduellement plus puissants au fur et à mesure qu’on monte dans la hiérarchie
linguistique. Par exemple, le niveau orthographique utilise des machines à états finis ; le
niveau syntaxique utilise des grammaires hors contexte ; le niveau sémantique utilise des
réseaux de transition augmentés (Augmented Transition Networks ou ATN) dont la puissance
est équivalente à celle d’une machine de Turing.
Cette approche « multiple » apporte de nombreux avantages pour les travaux de
description linguistique car chaque niveau de formalisation est décrit de la façon la plus
naturelle possible : les linguistes disposent donc d’outils de développement et d’analyse
parfaitement adaptés à leurs besoins de formalisation. Par ailleurs, des phénomènes très
spécifiques à des langues très différentes, comme par exemple la variation orthographique
(massive) en chinois, le traitement des voyelles absentes en arabe, la morphologie massive en
hongrois etc. sont traités avec des outils parfaitement adaptés.
NooJ fournit un environnement unifié à l’intérieur duquel ces outils communiquent
entre eux grâce à une structure d’annotations (« Text Annotation Structure » ou TAS). Audelà de la possibilité d’intégrer des ressources linguistiques de niveaux différents, la TAS
permet de formaliser des phénomènes à cheval sur plusieurs niveaux linguistiques.
Dans la limite des places disponibles
Inscription :
INALCO – École Doctorale
Sandrine WONG (e-mail: [email protected])
49 bis, avenue de la Belle Gabrielle
75012 PARIS
Tél.: 01 80 51 95 06
Téléchargement