Stage intensif : traiter un corpus avec NooJ Formation organisée par le Cercle de linguistique de l’Inalco 26-30 janvier 2009 de 9h30 à 17h30 Centre Clichy 104, quai de Clichy 92110 CLICHY – Salle d’informatique de Clichy (à confirmer) Ouvert aux étudiants de Master et de doctorat, ainsi qu’aux enseignants chercheurs (validable en Master) Animé par : Max Silberztein, INALCO, Université de Franche-Comté www.nooj4nlp.net NooJ est un environnement de développement linguistique qui propose des méthodologies et des outils pour annoter et étudier des corpus linguistiques dans des langues de tous types. Il permet de construire des ressources linguistiques, les tester en les appliquant à des textes de taille importante, et d’explorer un corpus en élaborant des requêtes adaptées à l’objectif et au cadre théorique de l’utilisateur. NooJ est un outil puissant, permettant de traiter des corpus de très grande taille. Son utilisation ne requiert pas de connaissances en programmation ou traitement automatique des langues. Au cours de ce séminaire intensif, je présenterai les points suivants : 1. Traitement de corpus : ouvrir un texte, gérer des corpus, lancer des requêtes et construire des concordances 2. Formalisation de la morphologie : morphologie flexionnelle (ex. conjugaison des verbes), morphologie dérivationnelle (ex. nominalisation d’un verbe), morphologie productive (ex. néologismes) 3. Construction d’un lexique NooJ : mots simples, mots composés et expressions figées 4. Syntaxe : requêtes syntaxiques, grammaires locales, le groupe nominal 5. Sémantique : extraction d’entités nommées, construction de paraphrases, analyse sémantique Les atouts de NooJ : NooJ permet de formaliser cinq niveaux de phénomènes linguistiques : orthographe, morphologie, lexique, syntaxe et sémantique. Pour chacun de ces niveaux, NooJ propose une méthodologie, un ou plusieurs formalismes adaptés, des outils-logiciels de développement et un ou plusieurs analyseurs automatiques de textes. Par exemple, au niveau morphologique, NooJ fournit deux formalismes pour décrire la flexion et la dérivation, un formalisme pour décrire la morphologie lexicale (par ex. pour représenter les familles de mots) et un formalisme pour entrer des règles de morphologie productive (par ex. pour formaliser la création de néologismes). Les outils et formalismes de NooJ sont tous compatibles entre eux de façon ascendante, et sont graduellement plus puissants au fur et à mesure qu’on monte dans la hiérarchie linguistique. Par exemple, le niveau orthographique utilise des machines à états finis ; le niveau syntaxique utilise des grammaires hors contexte ; le niveau sémantique utilise des réseaux de transition augmentés (Augmented Transition Networks ou ATN) dont la puissance est équivalente à celle d’une machine de Turing. Cette approche « multiple » apporte de nombreux avantages pour les travaux de description linguistique car chaque niveau de formalisation est décrit de la façon la plus naturelle possible : les linguistes disposent donc d’outils de développement et d’analyse parfaitement adaptés à leurs besoins de formalisation. Par ailleurs, des phénomènes très spécifiques à des langues très différentes, comme par exemple la variation orthographique (massive) en chinois, le traitement des voyelles absentes en arabe, la morphologie massive en hongrois etc. sont traités avec des outils parfaitement adaptés. NooJ fournit un environnement unifié à l’intérieur duquel ces outils communiquent entre eux grâce à une structure d’annotations (« Text Annotation Structure » ou TAS). Audelà de la possibilité d’intégrer des ressources linguistiques de niveaux différents, la TAS permet de formaliser des phénomènes à cheval sur plusieurs niveaux linguistiques. Dans la limite des places disponibles Inscription : INALCO – École Doctorale Sandrine WONG (e-mail: [email protected]) 49 bis, avenue de la Belle Gabrielle 75012 PARIS Tél.: 01 80 51 95 06