Syntex, analyseur syntaxique de corpus
Didier Bourigault
Cécile Fabre, Cécile Frérot, Marie-Paule Jacques, Sylwia Ozdowska,
Gaëlle Recourcé*
Equipe de Recherche en Syntaxe et Sémantique
CNRS Université Toulouse Le Mirail
didier.bourigaul[email protected]
www.univ-tlse2.fr/erss/
* Société Synomia
D. Bourigault Syntex 2
Motivations initiales du projet Syntex
Réaliser un outil opérationnel d’analyse syntaxique pour :
Applications en terminologie et ingénierie des connaissances :
construction de ressources terminologiques et ontologique à partir de corpus
Analyse syntaxique extraction et structuration d’un réseau de syntagmes
(nominaux, verbaux)
Lexter Syntex
Recherches en linguistique
Un ensemble de corpus variés et de grande taille + analysés syntaxiquement
= un observatoire pour des recherches sur la langue
(morphologie, syntaxe, sémantique, discours)
Analyse syntaxique extraction de contextes syntaxiques et analyse
distributionnelle
Syntex : un « instrument » pour le linguiste (Habert, 2005)
D. Bourigault Syntex 3
Motivations initiales : applications en terminologie
Lexter
Extracteur de groupes nominaux terminologiques (Bourigault, 1994)
De Lexter à Syntex : du Nom au Verbe
Les syntagmes verbaux sont des unités à décrire au même titre que les
syntagmes nominaux
branchement de l’imprimante / brancher limprimante
les syntagmes nominaux sont extraits de façon plus précise.
On observe [ une charge importante en trouble ] dans les rivières
L'érosion a disséqué [ le plateau rocheux ] en chevrons.
les syntagmes verbaux fournissent les contextes le plus riches pour
l’analyse distributionnelle.
[ scanner , écographie ] modifiés par les adjectifs : abdominal, hépatique, thoracique,
[ scanner , écographie ] sujets des verbes : confirmer, montrer, objectiver, révéler,
D. Bourigault Syntex 4
Motivations initiales : instrument pour des
recherches en linguistique de corpus
Observatoires : des corpus volumineux analysés
syntaxiquement
Le Monde (500 000 articles 1991-2000, 200 millions de mots)
Frantext (515 romans XXème s, 30 millions de mots)
Premières exploitations
Extraction de propriétés de sous-catégorisation syntaxique
Extraction de propriétés lexico-distributionnelles
Les Voisins de Le Monde, les voisins de Frantext
D. Bourigault Syntex 5
Analyse syntaxique et Traitement Automatique des
Langues
Les grammaires d’unification : des formalismes et des
théories linguistiques
Grammaire lexicale fonctionnelle (LFG), Grammaire syntagmatique
généralisée (GPSG), Grammaire d’arbres adjoints (TAG), Grammaire
syntagmatique guidée par les têtes (HPSG)
Type de représentation : structures de traits ; formalismes déclaratifs et
monotones
Séparation données linguistiques (grammaires) / programmes de
traitement (analyseurs)
Utilisation des grammaires en analyse et en génération
Utilisation d’un même analyseur pour différentes grammaires
Analyseurs
Algorithmes : CYK, Earley, coin gauche, coin tête, …
Problèmes : efficacité, robustesse
1 / 35 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !