Acquisition de probabilités de
sous-catégorisation à partir de très
gros corpus
Didier BOURIGAULT
Equipe de Recherche en Syntaxe et Sémantique
CNRS Université Toulouse Le Mirail
didier.bourigault@univ-tlse2.fr
www.univ-tlse2.fr/erss/
D. BOURIGAULT Sémantique et corpus, 2 juin 2004 2
TAL, linguistique et méthodes quantitatives
TAL : intégrer dans un analyseur syntaxique
automatique (Syntex) une ressource de sous-
catégorisation syntaxique pour améliorer la résolution
des ambiguïtés de rattachement prépositionnel
Linguistique (de corpus) : évaluer sur un corpus de
grande taille les informations de sous-catégorisation
syntaxique extraites d’un lexique (le Lexique
Grammaire) construit par des linguistes
D. BOURIGAULT Sémantique et corpus, 2 juin 2004 3
Contexte (TAL) : résoudre les ambiguïtés de
rattachement prépositionnel en analyse
syntaxique automatique
Syntex, un analyseur syntaxique en dépendance
Résoudre les ambiguïté de rattachement prépositionnel
Propriétés de sous-catégorisation syntaxique nécessaires
issues du Lexique-Grammaire
acquises automatiquement à partir de corpus
Je vois un homme avec un télescope
Je mange une pizza avec des olives
voir + avec ?
homme + avec ?
manger + avec ?
pizza + avec ?
D. BOURIGAULT Sémantique et corpus, 2 juin 2004 4
Syntex : un analyseur syntaxique de corpus
Analyseur en dépendance
Architecture modulaire
En entrée : un corpus étiqueté morpho-syntaxiquement (parties
du discours)
Un module par relation : Déterminant, Sujet, Objet, Préposition,
Adjectif
En sortie : corpus annotés avec des relations syntaxiques entre
mots
Chaque module est « écrit à la main »
Par des linguistes informaticiens
Selon une approche empirique et expérimentale basée sur
l’analyse de corpus
D. BOURIGAULT Sémantique et corpus, 2 juin 2004 5
Un exemple d’analyse
Le chat de Marie mange une petite souris.
Le|Det chat|Nom de|Prep Marie|NomPr mange|Vb une|Det petite|Adj souris|Nom.
Le|Det chat|Nom de|Prep Marie|NomPr mange|Vb une|Det petite|Adj souris|Nom.
OBJSUJ
Etiquetage morphosyntaxique (Treetagger)
Analyse syntaxique (Syntex)
1 / 29 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !