Présenter

publicité
Premier bilan de l’utilisation de LinguaStream
2.0.0 pour le repérage
de la cohésion nom-verbe
Yu-Ting HUANG
UE TAL
Le 10/01/2006
1
Objectifs
1.
Evaluer LinguaStream2.0.0 dans le cadre du repérage de
GN et GV pour étudier une proximité sémantique



2.
réduction de la durée des études / réduire la durée études
(au lycée) -> variantes morphologiques
augmenter les taux d’intérêt / hausse de taux d’intérêt
-> variantes synonymiques
marché international du bois / acheter le bois chez d'autres
-> chaîne cohésive {marché, acheter}
Présenter le premier bilan de l’observation des données
2
Points de départ
 Données : 10 ans de le Monde constitués en aval de l’analyse
de Syntex et calculées par Upery (Bourigault 2003) selon un
critère distributionnel (vndoc.mdb)
 BdD permet de visualiser tous les paragraphes d'apparition de
tous les couples
<p>GN [N de ARG] et GV [V obj ARG] <p>
dont les ARG sont identiques.
3
Extraits du fichier vndoc.mdb, base de
données utilisée
4
1. Pourquoi LinguaStream?


enrichissement incrémental des documents
électroniques,
facilite la conception et l’évaluation de chaînes de
traitements complexes tout en requérant des
compétences informatiques minimales
5
1. Démarche à suivre
1.
2.
3.
10 ans de le Monde xmlisé selon les caractéristiques de la
plate-forme
Construire un lexique pour l’ensemble de noms recteurs et
l’ensemble de verbes recteurs. « Aligner » les deux lexiques.
Faire une expression régulière pour trouver puis surligner les
couples nom-verbe :
{anchor:start, type:paragraph} <voisins> (!{type:paragraph})+ {type:nom}
/as $x(!{type:paragraph})+ {type:verbe} /as $x (!{type:paragraph})+
</voisins> /sem {id:"$x"} {anchor:end, type:paragraph}
6
Extrait du fichier LinguaStream sur lequel nous avons travaillé
7
Mais…
1. Difficultés rencontrées
Taille de corpus
2. Résultats surgénéralisés et non satisfaisants
3. Manque du formalisme DSDL (Discourse Structure
Description Language) permettant d’exprimer des
contraintes au niveau discursif.
1.
8
2. Premier bilan de l’observation des
données
 Les 23 couples les plus fréquents : les couples qui
partagent au moins 100 paragraphes

Chaque couple -> 10 paragraphes
 14 couples morphologiquement liés, 6 couples en
contexte immédiat, 1 couple non morphologique
(hausse/augmenter), 1 couple marginal
(nombre/compter), 1 couple erroné (coupe/couper dans la
Coupe du Monde)

Dans le cas des couples les plus fréquents, la plupart des
parents distributionnels sont des parents morphologiques.
9
1
1
1
6
14
Morphologique lié
contexte immédiat
non morphologique
marginal
erroné
Résultat de l’analyse manuelle des 23 couples les plus fréquents
10
Perspectives
 Mieux manipuler l’outil
 un autre moyen pour repérer des couples
distributionnels
 Étendre l’observation sur des couples moyennement
fréquents

voisins distributionnels -> construire des chaînes de
cohésion?
11
Références







Bourigault D. (2002) « Upery : un outil d'analyse distributionnelle étendue pour la
construction d’ontologies à partir de corpus », Actes de la 9ème conférence
annuelle sur le Traitement Automatique des Langues (TALN 2002), Nancy, pp.
75-84
Lyons J. (1980), Sémantique linguistique, Larousse, Langue et langage, 496 p.
Morris, J. & Hirst G. (1991), “Lexical cohesion computed by thesaural relations
as an indicator of the structure of text” in Computational Linguistics 17 (pp. 2148) http://acl.ldc.upenn.edu/J/J91/J91-1002.pdf
Teich, E & Fankhauser, P. (2005) ” Exploring Lexical Patterns in Text: Lexical
Cohesion Analysis withWordNet” in Interdisciplinary Studies on Information
Structure 02 (pp.129–145), Dipper, S., M. Götze and M. Stede (eds.):
Heterogeneity in Focus: Creating and Using Linguistic Databases
http://www.sfb632.unipotsdam.de/publications/isis02_7teich-fankhauser.pdf
Vergez-Couret M. (2006) Apprendre Linguastream par l’exemple : Annoter les
marqueurs linguistiques de la relation d’élaboration (en cours de réalisation)
Widlöcher A., Bilhaut F (2005) « La plate-forme LinguaStream : Un outil
d’exploration linguistique sur corpus », TALN juin 2005, pp. 517-522
LinguaStream http://www.linguastream.org
12
Téléchargement