ppt - Nadine Lucas

publicité
TALN 2002
Une méthode pour l'analyse descendante
et calculatoire de corpus multilingues :
application au calcul des relations sujet-verbe
Jacques Vergne
GREYC - Université de Caen
http://www.info.unicaen.fr/~jvergne
Caractéristiques de l'expérience
• expérimenter, explorer, expliquer, transmettre
les méthodes calculatoires
• choix d'une tâche classique, limitée et (apparemment) simple :
détecter et relier sujets et verbes des propositions
avec le plus petit logiciel possible (programme + ressources)
24/6/2002
© Jacques Vergne
TALN 2002
-2-
Relier sujet <—> verbe
• relier pronom ou chunk sujet au chunk verbal
dans chaque proposition
• corpus multilingue (anglais, allemand, français, italien, espagnol)
avec diagnostic de langue : généricité de la méthode ?
• descendant : document —> proposition et chunk,
(avec chunking partiel, sans descendre jusqu'au mot)
• écrit en perl :
- analyse de phrase : 40 Ko
- ressources : 20 Ko pour l'ensemble des 5 langues
24/6/2002
© Jacques Vergne
TALN 2002
-3-
Comment se passer de dictionnaire ?
couplesdedéterminant
terminaison
Avec les débuts
proposition,- les
débuts deverbale
chunks
<[>|<d>L'euro</d> |<V>rend déjà <p>d'éminents</p> services
<[><p>Dans les deux</p> cas |<d>ces systèmes</d>
<p>d'armes</p> |<V>disposent <p>de radars</p>
<[>|<d>Questo tema</d> |<V>rischia <p>di essere</p>
<d>la questione</d> sociale <p>del futuro</p>
<[>|<d>La Bolsa</d> <p>de Tokio</p> |<V>cerró ayer
<p>a su nivel</p> más bajo <p>en 17</p> años
24/6/2002
© Jacques Vergne
TALN 2002
-4-
Comment se passer de dictionnaire ?
Avec les couples déterminant - terminaison verbale
<[>|<d>Das Sternbild</d> nämlich |<V>steht <p>in dieser
Jahreszeit</p> besonders tief <p>am Himmel</p>
<[><p>Bis Ende Oktober</p> |<V>schließt sich |<d>der
Reigen</d> <p>in Connecticut</p>, Massachusetts
<cc>und Rhode Island
<[>|<d>The costs</d> |<V>mount rapidly,
<[cc>But |<d>the Pentagon</d> move |<V>represents
<d>the first</d> significant federal call-up
24/6/2002
© Jacques Vergne
TALN 2002
-5-
Les ressources : toutes celles du français
débuts
de propos.
"à condition que|à condition qu|ainsi que|ainsi qu|auquel|auxquels|combien|comme|comment|dont|dés que|dés
qu|lorsque|lorsqu|même si|où|parce que|parce qu|pourquoi|quand|alors que|alors qu|bien que|bien qu|quoi que|quoi
qu|tandis que|tandis qu|tant que|tant qu|puisque|puisqu|sans que|sans qu|que|qu|qui|sauf si|si"
"et donc|et encore|et ensuite|et même|et non|et pas|et pourtant|et|ou bien|ou même|ou encore|ou|mais
aussi|mais|car|mais|or|puis"
débuts
de
chunks
"quant à|quant au|quant aux|grâce à|grâce au|grâce aux|face à|face au|face aux|à partir de|à partir du|à partir d|à|À|afin
de|afin d|aprés|au-delà d|au-delà de|au-delà du|au-delà des|au|aux|auprés d|auprés de|auprés du|auprés des|autour
d|autour de|autour du|autour des|avant|avec|chez|contre|dans|de par|d'entre|d'où|d|de|des|du|depuis|devant|dés|durant|
en tant que|en tant qu|en|entre|hors d|hors de|hors du|hors des|jusque|jusqu'à|jusqu'au|jusqu'aux|lors d|lors de|lors du|lors
des|malgré|outre|par|parmi|pendant|pour|près de|près d|sans|sauf|sous|selon|sur|vers|via|voire"
"un|une|le|la|l|ce|cet|cette|sa|son|notre|leur|tout|toute|chaque|aucun|aucune|
Un|Une|Le|La|L|Ce|Cet|Cette|Sa|Son|Notre|Leur|Tout|Toute|Chaque|Aucun|Aucune"
"les|ces|ses|leurs|nos|tous|toutes|plusieurs|deux|trois|quatre|cinq|six|sept|huit|neuf|dix|d'autres|certains|quelques|
Les|Ces|Ses|Leurs|Nos|Tous|Toutes|Plusieurs|Deux|Trois|Quatre|Cinq|Six|Sept|Huit|Neuf|Dix|D'autres|Certains|Quelques"
pronoms
sujets
auxiliaires
"je|j|tu|il|elle|l'on|on|c|ça|cela|ceci"
"ils|elles|nous|vous"
"a|avait|aura|ait|aurait|est|était|sera|serait|va|allait|ira|faisait|fera"
"ont|avaient|auront|aient|auraient|sont|étaient|seront|seraient|vont|allaient|iront|font|faisaient|feront"
term.
verbales
"e|a|ed|pand|end|ond|erd|ord|oud|et|it|ît|tient|vient|pent|sent|eint|ort|ut|ût"
"ent|ont"
clitiques
"n'|ne |m'|me |t'|te |s'|se |s'en |s'y |lui |leur |en |y |le |la |les |l'"
24/6/2002
© Jacques Vergne
TALN 2002
-6-
Analyse et Hiérarchies de grains
1 document
extraire
zones textuelles
descente
dans la hiérarchie
des grains physiques
analyseur purement
descendant
segmenter / ponctuation
phrases
segmenter / graphies
proto-propositions
valider, segmenter, relier
propositions
baliser / graphies
proto-chunks
grains physiques
24/6/2002
grains intermédiaires
© Jacques Vergne
TALN 2002
chunks
grains calculés
-7-
Processus d'analyse
1 phrase
débuts de
proposition
segmentation / graphies
proto-propositions
(= hypothèses de prop.)
processus
relier
chunking
sujet
standard
- verbe
partiel
débuts de chunks
auxiliaires, pronoms sujet,
terminaisons verbales
24/6/2002
© Jacques Vergne
sujet & verbe ?
diagnostic
phrase ?
non
propositions
(= 1 proto-propos.)
couper,
postpropositions
relier les
traitement
proto-propositions (= 1/2 proto-propos.
2 proto-propos.)
TALN 2002
-8-
Processus standard : exemple 1
proto-proposition = proposition
Je n'ai jamais dit que l'euro allait remplacer le dollar.
(Ouest-France du 18/10/2001)
• balisage des débuts de proto-propositions
—> segmentation en proto-propositions :
0 : <[>Je n'ai jamais dit
1 : <[cs>que </cs>l'euro allait remplacer le dollar
2 : <[.>.
24/6/2002
© Jacques Vergne
TALN 2002
-9-
Processus standard : exemple 1
• balisage des débuts de chunks
—> chunking partiel dans la graphie de la proto-proposition
• balisage des pronoms, auxiliaires
—> comptage des pronoms et des auxiliaires
0 : <[><pp>Je <V>n'ai jamais dit
[nbpp=1 nbV=1]
1 : <[cs>que </cs><d>l'euro</d> allait remplacer <d>le dollar</d>
[nbpp=0 nbV=0]
2 : <[.>.
24/6/2002
© Jacques Vergne
TALN 2002
-10-
Processus standard : exemple 1
• pour chaque proto-proposition : détecter et relier sujet et verbe
0 : <[>|<pp>Je |<V>n'ai jamais dit
[nbV=1 saturS=1]
1 : <[cs>que </cs>|<d>l'euro</d> |<V>allait remplacer <d>le dollar</d>
[nbV=1 saturS=1]
2 : <[.>.
24/6/2002
© Jacques Vergne
TALN 2002
-11-
Processus standard : exemple 1
• diagnostic de chaque proposition et de la phrase
0 : <[>|<pp>Je |<V>n'ai jamais dit
[nbV=1 saturS=1]
1 : <[cs>que </cs>|<d>l'euro</d> |<V>allait remplacer <d>le dollar</d>
[nbV=1 saturS=1]
2 : <[.>.
• chaque proposition a son sujet et son verbe
et la phrase a une proposition principale (non marquée)
24/6/2002
© Jacques Vergne
TALN 2002
-12-
Processus standard : exemple 2
Eine spektakuläre Operation gelang ihm im November 1974, als er ein
Spenderherz transplantierte, ohne das Herz des Empfängers zu entfernen.
(Der Spiegel du 2/9/2001)
• balisage des débuts de proto-propositions
—> segmentation en proto-propositions :
0 : <[>Eine spektakuläre Operation gelang ihm im November 1974,
1 : <[cs>als </cs>er ein Spenderherz transplantierte,
2 : <[><pi>ohne </pi>das Herz des Empfängers <pi>zu </pi>entfernen
3 : <[.>.
24/6/2002
© Jacques Vergne
TALN 2002
-13-
Processus standard : exemple 2
• balisage des débuts de chunks
—> chunking partiel dans la graphie de la proto-proposition
• balisage des pronoms, auxiliaires
—> comptage des pronoms et des auxiliaires
0 : <[><d>Eine spektakuläre Operation</d> gelang ihm <p>im November</p> 1974,
[nbpp=0 nbV=0]
1 : <[cs>als </cs><pp>er <d>ein Spenderherz</d> transplantierte,
[nbpp=1 nbV=0]
2 : <[><pi>ohne </pi><d>das Herz</d> <p>des Empfängers</p> <pi>zu entfernen</pi>
3 : <[.>.
24/6/2002
© Jacques Vergne
TALN 2002
-14-
Processus standard : exemple 2
• pour chaque proto-proposition : détecter et relier sujet et verbe
0 : <[>|<d>Eine spektakuläre Operation</d> |<V>gelang ihm <p>im November</p> 1974,
[nbV=1 saturS=1]
1 : <[cs>als </cs>|<pp>er <d>ein Spenderherz</d> |<V>transplantierte,
[nbV=1 saturS=1]
2 : <[><pi>ohne </pi><d>das Herz</d> <p>des Empfängers</p> <pi>zu entfernen</pi>
3 : <[.>.
24/6/2002
© Jacques Vergne
TALN 2002
-15-
Processus standard : exemple 2
• diagnostic de chaque proposition et de la phrase
0 : <[>|<d>Eine spektakuläre Operation</d> |<V>gelang ihm <p>im November</p> 1974,
[nbV=1 saturS=1]
1 : <[cs>als </cs>|<pp>er <d>ein Spenderherz</d> |<V>transplantierte,
[nbV=1 saturS=1]
2 : <[><pi>ohne </pi><d>das Herz</d> <p>des Empfängers</p> <pi>zu entfernen</pi>
3 : <[.>.
• chaque proposition a son sujet et son verbe
et la phrase a une proposition principale (non marquée)
24/6/2002
© Jacques Vergne
TALN 2002
-16-
Post-traitement :
proto-proposition =/= proposition
2 opérations sont possibles :
• couper 1 proto-proposition
• relier
24/6/2002
=> 2 propositions
2 proto-propositions => 1 proposition
© Jacques Vergne
TALN 2002
-17-
Post-traitement :
couper une proto-proposition en 2
Résultat du processus standard :
0 : <[cs>Although </cs>|<pp>they |<V>have not ruled out <d>a possibility</d>
[nbV=1 saturS=1]
1 : <[cs>that </cs><d>another criminal</d> <V>could be <p>behind the
anthrax</p>
threads
attacks, investigators <V>are intensely looking <p>at evidentiary</p>
linking <d>the letters</d> <p>to the hijackers</p>
[nbV=2]
2 : <[.>.
2 verbes dans 1 proto-proposition
=> rechercher un point de coupure
24/6/2002
© Jacques Vergne
TALN 2002
-18-
Post-traitement :
couper une proto-proposition en 2
Coupure sur la virgule :
0 : <[cs>Although </cs>|<pp>they |<V>have not ruled out <d>a possibility</d>
[nbV=1 saturS=1]
1 : <[cs>that </cs>|<d>another criminal</d> |<V>could be <p>behind the
anthrax</p>
attacks,
[nbV=1 saturS=1]
2 : <[>|investigators |<V>are intensely looking <p>at evidentiary</p> threads
linking
<d>the letters</d> <p>to the hijackers</p>
[nbV=1 saturS=1]
3 : <[.>.
chaque proposition a maintenant son sujet et son verbe
et la phrase a une proposition principale (non marquée)
24/6/2002
© Jacques Vergne
TALN 2002
-19-
Post-traitement :
couper une proto-proposition en 2
+ relier 2 proto-propositions
Résultat du processus standard :
0 : <[><d>Les tueurs</d>,
[nbV=0]
1 : <[pr>|qui </pr>|<V>ont assassiné Rehavam Zeevi, ministre
israélien
<p>du Tourisme</p>, appartiennent <p>au camp</p>
<p>des
ennemis</p> <p>de la paix</p>
[nbV=1 saturS=1]
2 : <[.>.
1 proto-proposition n'a pas de verbe
=> tenter de couper - relier
24/6/2002
© Jacques Vergne
TALN 2002
-20-
Post-traitement :
couper une proto-proposition en 2
+ relier 2 proto-propositions
Processus
ping-pong :
Couper la proto-proposition
1 en 2 proto-propositions :
ping du sujet = mettre un candidat sujet en attente
0 : <[>|<d>Les tueurs</d>,
[nbV=0 S_en_attente=plur]
(ping du sujet?)
1 : <[pr>|qui </pr>|<V>ont assassiné Rehavam Zeevi, ministre
israélien
<p>du Tourisme</p>, appartiennent <p>au camp</p>
<p>des
ennemis</p> <p>de la paix</p>
[nbV=1 saturS=1]
24/6/2002
© Jacques Vergne
TALN 2002
-21-
Post-traitement :
couper une proto-proposition en 2
+ relier 2 proto-propositions
Couper la proto-proposition 1 en 2 proto-propositions :
0 : <[>|<d>Les tueurs</d>,
[nbV=0 S_en_attente=plur]
(ping du sujet?)
1 : <[pr>|qui </pr>|<V>ont assassiné Rehavam Zeevi, ministre
israélien
<p>du Tourisme</p>,
[nbV=1 saturS=1]
2 : <[>appartiennent <p>au camp</p> <p>des ennemis</p> <p>de
la
paix</p>
[nbV=0]
24/6/2002
© Jacques Vergne
TALN 2002
-22-
Post-traitement :
couper une proto-proposition en 2
+ relier 2 proto-propositions
Processus ping-pong :
pong du verbe =  un candidat sujet en attente & terminaison verbale accordée
0 : <[>|<d>Les tueurs</d>,
[nbV=0 S_en_attente=0 lienS=2]
(ping du sujet?)
1 : <[pr>|qui </pr>|<V>ont assassiné Rehavam Zeevi, ministre
israélien
<p>du Tourisme</p>,
[nbV=1 saturS=1]
2 : <[>|<V>appartiennent <p>au camp</p> <p>des ennemis</p> <p>de
la
paix</p>
[nbV=1 saturS=1 lienS=0]
(pong du verbe)
3 : <[.>.
chaque proposition a maintenant son sujet et son verbe
et la phrase a une proposition principale (non marquée)
24/6/2002
© Jacques Vergne
TALN 2002
-23-
Implantation du modèle linguistique
grains représentés
dans une structure
répétitive
grains balisés
dans la graphie des
(proto-)propositions
dans la structure
répétitive des
(proto-)propositions
24/6/2002
phrases
proto-propositions
propositions
proto-chunks
chunks
grains
intermédiaires
grains
calculés
grains
physiques
© Jacques Vergne
TALN 2002
-24-
Objectifs du Groupe Syntaxe du GREYC
• recherche de solutions minimales :
pour une tâche donnée, minimiser les moyens utilisés
- tout petits programmes
- algorithmes très simples
- solutions calculatoires (sans exploration combinatoire) :
. calcul sur des formes et leurs positions
- bases linguistiques minimales :
. utilisation de très peu de propriétés,
seulement celles qui servent aux calculs
. très peu de ressources
(typographiques, morphologiques)
24/6/2002
© Jacques Vergne
TALN 2002
-25-
Des petits programmes !
• comment ?
en utilisant des propriétés linguistiques
définies en compréhension
et non pas en extension
• pourquoi ?
parce que ces propriétés sont intéressantes :
24/6/2002
en petit nombre,
abstraites
comprendre
opératoires
efficaces
agir
© Jacques Vergne
TALN 2002
-26-
Conclusions (provisoires)
• des tâches classiques sont faisables
avec des moyens minimaux (quasi absence de dictionnaire)
d'autres tâches : calcul du discours rapporté, recherche des explications
cf. Nadine Lucas (GREYC) et Emmanuel Giguet (LATTICE)
• l'économie de moyens facilite le travail :
- on fait l'économie des ressources lexicales (coût inférieur)
- facilité d'ajout d'une nouvelle langue
- toujours au dessus du mot
• débuts d'une voie prometteuse
• encore du chemin ...
24/6/2002
© Jacques Vergne
TALN 2002
-27-
Fin de l'exposé
vos questions ?
24/6/2002
© Jacques Vergne
TALN 2002
-28-
à télécharger
• vous pouvez télécharger cette présentation sur
http://www.info.unicaen.fr/~jvergne/TALN2002_JVergne.dia
• voir aussi ma présentation à TALN 2001
"Analyse syntaxique automatique de langues : du combinatoire au calculatoire "
sur
http://www.info.unicaen.fr/~jvergne/TALN2001_JV.ppt
• voir aussi mon tutoriel du Coling 2000
"Trends in Robust Parsing"
sur
http://www.info.unicaen.fr/~jvergne/tutorialColing2000.html
(présentation et références)
24/6/2002
© Jacques Vergne
TALN 2002
-29-
24/6/2002
© Jacques Vergne
TALN 2002
-30-
Analyse et Hiérarchies de grains
1 document
analyseurs
classiques
segmenter
phrases
syntagmes récursifs, phrase
descente
dans la hiérarchie
des grains physiques
montée
dans la hiérarchie
des grains calculés
24/6/2002
segmenter
regrouper tokens et synt.
tokens
grains
physiques
© Jacques Vergne
TALN 2002
grains
calculés
-31-
Analyse et Hiérarchies de grains
1 document
analyseur
98
segmenter
descente
dans la hiérarchie
des grains physiques
segmenter
montée
dans la hiérarchie
des grains calculés
24/6/2002
relier les chunks
chunks
phrases
regrouper les tokens
tokens
grains
physiques
© Jacques Vergne
TALN 2002
grains
calculés
-32-
Analyse et Hiérarchies de grains
1 document
analyseur
du GREYC
descente
dans la hiérarchie
des grains physiques
montée
dans la hiérarchie
des grains calculés
24/6/2002
phrases
extraire
regrouper et relier
propositions
zones textuelles
regrouper et relier
chunks
segmenter
tokens
regrouper et relier
grains
physiques
grains
calculés
© Jacques Vergne
TALN 2002
-33-
Post-traitement :
relier 2 proto-propositions
Résultat du processus standard :
0 : <[><d>Eine junge Südafrikanerin</d>,
[nbV=0]
1 : <[pr>|die </pr>1969 <d>ein neues Herz</d> |<V>erhielt,
[nbV=1 saturS=1]
2 : <[>überlebte damit zwölf Jahre
[nbV=0]
3 : <[.>.
2 proto-propositions n'ont pas de verbe
=> tenter de les relier
24/6/2002
© Jacques Vergne
TALN 2002
-34-
Post-traitement :
relier 2 proto-propositions
Relier la proto-proposition 0 à la proto-proposition 2
par le processus ping-pong :
0 : <[>|<d>Eine junge Südafrikanerin</d>,
[nbV=0 S_en_attente=1]
(ping du sujet)
1 : <[pr>|die </pr>1969 <d>ein neues Herz</d> |<V>erhielt,
[nbV=1 saturS=1]
2 : <[>überlebte damit zwölf Jahre
[nbV=0]
24/6/2002
© Jacques Vergne
TALN 2002
-35-
Post-traitement :
relier 2 proto-propositions
Relier la proto-proposition 0 à la proto-proposition 2
par le processus ping-pong :
0 : <[>|<d>Eine junge Südafrikanerin</d>,
[nbV=0 S_en_attente=0 lienS=2]
(ping du sujet)
1 : <[pr>|die </pr>1969 <d>ein neues Herz</d> |<V>erhielt,
[nbV=1 saturS=1]
2 : <[>|<V>überlebte damit zwölf Jahre
[nbV=1 saturS=1 lienS=0]
(pong du verbe)
3 : <[.>.
chaque proposition a maintenant son sujet et son verbe
et la phrase a une proposition principale (non marquée)
24/6/2002
© Jacques Vergne
TALN 2002
-36-
Téléchargement