TALN 2002 Une méthode pour l'analyse descendante et calculatoire de corpus multilingues : application au calcul des relations sujet-verbe Jacques Vergne GREYC - Université de Caen http://www.info.unicaen.fr/~jvergne Caractéristiques de l'expérience • expérimenter, explorer, expliquer, transmettre les méthodes calculatoires • choix d'une tâche classique, limitée et (apparemment) simple : détecter et relier sujets et verbes des propositions avec le plus petit logiciel possible (programme + ressources) 24/6/2002 © Jacques Vergne TALN 2002 -2- Relier sujet <—> verbe • relier pronom ou chunk sujet au chunk verbal dans chaque proposition • corpus multilingue (anglais, allemand, français, italien, espagnol) avec diagnostic de langue : généricité de la méthode ? • descendant : document —> proposition et chunk, (avec chunking partiel, sans descendre jusqu'au mot) • écrit en perl : - analyse de phrase : 40 Ko - ressources : 20 Ko pour l'ensemble des 5 langues 24/6/2002 © Jacques Vergne TALN 2002 -3- Comment se passer de dictionnaire ? couplesdedéterminant terminaison Avec les débuts proposition,- les débuts deverbale chunks <[>|<d>L'euro</d> |<V>rend déjà <p>d'éminents</p> services <[><p>Dans les deux</p> cas |<d>ces systèmes</d> <p>d'armes</p> |<V>disposent <p>de radars</p> <[>|<d>Questo tema</d> |<V>rischia <p>di essere</p> <d>la questione</d> sociale <p>del futuro</p> <[>|<d>La Bolsa</d> <p>de Tokio</p> |<V>cerró ayer <p>a su nivel</p> más bajo <p>en 17</p> años 24/6/2002 © Jacques Vergne TALN 2002 -4- Comment se passer de dictionnaire ? Avec les couples déterminant - terminaison verbale <[>|<d>Das Sternbild</d> nämlich |<V>steht <p>in dieser Jahreszeit</p> besonders tief <p>am Himmel</p> <[><p>Bis Ende Oktober</p> |<V>schließt sich |<d>der Reigen</d> <p>in Connecticut</p>, Massachusetts <cc>und Rhode Island <[>|<d>The costs</d> |<V>mount rapidly, <[cc>But |<d>the Pentagon</d> move |<V>represents <d>the first</d> significant federal call-up 24/6/2002 © Jacques Vergne TALN 2002 -5- Les ressources : toutes celles du français débuts de propos. "à condition que|à condition qu|ainsi que|ainsi qu|auquel|auxquels|combien|comme|comment|dont|dés que|dés qu|lorsque|lorsqu|même si|où|parce que|parce qu|pourquoi|quand|alors que|alors qu|bien que|bien qu|quoi que|quoi qu|tandis que|tandis qu|tant que|tant qu|puisque|puisqu|sans que|sans qu|que|qu|qui|sauf si|si" "et donc|et encore|et ensuite|et même|et non|et pas|et pourtant|et|ou bien|ou même|ou encore|ou|mais aussi|mais|car|mais|or|puis" débuts de chunks "quant à|quant au|quant aux|grâce à|grâce au|grâce aux|face à|face au|face aux|à partir de|à partir du|à partir d|à|À|afin de|afin d|aprés|au-delà d|au-delà de|au-delà du|au-delà des|au|aux|auprés d|auprés de|auprés du|auprés des|autour d|autour de|autour du|autour des|avant|avec|chez|contre|dans|de par|d'entre|d'où|d|de|des|du|depuis|devant|dés|durant| en tant que|en tant qu|en|entre|hors d|hors de|hors du|hors des|jusque|jusqu'à|jusqu'au|jusqu'aux|lors d|lors de|lors du|lors des|malgré|outre|par|parmi|pendant|pour|près de|près d|sans|sauf|sous|selon|sur|vers|via|voire" "un|une|le|la|l|ce|cet|cette|sa|son|notre|leur|tout|toute|chaque|aucun|aucune| Un|Une|Le|La|L|Ce|Cet|Cette|Sa|Son|Notre|Leur|Tout|Toute|Chaque|Aucun|Aucune" "les|ces|ses|leurs|nos|tous|toutes|plusieurs|deux|trois|quatre|cinq|six|sept|huit|neuf|dix|d'autres|certains|quelques| Les|Ces|Ses|Leurs|Nos|Tous|Toutes|Plusieurs|Deux|Trois|Quatre|Cinq|Six|Sept|Huit|Neuf|Dix|D'autres|Certains|Quelques" pronoms sujets auxiliaires "je|j|tu|il|elle|l'on|on|c|ça|cela|ceci" "ils|elles|nous|vous" "a|avait|aura|ait|aurait|est|était|sera|serait|va|allait|ira|faisait|fera" "ont|avaient|auront|aient|auraient|sont|étaient|seront|seraient|vont|allaient|iront|font|faisaient|feront" term. verbales "e|a|ed|pand|end|ond|erd|ord|oud|et|it|ît|tient|vient|pent|sent|eint|ort|ut|ût" "ent|ont" clitiques "n'|ne |m'|me |t'|te |s'|se |s'en |s'y |lui |leur |en |y |le |la |les |l'" 24/6/2002 © Jacques Vergne TALN 2002 -6- Analyse et Hiérarchies de grains 1 document extraire zones textuelles descente dans la hiérarchie des grains physiques analyseur purement descendant segmenter / ponctuation phrases segmenter / graphies proto-propositions valider, segmenter, relier propositions baliser / graphies proto-chunks grains physiques 24/6/2002 grains intermédiaires © Jacques Vergne TALN 2002 chunks grains calculés -7- Processus d'analyse 1 phrase débuts de proposition segmentation / graphies proto-propositions (= hypothèses de prop.) processus relier chunking sujet standard - verbe partiel débuts de chunks auxiliaires, pronoms sujet, terminaisons verbales 24/6/2002 © Jacques Vergne sujet & verbe ? diagnostic phrase ? non propositions (= 1 proto-propos.) couper, postpropositions relier les traitement proto-propositions (= 1/2 proto-propos. 2 proto-propos.) TALN 2002 -8- Processus standard : exemple 1 proto-proposition = proposition Je n'ai jamais dit que l'euro allait remplacer le dollar. (Ouest-France du 18/10/2001) • balisage des débuts de proto-propositions —> segmentation en proto-propositions : 0 : <[>Je n'ai jamais dit 1 : <[cs>que </cs>l'euro allait remplacer le dollar 2 : <[.>. 24/6/2002 © Jacques Vergne TALN 2002 -9- Processus standard : exemple 1 • balisage des débuts de chunks —> chunking partiel dans la graphie de la proto-proposition • balisage des pronoms, auxiliaires —> comptage des pronoms et des auxiliaires 0 : <[><pp>Je <V>n'ai jamais dit [nbpp=1 nbV=1] 1 : <[cs>que </cs><d>l'euro</d> allait remplacer <d>le dollar</d> [nbpp=0 nbV=0] 2 : <[.>. 24/6/2002 © Jacques Vergne TALN 2002 -10- Processus standard : exemple 1 • pour chaque proto-proposition : détecter et relier sujet et verbe 0 : <[>|<pp>Je |<V>n'ai jamais dit [nbV=1 saturS=1] 1 : <[cs>que </cs>|<d>l'euro</d> |<V>allait remplacer <d>le dollar</d> [nbV=1 saturS=1] 2 : <[.>. 24/6/2002 © Jacques Vergne TALN 2002 -11- Processus standard : exemple 1 • diagnostic de chaque proposition et de la phrase 0 : <[>|<pp>Je |<V>n'ai jamais dit [nbV=1 saturS=1] 1 : <[cs>que </cs>|<d>l'euro</d> |<V>allait remplacer <d>le dollar</d> [nbV=1 saturS=1] 2 : <[.>. • chaque proposition a son sujet et son verbe et la phrase a une proposition principale (non marquée) 24/6/2002 © Jacques Vergne TALN 2002 -12- Processus standard : exemple 2 Eine spektakuläre Operation gelang ihm im November 1974, als er ein Spenderherz transplantierte, ohne das Herz des Empfängers zu entfernen. (Der Spiegel du 2/9/2001) • balisage des débuts de proto-propositions —> segmentation en proto-propositions : 0 : <[>Eine spektakuläre Operation gelang ihm im November 1974, 1 : <[cs>als </cs>er ein Spenderherz transplantierte, 2 : <[><pi>ohne </pi>das Herz des Empfängers <pi>zu </pi>entfernen 3 : <[.>. 24/6/2002 © Jacques Vergne TALN 2002 -13- Processus standard : exemple 2 • balisage des débuts de chunks —> chunking partiel dans la graphie de la proto-proposition • balisage des pronoms, auxiliaires —> comptage des pronoms et des auxiliaires 0 : <[><d>Eine spektakuläre Operation</d> gelang ihm <p>im November</p> 1974, [nbpp=0 nbV=0] 1 : <[cs>als </cs><pp>er <d>ein Spenderherz</d> transplantierte, [nbpp=1 nbV=0] 2 : <[><pi>ohne </pi><d>das Herz</d> <p>des Empfängers</p> <pi>zu entfernen</pi> 3 : <[.>. 24/6/2002 © Jacques Vergne TALN 2002 -14- Processus standard : exemple 2 • pour chaque proto-proposition : détecter et relier sujet et verbe 0 : <[>|<d>Eine spektakuläre Operation</d> |<V>gelang ihm <p>im November</p> 1974, [nbV=1 saturS=1] 1 : <[cs>als </cs>|<pp>er <d>ein Spenderherz</d> |<V>transplantierte, [nbV=1 saturS=1] 2 : <[><pi>ohne </pi><d>das Herz</d> <p>des Empfängers</p> <pi>zu entfernen</pi> 3 : <[.>. 24/6/2002 © Jacques Vergne TALN 2002 -15- Processus standard : exemple 2 • diagnostic de chaque proposition et de la phrase 0 : <[>|<d>Eine spektakuläre Operation</d> |<V>gelang ihm <p>im November</p> 1974, [nbV=1 saturS=1] 1 : <[cs>als </cs>|<pp>er <d>ein Spenderherz</d> |<V>transplantierte, [nbV=1 saturS=1] 2 : <[><pi>ohne </pi><d>das Herz</d> <p>des Empfängers</p> <pi>zu entfernen</pi> 3 : <[.>. • chaque proposition a son sujet et son verbe et la phrase a une proposition principale (non marquée) 24/6/2002 © Jacques Vergne TALN 2002 -16- Post-traitement : proto-proposition =/= proposition 2 opérations sont possibles : • couper 1 proto-proposition • relier 24/6/2002 => 2 propositions 2 proto-propositions => 1 proposition © Jacques Vergne TALN 2002 -17- Post-traitement : couper une proto-proposition en 2 Résultat du processus standard : 0 : <[cs>Although </cs>|<pp>they |<V>have not ruled out <d>a possibility</d> [nbV=1 saturS=1] 1 : <[cs>that </cs><d>another criminal</d> <V>could be <p>behind the anthrax</p> threads attacks, investigators <V>are intensely looking <p>at evidentiary</p> linking <d>the letters</d> <p>to the hijackers</p> [nbV=2] 2 : <[.>. 2 verbes dans 1 proto-proposition => rechercher un point de coupure 24/6/2002 © Jacques Vergne TALN 2002 -18- Post-traitement : couper une proto-proposition en 2 Coupure sur la virgule : 0 : <[cs>Although </cs>|<pp>they |<V>have not ruled out <d>a possibility</d> [nbV=1 saturS=1] 1 : <[cs>that </cs>|<d>another criminal</d> |<V>could be <p>behind the anthrax</p> attacks, [nbV=1 saturS=1] 2 : <[>|investigators |<V>are intensely looking <p>at evidentiary</p> threads linking <d>the letters</d> <p>to the hijackers</p> [nbV=1 saturS=1] 3 : <[.>. chaque proposition a maintenant son sujet et son verbe et la phrase a une proposition principale (non marquée) 24/6/2002 © Jacques Vergne TALN 2002 -19- Post-traitement : couper une proto-proposition en 2 + relier 2 proto-propositions Résultat du processus standard : 0 : <[><d>Les tueurs</d>, [nbV=0] 1 : <[pr>|qui </pr>|<V>ont assassiné Rehavam Zeevi, ministre israélien <p>du Tourisme</p>, appartiennent <p>au camp</p> <p>des ennemis</p> <p>de la paix</p> [nbV=1 saturS=1] 2 : <[.>. 1 proto-proposition n'a pas de verbe => tenter de couper - relier 24/6/2002 © Jacques Vergne TALN 2002 -20- Post-traitement : couper une proto-proposition en 2 + relier 2 proto-propositions Processus ping-pong : Couper la proto-proposition 1 en 2 proto-propositions : ping du sujet = mettre un candidat sujet en attente 0 : <[>|<d>Les tueurs</d>, [nbV=0 S_en_attente=plur] (ping du sujet?) 1 : <[pr>|qui </pr>|<V>ont assassiné Rehavam Zeevi, ministre israélien <p>du Tourisme</p>, appartiennent <p>au camp</p> <p>des ennemis</p> <p>de la paix</p> [nbV=1 saturS=1] 24/6/2002 © Jacques Vergne TALN 2002 -21- Post-traitement : couper une proto-proposition en 2 + relier 2 proto-propositions Couper la proto-proposition 1 en 2 proto-propositions : 0 : <[>|<d>Les tueurs</d>, [nbV=0 S_en_attente=plur] (ping du sujet?) 1 : <[pr>|qui </pr>|<V>ont assassiné Rehavam Zeevi, ministre israélien <p>du Tourisme</p>, [nbV=1 saturS=1] 2 : <[>appartiennent <p>au camp</p> <p>des ennemis</p> <p>de la paix</p> [nbV=0] 24/6/2002 © Jacques Vergne TALN 2002 -22- Post-traitement : couper une proto-proposition en 2 + relier 2 proto-propositions Processus ping-pong : pong du verbe = un candidat sujet en attente & terminaison verbale accordée 0 : <[>|<d>Les tueurs</d>, [nbV=0 S_en_attente=0 lienS=2] (ping du sujet?) 1 : <[pr>|qui </pr>|<V>ont assassiné Rehavam Zeevi, ministre israélien <p>du Tourisme</p>, [nbV=1 saturS=1] 2 : <[>|<V>appartiennent <p>au camp</p> <p>des ennemis</p> <p>de la paix</p> [nbV=1 saturS=1 lienS=0] (pong du verbe) 3 : <[.>. chaque proposition a maintenant son sujet et son verbe et la phrase a une proposition principale (non marquée) 24/6/2002 © Jacques Vergne TALN 2002 -23- Implantation du modèle linguistique grains représentés dans une structure répétitive grains balisés dans la graphie des (proto-)propositions dans la structure répétitive des (proto-)propositions 24/6/2002 phrases proto-propositions propositions proto-chunks chunks grains intermédiaires grains calculés grains physiques © Jacques Vergne TALN 2002 -24- Objectifs du Groupe Syntaxe du GREYC • recherche de solutions minimales : pour une tâche donnée, minimiser les moyens utilisés - tout petits programmes - algorithmes très simples - solutions calculatoires (sans exploration combinatoire) : . calcul sur des formes et leurs positions - bases linguistiques minimales : . utilisation de très peu de propriétés, seulement celles qui servent aux calculs . très peu de ressources (typographiques, morphologiques) 24/6/2002 © Jacques Vergne TALN 2002 -25- Des petits programmes ! • comment ? en utilisant des propriétés linguistiques définies en compréhension et non pas en extension • pourquoi ? parce que ces propriétés sont intéressantes : 24/6/2002 en petit nombre, abstraites comprendre opératoires efficaces agir © Jacques Vergne TALN 2002 -26- Conclusions (provisoires) • des tâches classiques sont faisables avec des moyens minimaux (quasi absence de dictionnaire) d'autres tâches : calcul du discours rapporté, recherche des explications cf. Nadine Lucas (GREYC) et Emmanuel Giguet (LATTICE) • l'économie de moyens facilite le travail : - on fait l'économie des ressources lexicales (coût inférieur) - facilité d'ajout d'une nouvelle langue - toujours au dessus du mot • débuts d'une voie prometteuse • encore du chemin ... 24/6/2002 © Jacques Vergne TALN 2002 -27- Fin de l'exposé vos questions ? 24/6/2002 © Jacques Vergne TALN 2002 -28- à télécharger • vous pouvez télécharger cette présentation sur http://www.info.unicaen.fr/~jvergne/TALN2002_JVergne.dia • voir aussi ma présentation à TALN 2001 "Analyse syntaxique automatique de langues : du combinatoire au calculatoire " sur http://www.info.unicaen.fr/~jvergne/TALN2001_JV.ppt • voir aussi mon tutoriel du Coling 2000 "Trends in Robust Parsing" sur http://www.info.unicaen.fr/~jvergne/tutorialColing2000.html (présentation et références) 24/6/2002 © Jacques Vergne TALN 2002 -29- 24/6/2002 © Jacques Vergne TALN 2002 -30- Analyse et Hiérarchies de grains 1 document analyseurs classiques segmenter phrases syntagmes récursifs, phrase descente dans la hiérarchie des grains physiques montée dans la hiérarchie des grains calculés 24/6/2002 segmenter regrouper tokens et synt. tokens grains physiques © Jacques Vergne TALN 2002 grains calculés -31- Analyse et Hiérarchies de grains 1 document analyseur 98 segmenter descente dans la hiérarchie des grains physiques segmenter montée dans la hiérarchie des grains calculés 24/6/2002 relier les chunks chunks phrases regrouper les tokens tokens grains physiques © Jacques Vergne TALN 2002 grains calculés -32- Analyse et Hiérarchies de grains 1 document analyseur du GREYC descente dans la hiérarchie des grains physiques montée dans la hiérarchie des grains calculés 24/6/2002 phrases extraire regrouper et relier propositions zones textuelles regrouper et relier chunks segmenter tokens regrouper et relier grains physiques grains calculés © Jacques Vergne TALN 2002 -33- Post-traitement : relier 2 proto-propositions Résultat du processus standard : 0 : <[><d>Eine junge Südafrikanerin</d>, [nbV=0] 1 : <[pr>|die </pr>1969 <d>ein neues Herz</d> |<V>erhielt, [nbV=1 saturS=1] 2 : <[>überlebte damit zwölf Jahre [nbV=0] 3 : <[.>. 2 proto-propositions n'ont pas de verbe => tenter de les relier 24/6/2002 © Jacques Vergne TALN 2002 -34- Post-traitement : relier 2 proto-propositions Relier la proto-proposition 0 à la proto-proposition 2 par le processus ping-pong : 0 : <[>|<d>Eine junge Südafrikanerin</d>, [nbV=0 S_en_attente=1] (ping du sujet) 1 : <[pr>|die </pr>1969 <d>ein neues Herz</d> |<V>erhielt, [nbV=1 saturS=1] 2 : <[>überlebte damit zwölf Jahre [nbV=0] 24/6/2002 © Jacques Vergne TALN 2002 -35- Post-traitement : relier 2 proto-propositions Relier la proto-proposition 0 à la proto-proposition 2 par le processus ping-pong : 0 : <[>|<d>Eine junge Südafrikanerin</d>, [nbV=0 S_en_attente=0 lienS=2] (ping du sujet) 1 : <[pr>|die </pr>1969 <d>ein neues Herz</d> |<V>erhielt, [nbV=1 saturS=1] 2 : <[>|<V>überlebte damit zwölf Jahre [nbV=1 saturS=1 lienS=0] (pong du verbe) 3 : <[.>. chaque proposition a maintenant son sujet et son verbe et la phrase a une proposition principale (non marquée) 24/6/2002 © Jacques Vergne TALN 2002 -36-