Modélisation linguistique du contexte pour l'extraction d'information Ismaïl El Maarouf Lab. Valoria Université Bretagne Sud UEB Séminaire du CENTAL - 28/10/2011 1/46 Introduction Extraction d'Information Permettre l'accès au contenu des documents Compréhension partielle Recherche ciblée Besoins constants Quantité de textes Variété des sources d'information 2/46 Plan 1. Extraction d'information 2. Contexte et Données 3. Étude de cas 4. Modèle de segmentation 5. Relation Inter-segment 6. Relation Intra-segment 7. Sémantique et Genre 3/46 1. Extraction d'information 4/46 1.Extraction d'Information MUC-3(1991) Information structurée dans un Template 5/46 1.Extraction d'Information MUC-6 (1995) 4 tâches : EN, TE Co-référence et Template Entité Nommée (1) Mr. <ENAMEX TYPE="PERSON"> Dooner </ENAMEX> met with <ENAMEX TYPE="PERSON"> Martin Puris </ENAMEX>, president and chief executive officer of <ENAMEX TYPE="ORGANIZATION"> Ammirati & Puris </ENAMEX>, about <ENAMEX TYPE="ORGANIZATION"> McCann </ENAMEX>'s acquiring the agency with billings of <NUMEX TYPE="MONEY"> $400 million </NUMEX>, but nothing has materialized. ACE (2002) Relations entre EN (Role, Part, At, Near, Social) 6/46 1.Extraction d'Information MUC Corpus spécifiques (domaine, style) Protocole d'Évaluation (train/test) Normalisation des mesures des systèmes 7/46 1.Extraction d'Information Systèmes de RCEN Symboliques (Rosset et al. 2006, … ) Supervisés (Bikel et al. 1999, … ) Ressources et patrons Features et modèles statistiques Semi-supervisés (Riloff et Jones 1999, … ) Mots-germes et Bootstrapping 8/46 1.Extraction d'Information Variation des EN Forme : Majuscule, expression définies, etc. Sens : Triade P-O-L, Valeurs, Produits, etc. Granularité + Discours : Métonymie (Semeval-7) + Domaine : médical / financier, etc. Besoin d'analyse du contexte 9/46 2. Contexte de recherche et Corpus 10/46 Contexte de Recherche Projet EmotiRob (ANR, Valoria, LI, Adicore) Projet RITEL (Limsi) 11/46 Corpus Conte (EmotiRob) Biographie (RITEL) 138 textes / 160 000 occ. 430 textes / 727 000 occ. Presse (RITEL) 43 450 textes / 22 000 000 occ. 12/46 Annotation de Corpus Conte Tree-tagger Annotation référentielle manuelle Annotation syntaxique en dépendance manuelle Biographie et Presse Ritel-nca (entités : EN + POS + … ) Chunking (Villaneau et al., 2007) Segmentation discursive de surface 13/46 Objectifs Extraction automatique de relation sémantique Appliquer des modèles sémantiques en corpus Acquérir des connaissances à partir de corpus Adapter les systèmes symboliques 14/46 3. Étude de cas 15/46 Étude de cas Extraction d'Information Biographique Détecter les relations liées aux personnes (EN-QR) En structurant leur contexte (patron lexico-syntaxique) À partir d'une représentation riche (2) Patricia Highsmith est morte le 4 février 1995 dans un hôpital de Locarno 16/46 Méthode Linguistique de Corpus Faire émerger les relations sémantiques & guider l'analyse Mot-cible : unité lexicale (porteur du frame) fortement associée à l'EN Environnement : Rnc + Chunking + Position Profil contextuel (Smadja, 1993) d'entités 17/46 Limites Variation syntaxique de structures sémantiques Ordre linéaire : multiplication des règles [Pers] est né à [Lieu] en [Tps] [Pers] est né en [Tps] à [Lieu] Naissance (Personne, Lieu, Date) Interruption : Complexité des règles (3) Raymond Lulle (Ramon Llull en catalan) (né v. 1235 à Palma de Majorque mort en 1315) était un laïc proche des franciscains (peut-ętre appartint-il au Tiers Ordre des Mineurs), philosophe, alchimiste, poète, mystique et missionnaire catalan du XIIIe siècle, descendant d' une 18/46 famille noble catalane. 4. Modèle de segmentation 19/46 Modèle proposé Segmentation discursive de surface Segment : unité ≥ chunk Type de segment et classe de frontière Frontière forte .!?;... → Segment fort Frontière semi-faible ()[]"" → Segment semi-faible Frontière faible , conjonctions et connecteurs Raisonner sur les segments Taille Nature des frontières Contenu 20/46 Visualiser les segments (4) M. Deleuze est en croatie Relations intra-segment (rouge) et inter-segment (violet) 21/46 Quelques statistiques (1) Presse (dev-17) : 70-80 segments/article Nature des frontières 22/46 Quelques statistiques (2) Taille Contenu 23/46 5. Relations inter-segments 24/46 Relation Inter-Segment Grammaire de segments (GS) Parenthétiques, Insertions, Appositions, listes, etc. (5) Le sommet des Amériques, réuni à Monterrey (Mexique), les 12 et 13 janvier, se penche sur la ... 25/46 Comparatif avec/sans GS Triplets syntaxiques Gauche Droite 26/46 Évaluation (1) Détection de sujet à longue distance Verbe annoncer (5309 occ. 87%) Variété de structures syntaxiques (sujet inv., … ) Potentiel de 34 catégories (G&D) pour M1 et M2 (6) le groupe Publicis a annoncé, jeudi 8 janvier, la création de Publicis Events Worldwide Résultats M1: XV M2: XVY 27/46 Évaluation (2) M1 28/46 Évaluation (3) +M2 29/46 6. Relations intra-segments 30/46 Relations Intra-Segment Désambiguisation d'EN Relation sémantique et Désambiguïsation Conventions d'annotation et contexte d'application Extraction automatique de patron et correction 31/46 Modèles d'extraction (1) Évaluation intra-segment (>1) 3 modèles d'information (7) [Jacques Monod rappelait au colloque de Caen] que ... 32/46 Modèles d'extraction (2) Modèle de score de patron Probabilité Information Mutuelle Modèle de score de segment Max, Mean, Prod 33/46 Évaluation (1) Annotation (200 articles de presse) 1426 organisations, 1004 lieux et 1377 personnes EN correctement détectées (Rnc) Performance des modèles (F-mesure) Lieu Organisation Personne 34/46 Evaluation (2) Potentiel de correction (MAX) Résultats 35/46 7. Sémantique et Genre 36/46 Texte et Sens EN ↔ Catégories ontologiques Type (LG, CPA) et rôle (F-Net) sémantiques Ontologie (Animé, Humain, Objet, etc.) Cadre (Agent, Conducteur, Vendeur, etc.) Restrictions de sélection Type sémantique désambiguïsant Pertinence pour les systèmes ? Validité en corpus ? 37/46 Sémantique du conte Annotation référentielle "Vous [homme] avez probablement mangé autant de lapins dans votre [homme] vie que moi [animal] et chassé autant de bętes que nous [animal] tous ensemble." Alternance de type et transferts sémantiques Sujets du verbe dire Conversions majeures de type 38/46 Alternance sémantique et Genre Outil quantitatif de caractérisation Couples syntaxiques +Type sémantique Comparaison Conte et Presse Lexique commun Mesure de distance (productivité) Clustering (CAH) Indice de Ward (Minimiser l'inertie intra-classe) 39/46 Ontologie 40/46 Dendrogramme des contes 41/46 Dendrogramme de presse 42/46 Conclusion Impact du genre Importance du contexte d'application Modèles d'extraction Méthode de segmentation 43/46 Perspectives Explorer les divergences entre type et rôle Identifier d'autres types de relations ou contextes discriminants Modéliser et acquérir automatiquement des phénomènes spécifiques Approfondir et évaluer le modèle de segmentation (étude contrastive) 44/46 Quelques références Bikel Daniel M., Schwartz Richard & Weischedel Ralph M., 1999, « An Algorithm that Learns What‘s in a Name », Machine Learning, vol. 34, no. 1-3, p. 211–231. Fillmore Charles J., , 1982, « Frame Semantics », Linguistics in the Morning Calm, SICOL 1981, 1982, Séoul, The Linguistic Society of Korea, p. 111-137. Hanks Patrick W., 2008, « Lexical Patterns: From Hornby to Hunston and Beyond », Euralex, 2008, Barcelone, p. 89129. Nadeau David & Sekine Satoshi, 2007, « A survey of named entity recognition and classification », Lingvisticae Investigationes, vol. 30, no. 1, p. 3–26. Riloff Ellen & Jones Rosie, 1999, « Learning dictionaries for information extraction by multi-level bootstrapping », 16th national conference on Artificial intelligence and the eleventh Innovative applications of artificial intelligence conference innovative applications of artificial intelligence, 1999, Menlo Park (Ca) (AAAI ’99/IAAI ’99), p. 474– 479. Rosset Sophie, Galibert Olivier, Illouz Gabriel & Max Aurélien, 2005, « Interaction et recherche d’information : le projet RITEL », TAL, vol. 46, no. 3, p. 155-179. Sinclair John McH, 1991, Corpus, Concordance, Collocation, Oxford, Oxford University Press. 45/46 Merci 46/46