Modélisation linguistique du contexte pour l`extraction d

publicité
Modélisation linguistique
du contexte
pour l'extraction d'information
Ismaïl El Maarouf
Lab. Valoria Université Bretagne Sud UEB
Séminaire du CENTAL - 28/10/2011
1/46
Introduction

Extraction d'Information


Permettre l'accès au contenu des documents

Compréhension partielle

Recherche ciblée
Besoins constants

Quantité de textes

Variété des sources d'information
2/46
Plan
1. Extraction d'information
2. Contexte et Données
3. Étude de cas
4. Modèle de segmentation
5. Relation Inter-segment
6. Relation Intra-segment
7. Sémantique et Genre
3/46
1. Extraction d'information
4/46
1.Extraction d'Information

MUC-3(1991)

Information structurée dans un Template
5/46
1.Extraction d'Information

MUC-6 (1995)

4 tâches : EN, TE Co-référence et Template

Entité Nommée
(1) Mr. <ENAMEX TYPE="PERSON"> Dooner </ENAMEX> met with <ENAMEX TYPE="PERSON">
Martin Puris </ENAMEX>, president and chief executive officer of <ENAMEX TYPE="ORGANIZATION">
Ammirati & Puris </ENAMEX>, about <ENAMEX TYPE="ORGANIZATION"> McCann </ENAMEX>'s
acquiring the agency with billings of <NUMEX TYPE="MONEY"> $400 million </NUMEX>, but nothing has
materialized.

ACE (2002)

Relations entre EN (Role, Part, At, Near, Social)
6/46
1.Extraction d'Information

MUC

Corpus spécifiques (domaine, style)

Protocole d'Évaluation (train/test)

Normalisation des mesures des systèmes
7/46
1.Extraction d'Information

Systèmes de RCEN

Symboliques (Rosset et al. 2006, … )


Supervisés (Bikel et al. 1999, … )


Ressources et patrons
Features et modèles statistiques
Semi-supervisés (Riloff et Jones 1999, … )

Mots-germes et Bootstrapping
8/46
1.Extraction d'Information


Variation des EN

Forme : Majuscule, expression définies, etc.

Sens : Triade P-O-L, Valeurs, Produits, etc.

Granularité

+ Discours : Métonymie (Semeval-7)

+ Domaine : médical / financier, etc.
Besoin d'analyse du contexte
9/46
2. Contexte de recherche et Corpus
10/46
Contexte de Recherche
Projet EmotiRob
(ANR, Valoria, LI, Adicore)
Projet RITEL
(Limsi)
11/46
Corpus

Conte (EmotiRob)


Biographie (RITEL)


138 textes / 160 000 occ.
430 textes / 727 000 occ.
Presse (RITEL)

43 450 textes / 22 000 000 occ.
12/46
Annotation de Corpus


Conte

Tree-tagger

Annotation référentielle manuelle

Annotation syntaxique en dépendance manuelle
Biographie et Presse

Ritel-nca (entités : EN + POS + … )

Chunking (Villaneau et al., 2007)

Segmentation discursive de surface
13/46
Objectifs

Extraction automatique de relation sémantique

Appliquer des modèles sémantiques en corpus

Acquérir des connaissances à partir de corpus

Adapter les systèmes symboliques
14/46
3. Étude de cas
15/46
Étude de cas

Extraction d'Information Biographique

Détecter les relations liées aux personnes (EN-QR)

En structurant leur contexte (patron lexico-syntaxique)

À partir d'une représentation riche
(2) Patricia Highsmith est morte le 4 février 1995 dans un hôpital de Locarno
16/46
Méthode

Linguistique de Corpus

Faire émerger les relations sémantiques & guider
l'analyse



Mot-cible : unité lexicale (porteur du frame)
fortement associée à l'EN
Environnement : Rnc + Chunking + Position
Profil contextuel (Smadja, 1993) d'entités
17/46
Limites

Variation syntaxique de structures sémantiques

Ordre linéaire : multiplication des règles
[Pers] est né à [Lieu] en [Tps]
[Pers] est né en [Tps] à [Lieu]

Naissance (Personne, Lieu, Date)
Interruption : Complexité des règles
(3) Raymond Lulle (Ramon Llull en catalan) (né v. 1235 à Palma de
Majorque mort en 1315) était un laïc proche des franciscains (peut-ętre
appartint-il au Tiers Ordre des Mineurs), philosophe, alchimiste, poète,
mystique et missionnaire catalan du XIIIe siècle, descendant d' une
18/46
famille noble catalane.
4. Modèle de segmentation
19/46
Modèle proposé

Segmentation discursive de surface

Segment : unité ≥ chunk

Type de segment et classe de frontière


Frontière forte .!?;... → Segment fort

Frontière semi-faible ()[]"" → Segment semi-faible

Frontière faible , conjonctions et connecteurs
Raisonner sur les segments

Taille

Nature des frontières

Contenu
20/46
Visualiser les segments
(4) M. Deleuze est en croatie

Relations intra-segment (rouge) et inter-segment (violet)
21/46
Quelques statistiques (1)

Presse (dev-17) : 70-80 segments/article

Nature des frontières
22/46
Quelques statistiques (2)

Taille

Contenu
23/46
5. Relations inter-segments
24/46
Relation Inter-Segment

Grammaire de segments (GS)

Parenthétiques, Insertions, Appositions, listes, etc.
(5) Le sommet des Amériques, réuni à Monterrey (Mexique), les 12 et
13 janvier, se penche sur la ...
25/46
Comparatif avec/sans GS

Triplets syntaxiques
Gauche
Droite
26/46
Évaluation (1)

Détection de sujet à longue distance

Verbe annoncer (5309 occ. 87%)


Variété de structures syntaxiques (sujet inv., … )
Potentiel de 34 catégories (G&D) pour M1 et M2
(6) le groupe Publicis a annoncé, jeudi 8 janvier, la création de Publicis
Events Worldwide

Résultats

M1: XV

M2: XVY
27/46
Évaluation (2)

M1
28/46
Évaluation (3)

+M2
29/46
6. Relations intra-segments
30/46
Relations Intra-Segment

Désambiguisation d'EN

Relation sémantique et Désambiguïsation

Conventions d'annotation et contexte d'application

Extraction automatique de patron et correction
31/46
Modèles d'extraction (1)

Évaluation intra-segment (>1)

3 modèles d'information
(7) [Jacques Monod rappelait au colloque de Caen] que ...
32/46
Modèles d'extraction (2)


Modèle de score de patron

Probabilité

Information Mutuelle
Modèle de score de segment

Max, Mean, Prod
33/46
Évaluation (1)

Annotation (200 articles de presse)

1426 organisations, 1004 lieux et 1377 personnes

EN correctement détectées (Rnc)

Performance des modèles (F-mesure)
Lieu
Organisation
Personne
34/46
Evaluation (2)

Potentiel de correction (MAX)

Résultats
35/46
7. Sémantique et Genre
36/46
Texte et Sens

EN ↔ Catégories ontologiques

Type (LG, CPA) et rôle (F-Net) sémantiques


Ontologie (Animé, Humain, Objet, etc.)

Cadre (Agent, Conducteur, Vendeur, etc.)
Restrictions de sélection

Type sémantique désambiguïsant

Pertinence pour les systèmes ?

Validité en corpus ?
37/46
Sémantique du conte

Annotation référentielle
"Vous [homme] avez probablement mangé autant de lapins dans votre
[homme] vie que moi [animal] et chassé autant de bętes que nous [animal]
tous ensemble."

Alternance de type et transferts sémantiques


Sujets du verbe dire
Conversions majeures de type
38/46
Alternance sémantique et
Genre

Outil quantitatif de caractérisation

Couples syntaxiques +Type sémantique

Comparaison Conte et Presse

Lexique commun

Mesure de distance (productivité)

Clustering (CAH)

Indice de Ward (Minimiser l'inertie intra-classe)
39/46
Ontologie
40/46
Dendrogramme des contes
41/46
Dendrogramme de presse
42/46
Conclusion

Impact du genre

Importance du contexte d'application

Modèles d'extraction

Méthode de segmentation
43/46
Perspectives


Explorer les divergences entre type et rôle
Identifier d'autres types de relations ou
contextes discriminants


Modéliser et acquérir automatiquement des
phénomènes spécifiques
Approfondir et évaluer le modèle de
segmentation (étude contrastive)
44/46
Quelques références
Bikel Daniel M., Schwartz Richard & Weischedel Ralph M., 1999, « An Algorithm that Learns What‘s in a Name »,
Machine Learning, vol. 34, no. 1-3, p. 211–231.
Fillmore Charles J., , 1982, « Frame Semantics », Linguistics in the Morning Calm, SICOL 1981, 1982, Séoul, The
Linguistic Society of Korea, p. 111-137.
Hanks Patrick W., 2008, « Lexical Patterns: From Hornby to Hunston and Beyond », Euralex, 2008, Barcelone, p. 89129.
Nadeau David & Sekine Satoshi, 2007, « A survey of named entity recognition and classification », Lingvisticae
Investigationes, vol. 30, no. 1, p. 3–26.
Riloff Ellen & Jones Rosie, 1999, « Learning dictionaries for information extraction by multi-level bootstrapping »,
16th national conference on Artificial intelligence and the eleventh Innovative applications of artificial intelligence
conference innovative applications of artificial intelligence, 1999, Menlo Park (Ca) (AAAI ’99/IAAI ’99), p. 474–
479.
Rosset Sophie, Galibert Olivier, Illouz Gabriel & Max Aurélien, 2005, « Interaction et recherche d’information  : le
projet RITEL », TAL, vol. 46, no. 3, p. 155-179.
Sinclair John McH, 1991, Corpus, Concordance, Collocation, Oxford, Oxford University Press.
45/46
Merci
46/46
Téléchargement