Désambiguisation des Entités Spatiales par apprentissage actif 1

Stage Recherche (M2) :

Désambiguisation des Entités Spatiales par apprentissage actif

Mathieu Roche et Maguelonne Teisseire

TETIS & LIRMM, Montpellier

1 Contexte

L’identiﬁcation des territoires reste un problème difﬁcile car leurs pourtours sont propres à chaque communauté ou groupe

d’acteurs impliqués. La difﬁculté s’accroît selon les différentes régions et cultures car il n’existe pas nécessairement une

délimitation explicite et uniforme. L’extraction d’informations spatiales au sein des documents (Leidner & Lieberman,

2011) est un premier pas pour déﬁnir une méthode de découverte automatique de la perception des territoires qui reste un

enjeu majeur dans le contexte de l’aménagement et des débats publics associés (Kergosien et al., 2015).

De nombreuses méthodes de la littérature utilisent des méthodes d’apprentissage supervisé pour l’identiﬁcation d’entités

nommées en général et des entités spatiales en particulier à partir de données textuelles (Carreras et al., 2003; Zenasni

et al., 2015). D’autres approches reposent sur des méthodes symboliques à base de règles (Moncla et al., 2014). Ce type

d’approche a été mis en place au sein de l’UMR TETIS (Farvardin et al., 2015). De plus, des combinaisons ont été

proposées dans des travaux menés par notre équipe aﬁn de distinguer les Organisations et les Entités Spatiales présentes

dans des textes (Tahrat et al., 2013). Ces combinaisons consistent à intégrer les règles comme descripteurs dans les

approches sac de mots classiquement utilisées en Recherche d’Information (Salton & McGill, 1986).

Dans le cadre de l’identiﬁcation des Entités Spatiales, un problème difﬁcile est en effet lié à la désambiguisation. Outre

l’ambiguité entre Organisations et Entités Spatiales, il existe des ambiguïtés liées aux toponymes en eux mêmes (Buscaldi,

2009). Par exemple, dans la phrase Elancourt et Maurepas sont des villes proches de Paris, la

localisation Elancourt ne souffre d’aucune ambiguité car elle correspond à une entrée unique dans les différentes

ressources géographiques. A contrario, il existe une ambiguité pour Maurepas qui peut désigner plusieurs communes 1.

Le travail demandé pour ce stage est de s’attacher à résoudre aussi de telles ambiguïtés dans un objectif d’indexation

(documents textuels) et/ou de recherche d’information (rafﬁnement de requêtes).

Ce travail s’effectue dans le cadre du projet Songes (Science des Données Hétérogènes – Chercheurs d’avenir 2015 –

Région Languedoc Roussillon).

2 Travail à réaliser

Les méthodes d’apprentissage supervisées souffrent d’une importante limite liée à la nécessité d’avoir à disposition des

données étiquetées en quantité importante. Les méthodes non supervisées ont l’inconvénient de n’être, en général, pas

assez exhaustives. Pour pallier chacune de ces limites, des méthodes d’apprentissage actif qui permettent d’intégrer l’ex-

pertise des utilisateurs au cœur du processus d’apprentissage, sont tout à fait pertinentes (Settles, 2009).

Quelques travaux ce sont intéressés à l’utilisation d’un tel principe (apprentissage actif) pour la problématique de désam-

biguisation sémantique (Zhu, 2007; Ménard et al., 2015). Par exemple, (Ménard et al., 2015) s’intéressent au traitement

de la polysémie en appliquant une méthode fondée sur une représentation sac de mots et l’utilisation de la méthode d’ap-

prentissage Random Forest. Notons qu’une des difﬁcultés des méthodes d’apprentissage actif est la condition d’arrêt,

problématique qui a notamment été abordée par (Zhu, 2007).

Nos travaux consisteront à adapter les systèmes classiques d’apprentissage actif pour traiter les deux types de désam-

biguisations illustrées en section 1, à savoir la désambiguisation des toponymes (c’est-à-dire, un même toponyme peut

correspondre à des lieux différents) et la désambiguisation entre types d’entités nommées (distinction Entités Spatiales

1. notamment en Louisiane aux Etats Unis et dans les Yvelines en France.

/ Organisations). Pour cela, la complexité du contexte et les descripteurs associés devront être pris en compte dans les

modèles d’apprentissage actif à mettre en œuvre. Ce contexte plus riche 2permettra d’améliorer le système de désambi-

guisation.

Le stage de recherche proposé s’articulera autour des tâches suivantes. Il s’agira, dans un premier temps, de compléter

l’état de l’art des approches les plus récentes ayant adopté une démarche similaire, puis d’identiﬁer et d’adapter celles

permettant la désambiguisation des entités spatiales par apprentissage actif. Des expérimentations rigoureuses devront

être réalisées sur des données réelles (en français et en anglais).

Références

BUSCALDI D. (2009). Toponym ambiguity in geographical information retrieval. In Proceedings of the 32Nd Inter-

national ACM SIGIR Conference on Research and Development in Information Retrieval, SIGIR ’09, p. 847–847, New

York, NY, USA : ACM.

CARRERAS X., MÀRQUEZ L. & PADRÓ L. (2003). A simple named entity extractor using adaboost. In W. DAELE-

MANS & M. OSBORNE, Eds., Proceedings of CoNLL-2003, p. 152–155 : Edmonton, Canada.

FARVARDIN A., KERGOSIEN E., ROCHE M. & TEISSEIRE M. (2015). A webtool for analyzing land-use planning

documents. In Proceedings of 14th International Semantic Web Conference (Demos).

KERGOSIEN E., MAUREL P., ROCHE M. & TEISSEIRE M. (2015). SENTERRITOIRE pour la détection d’opinions

liées à l’aménagement d’un territoire. Revue Internationale de Géomatique,25(1), 11–34.

LEIDNER J. L. & LIEBERMAN M. D. (2011). Detecting geographical references in the form of place names and

associated spatial natural language. SIGSPATIAL Special,3(2), 5–11.

MONCLA L., RENTERIA-AGUALIMPIA W., NOGUERAS-ISO J. & GAIO M. (2014). Geocoding for texts with ﬁne-grain

toponyms : An experiment on a geoparsed hiking descriptions corpus. In Proceedings of the 22Nd ACM SIGSPATIAL

International Conference on Advances in Geographic Information Systems, SIGSPATIAL ’14, p. 183–192, New York,

NY, USA : ACM.

MÉNARD P. A., BARRIÈRE C. & QUIRION J. (2015). Helping term sense disambiguation with active learning. In

Proceedings of the conference Terminology and Artiﬁcial Intelligence 2015 (Granada, Spain), p. 89–97.

SALTON G. & MCGILL M. J. (1986). Introduction to Modern Information Retrieval. New York, NY, USA : McGraw-

Hill, Inc.

SETTLES B. (2009). Active Learning Literature Survey. Computer Sciences Technical Report 1648, University of

Wisconsin–Madison.

TAHRAT S., KERGOSIEN E., BRINGAY S., ROCHE M. & TEISSEIRE M. (2013). Text2geo : from textual data to

geospatial information. In 3rd International Conference on Web Intelligence, Mining and Semantics, WIMS ’13, Madrid,

Spain, June 12-14, 2013, p.˜

23.

ZENASNI S., KERGOSIEN E., ROCHE M. & TEISSEIRE M. (2015). Discovering types of spatial relations with a text

mining approach. In Foundations of Intelligent Systems - 22nd International Symposium, ISMIS 2015, Lyon, France,

October 21-23, 2015, Proceedings, p. 442–451.

ZHU J. (2007). Active learning for word sense disambiguation with methods for addressing the class imbalance problem.

In In Proceedings of ACL, p. 783–790.

2. en comparaison, par exemple, à la fenêtre de 90 caractères utilisée dans (Ménard et al., 2015)

1 / 2 100%

Désambiguisation des Entités Spatiales par apprentissage actif 1

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Désambiguisation des Entités Spatiales par apprentissage actif 1

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib