Contraintes textuelles pour la fouille de données

publicité
Contraintes textuelles pour la fouille de données
Sujet de thèse 2011
Encadrants :
Lieu :
Thierry Charnois & Bruno Crémilleux
GREYC - CNRS - UMR 6072, équipe Constraints, Data Mining, Graphs (CoDaG)
Contexte
L'objectif général de ce travail est de développer de nouvelles méthodes de fouille de
données adaptées aux spécicités du texte en tirant prot des complémentarités des techniques du traitement automatique des langues (TAL) avec celles de fouille de textes. Au
niveau du TAL, les méthodes d'analyse automatique du contenu textuel pour l'extraction
d'information obtiennent de bons résultats en terme de précision mais s'appuient sur des
ressources linguistiques (par exemple des grammaires ou des patrons syntaxiques) qui sont
généralement élaborées manuellement et dédiées à un type de corpus spécique. D'un autre
côté, les approches d'apprentissage automatique (ou Machine Learning ) sont considérées comme étant les plus ecaces, mais les sorties produites (à base de descripteurs
statistiques ou probabilistes) ne sont pas réellement compréhensibles par un linguiste ni
utilisables en tant que ressources linguistiques par les systèmes de TAL. L'originalité de ce
sujet est de croiser les techniques de TAL (notamment pour l'extraction d'information) et
de fouille de données. L'idée consiste à tirer parti de la capacité des méthodes de fouille
à faire émerger des régularités et des motifs sur des données volumineuses, les motifs
découverts étant ensuite utilisables en TAL en tant que patrons linguistiques ou règles
d'extraction , ainsi qu'à développer des méthodes de fouille adaptées aux spécicités du
texte.
Axes de travail
Si les méthodes de fouille actuelles sont bien adaptées aux données structurées, elles
ne peuvent être appliquées directement sur des textes par nature non structurés. An
d'adapter les algorithmes de fouille au matériau linguistique, nous nous proposons d'utiliser
le cadre général des contraintes pour prendre en compte les connaissances linguistiques
lors de la fouille et cibler les motifs pertinents et utiles parmi le grand nombre de motifs
généralement découverts par les solveurs. La démarche est alors :
modéliser les connaissances linguistiques sous forme de contraintes, puis formaliser ces
contraintes pour être intégrées dans le processus de fouille.
(ii) intégrer les contraintes formalisées dans le processus de fouille
(i)
1
La modélisation linguistique sera appréhendée à travers une application de TAL. On
pourra ainsi s'intéresser à la détection, dans les textes biomédicaux, de relations entre une
maladie et le nom du gène associé à la maladie (qui est un problème typique d'extraction
d'information), comme dans l'exemple suivant :
There is evidence that Hodgkin lymphoma can be caused by mutation in the KLHDC8B
gene.
Dénir des contraintes revient à dénir les propriétés que doivent satisfaire les motifs
pour permettre l'extraction de la relation dans les textes. Dans l'exemple, il y a une relation
entre la maladie Hodgkin lymphoma et le gène KLHDC8B et un motif à extraire pourrait
être :
< DISEASE/EN be/V B V b_CAU SALIT Y /V BD by/IN GEN E/EN > 1 .
On peut aussi vouloir caractériser cette relation (ici une relation de causalité), et s'intéresser à son contexte de validation (dans l'exemple, une forme modale de validité de
l'information : can, there is evidence).
Selon son prol, le stagiaire pourra orienter plus fortement son travail sur l'un des deux
aspects suivants :
Il s'agira de développer une modélisation linguistique sous forme de contraintes et utiliser des outils de fouille existants. Un prolongement du travail pourra
consister à généraliser l'approche à un niveau discursif. Cet axe sera initié par la
découverte de patrons de modalité. Ce problème soulève les questions de découverte
de patrons linguistiques convoyant des relations (modales) portant sur des relations
(e.g. relation entre entités nommées), à un niveau intra-phrastique ou inter-phrastique
(discursif).
Apect fouille de données Il s'agira de développer et mettre en oeuvre un algorithme
séquentiel sous contraintes. Une extension portera sur l'apprentissage de motifs séquentiels d'itemsets. L'objectif applicatif est d'associer des informations linguistiques variées (morphologiques, syntaxiques, sémantiques...) à des unités textuelles de diérents
niveaux (mot, proposition, phrase...) : les unités textuelles sont par nature ordonnées
donc séquentielles, alors que les informations linguistiques sont de type ensembliste
(itemsets).
Apect TAL
Cadre de travail
Ce travail s'inscrit dans le prolongement d'un projet soutenu par l'ANR : le projet Bingo2 (http://bingo2.greyc.fr/) sur la conception et la réalisation de méthodes
génériques en fouille de données et de textes. En complément, ce travail s'appuie sur les
compétences du GREYC et les résultats déjà obtenus [1, 2, 3, 4] sur le croisement des deux
disciplines fouille de données et traitement automatique des langues .
1. motif marquant, dans cet ordre : la présence d'une entité nommée de type maladie, suivie par le
verbe
be,
par un verbe de causalité (sous la forme participe passé
nommée de type gène.
2
vbd),
par la préposition
by
et une entité
Références
[1] P. Cellier, T. Charnois, and M. Plantevit. Sequential Patterns to Discover and Characterise Biological Relations. In 11th International Conference on Intelligent Text Processing and Computational Linguistics (CICLing'10), volume 6008 of LNCS, pages
537548. Springer-Verlag, 2010.
[2] P. Cellier, T. Charnois, M. Plantevit, and B. Crémilleux. Recursive sequence mining
to discover named entity relations. In Paul R. Cohen, Niall M. Adams, and Michael R.
Berthold, editors, Advances in Intelligent Data Analysis IX, 9th International Symposium (IDA), volume 6065 of Lecture Notes in Computer Science, pages 3041. Springer,
2010.
[3] T. Charnois, M. Plantevit, C. Rigotti, and B. Crémilleux. Fouille de données séquentielles pour l'extraction d'information dans les textes. Traitement Automatique des
Langues, 50(3) : 30 pages, 2009. http ://www.atala.org/Fouille-de-donnees-sequentielles
[4] M. Plantevit, T. Charnois, J. Kléma, C. Rigotti, and B. Crémilleux. Combining sequence and itemset mining to discover named entities in biomedical texts : A new type
of pattern. Int. J. of Data Mining, Modelling and Management, 1(2) :119148, 2009.
3
Téléchargement