Contrats Doctoraux 2015 Proposition de sujet de thèse Titre : Fouille de données et apprentissage pour l’amélioration du diagnostic médical. Mots-Clés : Fouille de données, Apprentissage, Ontologie, Web Sémantique, télémédecine, Ingénierie des connaissances Directeur de thèse : Amir HAJJAM EL HASSANI, [email protected] MCF HDR - UTBM Contexte général de la thèse Nos travaux dans le domaine de la télémédecine ont démarré en 2006 avec le programme MERCURE labélisé par le pôle de compétitivité "innovations thérapeutiques", porté par la société ALCATEL-LUCENT. Cet axe émergent de recherche s’affirme aujourd’hui notamment par le projet européen e-Perion et le projet "Investissements d'Avenir" e-Care avec des partenaires tels que le CHRU de Strasbourg ou encore la Mutualité Française. Dans ces projets, l’apport de l'UTBM se concentre sur la gestion et le traitement des connaissances médicales issues de capteurs, actimétriques et médicales, associés aux connaissances relatives à l'état du patient et à l'environnement dans lequel il vit. La plateforme e-Care a été déployée au CHU de Strasbourg d’octobre 2013 à novembre 2014. Depuis janvier 2015, elle est en cours de déploiement auprès de patients à domicile dans le cadre du projet InCaDo de l’ARS d’Alsace. Le domaine de la santé est particulier car il ne suit pas l’évolution « naturelle » de l’informatisation des organisations. La complexité organisationnelle et la difficulté de représentation et de capitalisation des connaissances médicales, ajoutées à une approche technique parfois incohérente ont compliqué sérieusement la tâche des concepteurs de systèmes dans le domaine médical. Un des verrous le plus important, mis en évidence par les projets e-Perion et eCare, concerne les limites du diagnostic médical quant à la détection précoce de toute évolution anormale de l’état des patients atteints de maladies chroniques. Ce qui restreint les connaissances pouvant être exploitées par les différents systèmes de télésurveillance et en l’occurrence le raisonnement de tels systèmes. Le travail se fera en codirection avec le Professeur Emmanuel ANDRES, responsable d’unité de recherche au laboratoire de recherche en pédagogie des sciences de la santé (LARPESS) de la Faculté de médecine de Strasbourg (Université de Strasbourg) et responsable du Service de Médecine Interne Clinique Médicale B du CHRU de Strasbourg. Sujet de thèse et travaux demandés L’objectif de cette thèse est de proposer des techniques d’apprentissage afin d’obtenir un processus d’interprétation des données représentant l’évolution des signes vitaux relatifs au suivi de patients atteints de maladies chroniques. Le processus doit être autonome, capable de se configurer automatiquement, de s’adapter à tout changement ou évolution de l’environnement et d’accumuler des connaissances sur son fonctionnement pour s’améliorer en cours d’utilisation. L'exploitation de données, dans le cadre de la Fouille de Données ou de l'Apprentissage Automatisé, peut être réalisée selon deux approches différentes : une approche supervisée ou une approche non supervisée. Dans le cadre de l'approche supervisée, les données sont constituées d'un ensemble de caractéristiques décrivant chaque individu (caractéristiques appelées variables exogènes) et chaque individu possède une caractéristique particulière (appelée classe ou variable endogène). L'objectif de la fouille de données supervisée est de trouver des relations entre les variables exogènes permettant d'expliquer et/ou de prévoir le comportement de la variable endogène. Par exemple, dans le cadre de la fouille de données médicales, les individus sont les patients, les variables exogènes représentent l'ensemble des informations relatives à chaque patient et la classe représente l'état de santé du patient (bonne santé ou malade). La découverte supervisée de connaissances dans de telles données peut donc se caractériser par la recherche de corrélations entre les variables exogènes des patients appartenant à une classe donnée. Dans le cadre de l'approche non supervisée, la variable endogène n'est pas explicitée dans les données. L'objectif de la fouille de données non supervisée est donc de trouver des relations entre caractéristiques (variables exogènes) suffisamment significatives et permettant d'augmenter les connaissances du domaine étudié. Les données sont souvent altérées lors de leur acquisition et/ou de leur enregistrement dans la base (imperfection des appareils de mesures ou fautes de frappe lors de la saisie des données par exemple). Il est donc impératif de disposer d'outils peu sensibles au bruit et pour lesquels cette sensibilité peut être évaluée. Il s’agira de définir des protocoles permettant d'évaluer la sensibilité d'un tel processus et une méthode permettant de minimiser l'impact du bruit sur les connaissances obtenues. Contributions attendues • Une nouvelle méthode générique d’apprentissage supervisé pour l’initialisation des paramètres ; • Une nouvelle méthode processus d’interprétation fonctionnement ; incrémental, d’adaptation automatique en cas de changements des faiblement d’un conditions de • Une validation des techniques d’apprentissages à travers la plateforme eCare ; • La génération de nouvelles connaissances pour l’amélioration de la détection précoce de toute évolution anormale de l’état d’un patient atteint d’insuffisance cardiaque. • Des publications dans de revues et conférences internationales, des publications de rang A. Quelques références liées au sujet [1] A. AHMED BENYAHIA, A. HAJJAM, V. HILAIRE, M. HAJJAM "Ontological architecture for management of telemonitoring system and alerts detection", eHealth and remote monitoring, ISBN: 978-953-51-0734-7, Intech, 2012. [2] A. HAJJAM "E-Health", Editions Intech, ISBN 978-953-51-0734-7, IDOI: 10.5772/3158, september 2012 [3] A. AHMED BENYAHIA, A. HAJJAM, V. HILAIRE, M. HAJJAM "E-Care : Ontological Architecture for Telemonitoring and Alerts Detection", In Proc. of proceedings of the 24th IEEE International Conference on Tools with Artificial Intelligence -ICTAI 2012, 2012, Athens. [4] A. HAJJAM, E. ANDRES "Ontology and Information Systems for Tracking Chronic Diseases" 10th ICICTH, International Conference on Information Communication Technologies in Health, 2012, Samos. [5] S. Bringay et al. Discovering novelty in sequential patterns: application for analysis of microarray data on Alzheimer disease, MedInfo'2010, Stud Health Technol Inform. 2010;160(Pt 2):1314-8, 2010. [6] P. Salle et al. Mining Discriminant Sequential Patterns for Aging Brain. AIME'09, 365369. [7] P. Salle et al. GeneMining: Identification, Visualization, and Interpretation of Brain Ageing Signatures. MIE’2009, 767-771. [8] A. Sallaberry et al. Discovering Novelty in Gene Data: From Sequential Patterns to Visualization. ISVC10, 534-543. [9] A. Sallaberry et al. Sequential Patterns Mining and Gene Sequence Visualization to Discover Novelty from Microarray Data, Journal of Biomedical Informatics, to appear 2011. [10] A. HAJJAM "Ontologies and Cooperation of Distributed Heterogeneous Information Systems for Tracking Chronic Diseases", Multimedia Services In Intelligent Environments: Recommandation Services, ISBN In Press, Springer-Verlag, 2013. [11] A. HAJJAM "Enhancing eHealth Information Systems for chronic diseases remote monitoring systems", International Journal of Advanced Computer Science and Applications, ISSN 2158-107X, Volume 3, Issue 8, 2012.