SUJET DE MEMOIRE DE MASTER ANNEE 2012-2013 OPTIMISATION MULTI-OBJECTIF POUR EXTRAIRE DES REGLES DE CLASSIFICATION INTEGRANT LA TEMPORALITE ET LES DONNEES QUANTITATIVES DANS DES REGLES D’ASSOCIATION Directeur : C. Dhaenens (INRIA/LIFL) Co-Directeur : L. Jourdan (INRIA/LIFL) / J. Jacques (Alicante) Equipe : Dolphin – INRIA Lille Nord Europe / LIFL http://dolphin.inria.fr Contact : [email protected] CONTEXTE Dans le cadre du projet ANR ClinMine (optimisation de la prise en Charge des Patients à l’Hôpital), l’équipe DOLPHIN (INRIA/LIFL) doit concevoir des méthodes innovantes pour analyser, à partir des données disponibles au sein des hôpitaux les typologies de parcours. Réaliser une classification (des patients, de leur parcours,…) nécessite de connaître des exemples et des contre-exemples. Dans le cas de données médicales, le nombre d’exemples positifs (relevant d’une maladie particulière, par exemple) est souvent de faible proportion. Ces données déséquilibrées doivent être manipulées avec précautions. Nous proposons d’aborder ce problème en modélisant les tâches d’extraction de connaissances en un problème d’optimisation car cela permet de pallier les méthodes traditionnelles de fouilles de données qui sont non performantes sur des jeux de données massifs et mal répartis. En effet, nos précédents travaux ont montré la puissance de cette modélisation et notamment l’intérêt de l’utilisation d’algorithmes de résolution basés sur des métaheuristiques ([Corne 2012], [Jacques 2013]). Ces méthodes permettent de répondre à une large palette de problèmes dès lors que l’on parvient à modéliser correctement le problème. Dans le cadre de sa thèse, J. Jacques a proposé une méthode d’optimisation multi-objectif permettant de rechercher des règles de classification dans de grandes bases de données mal équilibrées. Nous souhaitons maintenant introduire de nouvelles caractéristiques rendant la tâche plus difficile, à savoir : la gestion de variables quantitatives et la notion de temporalité. Afin de permettre une prise en compte de ces difficultés, nous proposons donc de nous concentrer sur la modélisation de ces problèmes, et en particulier les règles de classification [Chazard11], en utilisant une approche multiobjectif permettant de considérer plusieurs critères d’optimisation (dont des critères métiers). TRAVAIL A EFFECTUER 1. Etat de l’art sur les méthodes de classification proposant la prise en compte des données quantitatives et/ou la temporalité 2. Proposition d’une modélisation : Définition des objectifs, définition des éléments de la métaheuristique de résolution 3. Implémentation dans une suite Logicielle (Mo-Mine/ParadisEO [Paradiseo]) 4. Test et validation Ce stage de Master Recherche Informatique est rémunéré par l'équipe DOLPHIN sur l’ANR ClinMine. COMPETENCES REQUISES - Programmation C/C++ - Génie Logiciel - Optimisation - Fouille de données POURSUITE Le stage pourra se poursuivre en thèse en partenariat avec l’entreprise partenaire (www.alicante.fr) sur le domaine de recherche de l’ANR ClinMine. REFERENCES [Chazard11 ] Chazard E, Ficheur G, Bernonville S, Luyckx M, Beuscart R. Data mining to generate adverse drug events detection rules. IEEE Trans Inf Technol Biomed. 2011 Nov;15(6):823-30. [Corne12] Corne D., Dhaenens C., Jourdan L. Synergies between Operations Research and Data Mining: the emerging use of multi-objective approaches, European Journal of Operational Research, Volume 221(3), pp. 469–479, 2012. [Jacques13] Jacques, J.; Taillard, J.; Delerue, D.; Jourdan, L. & Dhaenens, C. MOCA-I: discovering rules and guiding decision maker in the context of partial classification in large and imbalanced datasets, Learning and Intelligent OptimizatioN, Lecture Notes in Computer Science (LNCS), 2013, (in press) . [Paradiseo] http://paradiseo.gforge.inria.fr/