Optimisation multi-objectif pour extraire des règles de classifications

publicité
SUJET DE MEMOIRE DE MASTER
ANNEE 2012-2013
OPTIMISATION MULTI-OBJECTIF POUR EXTRAIRE DES REGLES DE
CLASSIFICATION INTEGRANT LA TEMPORALITE ET LES DONNEES
QUANTITATIVES DANS DES REGLES D’ASSOCIATION
Directeur : C. Dhaenens (INRIA/LIFL)
Co-Directeur : L. Jourdan (INRIA/LIFL) / J. Jacques (Alicante)
Equipe : Dolphin – INRIA Lille Nord Europe / LIFL http://dolphin.inria.fr
Contact : [email protected]
CONTEXTE
Dans le cadre du projet ANR ClinMine (optimisation de la prise en Charge des Patients à
l’Hôpital), l’équipe DOLPHIN (INRIA/LIFL) doit concevoir des méthodes innovantes pour
analyser, à partir des données disponibles au sein des hôpitaux les typologies de parcours.
Réaliser une classification (des patients, de leur parcours,…) nécessite de connaître des
exemples et des contre-exemples. Dans le cas de données médicales, le nombre d’exemples
positifs (relevant d’une maladie particulière, par exemple) est souvent de faible proportion.
Ces données déséquilibrées doivent être manipulées avec précautions.
Nous proposons d’aborder ce problème en modélisant les tâches d’extraction de
connaissances en un problème d’optimisation car cela permet de pallier les méthodes
traditionnelles de fouilles de données qui sont non performantes sur des jeux de données
massifs et mal répartis. En effet, nos précédents travaux ont montré la puissance de cette
modélisation et notamment l’intérêt de l’utilisation d’algorithmes de résolution basés sur des
métaheuristiques ([Corne 2012], [Jacques 2013]). Ces méthodes permettent de répondre à une
large palette de problèmes dès lors que l’on parvient à modéliser correctement le problème.
Dans le cadre de sa thèse, J. Jacques a proposé une méthode d’optimisation multi-objectif
permettant de rechercher des règles de classification dans de grandes bases de données mal
équilibrées. Nous souhaitons maintenant introduire de nouvelles caractéristiques rendant la
tâche plus difficile, à savoir : la gestion de variables quantitatives et la notion de temporalité.
Afin de permettre une prise en compte de ces difficultés, nous proposons donc de nous
concentrer sur la modélisation de ces problèmes, et en particulier les règles de classification
[Chazard11], en utilisant une approche multiobjectif permettant de considérer plusieurs
critères d’optimisation (dont des critères métiers).
TRAVAIL A EFFECTUER
1. Etat de l’art sur les méthodes de classification proposant la prise en compte des
données quantitatives et/ou la temporalité
2. Proposition d’une modélisation : Définition des objectifs, définition des
éléments de la métaheuristique de résolution
3. Implémentation dans une suite Logicielle (Mo-Mine/ParadisEO [Paradiseo])
4. Test et validation
Ce stage de Master Recherche Informatique est rémunéré par l'équipe DOLPHIN sur l’ANR
ClinMine.
COMPETENCES REQUISES
-
Programmation C/C++
-
Génie Logiciel
-
Optimisation
-
Fouille de données
POURSUITE
Le stage pourra se poursuivre en thèse en partenariat avec l’entreprise partenaire
(www.alicante.fr) sur le domaine de recherche de l’ANR ClinMine.
REFERENCES
[Chazard11 ] Chazard E, Ficheur G, Bernonville S, Luyckx M, Beuscart R. Data mining to generate adverse drug
events detection rules. IEEE Trans Inf Technol Biomed. 2011 Nov;15(6):823-30.
[Corne12] Corne D., Dhaenens C., Jourdan L. Synergies between Operations Research and Data Mining: the
emerging use of multi-objective approaches, European Journal of Operational Research, Volume 221(3), pp.
469–479, 2012.
[Jacques13] Jacques, J.; Taillard, J.; Delerue, D.; Jourdan, L. & Dhaenens, C. MOCA-I: discovering rules and
guiding decision maker in the context of partial classification in large and imbalanced datasets, Learning and
Intelligent OptimizatioN, Lecture Notes in Computer Science (LNCS), 2013, (in press) .
[Paradiseo] http://paradiseo.gforge.inria.fr/
Téléchargement