SUJET DE MEMOIRE DE MASTER
ANNEE 2012-2013
OPTIMISATION MULTI-OBJECTIF POUR EXTRAIRE DES REGLES DE
CLASSIFICATION INTEGRANT LA TEMPORALITE ET LES DONNEES
QUANTITATIVES DANS DES REGLES D’ASSOCIATION
Directeur : C. Dhaenens (INRIA/LIFL)
Co-Directeur : L. Jourdan (INRIA/LIFL) / J. Jacques (Alicante)
Equipe : Dolphin – INRIA Lille Nord Europe / LIFL http://dolphin.inria.fr
CONTEXTE
Dans le cadre du projet ANR ClinMine (optimisation de la prise en Charge des Patients à
l’Hôpital), l’équipe DOLPHIN (INRIA/LIFL) doit concevoir des méthodes innovantes pour
analyser, à partir des données disponibles au sein des hôpitaux les typologies de parcours.
Réaliser une classification (des patients, de leur parcours,…) nécessite de connaître des
exemples et des contre-exemples. Dans le cas de données médicales, le nombre d’exemples
positifs (relevant d’une maladie particulière, par exemple) est souvent de faible proportion.
Ces données déséquilibrées doivent être manipulées avec précautions.
Nous proposons d’aborder ce problème en modélisant les tâches d’extraction de
connaissances en un problème d’optimisation car cela permet de pallier les méthodes
traditionnelles de fouilles de données qui sont non performantes sur des jeux de données
massifs et mal répartis. En effet, nos précédents travaux ont montré la puissance de cette
modélisation et notamment l’intérêt de l’utilisation d’algorithmes de résolution basés sur des
métaheuristiques ([Corne 2012], [Jacques 2013]). Ces méthodes permettent de répondre à une
large palette de problèmes dès lors que l’on parvient à modéliser correctement le problème.
Dans le cadre de sa thèse, J. Jacques a proposé une méthode d’optimisation multi-objectif
permettant de rechercher des règles de classification dans de grandes bases de données mal
équilibrées. Nous souhaitons maintenant introduire de nouvelles caractéristiques rendant la
tâche plus difficile, à savoir : la gestion de variables quantitatives et la notion de temporalité.
Afin de permettre une prise en compte de ces difficultés, nous proposons donc de nous
concentrer sur la modélisation de ces problèmes, et en particulier les règles de classification
[Chazard11], en utilisant une approche multiobjectif permettant de considérer plusieurs
critères d’optimisation (dont des critères métiers).