Fichier d`origine - Université de Strasbourg

publicité
Sujet de thèse
Fouille de données relationnelles et spatiales – application
au domaine hydroécologique
Laboratoire d'accueil : Laboratoire ICube, UMR CNRS -- Université de Strasbourg – INSA -- ENGEES,
équipe BFO
Directrice de thèse : Florence Le Ber (HDR, ICube)
Encadrante : Agnès Braud (Maître de Conférences, ICube)
Contact : [email protected], [email protected]
Contexte : Notre équipe travaille depuis de nombreuses années en collaboration avec des hydro-écologistes
sur l'évaluation de la qualité des hydro-écosystèmes. Ce travail a été l'objet de plusieurs projets, dont le projet
ANR Fresqueau (engees-fresqueau.unistra.fr/‎) en cours actuellement. Dans ce projet, nous avons constitué
une base de données rassemblant des données relatives aux bassins Rhône-Méditerranée-Corse (RMC) et
Rhin-Meuse (RM), issues de différents instituts nationaux et de laboratoires de recherche. La base inclut
l'ensemble des données jugées nécessaires par les experts pour répondre aux problématiques qu'ils ont
identifiées. Il s'agit de mesures physico-chimiques et prélèvements biologiques dans les cours d'eau, mais
aussi des données topographiques et d'occupation du sol (BD Topo, BD Carthage, Corine Land Cover). Le
contenu de la base est riche ; les données sont nombreuses et variées tant en termes d'information apportée
que de format des données (catégoriel, numérique, géographique, données manquantes, ...). Afin d'exploiter
ces données, nous utilisons des techniques de fouille de données, et notamment des techniques de fouille de
données relationnelles (conçues pour travailler sur plusieurs tables) qui, dans ce contexte, se trouvent
confrontées à leurs limites, notamment dans la prise en compte des relations spatiales entre les données.
Objectifs de la thèse : l'objectif général est d'étudier et développer des techniques de fouille de données
relationnelles, puis de les appliquer sur des données volumineuses et complexes telles que celles collectées
dans la cadre du projet Fresqueau. Dans un premier temps, le/la doctorant-e étudiera la propositionalisation.
Cette technique consiste à transformer un problème de fouille de données contenues dans plusieurs tables en
un problème de fouille d'une seule table. La complexité du problème est alors réduite et le problème peut être
résolu en appliquant une des méthodes de fouille de données classiques et efficaces pour la fouille dans une
seule table. L'objectif dans cette transformation est de capturer l'information utile issue des différentes tables
afin de la restituer dans la table qui sera fouillée. Plusieurs méthodes ont été proposées, selon des approches
logiques ou orientées bases de données. Le/la doctorant-e devra prendre en main une ou deux méthodes de
propositionalisation et étudier la prise en compte des relations spatiales dans ces techniques d'un point de vue
théorique. Les modèles de représentation qualitative de l'espace seront appréhendés et utilisés, ainsi que les
procédures inférentielles associées. Dans un deuxième temps, la propositionalisation sera comparée et
combinée avec d'autres approches de fouille de données relationnelles, telle que l'analyse relationnelle de
concepts. Le travail de thèse devra comprendre le développement et l'expérimentation d'une ou deux
approches retenues comme pertinentes pour le domaine d'application et une évaluation des résultats en
relation avec les experts du domaine.
Apports attendus :
•
•
•
avancées théoriques sur les méthodes de fouille de données relationnelles et spatiales
développement et mise en œuvre
interprétation et validation sur des données réelles.
Profil recherché :
• Master 2 en Informatique
• Formation en logique et fouille de données
• Curiosité et capacité à appréhender le domaine hydro-écologique et interagir avec les experts du
domaine
Références :
Chelghoum N., Zeitouni K, et al. Fouille de données spatiales - Approche basée sur la programmation logique
inductive, EGC 2006, Lille, Janvier 2006. Edition CEPADUES, pp. 529-540.
Dolques X., Chandra Mondal K., Braud A., Huchard M., Le Ber F. RCA as a data transforming method: a
comparison with propositionalisation. En soumission.
Dolques X., Le Ber F., Huchard M., Nebut C. Analyse Relationnelle de Concepts pour l'exploration de données
relationnelles, EGC'2013, Toulouse, Janvier 2013. Hermann-Éditions, pp. 121-132, Revue des Nouvelles
Technologies de l'Information.
El Jelali S., Braud A., Lachiche N. Propositionalisation of continuous attributes beyond simple aggregation, ILP
2012, Springer, LNCS, Vol. 7842, March 2013, pp. 32-44.
Le Ber F., Ligozat G., Papini O. Raisonnements sur l'espace et le temps : des modèles aux applications,
Lavoisier, 2007, pp. 419.
Malerba D., et al. Relational Mining in Spatial Domains: Accomplishments and Challenges. ISMIS 2011, pp.1624.
Téléchargement