Sujet de thèse Fouille de données relationnelles et spatiales – application au domaine hydroécologique Laboratoire d'accueil : Laboratoire ICube, UMR CNRS -- Université de Strasbourg – INSA -- ENGEES, équipe BFO Directrice de thèse : Florence Le Ber (HDR, ICube) Encadrante : Agnès Braud (Maître de Conférences, ICube) Contact : [email protected], [email protected] Contexte : Notre équipe travaille depuis de nombreuses années en collaboration avec des hydro-écologistes sur l'évaluation de la qualité des hydro-écosystèmes. Ce travail a été l'objet de plusieurs projets, dont le projet ANR Fresqueau (engees-fresqueau.unistra.fr/) en cours actuellement. Dans ce projet, nous avons constitué une base de données rassemblant des données relatives aux bassins Rhône-Méditerranée-Corse (RMC) et Rhin-Meuse (RM), issues de différents instituts nationaux et de laboratoires de recherche. La base inclut l'ensemble des données jugées nécessaires par les experts pour répondre aux problématiques qu'ils ont identifiées. Il s'agit de mesures physico-chimiques et prélèvements biologiques dans les cours d'eau, mais aussi des données topographiques et d'occupation du sol (BD Topo, BD Carthage, Corine Land Cover). Le contenu de la base est riche ; les données sont nombreuses et variées tant en termes d'information apportée que de format des données (catégoriel, numérique, géographique, données manquantes, ...). Afin d'exploiter ces données, nous utilisons des techniques de fouille de données, et notamment des techniques de fouille de données relationnelles (conçues pour travailler sur plusieurs tables) qui, dans ce contexte, se trouvent confrontées à leurs limites, notamment dans la prise en compte des relations spatiales entre les données. Objectifs de la thèse : l'objectif général est d'étudier et développer des techniques de fouille de données relationnelles, puis de les appliquer sur des données volumineuses et complexes telles que celles collectées dans la cadre du projet Fresqueau. Dans un premier temps, le/la doctorant-e étudiera la propositionalisation. Cette technique consiste à transformer un problème de fouille de données contenues dans plusieurs tables en un problème de fouille d'une seule table. La complexité du problème est alors réduite et le problème peut être résolu en appliquant une des méthodes de fouille de données classiques et efficaces pour la fouille dans une seule table. L'objectif dans cette transformation est de capturer l'information utile issue des différentes tables afin de la restituer dans la table qui sera fouillée. Plusieurs méthodes ont été proposées, selon des approches logiques ou orientées bases de données. Le/la doctorant-e devra prendre en main une ou deux méthodes de propositionalisation et étudier la prise en compte des relations spatiales dans ces techniques d'un point de vue théorique. Les modèles de représentation qualitative de l'espace seront appréhendés et utilisés, ainsi que les procédures inférentielles associées. Dans un deuxième temps, la propositionalisation sera comparée et combinée avec d'autres approches de fouille de données relationnelles, telle que l'analyse relationnelle de concepts. Le travail de thèse devra comprendre le développement et l'expérimentation d'une ou deux approches retenues comme pertinentes pour le domaine d'application et une évaluation des résultats en relation avec les experts du domaine. Apports attendus : • • • avancées théoriques sur les méthodes de fouille de données relationnelles et spatiales développement et mise en œuvre interprétation et validation sur des données réelles. Profil recherché : • Master 2 en Informatique • Formation en logique et fouille de données • Curiosité et capacité à appréhender le domaine hydro-écologique et interagir avec les experts du domaine Références : Chelghoum N., Zeitouni K, et al. Fouille de données spatiales - Approche basée sur la programmation logique inductive, EGC 2006, Lille, Janvier 2006. Edition CEPADUES, pp. 529-540. Dolques X., Chandra Mondal K., Braud A., Huchard M., Le Ber F. RCA as a data transforming method: a comparison with propositionalisation. En soumission. Dolques X., Le Ber F., Huchard M., Nebut C. Analyse Relationnelle de Concepts pour l'exploration de données relationnelles, EGC'2013, Toulouse, Janvier 2013. Hermann-Éditions, pp. 121-132, Revue des Nouvelles Technologies de l'Information. El Jelali S., Braud A., Lachiche N. Propositionalisation of continuous attributes beyond simple aggregation, ILP 2012, Springer, LNCS, Vol. 7842, March 2013, pp. 32-44. Le Ber F., Ligozat G., Papini O. Raisonnements sur l'espace et le temps : des modèles aux applications, Lavoisier, 2007, pp. 419. Malerba D., et al. Relational Mining in Spatial Domains: Accomplishments and Challenges. ISMIS 2011, pp.1624.