Sujet de thèse
Fouille de données relationnelles et spatiales – application
au domaine hydroécologique
Laboratoire d'accueil : Laboratoire ICube, UMR CNRS -- Université de Strasbourg – INSA -- ENGEES,
équipe BFO
Directrice de thèse : Florence Le Ber (HDR, ICube)
Encadrante : Agnès Braud (Maître de Conférences, ICube)
Contexte : Notre équipe travaille depuis de nombreuses années en collaboration avec des hydro-écologistes
sur l'évaluation de la qualité des hydro-écosystèmes. Ce travail a été l'objet de plusieurs projets, dont le projet
ANR Fresqueau (engees-fresqueau.unistra.fr/) en cours actuellement. Dans ce projet, nous avons constitué
une base de données rassemblant des données relatives aux bassins Rhône-Méditerranée-Corse (RMC) et
Rhin-Meuse (RM), issues de différents instituts nationaux et de laboratoires de recherche. La base inclut
l'ensemble des données jugées nécessaires par les experts pour répondre aux problématiques qu'ils ont
identifiées. Il s'agit de mesures physico-chimiques et prélèvements biologiques dans les cours d'eau, mais
aussi des données topographiques et d'occupation du sol (BD Topo, BD Carthage, Corine Land Cover). Le
contenu de la base est riche ; les données sont nombreuses et variées tant en termes d'information apportée
que de format des données (catégoriel, numérique, géographique, données manquantes, ...). Afin d'exploiter
ces données, nous utilisons des techniques de fouille de données, et notamment des techniques de fouille de
données relationnelles (conçues pour travailler sur plusieurs tables) qui, dans ce contexte, se trouvent
confrontées à leurs limites, notamment dans la prise en compte des relations spatiales entre les données.
Objectifs de la thèse : l'objectif général est d'étudier et développer des techniques de fouille de données
relationnelles, puis de les appliquer sur des données volumineuses et complexes telles que celles collectées
dans la cadre du projet Fresqueau. Dans un premier temps, le/la doctorant-e étudiera la propositionalisation.
Cette technique consiste à transformer un problème de fouille de données contenues dans plusieurs tables en
un problème de fouille d'une seule table. La complexité du problème est alors réduite et le problème peut être
résolu en appliquant une des méthodes de fouille de données classiques et efficaces pour la fouille dans une
seule table. L'objectif dans cette transformation est de capturer l'information utile issue des différentes tables
afin de la restituer dans la table qui sera fouillée. Plusieurs méthodes ont été proposées, selon des approches
logiques ou orientées bases de données. Le/la doctorant-e devra prendre en main une ou deux méthodes de
propositionalisation et étudier la prise en compte des relations spatiales dans ces techniques d'un point de vue
théorique. Les modèles de représentation qualitative de l'espace seront appréhendés et utilisés, ainsi que les
procédures inférentielles associées. Dans un deuxième temps, la propositionalisation sera comparée et
combinée avec d'autres approches de fouille de données relationnelles, telle que l'analyse relationnelle de
concepts. Le travail de thèse devra comprendre le développement et l'expérimentation d'une ou deux
approches retenues comme pertinentes pour le domaine d'application et une évaluation des résultats en
relation avec les experts du domaine.
Apports attendus :
•avancées théoriques sur les méthodes de fouille de données relationnelles et spatiales
•développement et mise en œuvre
•interprétation et validation sur des données réelles.