ANNEXE 1
Entreprises, pour proposer un sujet de thèse soutenue par le
dispositif CIFRE, merci de remplir les champs suivants, et d’envoyer le document
Si vous souhaitez ajouter un descriptif plus détaillé de l’offre à votre annonce,
merci de le joindre accompagné de ce formulaire.
● Nom de l’entreprise* : ATOS
● Ville et code postal* : Bezons – 95870
● Nom du laboratoire académique partenaire (si déjà connu) : ISEP
● Numéro de reconnaissance du laboratoire : ………………………………………………………….
● Thématique de recherche en une phrase(sans aucun caractère confidentiel) * :
Filtrage sémantique et génération de résumés en temps réel à partir de flux de données massives
●Descriptif de la thématique de recherche (sans aucun caractère confidentiel) * :
Cette thèse (CIFRE) s’inscrit dans le cadre d’un projet ayant pour objectif la conception et le
développement d’une plateforme de traitement de flux de données dont le cas d’usage concret est la
supervision des réseaux de transports et de distribution d’eau au niveau d’un territoire. Le but est
d’élaborer une solution pertinente pour la réalisation de systèmes d’aide à la décision pour les exploitants
de réseaux. On souhaite ainsi, par exemple, détecter au plus tôt des phénomènes singuliers, voire
anormaux (micro-variations de certains paramètres qui ont une incidence en termes de risques, variation
ou fréquence non-nominale, etc.). L’identification de la survenue possible, par anticipation, de ces
épisodes peut permettre d’économiser des quantités considérables d’eau potable. La télé-relève des
consommations ainsi que les nombreux capteurs communicants récemment déployés dans le réseau
hydraulique génèrent de nouveaux flux de données qui permettront de diagnostiquer beaucoup plus
rapidement et plus précisément les fuites.
Récemment, de nombreux systèmes sont apparus (e.g. Apache Storm, Spark Streaming, etc.),
permettant de traiter ces flux de données provenant de sources distribuées et hétérogènes.
Néanmoins, la réalisation d’un tel système demeure un défi scientifique qui devra prendre en compte
le volume de données, leur vitesse et leur variété. Les systèmes du Web sémantique, à travers le
langage RDF par exemple, permettent de répondre au problème de la variété des données. Ainsi, les
données dynamiques récupérées des différents capteurs et autres flux sont sémantisées. Cette
sémantisation se traduit par une conversion de ces données en triplets RDF agrémentés d'une
dimension temporelle qui caractérise l'arrivée quasi continue de ces flux. Afin de pouvoir faire des
requêtes, filtrer ou raisonner sur ces flux sémantiques, il faut étendre le langage SPARQL pour y
intégrer des notions telles que la fenêtre temporelle, en s’inspirant de ce qui a été fait dans les
systèmes de gestion de flux de données (SGFD ou DSMS pour Data Stream Management Systems).
Un des verrous de cette thèse est d’étendre le langage de requête SPARQL afin d’assurer un filtrage
rapide et intelligent de données volumineuses qui arrivent en continu. Cela devra répondre aux
problématiques suivantes :
Les requêtes traitant les données doivent s'adapter au débit d'arrivée des données dynamiques
et s'évaluer continuellement afin de tenir compte du caractère évolutif du flux. La sémantique
des requêtes SPARQL doit permettre les traitements basés sur le temps ou l'ordre d'arrivée des
données. Le SPARQL standard sera étendu en introduisant la notion de fenêtre temporelle
adaptable (portion définie d'un flux) et des opérateurs spécifiques au traitement de flux.