Laboratoires, pour proposer une thématique de

publicité
ANNEXE 1
Entreprises, pour proposer un sujet de thèse soutenue par le
dispositif CIFRE, merci de remplir les champs suivants, et d’envoyer le document
à : [email protected]
Si vous souhaitez ajouter un descriptif plus détaillé de l’offre à votre annonce,
merci de le joindre accompagné de ce formulaire.
●
Nom de l’entreprise* : ATOS
● Ville et code
● Nom
postal* : Bezons – 95870
du laboratoire académique partenaire (si déjà connu) : ISEP
● Numéro
de reconnaissance du laboratoire : ………………………………………………………….
● Thématique
de recherche en une phrase(sans aucun caractère confidentiel) * :
Filtrage sémantique et génération de résumés en temps réel à partir de flux de données massives
●Descriptif de
la thématique de recherche (sans aucun caractère confidentiel) * :
Cette thèse (CIFRE) s’inscrit dans le cadre d’un projet ayant pour objectif la conception et le
développement d’une plateforme de traitement de flux de données dont le cas d’usage concret est la
supervision des réseaux de transports et de distribution d’eau au niveau d’un territoire. Le but est
d’élaborer une solution pertinente pour la réalisation de systèmes d’aide à la décision pour les exploitants
de réseaux. On souhaite ainsi, par exemple, détecter au plus tôt des phénomènes singuliers, voire
anormaux (micro-variations de certains paramètres qui ont une incidence en termes de risques, variation
ou fréquence non-nominale, etc.). L’identification de la survenue possible, par anticipation, de ces
épisodes peut permettre d’économiser des quantités considérables d’eau potable. La télé-relève des
consommations ainsi que les nombreux capteurs communicants récemment déployés dans le réseau
hydraulique génèrent de nouveaux flux de données qui permettront de diagnostiquer beaucoup plus
rapidement et plus précisément les fuites.
Récemment, de nombreux systèmes sont apparus (e.g. Apache Storm, Spark Streaming, etc.),
permettant de traiter ces flux de données provenant de sources distribuées et hétérogènes.
Néanmoins, la réalisation d’un tel système demeure un défi scientifique qui devra prendre en compte
le volume de données, leur vitesse et leur variété. Les systèmes du Web sémantique, à travers le
langage RDF par exemple, permettent de répondre au problème de la variété des données. Ainsi, les
données dynamiques récupérées des différents capteurs et autres flux sont sémantisées. Cette
sémantisation se traduit par une conversion de ces données en triplets RDF agrémentés d'une
dimension temporelle qui caractérise l'arrivée quasi continue de ces flux. Afin de pouvoir faire des
requêtes, filtrer ou raisonner sur ces flux sémantiques, il faut étendre le langage SPARQL pour y
intégrer des notions telles que la fenêtre temporelle, en s’inspirant de ce qui a été fait dans les
systèmes de gestion de flux de données (SGFD ou DSMS pour Data Stream Management Systems).
Un des verrous de cette thèse est d’étendre le langage de requête SPARQL afin d’assurer un filtrage
rapide et intelligent de données volumineuses qui arrivent en continu. Cela devra répondre aux
problématiques suivantes :
 Les requêtes traitant les données doivent s'adapter au débit d'arrivée des données dynamiques
et s'évaluer continuellement afin de tenir compte du caractère évolutif du flux. La sémantique
des requêtes SPARQL doit permettre les traitements basés sur le temps ou l'ordre d'arrivée des
données. Le SPARQL standard sera étendu en introduisant la notion de fenêtre temporelle
adaptable (portion définie d'un flux) et des opérateurs spécifiques au traitement de flux.
 Les données pouvant être soit statiques, soit dynamiques et temporelles, le SPARQL étendu
doit pouvoir mêler ces deux catégories de données en les interconnectant, quel que soit leur
nombre, leur source ou leur qualité.
●Descriptif
du poste* :
La démarche générale vise:
 L’étude et le test des approches existantes pour réaliser des requêtes SPARQL continu dans un
système distribué. C-SPARQL et CQELS sont deux exemples d’extension de SPARQL qui serviront
comme point de départ.
 La proposition d’une solution de requêtage des flux de données sémantiques en prenant en
compte les paramètres temporels et en phase avec les technologies du Web sémantique et de
Big Data. Cette solution devra permettre le traitement des requêtes continues de manière
distribuée et de manière élastique pour pouvoir tirer parti des avantages fournis par les
plateformes de cloud computing. Cela sera concrétisé par la mise au point des filtres
sémantiques pouvant s’adapter dans un environnement dynamique à plusieurs contraintes :
volume, débit, temps, et exécutant deux types de traitement, à savoir, le filtrage sélective et le
raisonnement.
 La mise en place d’une solution de fédération des requêtes continues dans un système
distribué. Cette fédération permet de faire abstraction à la répartition des données dans
différentes plateformes de stockage.
 Afin de pouvoir utiliser les filtres sémantiques de manière générique s’appliquant à tout
domaine d’application, il convient de créer un DSL (Domain Specific Language). Ce dernier
simplifiera la définition et la mise en place de nouveaux filtres et briques de raisonnement.
 L’intervention sur des aspects de visualisation de la solution d’aide à la décision qui va
s’appuyer sur les informations ainsi inférées à partir des flux de données pour guider les
exploitants des réseaux hydrauliques dans leurs actions relatives par exemple au maintien d’un
capteur qui dérive, au diagnostic d’un capteur qui ne communique plus, à la détection
d’anomalies indicatrices d’une fuite dans la consommation d’un secteur.
● Date
de recrutement* : ASAP
● Adresse
e-mail à laquelle le candidat doit envoyer sa candidature* :
Le candidat doit avoir des connaissances en Web sémantique et les technologies de Big data
Bonnes qualités rédactionnelles (précision, clarté) anglais et français
[email protected]
*champs obligatoires
Téléchargement