ANNEXE 1 Entreprises, pour proposer un sujet de thèse soutenue par le dispositif CIFRE, merci de remplir les champs suivants, et d’envoyer le document à : [email protected] Si vous souhaitez ajouter un descriptif plus détaillé de l’offre à votre annonce, merci de le joindre accompagné de ce formulaire. ● Nom de l’entreprise* : ATOS ● Ville et code ● Nom postal* : Bezons – 95870 du laboratoire académique partenaire (si déjà connu) : ISEP ● Numéro de reconnaissance du laboratoire : …………………………………………………………. ● Thématique de recherche en une phrase(sans aucun caractère confidentiel) * : Filtrage sémantique et génération de résumés en temps réel à partir de flux de données massives ●Descriptif de la thématique de recherche (sans aucun caractère confidentiel) * : Cette thèse (CIFRE) s’inscrit dans le cadre d’un projet ayant pour objectif la conception et le développement d’une plateforme de traitement de flux de données dont le cas d’usage concret est la supervision des réseaux de transports et de distribution d’eau au niveau d’un territoire. Le but est d’élaborer une solution pertinente pour la réalisation de systèmes d’aide à la décision pour les exploitants de réseaux. On souhaite ainsi, par exemple, détecter au plus tôt des phénomènes singuliers, voire anormaux (micro-variations de certains paramètres qui ont une incidence en termes de risques, variation ou fréquence non-nominale, etc.). L’identification de la survenue possible, par anticipation, de ces épisodes peut permettre d’économiser des quantités considérables d’eau potable. La télé-relève des consommations ainsi que les nombreux capteurs communicants récemment déployés dans le réseau hydraulique génèrent de nouveaux flux de données qui permettront de diagnostiquer beaucoup plus rapidement et plus précisément les fuites. Récemment, de nombreux systèmes sont apparus (e.g. Apache Storm, Spark Streaming, etc.), permettant de traiter ces flux de données provenant de sources distribuées et hétérogènes. Néanmoins, la réalisation d’un tel système demeure un défi scientifique qui devra prendre en compte le volume de données, leur vitesse et leur variété. Les systèmes du Web sémantique, à travers le langage RDF par exemple, permettent de répondre au problème de la variété des données. Ainsi, les données dynamiques récupérées des différents capteurs et autres flux sont sémantisées. Cette sémantisation se traduit par une conversion de ces données en triplets RDF agrémentés d'une dimension temporelle qui caractérise l'arrivée quasi continue de ces flux. Afin de pouvoir faire des requêtes, filtrer ou raisonner sur ces flux sémantiques, il faut étendre le langage SPARQL pour y intégrer des notions telles que la fenêtre temporelle, en s’inspirant de ce qui a été fait dans les systèmes de gestion de flux de données (SGFD ou DSMS pour Data Stream Management Systems). Un des verrous de cette thèse est d’étendre le langage de requête SPARQL afin d’assurer un filtrage rapide et intelligent de données volumineuses qui arrivent en continu. Cela devra répondre aux problématiques suivantes : Les requêtes traitant les données doivent s'adapter au débit d'arrivée des données dynamiques et s'évaluer continuellement afin de tenir compte du caractère évolutif du flux. La sémantique des requêtes SPARQL doit permettre les traitements basés sur le temps ou l'ordre d'arrivée des données. Le SPARQL standard sera étendu en introduisant la notion de fenêtre temporelle adaptable (portion définie d'un flux) et des opérateurs spécifiques au traitement de flux. Les données pouvant être soit statiques, soit dynamiques et temporelles, le SPARQL étendu doit pouvoir mêler ces deux catégories de données en les interconnectant, quel que soit leur nombre, leur source ou leur qualité. ●Descriptif du poste* : La démarche générale vise: L’étude et le test des approches existantes pour réaliser des requêtes SPARQL continu dans un système distribué. C-SPARQL et CQELS sont deux exemples d’extension de SPARQL qui serviront comme point de départ. La proposition d’une solution de requêtage des flux de données sémantiques en prenant en compte les paramètres temporels et en phase avec les technologies du Web sémantique et de Big Data. Cette solution devra permettre le traitement des requêtes continues de manière distribuée et de manière élastique pour pouvoir tirer parti des avantages fournis par les plateformes de cloud computing. Cela sera concrétisé par la mise au point des filtres sémantiques pouvant s’adapter dans un environnement dynamique à plusieurs contraintes : volume, débit, temps, et exécutant deux types de traitement, à savoir, le filtrage sélective et le raisonnement. La mise en place d’une solution de fédération des requêtes continues dans un système distribué. Cette fédération permet de faire abstraction à la répartition des données dans différentes plateformes de stockage. Afin de pouvoir utiliser les filtres sémantiques de manière générique s’appliquant à tout domaine d’application, il convient de créer un DSL (Domain Specific Language). Ce dernier simplifiera la définition et la mise en place de nouveaux filtres et briques de raisonnement. L’intervention sur des aspects de visualisation de la solution d’aide à la décision qui va s’appuyer sur les informations ainsi inférées à partir des flux de données pour guider les exploitants des réseaux hydrauliques dans leurs actions relatives par exemple au maintien d’un capteur qui dérive, au diagnostic d’un capteur qui ne communique plus, à la détection d’anomalies indicatrices d’une fuite dans la consommation d’un secteur. ● Date de recrutement* : ASAP ● Adresse e-mail à laquelle le candidat doit envoyer sa candidature* : Le candidat doit avoir des connaissances en Web sémantique et les technologies de Big data Bonnes qualités rédactionnelles (précision, clarté) anglais et français [email protected] *champs obligatoires