Laboratoires, pour proposer une thématique de

Téléchargement

ANNEXE 1

Entreprises, pour proposer un sujet de thèse soutenue par le

dispositif CIFRE, merci de remplir les champs suivants, et d’envoyer le document

à : [email protected]sso.fr

Si vous souhaitez ajouter un descriptif plus détaillé de l’offre à votre annonce,

merci de le joindre accompagné de ce formulaire.

● Nom de l’entreprise* : ATOS

● Ville et code postal* : Bezons – 95870

● Nom du laboratoire académique partenaire (si déjà connu) : ISEP

● Numéro de reconnaissance du laboratoire : ………………………………………………………….

● Thématique de recherche en une phrase(sans aucun caractère confidentiel) * :

Filtrage sémantique et génération de résumés en temps réel à partir de flux de données massives

●Descriptif de la thématique de recherche (sans aucun caractère confidentiel) * :

Cette thèse (CIFRE) s’inscrit dans le cadre d’un projet ayant pour objectif la conception et le

développement d’une plateforme de traitement de flux de données dont le cas d’usage concret est la

supervision des réseaux de transports et de distribution d’eau au niveau d’un territoire. Le but est

d’élaborer une solution pertinente pour la réalisation de systèmes d’aide à la décision pour les exploitants

de réseaux. On souhaite ainsi, par exemple, détecter au plus tôt des phénomènes singuliers, voire

anormaux (micro-variations de certains paramètres qui ont une incidence en termes de risques, variation

ou fréquence non-nominale, etc.). L’identification de la survenue possible, par anticipation, de ces

épisodes peut permettre d’économiser des quantités considérables d’eau potable. La télé-relève des

consommations ainsi que les nombreux capteurs communicants récemment déployés dans le réseau

hydraulique génèrent de nouveaux flux de données qui permettront de diagnostiquer beaucoup plus

rapidement et plus précisément les fuites.

Récemment, de nombreux systèmes sont apparus (e.g. Apache Storm, Spark Streaming, etc.),

permettant de traiter ces flux de données provenant de sources distribuées et hétérogènes.

Néanmoins, la réalisation d’un tel système demeure un défi scientifique qui devra prendre en compte

le volume de données, leur vitesse et leur variété. Les systèmes du Web sémantique, à travers le

langage RDF par exemple, permettent de répondre au problème de la variété des données. Ainsi, les

données dynamiques récupérées des différents capteurs et autres flux sont sémantisées. Cette

sémantisation se traduit par une conversion de ces données en triplets RDF agrémentés d'une

dimension temporelle qui caractérise l'arrivée quasi continue de ces flux. Afin de pouvoir faire des

requêtes, filtrer ou raisonner sur ces flux sémantiques, il faut étendre le langage SPARQL pour y

intégrer des notions telles que la fenêtre temporelle, en s’inspirant de ce qui a été fait dans les

systèmes de gestion de flux de données (SGFD ou DSMS pour Data Stream Management Systems).

Un des verrous de cette thèse est d’étendre le langage de requête SPARQL afin d’assurer un filtrage

rapide et intelligent de données volumineuses qui arrivent en continu. Cela devra répondre aux

problématiques suivantes :

 Les requêtes traitant les données doivent s'adapter au débit d'arrivée des données dynamiques

et s'évaluer continuellement afin de tenir compte du caractère évolutif du flux. La sémantique

des requêtes SPARQL doit permettre les traitements basés sur le temps ou l'ordre d'arrivée des

données. Le SPARQL standard sera étendu en introduisant la notion de fenêtre temporelle

adaptable (portion définie d'un flux) et des opérateurs spécifiques au traitement de flux.

 Les données pouvant être soit statiques, soit dynamiques et temporelles, le SPARQL étendu

doit pouvoir mêler ces deux catégories de données en les interconnectant, quel que soit leur

nombre, leur source ou leur qualité.

●Descriptif du poste* :

La démarche générale vise:

 L’étude et le test des approches existantes pour réaliser des requêtes SPARQL continu dans un

système distribué. C-SPARQL et CQELS sont deux exemples d’extension de SPARQL qui serviront

comme point de départ.

 La proposition d’une solution de requêtage des flux de données sémantiques en prenant en

compte les paramètres temporels et en phase avec les technologies du Web sémantique et de

Big Data. Cette solution devra permettre le traitement des requêtes continues de manière

distribuée et de manière élastique pour pouvoir tirer parti des avantages fournis par les

plateformes de cloud computing. Cela sera concrétisé par la mise au point des filtres

sémantiques pouvant s’adapter dans un environnement dynamique à plusieurs contraintes :

volume, débit, temps, et exécutant deux types de traitement, à savoir, le filtrage sélective et le

raisonnement.

 La mise en place d’une solution de fédération des requêtes continues dans un système

distribué. Cette fédération permet de faire abstraction à la répartition des données dans

différentes plateformes de stockage.

 Afin de pouvoir utiliser les filtres sémantiques de manière générique s’appliquant à tout

domaine d’application, il convient de créer un DSL (Domain Specific Language). Ce dernier

simplifiera la définition et la mise en place de nouveaux filtres et briques de raisonnement.

 L’intervention sur des aspects de visualisation de la solution d’aide à la décision qui va

s’appuyer sur les informations ainsi inférées à partir des flux de données pour guider les

exploitants des réseaux hydrauliques dans leurs actions relatives par exemple au maintien d’un

capteur qui dérive, au diagnostic d’un capteur qui ne communique plus, à la détection

d’anomalies indicatrices d’une fuite dans la consommation d’un secteur.

● Date de recrutement* : ASAP

● Adresse e-mail à laquelle le candidat doit envoyer sa candidature* :

Le candidat doit avoir des connaissances en Web sémantique et les technologies de Big data

Bonnes qualités rédactionnelles (précision, clarté) anglais et français

[email protected]

*champs obligatoires

1 / 2 100%

Documents connexes

Le W3C donne un coup d`accélérateur au Web sémantique avec

Plateforme linkedWiki

Titre: Requêtes sur les grandes bases de connaissance

PCIE 05 : Bases de Données - CFAI 21-71

Raisonnement dans le Web sémantique

Support

Bases de Données - UFR de Mathématiques

Analyse de données

Un outil extrêmement puissant La représentation des données sous

Ahmed ZELLOU

Web des données - applications

Styles pour les actes de la Plate-forme AFIA 2001 (IC et CAP)

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Laboratoires, pour proposer une thématique de

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Laboratoires, pour proposer une thématique de

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib