Spécifications de la Plateforme OrphaMine

Téléchargement

Spéciﬁcations de la Plateforme OrphaMine

Chedy Raïssi

24 juillet 2013

Table des matières

1 Présentation de la plateforme OrphaMine 2

1.1 Objectifs.............................. 2

1.1.1 Les contraintes . . . . . . . . . . . . . . . . . . . . . . 3

2 État de l’art 4

2.1 Gestion des données . . . . . . . . . . . . . . . . . . . . . . . 4

2.2 Fouillededonnées......................... 6

2.3 Visualisation............................ 6

2.3.1 Les étapes de la visualisation de données . . . . . . . . 7

3 Orphamine 7

3.1 CouchDB ............................. 8

3.2 FouilledeDonnées ........................ 9

3.2.1 Extraction de motifs . . . . . . . . . . . . . . . . . . . 10

3.2.2 Énumération des cliques et des quasi-cliques . . . . . . 11

4 Visualisation de Données 12

4.1 Introduction............................ 12

4.1.1 Modèles de Représentation . . . . . . . . . . . . . . . . 13

4.1.2 Diagramme Cordal . . . . . . . . . . . . . . . . . . . . 13

5 Conclusion et Perspectives 15

1 Présentation de la plateforme OrphaMine

Dans le cadre du projet ANR Hybride, l’équipe-projet ORPAILLEUR a

décidé après concertation avec les diﬀérents partenaire du projet de déve-

lopper une plateforme de web services qui permet la visualisation ainsi que

l’intégration de données et des algorithmes de fouille. Les données étudiées

traitent des maladies orphelines. Mais l’objectif à long terme est le déve-

loppement d’outils oﬀrant le plus d’abstraction possible du type de données

étudiées aﬁn de gérer une masse de données hétérogènes. Le but premier du

portail OrphaMine est de fournir des outils d’analyses ouverts au public ainsi

qu’aux médecins ou d’autres chercheurs.

La visualisation des données est une étape importante dans leur compré-

hension. Celle-ci doit être intelligente et réﬂéchie aﬁn que l’utilisateur puisse

en tirer les informations recherchées. L’objectif principal est de permettre

la mise en évidence de ces informations alors que le jeu de données est très

vaste.

Pour permettre un apport de connaissances de ces données, la visualisa-

tion se base sur des résultats issus d’algorithmes de fouille de données. Ainsi,

les informations extraites des diﬀérentes recherches (généralement des motifs

fréquents dans les données) sont utilisées dans ce but.

1.1 Objectifs

L’enjeu pour l’équipe ORPAILLEUR et le projet Hybride

Le premier but recherché est de permettre un aﬃchage des données pré-

sentes dans une ontologie appelée OrphaData (http://www.orpha.net). Cet

ensemble de données est issu du projet Orphanet coordonné par l’INSERM

dont le but est de rassembler toutes les informations concernant les maladies

orphelines. Ces maladies rares sont encore très peu connues et beaucoup de

données scientiﬁques restent encore ﬂoues ou incorrectes.

Cette ontologie, uniquement disponible au format XML 1, n’oﬀre pas de

visualisation et ne permet donc pas une compréhension aisée aux utilisateurs,

généralement des médecins qui n’ont pas forcément de base en informatique.

De plus, sous le format actuel, il est impossible d’interagir avec les données

de manière simple et rapide.

1. XML : l’Extensible Markup Language est un langage informatique utilisé pour

l’échange de données.

Le deuxième but, plus ancré dans le projet ANR Hybride, est de permettre

l’intégration des algorithmes de fouilles des diﬀérentes équipes et acteurs du

projet dans une plateforme ouverte et facilement accessible aﬁn de permettre

l’échange et l’analyse dans le cadre du projet.

L’enjeu est donc la mise en place d’un véritable portail collaboratif qui

servira aux diﬀérents acteurs du projet Hybride avec :

– Une visualisation générale des données OrphaData pour les médecins

qui travaillent, mettent à jour et développent cette base.

– Une intégration des algorithmes de fouilles développés par les diﬀérents

acteurs académiques.

– L’utilisation de ces algorithmes aﬁn d’améliorer OrphaData.

Les objectifs pour arriver à la mise en place de ce portail sont dans un

premier temps le développement d’une API 2sous forme d’un service web

ergonomique et disposant d’une forte abstraction du type de données dont il

va permettre l’accès. Cette API pourra servir aux développeurs et diﬀérents

chercheurs, aﬁn de récupérer des données sous un format précis pour la mise

en place et l’utilisation d’algorithmes de fouille de données. Mais aussi, pour le

développement même du portail sous la forme d’un site Internet de nouvelle

génération (HTML5) qui pourra être facilement visionné sur des tablettes

tactiles et smartphones, qui sont de plus en plus utilisés.

Ce site se base intégralement sur des web services. Ainsi il est important

de mettre un fort accent sur la conception de l’API qui sera réutilisé avec

d’autres projets et non uniquement pour les données d’OrphaData (pérennité

du développement).

1.1.1 Les contraintes

Pour arriver à ce résultat, plusieurs contraintes doivent être respectées :

du fait que l’API sera un point d’accès à un grand volume de données très

diverses, il est important de veiller à garder une ﬂexibilité et une abstraction

lors de leurs traitements. Par la suite, il est aussi nécessaire de comprendre

les algorithmes de fouilles intégrés au portail aﬁn de permettre une interac-

tivité et une visualisation adaptée. De plus, comme nous souhaitons oﬀrir

une visualisation dynamique à l’utilisateur, des contraintes de rapidité et de

facilité d’accès sont aussi impliquées.

2. API : Application Programing Interface

2 État de l’art

Aﬁn de mieux comprendre les enjeux et déﬁs pour le développement du

portail OrphaMine, nous allons décrire l’état actuel des techniques utilisées

dans les diﬀérents domaines en relation avec le développement de notre plate-

forme. Cette description permettra d’introduire certains concepts nécessaire

à la compréhension de la suite de ce rapport. Les domaines étudiés sont

dans un premier temps le stockage des données où nous parlerons du type

de système de gestion de base de données (SGBD) qui sera utilisé. Puis des

diﬀérentes techniques de fouilles employées et enﬁn nous aborderons certains

concepts de visualisations.

Cette partie mènera à une discussion sur les diﬀérents choix qui ont été

eﬀectués pour chacun de ces domaines.

2.1 Gestion des données

Le choix de la méthode de stockage des données est la première étape

logique dans la conception d’une API visant le traitement de données à rela-

tivement grande échelle. Ce choix dépend bien évidemment du type et de la

quantité de données à stocker, et nous nous retrouvons ici dans le cas de don-

nées hétérogènes et diverses, que nous pouvons qualiﬁer de non structurées,

dans un volume relativement important. Il est donc primordial de disposer

d’une base de données ﬂexible qui sera en mesure de stocker toutes nouvelles

données issues de fouilles, ou de ressources qui seraient intégrées au jeu déjà

existant. C’est pour répondre à ce type de nouveau besoin que le NoSQL a

été introduit assez récemment [Cou].

Le NoSQL est un type de stockage des données employées par certains

SGBD au même titre que le modèle relationnel. Le modèle de données entre

l’approche relationnelle et NoSQL est très diﬀérent. Dans le cas d’un modèle

relationnel, les données sont séparées dans une multitude de tables liées entre

elles par un schéma logique. Ces relations sont stockées dans des tables par

le biais de clés étrangères. Ainsi, lors de la récupération des données, celles-

ci doivent être collectées dans plusieurs endroits et combinées avant d’être

présentées à l’utilisateur.

Une base de données NoSQL orientée documents procède diﬀéremment.

Les données y sont stockées au sein de documents souvent au format JSON 3

3. JSON : JavaScript Object Notation

1 / 19 100%

Documents connexes

La fouille des règles d`association est un processus qui permet de

Fiche d`inscription

Informatique (Fouille - Management de Projets Informatiques) (7 ects)

RCP216 - Ingénierie de la fouille et de la visualisation de données

MyGreenServices

Jeux de langue

titre sur 1 ou 2 lignes maximum

M-CrossWay - Orange Business Tour 2017

Bases De Donnees

Proposition de thématiques pour EGC 2011 Algorithmes de fouille

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Spécifications de la Plateforme OrphaMine

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Spécifications de la Plateforme OrphaMine

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib