Modélisation multidimensionnelle des données

Modélisation multidimensionnelle des données complexes : application aux

données médicales

Midouni Sid Ahmed Djallal

Version -9-

08/06/05

Sommaire :

1. Introduction..........................................................................................................................3

2. Etat de l’art...........................................................................................................................4

3. Modélisation multidimensionnelle des données complexes..............................................5

3.1. Modélisation multidimensionnelle ..................................................................................6

3.2. Données complexes.........................................................................................................7

3.3. Modélisation multidimensionnelle des données complexes............................................8

4. Contexte et objectifs.............................................................................................................9

4.1. Le projet MAP.................................................................................................................9

4.2. Le magasin cardiovasculaire..........................................................................................9

5. Notre démarche de modélisation ......................................................................................10

5.1. Le magasin cardiovasculaire : existant ........................................................................11

5.2. Nouveau modèle multidimensionnel du magasin cardiovasculaire..............................12

5.3. Le métamodèle...............................................................................................................15

6. Prototype et Evaluation.....................................................................................................18

7. Conclusion et perspectives : ..............................................................................................23

Liste des figures

Figure 1 : Représentation multidimensionnelle..........................................................................7

Figure 2 : Schéma en étoile........................................................................................................7

Figure 3 : Les données complexes..............................................................................................8

Figure 4 : La démarche de modélisation..................................................................................11

Figure 5 : Le modèle multidimensionnel du module Cardiovasculaire [MAP04]..................11

Figure 6 : Le nouveau modèle Cardiovasculaire..................................................................... 13

Figure 7 : Le Méta Modèle.......................................................................................................16

Figure 8 : Le processus de développement...............................................................................19

Figure 9 : Architecture du prototype GEDM ...........................................................................20

Figure 10 : Liste des dimensions.............................................................................................. 21

Figure 11 : Propriétés d’une dimension...................................................................................21

Figure 12 : Liste des tables de faits.......................................................................................... 22

Figure 13 : Propriétés d’une table de faits...............................................................................22

Figure 14 : Le méta modèle multidimensionnel de CWM ........................................................24

Résumé:

La vocation d’un entrepôt de données est l’analyse de données pour l’aide à la

décision dans les entreprises. Tout de même, la modélisation multidimensionnelle est la base

des entrepôts de données et l’analyse en ligne (OLAP).

Dans ce rapport, nous abordons le problème de la modélisation multidimensionnelle

des données complexes à travers le cas des données médicales du projet MAP (Médecine

d'anticipation personnalisée). Nous proposons un méta modèle multidimensionnel étendu pour

les données médicales en généralisant le modèle cardiovasculaire du projet MAP. Enfin, nous

avons spécifié et réalisé un outil d’aide à la conception d’entrepôt de données médicales.

Abstract :

1. Introduction

L’intérêt pour l’analyse de données s’est développé énormément ces dernières années.

Les entreprises se sont rendues compte de l’efficacité de la technologie OLAP1 (OnLine

Analytical Processing) dans l’analyse et l’exploration des données. Cette technologie est

utilisée dans les systèmes d’aide à la décision. Ces systèmes sont basés sur des techniques

d’entreposage de données pour exploiter la grande masse d’informations disponibles dans les

entreprises à des fins d’analyse et d’aide à la décision.

La manière la plus appropriée pour faciliter cette analyse OLAP est la modélisation

multidimensionnelle des données. Cette dernière représente les données comme des points

dans un espace multidimensionnel [20, 21]. Les données sont vues comme des sujets

d’analyse (les faits) étudiés selon plusieurs axes (les dimensions). Chaque dimension est liée à

un ou plusieurs points de vues définissant ainsi le degré de granularité des données

(hiérarchies).

Contrairement aux modèles relationnels, entité/association ou orienté-objet, les

modèles multidimensionnels sont les plus appropriés pour faire l’analyse et faciliter la prise

de décision dans les entreprises. Ils permettent d’observer des faits à travers des indicateurs

(mesures) et des dimensions. Autrement dit, le modèle multidimensionnel se compose de faits

contenant les mesures à analyser et de dimensions contenant les paramètres de l'analyse.

La modélisation multidimensionnelle est donc une technique qui vise à organiser les

données de telle sorte que les applications OLAP soient performantes et efficaces. Cependant,

cette technique n’est pas adaptée à un certain type de données, dites complexes.

Depuis quelques années, la nécessité de gérer et de traiter ce type de données n’a cessé

de s’accentuer à cause de la variété de ces données (texte, image, son, vidéo, etc.). Cette

variété de données met clairement en évidence la nécessité de créer de nouveaux modèles

multidimensionnels pour ces nouveaux types de données qui sont qualifiées de complexes.

C’est dans ce contexte que doit être repensée la modélisation multidimensionnelle.

Les modèles existants, tel que le schéma en étoile, le schéma en constellation ou le

schéma en flocon de neige, ont été conçus afin de rendre les données d’un entrepôt prêtes à

l’analyse. Ces modèles offrent un cadre agréable pour faire la modélisation

multidimensionnelle des données simples, mais ils ne sont pas adaptés aux données

complexes.

Notre travail de recherche s'inscrit dans le cadre des travaux menés au laboratoire

ERIC (Equipe de Recherche en Ingénierie des Connaissances) et plus particulièrement au

sein du pôle BDD (Bases de Données Décisionnelles). Ce pôle travaille sur l’élaboration des

solutions permettant l’exploration des données complexes et s’intéresse plus particulièrement

au processus d’entreposage de ce type de données.

Le présent travail s’insère dans la continuité de ces travaux. Il vise à apporter des

solutions aux problèmes de la modélisation multidimensionnelle de données complexes, en

l’occurrence les données médicales du projet MAP (Médecine d'anticipation personnalisée).

L’entrepôt MAP est formé de plusieurs magasins interconnectés partageant les mêmes

données sur les patients, les laboratoires, les médecins, etc. Chaque magasin contient

également d’autres données de natures différentes (biologiques, biométriques,

cardiovasculaires, psychologiques, etc.).

1 OLAP: OnLine Analytical Processing, ce sont en fait les technologies utilisées pour faire l’analyse de données

multidimensionnelle stockées au sein d’un entrepôt

Notre objectif est de proposer un modèle multidimensionnel pour ces données

médicales, plus particulièrement pour les données du module cardiovasculaires, et de

généraliser ce modèle vers un méta modèle pour l’entrepôt de données médicales. Le rôle de

cet entrepôt est d’intégrer et de stocker toute information utile aux médecins MAP et de

conserver l’historique des données médicales pour supporter les analyses effectuées

nécessaire aux prises de décision.

Ce rapport est organisé de la manière suivante : nous étudions les principaux travaux

traitant la modélisation multidimensionnelle des données et plus précisément les données

complexes dans la section 2. La section 3 présente quelques définitions des concepts utilisés

dans le domaine de la modélisation de données et présente aussi une définition de données

complexes. La section 4 présente le contexte, les objectifs de ce travail et les motivations pour

proposer un nouveau modèle du module cardiovasculaire.

Notre démarche de modélisation est décrite dans la section 5. Elle consiste, dans un

premier temps, à proposer le nouveau modèle multidimensionnel du module cardiovasculaire.

Ce dernier modèle sera généralisé en un méta modèle qui prend en charge tous les types de

données du projet MAP.

La section 6 décrit une implémentation possible de ce méta modèle dans une base de

données relationnelle ainsi que la manière de l’instancier pour définir les autres magasins de

données du projet MAP. La dernière section conclut ce travail et présente quelques

perspectives d’utilisation et de recherche ouvertes par ce méta modèle.

2. Etat de l’art

De nombreux travaux ont étudié la modélisation multidimensionnelle. Certains

proposent des langages algébriques pour faciliter l’interrogation et la manipulation des

données de l’entrepôt [2, 3, 4, 5, 6,11]. Ces modèles peuvent être classés en trois niveaux [25,

26] :

• Au niveau conceptuel, on trouve des modèles proches de l’utilisateur et indépendants

de l’implémentation. Golfarelli et al. présentent un modèle conceptuel graphique pour

l’entreposage de données [19]. Trujillo et al. décrivent un modèle conceptuel orienté

objet basé sur UML [17]. Franconi et al. proposent un modèle conceptuel des

entrepôts de données basé sur la logique de description (langage de représentation) qui

permet de décrire les concepts de ce modèle [12].

• Au niveau logique, les modèles dépendent du SGBD, (Système de Gestion des Bases

de Données) utilisé dans l’implémentation, mais restent compréhensibles pour les

utilisateurs finaux. Kimball résume les travaux de recherche traitant ce niveau [20]. Il

décrit aussi l’implémentation des modèles multidimensionnels dans des bases de

données relationnelles. Vassiliadis et al. donnent une vue générale des modèles

logiques pour les bases de données OLAP [21].

• Au niveau physique, les modèles dépendant du SGBD spécifique utilisé sont conçus

pour décrire la manière dont les données seront stockées. Ils expliquent

l'implémentation des cubes de données. Luján-Mora et al. utilisent le diagramme de

composant et le diagramme de déploiement d’UML [UML] pour modéliser la

structure physique des entrepôts de données [13].

Ces différentes propositions sont parfaitement adaptées aux applications de données

classiques, mais ne répondent pas complètement aux exigences des applications à base de

données complexes telles que les applications médicales.

La majorité de ces travaux ne prennent pas en compte les objets à structure complexes.

Cependant, Olivier Teste a spécifié dans [4] [22] [24], des modèles de représentation et des

langages de manipulation qui sont dédiés aux entrepôts et magasins de données complexes et

évolutives et qui sont basés sur le paradigme objet. Il a intégré par ailleurs dans son modèle

la dimension temporelle afin de conserver l'évolution des données de manière pertinente.

Wan et Zeitouni [10] proposent un modèle multidimensionnel, pour un autre type de

données complexes (les objets mobiles), qui considère le temps et l’espace comme des

dimensions importantes dans leur analyse multidimensionnelle.

Tanasescu et al. ont conçu un modèle UML générique basé sur un modèle général [14,

DBB02], pour mieux identifier et représenter tous les types des données complexes pour

qu’elles soient prêtes au processus de modélisation multidimensionnelle. Dans le même

article, l’auteur a proposé l’utilisation des techniques de fouille de données permettent

l'extraction les caractéristiques des données complexes en vue de leur modélisation

multidimensionnelle.

Les efforts de modélisation des données spatiales, considérées comme un autre type de

données complexes, se concentrent sur la représentation arbitraire des objets géométriques

(points, lignes, polygones, etc.) dans un espace multidimensionnel [16]. La technologie

SOLAP [15] est basée sur une structure multidimensionnelle pour supporter l’analyse spatio-

temporelle. Miquel et al. proposent des solutions pour concevoir ces structures lorsque les

sources de données sont hétérogènes des points de vue temporel, spatial et sémantique [9].

Ces structures sont ensuite explorées dans l’environnement SOLAP.

D'autres auteurs, comme Zghal et al. se sont intéressés aux problèmes de la

modélisation multidimensionnelle des données spatiales en se basant sur le développement de

l’entrepôt spatial [8].

Dans le domaine médical, Pederson et Jensen proposent un modèle multidimensionnel

intégrant des données temporelles et imprécises pour la gestion des patients de l’hôpital [6].

Ils ont résolu les problèmes de validité et d’incertitude des données respectivement par

l’ajout, au modèle, du temps de validité et de probabilité.

Dans [JMP] les mêmes auteurs proposent des solutions d’intégration des documents

XML et des données relationnelles dans une base de données multidimensionnelle en vue de

leur analyse OLAP.

Les auteurs s’intéressent à l’aide à la décision dans le domaine médical [5], ils

proposent un modèle de données étendu pour les bases de données multidimensionnelles qui

améliore l’analyse, le suivi et le contrôle des dépenses de santé, de l’activité des médecins et

du comportement consommateur des patients. Cependant ces études se limitent aux données

au dossier du patient et ne traitent pas la complexité des données médicales.

Peu de recherches s’intéressent à la modélisation multidimensionnelle des données

médicales. Ces travaux se révèlent inadaptés à notre contexte de travail car ils ne prennent pas

en compte le problème de l’hétérogénéité des données médicales.

3. Modélisation multidimensionnelle des données complexes

Dans cette section nous allons définir, dans un premier temps, les concepts généraux

utilisés dans le domaine de la modélisation multidimensionnelle. Nous commençons par une

définition de la modélisation multidimensionnelle, ensuite nous présentons une définition des

données complexes et enfin la modélisation multidimensionnelle de ce type de données.

1 / 26 100%

Documents connexes

Qualité et datawarehouse

les principes de base de la maladie artrielle priphrique

Logo entreprise ou partenaires

Lieux de travail - Site de placement en ligne

Article eMate

DERNIERES EXPERIENCES PROESSIONNELLES URBAN Pascal

Chef d`équipe préparateur(trice) de commandes

Consignes aux auteurs

K1MA4025 : Modèles et méthodes d`optimisation

Structuration d`un entrepôt de données sous PostgreSQL/ Postgis

ATELIER AIX les BAINS 011114

Philosophie

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Modélisation multidimensionnelle des données

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Modélisation multidimensionnelle des données

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib