1
Modélisation multidimensionnelle des données complexes : application aux
données médicales
Midouni Sid Ahmed Djallal
Version -9-
08/06/05
Sommaire :
1. Introduction..........................................................................................................................3
2. Etat de l’art...........................................................................................................................4
3. Modélisation multidimensionnelle des données complexes..............................................5
3.1. Modélisation multidimensionnelle ..................................................................................6
3.2. Données complexes.........................................................................................................7
3.3. Modélisation multidimensionnelle des données complexes............................................8
4. Contexte et objectifs.............................................................................................................9
4.1. Le projet MAP.................................................................................................................9
4.2. Le magasin cardiovasculaire..........................................................................................9
5. Notre démarche de modélisation ......................................................................................10
5.1. Le magasin cardiovasculaire : existant ........................................................................11
5.2. Nouveau modèle multidimensionnel du magasin cardiovasculaire..............................12
5.3. Le métamodèle...............................................................................................................15
6. Prototype et Evaluation.....................................................................................................18
7. Conclusion et perspectives : ..............................................................................................23
Liste des figures
Figure 1 : Représentation multidimensionnelle..........................................................................7
Figure 2 : Schéma en étoile........................................................................................................7
Figure 3 : Les données complexes..............................................................................................8
Figure 4 : La démarche de modélisation..................................................................................11
Figure 5 : Le modèle multidimensionnel du module Cardiovasculaire [MAP04]..................11
Figure 6 : Le nouveau modèle Cardiovasculaire..................................................................... 13
Figure 7 : Le Méta Modèle.......................................................................................................16
Figure 8 : Le processus de développement...............................................................................19
Figure 9 : Architecture du prototype GEDM ...........................................................................20
Figure 10 : Liste des dimensions.............................................................................................. 21
Figure 11 : Propriétés d’une dimension...................................................................................21
Figure 12 : Liste des tables de faits.......................................................................................... 22
Figure 13 : Propriétés d’une table de faits...............................................................................22
Figure 14 : Le méta modèle multidimensionnel de CWM ........................................................24
2
Résumé:
La vocation d’un entrepôt de données est l’analyse de données pour l’aide à la
décision dans les entreprises. Tout de même, la modélisation multidimensionnelle est la base
des entrepôts de données et l’analyse en ligne (OLAP).
Dans ce rapport, nous abordons le problème de la modélisation multidimensionnelle
des données complexes à travers le cas des données médicales du projet MAP (Médecine
d'anticipation personnalisée). Nous proposons un méta modèle multidimensionnel étendu pour
les données médicales en généralisant le modèle cardiovasculaire du projet MAP. Enfin, nous
avons spécifié et réalisé un outil d’aide à la conception d’entrepôt de données médicales.
Abstract :
3
1. Introduction
L’intérêt pour l’analyse de données s’est développé énormément ces dernières années.
Les entreprises se sont rendues compte de l’efficacité de la technologie OLAP1 (OnLine
Analytical Processing) dans l’analyse et l’exploration des données. Cette technologie est
utilisée dans les systèmes d’aide à la décision. Ces systèmes sont basés sur des techniques
d’entreposage de données pour exploiter la grande masse d’informations disponibles dans les
entreprises à des fins d’analyse et d’aide à la décision.
La manière la plus appropriée pour faciliter cette analyse OLAP est la modélisation
multidimensionnelle des données. Cette dernière représente les données comme des points
dans un espace multidimensionnel [20, 21]. Les données sont vues comme des sujets
d’analyse (les faits) étudiés selon plusieurs axes (les dimensions). Chaque dimension est liée à
un ou plusieurs points de vues définissant ainsi le degré de granularité des données
(hiérarchies).
Contrairement aux modèles relationnels, entité/association ou orienté-objet, les
modèles multidimensionnels sont les plus appropriés pour faire l’analyse et faciliter la prise
de décision dans les entreprises. Ils permettent d’observer des faits à travers des indicateurs
(mesures) et des dimensions. Autrement dit, le modèle multidimensionnel se compose de faits
contenant les mesures à analyser et de dimensions contenant les paramètres de l'analyse.
La modélisation multidimensionnelle est donc une technique qui vise à organiser les
données de telle sorte que les applications OLAP soient performantes et efficaces. Cependant,
cette technique n’est pas adaptée à un certain type de données, dites complexes.
Depuis quelques années, la nécessité de gérer et de traiter ce type de données n’a cessé
de s’accentuer à cause de la variété de ces données (texte, image, son, vidéo, etc.). Cette
variété de données met clairement en évidence la nécessité de créer de nouveaux modèles
multidimensionnels pour ces nouveaux types de données qui sont qualifiées de complexes.
C’est dans ce contexte que doit être repensée la modélisation multidimensionnelle.
Les modèles existants, tel que le schéma en étoile, le schéma en constellation ou le
schéma en flocon de neige, ont été conçus afin de rendre les données d’un entrepôt prêtes à
l’analyse. Ces modèles offrent un cadre agréable pour faire la modélisation
multidimensionnelle des données simples, mais ils ne sont pas adaptés aux données
complexes.
Notre travail de recherche s'inscrit dans le cadre des travaux menés au laboratoire
ERIC (Equipe de Recherche en Ingénierie des Connaissances) et plus particulièrement au
sein du pôle BDD (Bases de Données Décisionnelles). Ce pôle travaille sur l’élaboration des
solutions permettant l’exploration des données complexes et s’intéresse plus particulièrement
au processus d’entreposage de ce type de données.
Le présent travail s’insère dans la continuité de ces travaux. Il vise à apporter des
solutions aux problèmes de la modélisation multidimensionnelle de données complexes, en
l’occurrence les données médicales du projet MAP (Médecine d'anticipation personnalisée).
L’entrepôt MAP est formé de plusieurs magasins interconnectés partageant les mêmes
données sur les patients, les laboratoires, les médecins, etc. Chaque magasin contient
également d’autres données de natures différentes (biologiques, biométriques,
cardiovasculaires, psychologiques, etc.).
1 OLAP: OnLine Analytical Processing, ce sont en fait les technologies utilisées pour faire l’analyse de données
multidimensionnelle stockées au sein d’un entrepôt
4
Notre objectif est de proposer un modèle multidimensionnel pour ces données
médicales, plus particulièrement pour les données du module cardiovasculaires, et de
généraliser ce modèle vers un méta modèle pour l’entrepôt de données médicales. Le rôle de
cet entrepôt est d’intégrer et de stocker toute information utile aux médecins MAP et de
conserver l’historique des données médicales pour supporter les analyses effectuées
nécessaire aux prises de décision.
Ce rapport est organisé de la manière suivante : nous étudions les principaux travaux
traitant la modélisation multidimensionnelle des données et plus précisément les données
complexes dans la section 2. La section 3 présente quelques définitions des concepts utilisés
dans le domaine de la modélisation de données et présente aussi une définition de données
complexes. La section 4 présente le contexte, les objectifs de ce travail et les motivations pour
proposer un nouveau modèle du module cardiovasculaire.
Notre démarche de modélisation est décrite dans la section 5. Elle consiste, dans un
premier temps, à proposer le nouveau modèle multidimensionnel du module cardiovasculaire.
Ce dernier modèle sera généralisé en un méta modèle qui prend en charge tous les types de
données du projet MAP.
La section 6 décrit une implémentation possible de ce méta modèle dans une base de
données relationnelle ainsi que la manière de l’instancier pour définir les autres magasins de
données du projet MAP. La dernière section conclut ce travail et présente quelques
perspectives d’utilisation et de recherche ouvertes par ce méta modèle.
2. Etat de l’art
De nombreux travaux ont étudié la modélisation multidimensionnelle. Certains
proposent des langages algébriques pour faciliter l’interrogation et la manipulation des
données de l’entrepôt [2, 3, 4, 5, 6,11]. Ces modèles peuvent être classés en trois niveaux [25,
26] :
Au niveau conceptuel, on trouve des modèles proches de l’utilisateur et indépendants
de l’implémentation. Golfarelli et al. présentent un modèle conceptuel graphique pour
l’entreposage de données [19]. Trujillo et al. décrivent un modèle conceptuel orienté
objet basé sur UML [17]. Franconi et al. proposent un modèle conceptuel des
entrepôts de données basé sur la logique de description (langage de représentation) qui
permet de décrire les concepts de ce modèle [12].
Au niveau logique, les modèles dépendent du SGBD, (Système de Gestion des Bases
de Données) utilisé dans l’implémentation, mais restent compréhensibles pour les
utilisateurs finaux. Kimball résume les travaux de recherche traitant ce niveau [20]. Il
décrit aussi l’implémentation des modèles multidimensionnels dans des bases de
données relationnelles. Vassiliadis et al. donnent une vue générale des modèles
logiques pour les bases de données OLAP [21].
Au niveau physique, les modèles dépendant du SGBD spécifique utilisé sont conçus
pour décrire la manière dont les données seront stockées. Ils expliquent
l'implémentation des cubes de données. Luján-Mora et al. utilisent le diagramme de
composant et le diagramme de déploiement d’UML [UML] pour modéliser la
structure physique des entrepôts de données [13].
Ces différentes propositions sont parfaitement adaptées aux applications de données
classiques, mais ne répondent pas complètement aux exigences des applications à base de
données complexes telles que les applications médicales.
5
La majorité de ces travaux ne prennent pas en compte les objets à structure complexes.
Cependant, Olivier Teste a spécifié dans [4] [22] [24], des modèles de représentation et des
langages de manipulation qui sont dédiés aux entrepôts et magasins de données complexes et
évolutives et qui sont basés sur le paradigme objet. Il a intégré par ailleurs dans son modèle
la dimension temporelle afin de conserver l'évolution des données de manière pertinente.
Wan et Zeitouni [10] proposent un modèle multidimensionnel, pour un autre type de
données complexes (les objets mobiles), qui considère le temps et l’espace comme des
dimensions importantes dans leur analyse multidimensionnelle.
Tanasescu et al. ont conçu un modèle UML générique basé sur un modèle général [14,
DBB02], pour mieux identifier et représenter tous les types des données complexes pour
qu’elles soient prêtes au processus de modélisation multidimensionnelle. Dans le même
article, l’auteur a proposé l’utilisation des techniques de fouille de données permettent
l'extraction les caractéristiques des données complexes en vue de leur modélisation
multidimensionnelle.
Les efforts de modélisation des données spatiales, considérées comme un autre type de
données complexes, se concentrent sur la représentation arbitraire des objets géométriques
(points, lignes, polygones, etc.) dans un espace multidimensionnel [16]. La technologie
SOLAP [15] est basée sur une structure multidimensionnelle pour supporter l’analyse spatio-
temporelle. Miquel et al. proposent des solutions pour concevoir ces structures lorsque les
sources de données sont hétérogènes des points de vue temporel, spatial et sémantique [9].
Ces structures sont ensuite explorées dans l’environnement SOLAP.
D'autres auteurs, comme Zghal et al. se sont intéressés aux problèmes de la
modélisation multidimensionnelle des données spatiales en se basant sur le développement de
l’entrepôt spatial [8].
Dans le domaine médical, Pederson et Jensen proposent un modèle multidimensionnel
intégrant des données temporelles et imprécises pour la gestion des patients de l’hôpital [6].
Ils ont résolu les problèmes de validité et d’incertitude des données respectivement par
l’ajout, au modèle, du temps de validité et de probabilité.
Dans [JMP] les mêmes auteurs proposent des solutions d’intégration des documents
XML et des données relationnelles dans une base de données multidimensionnelle en vue de
leur analyse OLAP.
Les auteurs s’intéressent à l’aide à la décision dans le domaine médical [5], ils
proposent un modèle de données étendu pour les bases de données multidimensionnelles qui
améliore l’analyse, le suivi et le contrôle des dépenses de santé, de l’activité des médecins et
du comportement consommateur des patients. Cependant ces études se limitent aux données
au dossier du patient et ne traitent pas la complexité des données médicales.
Peu de recherches s’intéressent à la modélisation multidimensionnelle des données
médicales. Ces travaux se révèlent inadaptés à notre contexte de travail car ils ne prennent pas
en compte le problème de l’hétérogénéité des données médicales.
3. Modélisation multidimensionnelle des données complexes
Dans cette section nous allons définir, dans un premier temps, les concepts généraux
utilisés dans le domaine de la modélisation multidimensionnelle. Nous commençons par une
définition de la modélisation multidimensionnelle, ensuite nous présentons une définition des
données complexes et enfin la modélisation multidimensionnelle de ce type de données.
1 / 26 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !