NATIONS UNIES   UNITED NATIONS
  
COMMISSION ECONOMIQUE   ECONOMIC COMMISSION
POUR L'EUROPE   FOR EUROPE
SEMINAIRE  SEMINAR
Séminaire sur les systèmes intégrés d’information
statistique et les questions connexes (ISIS 98)
(Bratislava, République slovaque, 26-29 mai 1998)
Point iii): la gestion de l’élaboration et de la
mise en oeuvre de projets, d’applications et
d’infrastructures d’informatique statistique
LA NATURE DES ENTREPÔTS DE DONNEES DANS LES INSTITUTS DE STATISTIQUES
rapport envoyé par INSEE, France
1
I. INTRODUCTION
1. Le thème des entrepôts de données est apparu il y a quelques années
dans la presse informatique, voire dans la presse grand public. Après avoir
rappelé les grandes lignes du contexte d’apparition de cette technologie,
cet article explore les aspects spécifiques aux instituts de statistiques,
à la fois sous l’angle des apports possibles pour la statistique et sous celui
de l’insertion des entrepôts de données dans l’environnement d’un institut
de statistique.
2. L’utilisation des entrepôts de données apporte-t-elle un plus pour la
mise à disposition de données statistiques auprès de tous les utilisateurs
de la statistique officielle? S’agit-il simplement de l’apparition dans les
entreprises de démarches et de concepts classiques pour les instituts de
statistiques? Assiste-t-on simplement à l’apparition de la statistique
dans les bases de données clients des entreprises, avec quelques outils
spécifiques de statistique descriptive?
II. CONTEXTE ORGANISATIONNEL
3. Le contexte d’apparition de cette technologie peut être expliqué par
deux facteurs d’environnement et trois facteurs techniques:
le recentrage des organisations autour de leurs clients alors que les
processus de gestion de données sont principalement organisés de façon
fonctionnelle (gestion des contacts, gestion des ventes, gestion de la
1
préparé par Christophe Alviset.
Distr.
GENERALe
CES/SEM.38/19
9 mars 1998
FRANCAIS SEULEMENT
COMMISSION DE STATISTIQUE et
COMMISSION ECONOMIQUE POUR
L’EUROPE
CONFERENCE DES STATISTICIENS
EUROPEENS
CES/SEM.38/19
page 3
production, gestion des stocks, etc...)
une concurrence accrue qui nécessite des recherches plus fines et plus
rapides sur les préférences de la clientèle, en développant des approches
par niche plutôt qu’une approche de masse
l’informatisation croissante de nombreux processus de gestion, conduisant
à l’apparition de masses de données représentant des transactions
l’augmentation de la capacité des matériels informatiques à traiter de gros
volumes de données
la généralisation de l’internet pour la mise à disposition de données et
la circulation de l’information.
4. En ce qui concerne la gestion de projets d’entrepôts de données, quatre
phases principales doivent être traitées:
les concepts et les objectifs d’une mise en commun de plusieurs gisements
de données
le ménage des données et la vérification ou l’amélioration de leur qualité
la constitution de l’entrepôt
l’exploration des données par les utilisateurs.
5. Comme pour la plupart des nouvelles technologies, les premières
utilisations se font dans l’enthousiasme des explorateurs et des pionniers.
On a donc vu fleurir des expériences conduites rapidement. Avec un peu de
recul, on s’aperçoit naturellement qu’un projet de alisation d’un entrepôt
de données passe par les mêmes phases et les mêmes difficultés que n’importe
quel autre projet, à savoir de préciser le champ, le public, les outils,
l’organisation du travail et les itérations entre les besoins des
utilisateurs et les possibilités des données et des techniques.
6. Un des écueils au veloppement des entrepôts de données est d’ailleurs
de se réenfermer dans la même approche individuelle et morcelée de l’accès
aux données, qui correspond en général au découpage organisationnel de
l’entreprise. C’est d’ailleurs un peu ce qu’on voit avec l’apparition de la
notion de marcde données, qui serait un sous-ensemble d’un entrepôt de
données.
7. Les utilisateurs finaux sont principalement les dirigeants de
l’entreprise ou de ses centres de profit, à la recherche d’explications ou
de prévision du comportement de leurs clients vis-à-vis des produits ou des
services qu’ils fournissent.
III. CONTEXTE TECHNIQUE
8. L’apparition des systèmes de gestion de bases de données, puis des SGBD
relationnels ont été des avancées notoires en informatique au début des
années 1980. L’objectif principal de ces techniques et des outils associés
était de séparer les évolutions des données de celles des traitements et ainsi
de rendre les modifications de données plus faciles, en n’obligeant pas à
reprendre les programmes déjà existants lorsque les données qu’ils utilisent
ne changent pas.
9. Un objectif secondaire, à travers le développement et les
normalisations du langage SQL, était de rendre les données facilement
accessibles en lecture à tous.
10. L’objectif principal a été largement atteint, même si certaintes
CES/SEM.38/19
page 4
contraintes demeurent, en particulier en matière de gestion de l’ensemble
des données d’une base. Le développement et l’optimisation des SGBDs d’une
part et le développement de méthodes de conception des applications
informatiques ou de normalisation des schémas des bases de données, d’autre
part, ont fait en pratique se multiplier les SGBDs, en les axant sur la mise
à jour des données (création, mise à jour et destruction d’enregistrements
individuels éventuellement liés entre eux).
11. L’objectif secondaire n’a par contre pas été atteint en pratique, non
pas que les outils fassent défaut, mais que la gestion individuelle de chaque
application et de chaque base de données a occasionné un foisonnement des
tables relationnelles, difficilement utilisables par des non-connaisseurs
de la base. De plus les différentes bases de données sont incompatibles a
priori par manque de vision d’ensemble dans la conception initiale des
différents projets et leur étalement dans le temps.
12. Les concepts d’entrepôts de données visent principalement à
spécialiser un certain nombre de méthodes et d’outils autour de l’utilisation
en lecture des données. Selon la plus ou moins grande rigueur avec laquelle
le terme est employé, il peut dénoter:
un ensemble de gisement de données dans des formats variés (des fichiers
plats aux bases de données) accessibles en lecture ou écriture; ceci a le
mérite de la généralité, mais ne permet pas de décider de l’existence ou
non d’un entrepôt de données
un ensemble de gisement de données accessibles en lecture seule, qui est
au mieux une constatation a posteriori d’un certain existant en matière
de mise à disposition de données
une ou plusieurs bases de données structurées de façon spécifique pour
permettre les accès en lecture; c’est l’acception la plus courante, et
celle qui sera utilisée dans cet article
une ou plusieurs bases de données structurées en étoile, utilisant ou non
un outil spécifique (base de données relationnelle ou tableau
multidimensionnel), ce cas étant couvert également par le cas précédent.
13. Une préoccupation connexe est le référentiel de l’entreprise, qui peut
lui aussi avoir des spécificités dans un institut de statistique, mais qui
ne sera pas abordé ici. Il est tout à fait possible de faire un parallèle
entre les objectifs d’un référentiel unique de l’entreprise et d’un entrepôt
de données unique, sans minimiser l’écart entre un concept et sa mise en
oeuvre statistique et informatique.
14. Une illustration vaut mieux que de longs discours. En présentant une
évolution successive de la gestion de données d’une enquête simple, on verra
rapidement les différences entre les trois techniques de gestion de fichiers,
de gestion de bases de données et de structuration pour un entrepôt de
données.
IV. EXEMPLE DE DONNEES SUR LA SANTE
15. Supposons donc une enquête annuelle qui renvoie des données
épidémiologiques. Les schémas suivants sont volontairement beaucoup plus
simples que la réalité. Le schéma des fichiers sera par exemple celui-ci.
CES/SEM.38/19
page 5
16. Une personne peut-être hospitalisée pour 1, 2 ou 3 maladies et être
opérée 0, 1, 2 ou 3 fois. Un certain nombre de valeurs peuvent donc être
manquantes. Les termes en gras indiquent une clé d’accès, c’est-à-dire à
la fois qu’il n’y a qu’un seul enregistrement par clé et qu’en général les
accès par ces clés sont facilités par la mise en place d’index.
L’utilisation des données selon ce format (par exemple pour savoir combien
de personnes ont été atteintes d’une crise cardiaque) nécessite une
connaissance précise du format de fichier et la réalisation d’une
programmation spécifique.
17. En utilisant la normalisation associée en général à un système de
gestion de bases de données, on obtient le schéma suivant.
Ce schéma en pratique est très utilisé pour la gestion individuelle des
enregistrements, par exemple pour faire du contrôle de la qualité du codage
ou de la vraisemblance des informations collectées, individu par individu.
18. L’utilisation des données pour la statistique nécessite cependant à
chaque fois une jointure d’au moins deux tables (sauf si on ne s’intéresse
pas aux données de santé) qui sont parcourues en entier, ce qui coûte cher
en ressources quel que soit le système utilisé.
19. L’approche des entrepôts de données consiste à adopter le point de vue
de celui qui utilise les données et non de celui qui les re. On obtient
alors un schéma classique dit en étoile, avec une table principale contenant
des données entourée des tables de nomenclatures. On suppose donc que le
contrôle de la qualité des données a été fait.
CES/SEM.38/19
page 6
On voit apparaître une caractéristique essentielle des entrepôts de données,
à savoir la datation des données, autrement dit la dimension temporelle.
20. L’utilisation des données consiste alors à faire un extrait et une
agrégation de la table principale, les jointures avec les tables de codes
n’étant nécessaires que pour une présentation des données plus agréable et
étant surtout plus performante puisqu’elle ne nécessite pas le balayage de
toutes les tables de nomenclatures.
21. L’utilisation des données est par contre restreinte au point de vue
adopté pour la confection de la table de données. Des considérations de
performances peuvent également conduire à proposer plusieurs tables de
données.
22. En juxtaposant plusieurs point de vue, on obtient une configuration
dite en étoile, qui présente les mêmes conditions d’accès et de performance
que précédemment et qui est schématisée ainsi, en ne conservant que les
principales nomenclatures.
23. Une dernière remarque: les données sont résumées par un seul nombre.
On voit qu’il y a là, en fonction de la nature des données, la possibilité
d’ajouter d’autres statistiques (ratios, moyennes, médianes, écarts-types,
etc...). Certains outils permettent de stocker facilement à la fois toutes
les données élémentaires pour chaque case de ce tableau à plusieurs
dimensions, mais aussi les données correspondantes des agrégats suivant une
ou plusieurs dimensions, pour éviter des recalculs à chaque fois.
24. Deux questions doivent en général être tranchées dans un projet de mise
1 / 9 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !