Article

Téléchargement

NATIONS UNIES   UNITED NATIONS

  

COMMISSION ECONOMIQUE   ECONOMIC COMMISSION

POUR L'EUROPE   FOR EUROPE

SEMINAIRE  SEMINAR

Séminaire sur les systèmes intégrés d’information

statistique et les questions connexes (ISIS 98)

(Bratislava, République slovaque, 26-29 mai 1998)

Point iii): la gestion de l’élaboration et de la

mise en oeuvre de projets, d’applications et

d’infrastructures d’informatique statistique

LA NATURE DES ENTREPÔTS DE DONNEES DANS LES INSTITUTS DE STATISTIQUES

rapport envoyé par INSEE, France

I. INTRODUCTION

1. Le thème des entrepôts de données est apparu il y a quelques années

dans la presse informatique, voire dans la presse grand public. Après avoir

rappelé les grandes lignes du contexte d’apparition de cette technologie,

cet article explore les aspects spécifiques aux instituts de statistiques,

à la fois sous l’angle des apports possibles pour la statistique et sous celui

de l’insertion des entrepôts de données dans l’environnement d’un institut

de statistique.

2. L’utilisation des entrepôts de données apporte-t-elle un plus pour la

mise à disposition de données statistiques auprès de tous les utilisateurs

de la statistique officielle? S’agit-il simplement de l’apparition dans les

entreprises de démarches et de concepts classiques pour les instituts de

statistiques? Assiste-t-on simplement à l’apparition de la statistique

dans les bases de données clients des entreprises, avec quelques outils

spécifiques de statistique descriptive?

II. CONTEXTE ORGANISATIONNEL

3. Le contexte d’apparition de cette technologie peut être expliqué par

deux facteurs d’environnement et trois facteurs techniques:

 le recentrage des organisations autour de leurs clients alors que les

processus de gestion de données sont principalement organisés de façon

fonctionnelle (gestion des contacts, gestion des ventes, gestion de la

préparé par Christophe Alviset.

Distr.

GENERALe

CES/SEM.38/19

9 mars 1998

FRANCAIS SEULEMENT

COMMISSION DE STATISTIQUE et

COMMISSION ECONOMIQUE POUR

L’EUROPE

CONFERENCE DES STATISTICIENS

EUROPEENS

CES/SEM.38/19

page 3

production, gestion des stocks, etc...)

 une concurrence accrue qui nécessite des recherches plus fines et plus

rapides sur les préférences de la clientèle, en développant des approches

par niche plutôt qu’une approche de masse

 l’informatisation croissante de nombreux processus de gestion, conduisant

à l’apparition de masses de données représentant des transactions

 l’augmentation de la capacité des matériels informatiques à traiter de gros

volumes de données

 la généralisation de l’internet pour la mise à disposition de données et

la circulation de l’information.

4. En ce qui concerne la gestion de projets d’entrepôts de données, quatre

phases principales doivent être traitées:

 les concepts et les objectifs d’une mise en commun de plusieurs gisements

de données

 le ménage des données et la vérification ou l’amélioration de leur qualité

 la constitution de l’entrepôt

 l’exploration des données par les utilisateurs.

5. Comme pour la plupart des nouvelles technologies, les premières

utilisations se font dans l’enthousiasme des explorateurs et des pionniers.

On a donc vu fleurir des expériences conduites rapidement. Avec un peu de

recul, on s’aperçoit naturellement qu’un projet de réalisation d’un entrepôt

de données passe par les mêmes phases et les mêmes difficultés que n’importe

quel autre projet, à savoir de préciser le champ, le public, les outils,

l’organisation du travail et les itérations entre les besoins des

utilisateurs et les possibilités des données et des techniques.

6. Un des écueils au développement des entrepôts de données est d’ailleurs

de se réenfermer dans la même approche individuelle et morcelée de l’accès

aux données, qui correspond en général au découpage organisationnel de

l’entreprise. C’est d’ailleurs un peu ce qu’on voit avec l’apparition de la

notion de marché de données, qui serait un sous-ensemble d’un entrepôt de

données.

7. Les utilisateurs finaux sont principalement les dirigeants de

l’entreprise ou de ses centres de profit, à la recherche d’explications ou

de prévision du comportement de leurs clients vis-à-vis des produits ou des

services qu’ils fournissent.

III. CONTEXTE TECHNIQUE

8. L’apparition des systèmes de gestion de bases de données, puis des SGBD

relationnels ont été des avancées notoires en informatique au début des

années 1980. L’objectif principal de ces techniques et des outils associés

était de séparer les évolutions des données de celles des traitements et ainsi

de rendre les modifications de données plus faciles, en n’obligeant pas à

reprendre les programmes déjà existants lorsque les données qu’ils utilisent

ne changent pas.

9. Un objectif secondaire, à travers le développement et les

normalisations du langage SQL, était de rendre les données facilement

accessibles en lecture à tous.

10. L’objectif principal a été largement atteint, même si certaintes

CES/SEM.38/19

page 4

contraintes demeurent, en particulier en matière de gestion de l’ensemble

des données d’une base. Le développement et l’optimisation des SGBDs d’une

part et le développement de méthodes de conception des applications

informatiques ou de normalisation des schémas des bases de données, d’autre

part, ont fait en pratique se multiplier les SGBDs, en les axant sur la mise

à jour des données (création, mise à jour et destruction d’enregistrements

individuels éventuellement liés entre eux).

11. L’objectif secondaire n’a par contre pas été atteint en pratique, non

pas que les outils fassent défaut, mais que la gestion individuelle de chaque

application et de chaque base de données a occasionné un foisonnement des

tables relationnelles, difficilement utilisables par des non-connaisseurs

de la base. De plus les différentes bases de données sont incompatibles a

priori par manque de vision d’ensemble dans la conception initiale des

différents projets et leur étalement dans le temps.

12. Les concepts d’entrepôts de données visent principalement à

spécialiser un certain nombre de méthodes et d’outils autour de l’utilisation

en lecture des données. Selon la plus ou moins grande rigueur avec laquelle

le terme est employé, il peut dénoter:

 un ensemble de gisement de données dans des formats variés (des fichiers

plats aux bases de données) accessibles en lecture ou écriture; ceci a le

mérite de la généralité, mais ne permet pas de décider de l’existence ou

non d’un entrepôt de données

 un ensemble de gisement de données accessibles en lecture seule, qui est

au mieux une constatation a posteriori d’un certain existant en matière

de mise à disposition de données

 une ou plusieurs bases de données structurées de façon spécifique pour

permettre les accès en lecture; c’est l’acception la plus courante, et

celle qui sera utilisée dans cet article

 une ou plusieurs bases de données structurées en étoile, utilisant ou non

un outil spécifique (base de données relationnelle ou tableau

multidimensionnel), ce cas étant couvert également par le cas précédent.

13. Une préoccupation connexe est le référentiel de l’entreprise, qui peut

lui aussi avoir des spécificités dans un institut de statistique, mais qui

ne sera pas abordé ici. Il est tout à fait possible de faire un parallèle

entre les objectifs d’un référentiel unique de l’entreprise et d’un entrepôt

de données unique, sans minimiser l’écart entre un concept et sa mise en

oeuvre statistique et informatique.

14. Une illustration vaut mieux que de longs discours. En présentant une

évolution successive de la gestion de données d’une enquête simple, on verra

rapidement les différences entre les trois techniques de gestion de fichiers,

de gestion de bases de données et de structuration pour un entrepôt de

données.

IV. EXEMPLE DE DONNEES SUR LA SANTE

15. Supposons donc une enquête annuelle qui renvoie des données

épidémiologiques. Les schémas suivants sont volontairement beaucoup plus

simples que la réalité. Le schéma des fichiers sera par exemple celui-ci.

CES/SEM.38/19

page 5

16. Une personne peut-être hospitalisée pour 1, 2 ou 3 maladies et être

opérée 0, 1, 2 ou 3 fois. Un certain nombre de valeurs peuvent donc être

manquantes. Les termes en gras indiquent une clé d’accès, c’est-à-dire à

la fois qu’il n’y a qu’un seul enregistrement par clé et qu’en général les

accès par ces clés sont facilités par la mise en place d’index.

L’utilisation des données selon ce format (par exemple pour savoir combien

de personnes ont été atteintes d’une crise cardiaque) nécessite une

connaissance précise du format de fichier et la réalisation d’une

programmation spécifique.

17. En utilisant la normalisation associée en général à un système de

gestion de bases de données, on obtient le schéma suivant.

Ce schéma en pratique est très utilisé pour la gestion individuelle des

enregistrements, par exemple pour faire du contrôle de la qualité du codage

ou de la vraisemblance des informations collectées, individu par individu.

18. L’utilisation des données pour la statistique nécessite cependant à

chaque fois une jointure d’au moins deux tables (sauf si on ne s’intéresse

pas aux données de santé) qui sont parcourues en entier, ce qui coûte cher

en ressources quel que soit le système utilisé.

19. L’approche des entrepôts de données consiste à adopter le point de vue

de celui qui utilise les données et non de celui qui les gère. On obtient

alors un schéma classique dit en étoile, avec une table principale contenant

des données entourée des tables de nomenclatures. On suppose donc que le

contrôle de la qualité des données a été fait.

CES/SEM.38/19

page 6

On voit apparaître une caractéristique essentielle des entrepôts de données,

à savoir la datation des données, autrement dit la dimension temporelle.

20. L’utilisation des données consiste alors à faire un extrait et une

agrégation de la table principale, les jointures avec les tables de codes

n’étant nécessaires que pour une présentation des données plus agréable et

étant surtout plus performante puisqu’elle ne nécessite pas le balayage de

toutes les tables de nomenclatures.

21. L’utilisation des données est par contre restreinte au point de vue

adopté pour la confection de la table de données. Des considérations de

performances peuvent également conduire à proposer plusieurs tables de

données.

22. En juxtaposant plusieurs point de vue, on obtient une configuration

dite en étoile, qui présente les mêmes conditions d’accès et de performance

que précédemment et qui est schématisée ainsi, en ne conservant que les

principales nomenclatures.

23. Une dernière remarque: les données sont résumées par un seul nombre.

On voit qu’il y a là, en fonction de la nature des données, la possibilité

d’ajouter d’autres statistiques (ratios, moyennes, médianes, écarts-types,

etc...). Certains outils permettent de stocker facilement à la fois toutes

les données élémentaires pour chaque case de ce tableau à plusieurs

dimensions, mais aussi les données correspondantes des agrégats suivant une

ou plusieurs dimensions, pour éviter des recalculs à chaque fois.

24. Deux questions doivent en général être tranchées dans un projet de mise

1 / 9 100%

Documents connexes

Entrepôts de données

Enjeux éthiques des recherches non interventionnelles sur données

Incendie dans les entrepôts d`un grossiste en alimentation - Terre-net

Stagiaire en sur la grande distri tagiaire en Analyse de données

Qualité et datawarehouse

OLAP

Access Devoir maison - GIPSA-Lab

MATH-H404 Recherche Opérationnelle

Logo entreprise ou partenaires

AGENDA Semaine du 15 mai 2017

PCIE 05 : Bases de Données - CFAI 21-71

Bases de Données Relationnelles TP2 : Implémentation d`un

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Article

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Article

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib