Article

publicité
 

NATIONS UNIES

COMMISSION ECONOMIQUE
POUR L'EUROPE
 
 

SEMINAIRE
UNITED NATIONS

ECONOMIC COMMISSION
FOR EUROPE
SEMINAR
COMMISSION DE STATISTIQUE et
COMMISSION ECONOMIQUE POUR
L’EUROPE
Distr.
GENERALe
CONFERENCE DES STATISTICIENS
EUROPEENS
CES/SEM.38/19
9 mars 1998
FRANCAIS SEULEMENT
Séminaire sur les systèmes intégrés d’information
statistique et les questions connexes (ISIS 98)
(Bratislava, République slovaque, 26-29 mai 1998)
Point iii): la gestion de l’élaboration et de la
mise en oeuvre de projets, d’applications et
d’infrastructures d’informatique statistique
LA NATURE DES ENTREPÔTS DE DONNEES DANS LES INSTITUTS DE STATISTIQUES
rapport envoyé par INSEE, France1
I.
INTRODUCTION
1.
Le thème des entrepôts de données est apparu il y a quelques années
dans la presse informatique, voire dans la presse grand public. Après avoir
rappelé les grandes lignes du contexte d’apparition de cette technologie,
cet article explore les aspects spécifiques aux instituts de statistiques,
à la fois sous l’angle des apports possibles pour la statistique et sous celui
de l’insertion des entrepôts de données dans l’environnement d’un institut
de statistique.
2.
L’utilisation des entrepôts de données apporte-t-elle un plus pour la
mise à disposition de données statistiques auprès de tous les utilisateurs
de la statistique officielle? S’agit-il simplement de l’apparition dans les
entreprises de démarches et de concepts classiques pour les instituts de
statistiques? Assiste-t-on simplement à l’apparition de la statistique
dans les bases de données clients des entreprises, avec quelques outils
spécifiques de statistique descriptive?
II.
CONTEXTE ORGANISATIONNEL
3.
Le contexte d’apparition de cette technologie peut être expliqué par
deux facteurs d’environnement et trois facteurs techniques:
 le recentrage des organisations autour de leurs clients alors que les
processus de gestion de données sont principalement organisés de façon
fonctionnelle (gestion des contacts, gestion des ventes, gestion de la
1
préparé par Christophe Alviset.
CES/SEM.38/19
page 3
production, gestion des stocks, etc...)
 une concurrence accrue qui nécessite des recherches plus fines et plus
rapides sur les préférences de la clientèle, en développant des approches
par niche plutôt qu’une approche de masse
 l’informatisation croissante de nombreux processus de gestion, conduisant
à l’apparition de masses de données représentant des transactions
 l’augmentation de la capacité des matériels informatiques à traiter de gros
volumes de données
 la généralisation de l’internet pour la mise à disposition de données et
la circulation de l’information.
4.
En ce qui concerne la gestion de projets d’entrepôts de données, quatre
phases principales doivent être traitées:
 les concepts et les objectifs d’une mise en commun de plusieurs gisements
de données
 le ménage des données et la vérification ou l’amélioration de leur qualité
 la constitution de l’entrepôt
 l’exploration des données par les utilisateurs.
5.
Comme pour la plupart des nouvelles technologies, les premières
utilisations se font dans l’enthousiasme des explorateurs et des pionniers.
On a donc vu fleurir des expériences conduites rapidement. Avec un peu de
recul, on s’aperçoit naturellement qu’un projet de réalisation d’un entrepôt
de données passe par les mêmes phases et les mêmes difficultés que n’importe
quel autre projet, à savoir de préciser le champ, le public, les outils,
l’organisation du travail et les itérations entre les besoins des
utilisateurs et les possibilités des données et des techniques.
6.
Un des écueils au développement des entrepôts de données est d’ailleurs
de se réenfermer dans la même approche individuelle et morcelée de l’accès
aux données, qui correspond en général au découpage organisationnel de
l’entreprise. C’est d’ailleurs un peu ce qu’on voit avec l’apparition de la
notion de marché de données, qui serait un sous-ensemble d’un entrepôt de
données.
7.
Les utilisateurs finaux sont principalement les dirigeants de
l’entreprise ou de ses centres de profit, à la recherche d’explications ou
de prévision du comportement de leurs clients vis-à-vis des produits ou des
services qu’ils fournissent.
III.
CONTEXTE TECHNIQUE
8.
L’apparition des systèmes de gestion de bases de données, puis des SGBD
relationnels ont été des avancées notoires en informatique au début des
années 1980. L’objectif principal de ces techniques et des outils associés
était de séparer les évolutions des données de celles des traitements et ainsi
de rendre les modifications de données plus faciles, en n’obligeant pas à
reprendre les programmes déjà existants lorsque les données qu’ils utilisent
ne changent pas.
9.
Un objectif secondaire, à travers le développement et les
normalisations du langage SQL, était de rendre les données facilement
accessibles en lecture à tous.
10.
L’objectif principal a été largement atteint, même si certaintes
CES/SEM.38/19
page 4
contraintes demeurent, en particulier en matière de gestion de l’ensemble
des données d’une base. Le développement et l’optimisation des SGBDs d’une
part et le développement de méthodes de conception des applications
informatiques ou de normalisation des schémas des bases de données, d’autre
part, ont fait en pratique se multiplier les SGBDs, en les axant sur la mise
à jour des données (création, mise à jour et destruction d’enregistrements
individuels éventuellement liés entre eux).
11.
L’objectif secondaire n’a par contre pas été atteint en pratique, non
pas que les outils fassent défaut, mais que la gestion individuelle de chaque
application et de chaque base de données a occasionné un foisonnement des
tables relationnelles, difficilement utilisables par des non-connaisseurs
de la base. De plus les différentes bases de données sont incompatibles a
priori par manque de vision d’ensemble dans la conception initiale des
différents projets et leur étalement dans le temps.
12.
Les concepts d’entrepôts de données visent principalement à
spécialiser un certain nombre de méthodes et d’outils autour de l’utilisation
en lecture des données. Selon la plus ou moins grande rigueur avec laquelle
le terme est employé, il peut dénoter:
 un ensemble de gisement de données dans des formats variés (des fichiers
plats aux bases de données) accessibles en lecture ou écriture; ceci a le
mérite de la généralité, mais ne permet pas de décider de l’existence ou
non d’un entrepôt de données
 un ensemble de gisement de données accessibles en lecture seule, qui est
au mieux une constatation a posteriori d’un certain existant en matière
de mise à disposition de données
 une ou plusieurs bases de données structurées de façon spécifique pour
permettre les accès en lecture; c’est l’acception la plus courante, et
celle qui sera utilisée dans cet article
 une ou plusieurs bases de données structurées en étoile, utilisant ou non
un outil spécifique (base de données relationnelle ou tableau
multidimensionnel), ce cas étant couvert également par le cas précédent.
13.
Une préoccupation connexe est le référentiel de l’entreprise, qui peut
lui aussi avoir des spécificités dans un institut de statistique, mais qui
ne sera pas abordé ici. Il est tout à fait possible de faire un parallèle
entre les objectifs d’un référentiel unique de l’entreprise et d’un entrepôt
de données unique, sans minimiser l’écart entre un concept et sa mise en
oeuvre statistique et informatique.
14.
Une illustration vaut mieux que de longs discours. En présentant une
évolution successive de la gestion de données d’une enquête simple, on verra
rapidement les différences entre les trois techniques de gestion de fichiers,
de gestion de bases de données et de structuration pour un entrepôt de
données.
IV.
EXEMPLE DE DONNEES SUR LA SANTE
15.
Supposons donc une enquête annuelle qui renvoie des données
épidémiologiques. Les schémas suivants sont volontairement beaucoup plus
simples que la réalité. Le schéma des fichiers sera par exemple celui-ci.
CES/SEM.38/19
page 5
16.
Une personne peut-être hospitalisée pour 1, 2 ou 3 maladies et être
opérée 0, 1, 2 ou 3 fois. Un certain nombre de valeurs peuvent donc être
manquantes. Les termes en gras indiquent une clé d’accès, c’est-à-dire à
la fois qu’il n’y a qu’un seul enregistrement par clé et qu’en général les
accès par ces clés sont facilités par la mise en place d’index.
L’utilisation des données selon ce format (par exemple pour savoir combien
de personnes ont été atteintes d’une crise cardiaque) nécessite une
connaissance précise du format de fichier et la réalisation d’une
programmation spécifique.
17.
En utilisant la normalisation associée en général à un système de
gestion de bases de données, on obtient le schéma suivant.
Ce schéma en pratique est très utilisé pour la gestion individuelle des
enregistrements, par exemple pour faire du contrôle de la qualité du codage
ou de la vraisemblance des informations collectées, individu par individu.
18.
L’utilisation des données pour la statistique nécessite cependant à
chaque fois une jointure d’au moins deux tables (sauf si on ne s’intéresse
pas aux données de santé) qui sont parcourues en entier, ce qui coûte cher
en ressources quel que soit le système utilisé.
19.
L’approche des entrepôts de données consiste à adopter le point de vue
de celui qui utilise les données et non de celui qui les gère. On obtient
alors un schéma classique dit en étoile, avec une table principale contenant
des données entourée des tables de nomenclatures. On suppose donc que le
contrôle de la qualité des données a été fait.
CES/SEM.38/19
page 6
On voit apparaître une caractéristique essentielle des entrepôts de données,
à savoir la datation des données, autrement dit la dimension temporelle.
20.
L’utilisation des données consiste alors à faire un extrait et une
agrégation de la table principale, les jointures avec les tables de codes
n’étant nécessaires que pour une présentation des données plus agréable et
étant surtout plus performante puisqu’elle ne nécessite pas le balayage de
toutes les tables de nomenclatures.
21.
L’utilisation des données est par contre restreinte au point de vue
adopté pour la confection de la table de données. Des considérations de
performances peuvent également conduire à proposer plusieurs tables de
données.
22.
En juxtaposant plusieurs point de vue, on obtient une configuration
dite en étoile, qui présente les mêmes conditions d’accès et de performance
que précédemment et qui est schématisée ainsi, en ne conservant que les
principales nomenclatures.
23.
Une dernière remarque: les données sont résumées par un seul nombre.
On voit qu’il y a là, en fonction de la nature des données, la possibilité
d’ajouter d’autres statistiques (ratios, moyennes, médianes, écarts-types,
etc...). Certains outils permettent de stocker facilement à la fois toutes
les données élémentaires pour chaque case de ce tableau à plusieurs
dimensions, mais aussi les données correspondantes des agrégats suivant une
ou plusieurs dimensions, pour éviter des recalculs à chaque fois.
24.
Deux questions doivent en général être tranchées dans un projet de mise
CES/SEM.38/19
page 7
en place d’un entrepôt de données:
 est-ce qu’on utilise un outil classique de gestion de base de données
relationnelles (Oracle, DB2, Ingres, Sybase, ...) ou un outil spécifique,
optimisé pour ce genre de structure (Redbrick par exemple)? Les principaux
arguments pour trancher sont une analyse coûts-bénéfices et la capacité à
faire évoluer facilement les schémas de données.
 est-ce qu’on doit avoir une alimentation automatique par les bases de
données de production (le second schéma) de l’entrepôt de données? Le
principal argument est la maîtrise de la qualité des données de production.
Pour les opérations statistiques, la réponse est en général négative.
V.
SPECIFICITES DES INSTITUTS DE STATISTIQUE
25.
Un institut de statistique est aussi un organisme qui doit fonctionner
de façon efficace. Même si la plupart sont des administrations, les mêmes
démarches d’exploration et d’utilisation de leurs données de gestion peuvent
être envisagées. Là n’est toutefois pas l’apport des entrepôts de données
pour la statistique.
26.
La problématique de construction d’un entrepôt de données est bien
connue des projets statistiques qui se décomposent classiquement en
collecte, contrôle-redressement-apurement, analyse et diffusion. A l’INSEE
par exemple, il était décidé dès 1975 de séparer physiquement deux
environnements: la production d’une part, les études de l’autre. Cette
séparation, imposée par les contraintes de la technologie de l’époque en
matière de traitement de gros volumes et d’optimisation des machines
informatiques, correspond également à une organisation du travail
différente, où la production est réalisée par de nombreux cadres de
qualification moindres que l’analyse et la diffusion.
27.
En dehors de l’utilisation aux fins de recherche ou d’analyse et
contrairement à une entreprise privée, la statistique publique n’est pas au
service unique des dirigeants du système statistique publique, mais
principalement de cinq catégories de décideurs:
 le gouvernement national ou fédéral, les partenaires sociaux nationaux
 les échelons locaux de l’administration, les élus locaux, les
représentations locales des partenaires sociaux
 les chefs d’entreprises
 les PME, les associations, les professions libérales
 les particuliers.
A chacun de ces niveaux correspondent des besoins d’information différents,
mais le point commun est qu’ils sont tous situés en dehors du système
statistique public.
28.
De la même façon, les sources de données sont principalement de trois
types: les enquêtes, les registres statistiques et les fichiers
administratifs. L’institut de statistique est en général propriétaire des
deux premiers, mais pas du troisième. Le point essentiel est que les données
collectées résultent de l’observation d’un phénomène externe à l’institut
de statistique, la vie économique et sociale réelle, et non d’un processus
qu’il a lui-même organisé.
29.
En résumé, une comparaison entre une entreprise et un institut de
statistique du point de vue des entrepôts de données se décline ainsi:
CES/SEM.38/19
page 8
Entreprise
Champ
Institut de
statistique
Secteur d’activité Tous les secteurs
de l’entreprise
d’activité de la
société
Collecte de données Dans le processus
de l’entreprise
En observation de
phénomènes
externes
Traitement des
données
Interne à
l’entreprise
Utilisation des
données
Par une cellule
spécialisée de
l’entreprise
Par les analystes
et chercheurs de la
statistique
publique
Par les décideurs
de l’entreprise
Par les décideurs à
l’extérieur de la
statistique
publique
30.
Interne à
l’institut de
statistique
Il y a donc deux ruptures fondamentales:
 au niveau de la collecte des données, que ce soit enquêtes, registres ou
fichiers, il y a toujours une différence entre les données qu’on pense
collecter et les données telles qu’elles sont collectées; la résorption
de ces différences est une valeur ajoutée majeure que fournit l’institut
de statistique
 la confidentialité des données fournies à l’extérieur, nécessaire pour que
l’institut de statistique dispose d’une crédibilité suffisante pour que
les ménages et les entreprises répondent de façon satisfaisante aux
demandes de la statistique. Le respect de ces contraintes de
confidentialité, qui varient d’un institut à l’autre, voire d’une source
de données à l’autre, ne fait pas encore partie des fonctionnalités des
produits du commerce.
31.
Un dernier point d’importance est la documentation des données,
autrement dit la question des méta-données et des méta-informations. Une
évolution récente de la terminologie conduit à réserver le terme de
méta-données pour les noms de variables, et en pratique pour tous les noms
qui servent à structurer les données, et faire ainsi la distinction avec la
méta-information, qui représente les données de type documentaire associées
aux données statistiques. Du point de vue de l’utilisateur, une spécification
intéressante des outils d’interrogation est le mariage des méta-informations
et méta-données avec les données elles-mêmes, permettant ainsi un accès aux
données à travers les méta-données plutôt qu’un accès à un ou plusieurs
identifiants qu’il faut mémoriser d’une certaine façon pour pouvoir avoir
accès aux données elles-mêmes dans un second temps.
32.
C’est ainsi qu’une application générale utilisant ce principe a été
développée à Statistique Canada (IBES) et appliquée aux statistiques de
l’éducation. Elle permet de faire une recherche sur un terme, comme
post-secondaires, et de trouver toutes les sources de données, tables,
variables et nomenclatures contenant ce terme. L’utilisateur choisit ensuite
la table qu’il veut utiliser et fait directement sa requête dont le résultat
est exporté dans ses outils statistiques habituels.
CES/SEM.38/19
page 9
VI.
APPORTS DE LA STATISTIQUE AUX ENTREPOTS DE DONNEES
33.
Dans un contexte où l’approche par les entrepôts de données est
culturellement bien établie même si elle ne faisait pas l’objet de théories
particulières, de quelle façon peut-on faire la conception d’un entrepôt de
données, et partant la conduite de ce genre de projet?
34.
L’approche recommandée ici part tout simplement des tableaux qui sont
déjà produits, même s’ils ne sont pas complets et cohérents entre eux pour
le moment. C’est la seule modification à la démarche figurant dans les bons
ouvrages en ces matières.
35.
On distingue alors les étapes suivantes:
 clarification des concepts utilisés dans les différentes sources de
données, y compris les variables calculées
 liste de toutes les demandes de tableaux
 transformation de chaque demande de tableau pour leur donner une forme
comparable au niveau des valeurs des différentes variables descriptives
 consolidation des demandes de tableau en la description d’une table
 volumétrie et tests de performances pour partitionner éventuellement en
différentes tables, soit par agrégation, soit suivant une variable de
nomenclature
 création des tables annexes de nomenclatures, avec agrégation éventuelle.
On retient en général qu’il ne faut pas plus d’une demi-douzaine de variables
d’index avec les outils habituels.
VII.
EXEMPLE DE LA DEMARCHE SUR DES DONNEES D’ETAT-CIVIL
36.
Supposons les demandes de tableaux suivants:
 Age, sexe, effectif en 1997
 Age, sexe, effectif en 2020
 Population étrangère en 1990, effectif et proportion
 Pays, groupe d’âge, sexe, effectif
37.
En mettant toutes ces demandes en commun, on obtient une table avec
5 variables d’index: age, sexe, année d’observation, origine étrangère, pays
et 2 variables statistiques: effectif et proportion. Les effectifs peuvent
être additionnés dans les agrégations, les proportions doivent être
calculées de façon spécifique.
38.
La volumétrie et les performances indiqueront quelles sont les tranches
d’âge à retenir, et s’il faut transformer les données de façon à supprimer
la variable d’index origine étrangère et rajouter une variable statistique
supplémentaire qui est la proportion d’étrangers.
VIII. EXEMPLES D’ENTREPOTS DE DONNEES
39.
Tout institut de statistique dispose d’une ou plusiers bases de données
de séries chronologiques. Un grand nombre de méthodes statistiques, en
particulier de prévision, reposent sur la notion et la structure de séries
chronologiques. Nous ne prévoyons pas que les entrepôts de données vont
avoir un effet sur ces bases, ou alors simplement pour en changer le nom,
mais pas la nature.
CES/SEM.38/19
page 10
40.
Les tableaux statistiques par contre sont des objets d’une complexité
insoupçonnée en dehors de la statistique publique. Contrairement à ce qui
est produit par les outils bureautiques grand public, ils peuvent avoir
plusieurs niveaux d’imbrication de lignes, de colonnes et de cases.
41.
Les systèmes de diffusion de ces tableaux peuvent prendre trois formes,
en dehors de la forme papier ou image-papier:
 l’accès à des tableaux pré-définis
 l’accès à des tableaux pré-définis ou des tableaux dérivés par agrégation
des tableaux pré-définis
 la production dynamique de tableaux à partir des fichiers de données
élémentaires.
La technologie des entrepôts de données permet donc de mettre en place un
mode d’accès intermédiaire entre les deux derniers.
42.
Il reste a mentionner tout de même que la statistique se préoccupe de
plus en plus de l’évolution dans le temps des individus ou des entreprises,
autrement dit des données longitudinales. Tout un champ spécifique reste donc
à explorer pour l’application des méthodes statistiques à des données
individuelle variables en nombre (par exemple, le nombre d’emplois, et leurs
caractéristiques, tenus par une personne depuis sa naissance). La même
difficulté préside à la mise à disposition de ces données de façon agrégée
et confidentielle: quels sont les bons indicateurs statistiques individuels
pour décrire une suite d’événements ou d’intervalles?
IX.
CONCLUSION
43.
La démarche statistique publique présente des affinités certaines avec
la démarche des entrepôts de données, avec un élargissement du champ et un
amoindrissement de la maîtrise de la totalité des acteurs autour de
l’information concernée. La difficulté de disposer au niveau de
l’information statistique d’un système global, cohérent et homogène permet
d’imaginer que la capacité à mettre en place des entrepôts de données est
un bon indicateur de la cohérence du système statisitique et de sa qualité
en général.
44.
Cette même difficulté peut aussi donner à penser qu’il faudrait doubler
cette approche d’une approche par les systèmes de gestion de bases de données
orientées objet permettant de mélanger de façon plus simple données
recueillies, données redressées et données simulées afin de mieux servir
l’utilisateur de la statistique publique et de lui permettre de tracer
l’origine et le mode d’élaboration des données statistiques.
Téléchargement