NATIONS UNIES COMMISSION ECONOMIQUE POUR L'EUROPE SEMINAIRE UNITED NATIONS ECONOMIC COMMISSION FOR EUROPE SEMINAR COMMISSION DE STATISTIQUE et COMMISSION ECONOMIQUE POUR L’EUROPE Distr. GENERALe CONFERENCE DES STATISTICIENS EUROPEENS CES/SEM.38/19 9 mars 1998 FRANCAIS SEULEMENT Séminaire sur les systèmes intégrés d’information statistique et les questions connexes (ISIS 98) (Bratislava, République slovaque, 26-29 mai 1998) Point iii): la gestion de l’élaboration et de la mise en oeuvre de projets, d’applications et d’infrastructures d’informatique statistique LA NATURE DES ENTREPÔTS DE DONNEES DANS LES INSTITUTS DE STATISTIQUES rapport envoyé par INSEE, France1 I. INTRODUCTION 1. Le thème des entrepôts de données est apparu il y a quelques années dans la presse informatique, voire dans la presse grand public. Après avoir rappelé les grandes lignes du contexte d’apparition de cette technologie, cet article explore les aspects spécifiques aux instituts de statistiques, à la fois sous l’angle des apports possibles pour la statistique et sous celui de l’insertion des entrepôts de données dans l’environnement d’un institut de statistique. 2. L’utilisation des entrepôts de données apporte-t-elle un plus pour la mise à disposition de données statistiques auprès de tous les utilisateurs de la statistique officielle? S’agit-il simplement de l’apparition dans les entreprises de démarches et de concepts classiques pour les instituts de statistiques? Assiste-t-on simplement à l’apparition de la statistique dans les bases de données clients des entreprises, avec quelques outils spécifiques de statistique descriptive? II. CONTEXTE ORGANISATIONNEL 3. Le contexte d’apparition de cette technologie peut être expliqué par deux facteurs d’environnement et trois facteurs techniques: le recentrage des organisations autour de leurs clients alors que les processus de gestion de données sont principalement organisés de façon fonctionnelle (gestion des contacts, gestion des ventes, gestion de la 1 préparé par Christophe Alviset. CES/SEM.38/19 page 3 production, gestion des stocks, etc...) une concurrence accrue qui nécessite des recherches plus fines et plus rapides sur les préférences de la clientèle, en développant des approches par niche plutôt qu’une approche de masse l’informatisation croissante de nombreux processus de gestion, conduisant à l’apparition de masses de données représentant des transactions l’augmentation de la capacité des matériels informatiques à traiter de gros volumes de données la généralisation de l’internet pour la mise à disposition de données et la circulation de l’information. 4. En ce qui concerne la gestion de projets d’entrepôts de données, quatre phases principales doivent être traitées: les concepts et les objectifs d’une mise en commun de plusieurs gisements de données le ménage des données et la vérification ou l’amélioration de leur qualité la constitution de l’entrepôt l’exploration des données par les utilisateurs. 5. Comme pour la plupart des nouvelles technologies, les premières utilisations se font dans l’enthousiasme des explorateurs et des pionniers. On a donc vu fleurir des expériences conduites rapidement. Avec un peu de recul, on s’aperçoit naturellement qu’un projet de réalisation d’un entrepôt de données passe par les mêmes phases et les mêmes difficultés que n’importe quel autre projet, à savoir de préciser le champ, le public, les outils, l’organisation du travail et les itérations entre les besoins des utilisateurs et les possibilités des données et des techniques. 6. Un des écueils au développement des entrepôts de données est d’ailleurs de se réenfermer dans la même approche individuelle et morcelée de l’accès aux données, qui correspond en général au découpage organisationnel de l’entreprise. C’est d’ailleurs un peu ce qu’on voit avec l’apparition de la notion de marché de données, qui serait un sous-ensemble d’un entrepôt de données. 7. Les utilisateurs finaux sont principalement les dirigeants de l’entreprise ou de ses centres de profit, à la recherche d’explications ou de prévision du comportement de leurs clients vis-à-vis des produits ou des services qu’ils fournissent. III. CONTEXTE TECHNIQUE 8. L’apparition des systèmes de gestion de bases de données, puis des SGBD relationnels ont été des avancées notoires en informatique au début des années 1980. L’objectif principal de ces techniques et des outils associés était de séparer les évolutions des données de celles des traitements et ainsi de rendre les modifications de données plus faciles, en n’obligeant pas à reprendre les programmes déjà existants lorsque les données qu’ils utilisent ne changent pas. 9. Un objectif secondaire, à travers le développement et les normalisations du langage SQL, était de rendre les données facilement accessibles en lecture à tous. 10. L’objectif principal a été largement atteint, même si certaintes CES/SEM.38/19 page 4 contraintes demeurent, en particulier en matière de gestion de l’ensemble des données d’une base. Le développement et l’optimisation des SGBDs d’une part et le développement de méthodes de conception des applications informatiques ou de normalisation des schémas des bases de données, d’autre part, ont fait en pratique se multiplier les SGBDs, en les axant sur la mise à jour des données (création, mise à jour et destruction d’enregistrements individuels éventuellement liés entre eux). 11. L’objectif secondaire n’a par contre pas été atteint en pratique, non pas que les outils fassent défaut, mais que la gestion individuelle de chaque application et de chaque base de données a occasionné un foisonnement des tables relationnelles, difficilement utilisables par des non-connaisseurs de la base. De plus les différentes bases de données sont incompatibles a priori par manque de vision d’ensemble dans la conception initiale des différents projets et leur étalement dans le temps. 12. Les concepts d’entrepôts de données visent principalement à spécialiser un certain nombre de méthodes et d’outils autour de l’utilisation en lecture des données. Selon la plus ou moins grande rigueur avec laquelle le terme est employé, il peut dénoter: un ensemble de gisement de données dans des formats variés (des fichiers plats aux bases de données) accessibles en lecture ou écriture; ceci a le mérite de la généralité, mais ne permet pas de décider de l’existence ou non d’un entrepôt de données un ensemble de gisement de données accessibles en lecture seule, qui est au mieux une constatation a posteriori d’un certain existant en matière de mise à disposition de données une ou plusieurs bases de données structurées de façon spécifique pour permettre les accès en lecture; c’est l’acception la plus courante, et celle qui sera utilisée dans cet article une ou plusieurs bases de données structurées en étoile, utilisant ou non un outil spécifique (base de données relationnelle ou tableau multidimensionnel), ce cas étant couvert également par le cas précédent. 13. Une préoccupation connexe est le référentiel de l’entreprise, qui peut lui aussi avoir des spécificités dans un institut de statistique, mais qui ne sera pas abordé ici. Il est tout à fait possible de faire un parallèle entre les objectifs d’un référentiel unique de l’entreprise et d’un entrepôt de données unique, sans minimiser l’écart entre un concept et sa mise en oeuvre statistique et informatique. 14. Une illustration vaut mieux que de longs discours. En présentant une évolution successive de la gestion de données d’une enquête simple, on verra rapidement les différences entre les trois techniques de gestion de fichiers, de gestion de bases de données et de structuration pour un entrepôt de données. IV. EXEMPLE DE DONNEES SUR LA SANTE 15. Supposons donc une enquête annuelle qui renvoie des données épidémiologiques. Les schémas suivants sont volontairement beaucoup plus simples que la réalité. Le schéma des fichiers sera par exemple celui-ci. CES/SEM.38/19 page 5 16. Une personne peut-être hospitalisée pour 1, 2 ou 3 maladies et être opérée 0, 1, 2 ou 3 fois. Un certain nombre de valeurs peuvent donc être manquantes. Les termes en gras indiquent une clé d’accès, c’est-à-dire à la fois qu’il n’y a qu’un seul enregistrement par clé et qu’en général les accès par ces clés sont facilités par la mise en place d’index. L’utilisation des données selon ce format (par exemple pour savoir combien de personnes ont été atteintes d’une crise cardiaque) nécessite une connaissance précise du format de fichier et la réalisation d’une programmation spécifique. 17. En utilisant la normalisation associée en général à un système de gestion de bases de données, on obtient le schéma suivant. Ce schéma en pratique est très utilisé pour la gestion individuelle des enregistrements, par exemple pour faire du contrôle de la qualité du codage ou de la vraisemblance des informations collectées, individu par individu. 18. L’utilisation des données pour la statistique nécessite cependant à chaque fois une jointure d’au moins deux tables (sauf si on ne s’intéresse pas aux données de santé) qui sont parcourues en entier, ce qui coûte cher en ressources quel que soit le système utilisé. 19. L’approche des entrepôts de données consiste à adopter le point de vue de celui qui utilise les données et non de celui qui les gère. On obtient alors un schéma classique dit en étoile, avec une table principale contenant des données entourée des tables de nomenclatures. On suppose donc que le contrôle de la qualité des données a été fait. CES/SEM.38/19 page 6 On voit apparaître une caractéristique essentielle des entrepôts de données, à savoir la datation des données, autrement dit la dimension temporelle. 20. L’utilisation des données consiste alors à faire un extrait et une agrégation de la table principale, les jointures avec les tables de codes n’étant nécessaires que pour une présentation des données plus agréable et étant surtout plus performante puisqu’elle ne nécessite pas le balayage de toutes les tables de nomenclatures. 21. L’utilisation des données est par contre restreinte au point de vue adopté pour la confection de la table de données. Des considérations de performances peuvent également conduire à proposer plusieurs tables de données. 22. En juxtaposant plusieurs point de vue, on obtient une configuration dite en étoile, qui présente les mêmes conditions d’accès et de performance que précédemment et qui est schématisée ainsi, en ne conservant que les principales nomenclatures. 23. Une dernière remarque: les données sont résumées par un seul nombre. On voit qu’il y a là, en fonction de la nature des données, la possibilité d’ajouter d’autres statistiques (ratios, moyennes, médianes, écarts-types, etc...). Certains outils permettent de stocker facilement à la fois toutes les données élémentaires pour chaque case de ce tableau à plusieurs dimensions, mais aussi les données correspondantes des agrégats suivant une ou plusieurs dimensions, pour éviter des recalculs à chaque fois. 24. Deux questions doivent en général être tranchées dans un projet de mise CES/SEM.38/19 page 7 en place d’un entrepôt de données: est-ce qu’on utilise un outil classique de gestion de base de données relationnelles (Oracle, DB2, Ingres, Sybase, ...) ou un outil spécifique, optimisé pour ce genre de structure (Redbrick par exemple)? Les principaux arguments pour trancher sont une analyse coûts-bénéfices et la capacité à faire évoluer facilement les schémas de données. est-ce qu’on doit avoir une alimentation automatique par les bases de données de production (le second schéma) de l’entrepôt de données? Le principal argument est la maîtrise de la qualité des données de production. Pour les opérations statistiques, la réponse est en général négative. V. SPECIFICITES DES INSTITUTS DE STATISTIQUE 25. Un institut de statistique est aussi un organisme qui doit fonctionner de façon efficace. Même si la plupart sont des administrations, les mêmes démarches d’exploration et d’utilisation de leurs données de gestion peuvent être envisagées. Là n’est toutefois pas l’apport des entrepôts de données pour la statistique. 26. La problématique de construction d’un entrepôt de données est bien connue des projets statistiques qui se décomposent classiquement en collecte, contrôle-redressement-apurement, analyse et diffusion. A l’INSEE par exemple, il était décidé dès 1975 de séparer physiquement deux environnements: la production d’une part, les études de l’autre. Cette séparation, imposée par les contraintes de la technologie de l’époque en matière de traitement de gros volumes et d’optimisation des machines informatiques, correspond également à une organisation du travail différente, où la production est réalisée par de nombreux cadres de qualification moindres que l’analyse et la diffusion. 27. En dehors de l’utilisation aux fins de recherche ou d’analyse et contrairement à une entreprise privée, la statistique publique n’est pas au service unique des dirigeants du système statistique publique, mais principalement de cinq catégories de décideurs: le gouvernement national ou fédéral, les partenaires sociaux nationaux les échelons locaux de l’administration, les élus locaux, les représentations locales des partenaires sociaux les chefs d’entreprises les PME, les associations, les professions libérales les particuliers. A chacun de ces niveaux correspondent des besoins d’information différents, mais le point commun est qu’ils sont tous situés en dehors du système statistique public. 28. De la même façon, les sources de données sont principalement de trois types: les enquêtes, les registres statistiques et les fichiers administratifs. L’institut de statistique est en général propriétaire des deux premiers, mais pas du troisième. Le point essentiel est que les données collectées résultent de l’observation d’un phénomène externe à l’institut de statistique, la vie économique et sociale réelle, et non d’un processus qu’il a lui-même organisé. 29. En résumé, une comparaison entre une entreprise et un institut de statistique du point de vue des entrepôts de données se décline ainsi: CES/SEM.38/19 page 8 Entreprise Champ Institut de statistique Secteur d’activité Tous les secteurs de l’entreprise d’activité de la société Collecte de données Dans le processus de l’entreprise En observation de phénomènes externes Traitement des données Interne à l’entreprise Utilisation des données Par une cellule spécialisée de l’entreprise Par les analystes et chercheurs de la statistique publique Par les décideurs de l’entreprise Par les décideurs à l’extérieur de la statistique publique 30. Interne à l’institut de statistique Il y a donc deux ruptures fondamentales: au niveau de la collecte des données, que ce soit enquêtes, registres ou fichiers, il y a toujours une différence entre les données qu’on pense collecter et les données telles qu’elles sont collectées; la résorption de ces différences est une valeur ajoutée majeure que fournit l’institut de statistique la confidentialité des données fournies à l’extérieur, nécessaire pour que l’institut de statistique dispose d’une crédibilité suffisante pour que les ménages et les entreprises répondent de façon satisfaisante aux demandes de la statistique. Le respect de ces contraintes de confidentialité, qui varient d’un institut à l’autre, voire d’une source de données à l’autre, ne fait pas encore partie des fonctionnalités des produits du commerce. 31. Un dernier point d’importance est la documentation des données, autrement dit la question des méta-données et des méta-informations. Une évolution récente de la terminologie conduit à réserver le terme de méta-données pour les noms de variables, et en pratique pour tous les noms qui servent à structurer les données, et faire ainsi la distinction avec la méta-information, qui représente les données de type documentaire associées aux données statistiques. Du point de vue de l’utilisateur, une spécification intéressante des outils d’interrogation est le mariage des méta-informations et méta-données avec les données elles-mêmes, permettant ainsi un accès aux données à travers les méta-données plutôt qu’un accès à un ou plusieurs identifiants qu’il faut mémoriser d’une certaine façon pour pouvoir avoir accès aux données elles-mêmes dans un second temps. 32. C’est ainsi qu’une application générale utilisant ce principe a été développée à Statistique Canada (IBES) et appliquée aux statistiques de l’éducation. Elle permet de faire une recherche sur un terme, comme post-secondaires, et de trouver toutes les sources de données, tables, variables et nomenclatures contenant ce terme. L’utilisateur choisit ensuite la table qu’il veut utiliser et fait directement sa requête dont le résultat est exporté dans ses outils statistiques habituels. CES/SEM.38/19 page 9 VI. APPORTS DE LA STATISTIQUE AUX ENTREPOTS DE DONNEES 33. Dans un contexte où l’approche par les entrepôts de données est culturellement bien établie même si elle ne faisait pas l’objet de théories particulières, de quelle façon peut-on faire la conception d’un entrepôt de données, et partant la conduite de ce genre de projet? 34. L’approche recommandée ici part tout simplement des tableaux qui sont déjà produits, même s’ils ne sont pas complets et cohérents entre eux pour le moment. C’est la seule modification à la démarche figurant dans les bons ouvrages en ces matières. 35. On distingue alors les étapes suivantes: clarification des concepts utilisés dans les différentes sources de données, y compris les variables calculées liste de toutes les demandes de tableaux transformation de chaque demande de tableau pour leur donner une forme comparable au niveau des valeurs des différentes variables descriptives consolidation des demandes de tableau en la description d’une table volumétrie et tests de performances pour partitionner éventuellement en différentes tables, soit par agrégation, soit suivant une variable de nomenclature création des tables annexes de nomenclatures, avec agrégation éventuelle. On retient en général qu’il ne faut pas plus d’une demi-douzaine de variables d’index avec les outils habituels. VII. EXEMPLE DE LA DEMARCHE SUR DES DONNEES D’ETAT-CIVIL 36. Supposons les demandes de tableaux suivants: Age, sexe, effectif en 1997 Age, sexe, effectif en 2020 Population étrangère en 1990, effectif et proportion Pays, groupe d’âge, sexe, effectif 37. En mettant toutes ces demandes en commun, on obtient une table avec 5 variables d’index: age, sexe, année d’observation, origine étrangère, pays et 2 variables statistiques: effectif et proportion. Les effectifs peuvent être additionnés dans les agrégations, les proportions doivent être calculées de façon spécifique. 38. La volumétrie et les performances indiqueront quelles sont les tranches d’âge à retenir, et s’il faut transformer les données de façon à supprimer la variable d’index origine étrangère et rajouter une variable statistique supplémentaire qui est la proportion d’étrangers. VIII. EXEMPLES D’ENTREPOTS DE DONNEES 39. Tout institut de statistique dispose d’une ou plusiers bases de données de séries chronologiques. Un grand nombre de méthodes statistiques, en particulier de prévision, reposent sur la notion et la structure de séries chronologiques. Nous ne prévoyons pas que les entrepôts de données vont avoir un effet sur ces bases, ou alors simplement pour en changer le nom, mais pas la nature. CES/SEM.38/19 page 10 40. Les tableaux statistiques par contre sont des objets d’une complexité insoupçonnée en dehors de la statistique publique. Contrairement à ce qui est produit par les outils bureautiques grand public, ils peuvent avoir plusieurs niveaux d’imbrication de lignes, de colonnes et de cases. 41. Les systèmes de diffusion de ces tableaux peuvent prendre trois formes, en dehors de la forme papier ou image-papier: l’accès à des tableaux pré-définis l’accès à des tableaux pré-définis ou des tableaux dérivés par agrégation des tableaux pré-définis la production dynamique de tableaux à partir des fichiers de données élémentaires. La technologie des entrepôts de données permet donc de mettre en place un mode d’accès intermédiaire entre les deux derniers. 42. Il reste a mentionner tout de même que la statistique se préoccupe de plus en plus de l’évolution dans le temps des individus ou des entreprises, autrement dit des données longitudinales. Tout un champ spécifique reste donc à explorer pour l’application des méthodes statistiques à des données individuelle variables en nombre (par exemple, le nombre d’emplois, et leurs caractéristiques, tenus par une personne depuis sa naissance). La même difficulté préside à la mise à disposition de ces données de façon agrégée et confidentielle: quels sont les bons indicateurs statistiques individuels pour décrire une suite d’événements ou d’intervalles? IX. CONCLUSION 43. La démarche statistique publique présente des affinités certaines avec la démarche des entrepôts de données, avec un élargissement du champ et un amoindrissement de la maîtrise de la totalité des acteurs autour de l’information concernée. La difficulté de disposer au niveau de l’information statistique d’un système global, cohérent et homogène permet d’imaginer que la capacité à mettre en place des entrepôts de données est un bon indicateur de la cohérence du système statisitique et de sa qualité en général. 44. Cette même difficulté peut aussi donner à penser qu’il faudrait doubler cette approche d’une approche par les systèmes de gestion de bases de données orientées objet permettant de mélanger de façon plus simple données recueillies, données redressées et données simulées afin de mieux servir l’utilisateur de la statistique publique et de lui permettre de tracer l’origine et le mode d’élaboration des données statistiques.