FORMATION INITIALE D’actu 54ème promotion, 2015-2016 RECHERCHE-ACTION RAPPORT FINAL L’OPEN DATA EN MATIERE DONNEES ADMINISTRATIVES PROTECTION SOCIALE DE DE Membres du groupe de travail Benjamin NORMAND – chef de projet Valérie GAYTE Benjamin GENY Aurélie JAULIN Nicolas MACQUERON Directeur de recherche-action Isabelle BRIDENNE Responsable des études à la direction des retraites et de la solidarité de la Caisse des dépôts et consignations REMERCIEMENTS Nous remercions chaleureusement Isabelle BRIDENNE et Sébastien CAMBIER ainsi que l’ensemble de l’équipe projet « open data » de la Direction des retraites et de la solidarité de la Caisse des dépôts pour l’aide qu’ils nous ont apportée dans notre projet de recherche-action. Nous tenons également à remercier l’ensemble des personnes qui ont accepté de répondre à nos questions et ont ainsi contribué à alimenter notre réflexion sur l’open data et les sujets connexes. Nous souhaitons aussi remercier ceux qui nous ont mis en relation avec certains acteurs liés à notre projet, nous faisant ainsi gagner un temps précieux : Dominique LIBAULT, directeur général de l’EN3S ; Rémi DECOUT-PAOLINI, maître des requêtes au Conseil d’État ; Agnès CARDINEAU, responsable projet à l’EN3S ; Olivier DELAVEAU et Renato PACCHIONI, étudiants à l’EN3S. 2 Identification Rapport RA Date du rapport 17 décembre 2015 Date de soutenance Statut la Avril 2016 Validé Les propos du présent rapport n’engagent que leurs auteurs. « Si l’on partage des données sur le Web, des données publiques, des données scientifiques, des données citoyennes, quelles qu’elles soient, d’autres que nous sauront en tirer des créations merveilleuses que nous n’aurions jamais imaginées ». Sir Timothy John Berners Lee – inventeur du World Wide Web. 3 SOMMAIRE 1. INTRODUCTION ...................................................................................... 5 2. L’OPEN DATA, UN CONCEPT RECENT AUX FINALITES POLITIQUES ET ECONOMIQUES ................................................................................. 7 3. ÉTAT DES LIEUX DE L’OPEN DATA EN FRANCE ............................... 15 4. ENJEUX ET OPPORTUNITES POUR LA PROTECTION SOCIALE EN FRANCE ................................................................................................. 24 5. DES D’OUTILS D’AIDE A LA DECISION POUR LANCER UNE DEMARCHE OPEN DATA...................................................................... 30 6. LES PRECONISATIONS EN MATIERE D’OUVERTURE DES DONNEES DE PROTECTION SOCIALE .................................................................. 32 7. CONCLUSION........................................................................................ 38 ANNEXE 1 - LA QUALITE DE LA DE-IDENTIFICATION ............................... 40 ANNEXE 2 – GRILLE D’ANALYSE DE DEUX SCENARIOS FICTIFS ........... 45 ANNEXE 3 – SYNTHESE DES PRECONISATIONS ..................................... 48 ANNEXE 4 – GLOSSAIRE ............................................................................ 49 ANNEXE 5 – SIGLES .................................................................................... 53 ANNEXE 6 – LISTE DES INTERVIEWS ........................................................ 55 ANNEXE 7 – LA LICENCE OUVERTE D’ETALAB ........................................ 57 ANNEXE 8 – BIBLIOGRAPHIE ET SITOGRAPHIE ....................................... 61 TABLE DES MATIERES ................................................................................ 64 NB : Les termes suivis d’un astérisque (*) sont explicités dans le glossaire en annexe 4. 4 1. INTRODUCTION 1.1. Qu’est-ce que l’open data? L’open data consiste à partager des données publiques* ou privées* par leur mise en ligne dans des formats ouverts (par opposition aux formats propriétaires dont les spécifications techniques ne sont pas accessibles au public) en autorisant leur réutilisation libre (sans restrictions juridiques ou techniques) et gratuite par toute personne. L’open data est lié aux nouvelles possibilités qu’offrent les technologies et médias sociaux contemporains. Il s’inscrit dans le mouvement plus général de l’open source* (formats ouverts), qui permet l’interopérabilité* des programmes informatiques, et du Web 2.0, qui favorise la coproduction entre internautes et la diffusion des informations. L’idée sous-jacente est celle du partage et de la réutilisation des données. Une donnée peut être mise à disposition selon différents degrés d’ouverture comme le mettent en évidence des définitions plus précises comme celles de Tim O’Reilly (éditeur d’ouvrages informatiques de référence internationale) et Tim Berners-Lee (un des inventeurs du World Wide Web*) qui seront détaillées dans la première partie de ce rapport. Il existe plusieurs manières de mettre en œuvre un projet open data qui dépendra principalement du degré d’ouverture que l’on souhaite offrir aux utilisateurs potentiels. 1.2. Quelles particularités de l’open data en matière de données administratives de protection sociale ? Les données administratives de protection sociale peuvent être définie comme des données personnelles* détenues ou collectées par un organisme de protection sociale dans l’exercice de ses missions de service public : données d’identification, d’affiliation aux différents régimes, sur la nature et les montants des prestations servies, etc… Ces données concernent aussi bien des personnes physiques (versement d’allocations, de pensions…) que morales (recouvrement de cotisations). Elles couvrent toutes les dimensions du cœur de métier des organismes : la gestion des bénéficiaires et des prestations (légales et extra-légales), la relation clients, le cas échéant la gestion du risque. La gestion et le pilotage en sont exclus. La sensibilité de ces données tient à deux principaux facteurs : leur caractère personnel* ; la nature même des informations qu’elles transmettent, directement ou indirectement, sur un individu (ex : les remboursements de soins via la codification des actes renseignent sur l’état de santé d’un individu). Ces caractéristiques entraînent de facto une complexité accrue dans la mise en œuvre d’une démarche open data en matière de données administratives. Celle-ci devra en effet prendre en compte certains risques particuliers (comme le risque de ré-identification) et composer avec les régulateurs : la commission nationale de l’informatique et des libertés (CNIL), la commission d’accès aux documents administratifs (CADA). 1.3. La Direction des retraites et de la solidarité (DRS) de la Caisse des dépôts et consignations (CDC) en tant qu’acteur de la protection sociale La Caisse des Dépôts a été créée, en 1816, pour sécuriser l’épargne et rétablir la confiance dans le crédit public. Elle assure depuis lors un rôle de 5 tiers de confiance et remplit des missions qui lui sont confiées par les pouvoirs publics. La Direction des retraites et de la solidarité (2 000 personnes sur 3 sites – Paris, Angers, Bordeaux) dispose de mandats de gestion délégués notamment par : des régimes de retraite (Caisse nationale de retraite des agents des collectivités locales (CNRACL), Institution de retraite complémentaire des agents non titulaires de l’État et des collectivités publiques (IRCANTEC), Régie des allocations viagères des gérants de tabac (RAVGDT)…) ; des fonds de solidarité (Service de l’allocation de solidarité aux personnes âgées (SASPA), Fonds pour l’insertion des personnes handicapées dans la fonction publique (FIPHFP), Allocation temporaire d’invalidité des agents des collectivités locales (ATI),…) ; le compte individuel de formation. Au titre de ses mandats, la DRS détient de nombreuses données administratives de protection sociale sur une population large d’affiliés : données de carrière des fonctionnaires territoriaux et hospitaliers, des contractuels de l’État ; rémunérations (assiettes de cotisation) ; montants des pensions versées (retraite, pension invalidité) et prestations sociales ; informations sur des publics particuliers (élus locaux, débitants de tabacs, bénéficiaires du « Minimum vieillesse »…). Elle détient également des données sur les employeurs (collectivités territoriales, établissements publics de santé…). 1.4. La démarche open data de la DRS Le point de départ de cette recherche-action (RA) est le souhait de la direction des retraites et de la solidarité de la CDC de s’engager dans une démarche d’ouverture de ses données. Afin d’étudier à la fois l’opportunité et la faisabilité de ce projet, elle a mis en place une équipe de projet interne composée de trois statisticiens, d’un informaticien, d’un chargé de communication, d’un gestionnaire des risques, d’un juriste et d’une responsable financière. Le partage des tâches entre ce groupe de travail interne à la DRS et notre groupe de RA nous a amené à nous concentrer sur les activités suivantes : repositionner le projet dans son contexte, c’est-à-dire préciser les intérêts et les enjeux d’une démarche d’ouverture de données ; analyser différentes expériences, notamment celles menées par des acteurs du monde de la protection sociale ; élaborer un argumentaire sur l’opportunité de l’ouverture des données au sein de la DRS pour une prise de décision ; proposer aux acteurs de la protection sociale susceptibles d’entamer une démarche d’ouverture de données des outils d'aide à la décision permettant de qualifier, positionner et comparer différents scénarios de mise en œuvre de telles démarches ; 6 proposer aux organismes de protection sociale (OPS) et à leur tutelle des préconisations pour mener à bien une démarche d'ouverture des données. 1.5. Le périmètre du projet Les données administratives de protection sociale, telles que définies plus haut, sont au cœur de notre sujet. Les données de gestion interne, prises en compte dans les travaux de la DRS et entrant dans l’objectif de transparence assigné à l’open data, ont été abordées à la marge car elles ne représentent pas les mêmes enjeux en termes de volume de données, de sensibilité, de risques. Une incursion dans le domaine marchand a été effectuée à la faveur d'un entretien avec le Crédit Agricole store. De la matrice SWOT initialement prévue, nous sommes passés à deux outils permettant d’évaluer les apports des démarches d’open data envisagées par des acteurs de la protection sociale sur la base des critères nous paraissant les plus pertinents. En effet, compte tenu de la maturité du sujet au sein de la protection sociale, l’objectif n’était pas tant de juger de l’efficacité d’une démarche open data mais plutôt de son opportunité et de sa faisabilité. Le scénario de mise en œuvre de la démarche au sein de la DRS, prévu dans la note de cadrage, n'a finalement pas été élaboré. En effet, notre groupe de travail et celui de la DRS ayant conduit leurs travaux simultanément, c'est ce dernier qui s'est attaché à la construction de scénarios spécifiques à la CDC, ce que leur permettait leur connaissance précise des données. Nous nous sommes consacrés à examiner plus globalement le contexte, les prérequis, les finalités et les conditions d’une démarche d'ouverture des données réussie dans le domaine de la protection sociale et non dans un établissement spécifique. 2. L’OPEN DATA, UN CONCEPT RÉCENT AUX FINALITÉS POLITIQUES ET ÉCONOMIQUES 2.1. Une démarche d'ouverture associée à une sémantique complexe 2.1.1. Les définitions de l’open data L’open data correspond à la fois à un contenu (de la donnée*) et à un processus (le fait de la mettre à la disposition de tous). Définir le concept suppose d’intégrer ces deux aspects. Deux définitions ont retenu notre attention. La première, celle de Tim O’Reilly, repose sur huit principes qui forment les contours d’un open data « pur » : des données complètes, brutes*, à jour, accessibles à tous et pour tous les usages, dont le traitement peut être automatisé, dont l’accès est non discriminant, le format non-propriétaire et la licence libre*. Les jeux de données complets (à l’échelle d’un territoire ou d’une population cible) sont l’une des garanties face au risque de nonréutilisation des données. L’exhaustivité des données mises à disposition conditionne leur valeur ajoutée pour les utilisateurs potentiels. Toutes les données ont ainsi vocation à être ouvertes sauf celles susceptibles de porter atteinte à la vie privée des individus ou à la sécurité. 7 Le caractère brut de la donnée laisse l’utilisateur libre de fixer luimême ses critères d’agrégation en fonction de ses besoins. Les données sont rendues disponibles sous leur forme la plus fine. Le fait que les données soient à jour est là encore une garantie de valeur ajoutée et de réutilisation potentielle. La mise à jour des données publiées de façon régulière est l’un des impératifs et des défis de l’open data. L’accessibilité à tous et pour tous les usages est consubstantielle au principe même de l’open data. Une fois la donnée publiée, aucune restriction d’usage à certaines catégories d’utilisateurs n’est justifiée. Les jeux de données fournis doivent pouvoir être traités de façon automatisée et informatisée. L’open data suppose une liberté d’accès maximale aux données. En ce sens, les barrières à l’entrée telles que l’inscription ou l’enregistrement préalable sont de nature à limiter les réutilisations. Toutefois, un enregistrement sur la base du volontariat peut permettre d’animer une communauté d’utilisateurs et de mieux mesurer l’utilité (ou a contrario la faible pertinence) des données fournies. Le format non propriétaire (par exemple les fichiers portant l’extension « .csv » au lieu du « .xlsx » d’Excel) est à privilégier, là encore pour des raisons d’accessibilité et d’interopérabilité*. Par ailleurs, elles doivent être structurées, c’est-à-dire être organisées et classées en vue de faciliter leur lecture et leur traitement, ce que ne permettent pas, par exemple, des données sous format PDF. Une licence libre encadre les règles de réutilisation des données (mention de la source, modification possible des données) et garantit la possibilité de réutiliser ces données avec le moins de restrictions possibles. Une autre possibilité consiste, comme le propose Tim Berners-Lee, à établir un classement en 5 étoiles gradué selon le niveau d’exigence et la proximité à un open data idéal. Critères Exemple 1 étoile Données accessibles sur le Tableau téléchargé au format web PDF 2 étoiles 1 étoile + données structurées Tableau téléchargé au format Excel « .xls » 3 étoiles 2 étoiles + format ouvert Tableau téléchargé au format « .csv » et non « .xls » 4 étoiles 3 étoiles + URI* associé aux Tableau accessible sur une données page web avec une adresse URL spécifique 5 étoiles 4 étoiles + liens avec d’autres Tableau accessible sur une données pour fournir un page web et dont certaines contexte plus précis informations pointent vers d’autres pages web par lien hypertexte Tableau 1 – Classification 5 étoiles des données ouvertes (Tim Berners-Lee) 8 Ces deux définitions mettent en évidence le fait que des données peuvent être plus ou moins ouvertes en fonction du nombre de critères remplis. La question qui se pose dans une telle démarche est de déterminer le degré d’ouverture qu’une entité est prête à atteindre. 2.1.2. Les notions associées Ces définitions supposent de s’entendre sur un certain nombre de notions associées. En premier lieu, il s’agit de distinguer les notions de « libre »* et « gratuit ». Un logiciel gratuit n’est pas forcément libre dans la mesure où l’accès au code n’est pas permis. Si nous nous intéressons aux formats de mise à disposition, l’accès à un jeu de données peut être gratuit mais son format peut empêcher une utilisation libre (par exemple s’il est sous un format propriétaire de type PDF). Il existe des formes intermédiaires entre libre et gratuit. Un format de type Excel est ainsi qualifié de standard de fait : il n’est pas ouvert (à l’inverse du format « .csv ») mais le programme est largement répandu et facile d’accès. Cependant, un fichier au format Excel pourrait ne pas être lu par des systèmes d’exploitation minoritaires et spécialisés. Il convient, en second lieu, de différencier les données brutes des données agrégées : nous entendons par données brutes les données détaillées qui n’ont subi aucune altération et qui ont été mises à disposition sur l’unité la plus fine : ce sont des données « élémentaires » ou « atomiques ». Elles proviennent des systèmes d’informations (SI) des organismes (individus identifiés, adresses complètes, montants exacts des prestations versées…). Elles peuvent faire l’objet de corrections en cas d’incohérence ; les données agrégées sont des regroupements opérés selon un certain nombre de critères (la zone géographique, tranches d’âge, etc...). Elles permettent, par exemple, d’obtenir le montant total de prestations versées à l’échelle d’une ville. Le type d’agrégation dépend de l’objectif du réutilisateur. Les données brutes ne peuvent pas être ouvertes directement. Un travail de traitement est nécessaire au préalable. C’est notamment le cas pour les données administratives de protection sociale qui sont à caractère personnel et nécessitent de masquer certaines informations (NIR, noms, prénoms…). En outre, il faut aussi les convertir dans un format libre ou fusionner plusieurs jeux de données brutes pour atteindre le critère d’exhaustivité, etc… Si l’accès à des données agrégées peut s’avérer plus facile pour des noninitiés, les jeux de données bruts laissent la liberté de l’usage à l’utilisateur averti. Les API* (Application Programming Interface) permettent d’obtenir des données agrégées à partir de données brutes. L’open data, dans sa définition la plus stricte, exclut le recours aux API puisque le réutilisateur n’aura pas accès directement aux données élémentaires. La figure 1.1 ci-dessous montre que comment le réutilisateur accède librement à un jeu de données ouvert, élaboré à partir des données brutes, ce qui lui permet de retraiter lui-même les données comme il le souhaite (en les agrégeant ou en leur appliquant un filtre). 9 1. Accès aux données Données ouvertes Traitements (déidentification, conversion en format ouvert….) Réutilisateur Données brutes Déversement des données dans un entrepôt* 2. Récupération des données utiles SI des organismes Figure 1.1 – Exploitation directe de données ouvertes En présence d’une API, le réutilisateur n’aura pas d’accès direct à l’ensemble des données. Il pourrait s’agir d’un formulaire électronique qui demanderait le type de données que souhaite visualiser le réutilisateur (cf. le site de l’INSEE qui offre la possibilité d’obtenir les chiffres du chômage soit à l’échelle du pays soit par région voire par ville). L’API récupérera directement les données ouvertes utiles qu’elle traitera elle-même pour répondre aux besoins du réutilisateur. La phase amont aux données ouvertes illustrée sur la figure 1.1 demeure identique et n’est pas représentée dans la figure 1.2. NB : il pourrait aussi être envisagé une API qui accède directement à des données brutes et qui procède à la dé-identification avant de présenter le résultat au réutilisateur. 10 2. Accès aux données Données ouvertes 1. Demande de données API Réutilisateur 3. Récupération des données utiles 4. Présentation des données retraitées répondant à la demande Figure 1.2 – Exploitation de données ouvertes via une API Bien qu’elles ne remplissent pas le critère d’accessibilité à l’ensemble des données, les API ne doivent pas être négligées car elles constituent un outil précieux pour rendre l’information intelligible à l’attention de l’usager lambda. 2.1.3. Des notions connexes distinctes mais complémentaires Le big data* correspond à la collecte et au traitement de données de masse. La majeure partie du big data n’est pas mise à disposition de façon libre et gratuite mais captée et analysée par le biais de processus coûteux. Certaines données ouvertes peuvent atteindre un volume critique qui leur donne le statut de données de masse. C’est notamment le cas des données publiques (cf l’open data government dans la figure 1 infra) auxquelles appartiennent les données administratives de protection sociale. Les données accessibles par l’open data peuvent être combinées avec celles issues du big data. Un exemple de big data est celui du système national d’information interrégimes d’assurance maladie (SNIIRAM) de la CNAMTS : une base de données de 500 To représentant un investissement de plusieurs dizaines de millions d’euros et sur laquelle travaillent 80 personnes. Le MyData* (ou MesDonnées) désigne le champ des données personnelles. L’open data l’exclut a priori pour des raisons de protection de la vie privée. Cependant, des réflexions s’engagent quant à l’intérêt de permettre aux individus un accès aux données les concernant associé à une comparaison avec les données d’autres usagers aux profils similaires. Il s’agit de permettre à un individu de se comparer aux comportements de ses pairs afin de favoriser les comportements vertueux. Une telle application pourrait ainsi influer sur les comportements dans le domaine de la consommation électrique par exemple. En outre, certains individus sont prêts à renoncer à la protection de leurs données personnelles et à les divulguer volontairement en échange 11 de services (c’est toute la logique d’un réseau social professionnel tel que LinkedIn). Figure 2 – Positionnement des différentes démarches relatives aux données 2.2. Une histoire récente qui mobilise de nombreux acteurs 2.2.1. Une origine scientifique dans une optique de partage des données L’expression « open data » apparaît pour la première fois en 1995 dans un article écrit par une agence scientifique américaine prônant un échange complet et ouvert des données scientifiques entre les différents pays. Le Conseil national de la recherche aux États-Unis défend pour la première fois, dans une publication du Comité sur les données géophysiques et environnementales, l’intérêt d’une démarche d’open data et ce d’autant plus que des problématiques transcendant les frontières nationales occupent l’agenda international. 2.2.2. Une promotion par les développeurs informatiques L’open data se développe par la suite à partir d’une filiation avec le mouvement de l’open source* qui prône les mêmes notions d’ouverture, de participation et de collaboration. Chacun peut bénéficier des innovations des autres via une plate-forme collaborative dans la mesure où il s’engage luimême à partager avec la communauté sa production. Politiquement, l’ouverture des données ou des codes sources est une réponse collective aux risques de privatisation des données et de concentration du pouvoir par des monopoles commerciaux. En 2003 se crée l’open Knowledge Foundation (OKFN) puis, en 2006, l’open data Foundation (OdaF) qui regroupent des associations à but non lucratif 12 organisées en communautés d’économistes de l’information. de développeurs, de chercheurs ou 2.2.3. Un sujet dont s’emparent les corps intermédiaires L’open data peut servir d’outil de contrôle citoyen à partir des données mises à disposition par les acteurs publics (gouvernement ouvert). La transparence doit, selon ces mouvements issus de la société civile, être mise au service d’une démocratie plus aboutie. La devise de la Sunlight Foundation aux États-Unis (2008) affirme ainsi : « la lumière du soleil est le meilleur des désinfectants ». En France, l’association Regards citoyens (2009) se fait connaître du grand public par le suivi de l’activité des élus (et leur classement) à l’Assemblée, au Sénat et au Parlement européen. 2.2.4. Une démarche reprise par les politiques, en particulier dans le monde anglo-saxon Le premier jour de son mandat, le président Obama signe deux mémorandums concernant l’open data et destinés aux dirigeants des ministères et des agences gouvernementales. Le premier, « Transparency and open government » reprend trois principes au cœur d’une démarche de démocratie participative : la transparence qui doit rendre les informations ayant trait aux affaires publiques accessibles aux citoyens grâce aux nouvelles technologies ; la participation qui permet aux citoyens de contribuer à l’élaboration des politiques publiques (logique de crowdsourcing*) ; la collaboration qui promeut les échanges au sein même des administrations publiques, et entre les sphères publiques et privées (ONG, entreprises). Cette initiative est reprise par le gouvernement britannique suite au scandale des notes de frais du Parlement en 2009. Le premier ministre travailliste, Gordon Brown, s’entoure de deux conseillers et chercheurs en informatique, pionniers et artisans du mouvement d’ouverture (« openness »), Tim BernersLee et Nigel Shadbolt. Ils sont en charge de la mise en place du portail des données publiques data.gov.uk. La même année, l’agence en charge des données cartographiques (Ordnance Survey) annonce la mise en ligne et l’accès libre et gratuit à ses cartes au 1/10 000ème. Au niveau international, le G8 a adopté en juin 2013 une charte pour l’ouverture des données publiques. 2.2.5. Un intérêt du secteur marchand Les GAFA (Google, Amazon, Facebook, Apple) se sont construits sur la base d’un certain degré d’ouverture de leurs données. Ils ont autorisé des réutilisateurs à accéder à leurs données via des interfaces de programmation (API), ce qui permettait de les exploiter sans toutefois pouvoir les télécharger. Amazon et Google Maps sont les deux exemples les plus significatifs de ce que Simon Chignard, dans son livre « open data : comprendre l’ouverture des données publiques », appelle la demi-ouverture des données. Les données restent la propriété de ces entreprises qui les stockent et en contrôlent l’usage. C’est l’accès qui est ouvert sous certaines conditions par l’intermédiaire d’API, d’où la notion de demi-ouverture. Les acteurs du secteur marchand peuvent aussi s’impliquer dans l’open data en participant eux-mêmes à la démarche (open data government initiative de Microsoft ou Google Foundation) ou en finançant des associations 13 promouvant la démarche (cf. les financeurs de la Sunlight Foundation tel que Pierre Omidyar, le fondateur d’e-Bay). Leur intérêt résulte d’une volonté d’accéder de façon libre et gratuite à une matière première brute (par exemple, les données cartographiques). 2.3. Des moteurs de l’open data caractérisés par leur variété Cet historique nous a permis d’esquisser un panorama de l’argumentaire en faveur de l’open data. Trois justifications sont ainsi avancées en faveur de la généralisation de l’ouverture des données publiques. Les deux premières raisons sont plutôt d’ordre politique. La troisième correspond à une vision économique de l’open data. 2.3.1. La transparence Cette notion d’inspiration libérale se rapproche du concept « d’accountability » (le fait de répondre de ses actes). L’article 15 de la déclaration des droits de l’homme et du citoyen énonce : « La Société a le droit de demander compte à tout Agent public de son administration ». L’open data répond à cette obligation constitutionnelle et permet ainsi de conforter la confiance démocratique. La transparence renvoie en outre à l’idée que les données produites par le financement public appartiennent in fine aux contribuables. Ceci justifie leur mise à disposition gratuite. 2.3.2. La performance Selon la théorie économique de l’agence, le simple fait de publier les données d’un organisme inciterait celui-ci à être plus performant. Des études ont ainsi montré que la diffusion publique des taux de mortalité dans les hôpitaux permettait d’atteindre des résultats presque similaires à la mise en place de systèmes d’incitations financières (rapport « Pour une politique ambitieuse des données publiques », Ecole des Pont ParisTech). L’open data apparaît dès lors comme un moyen de contrôler l’action publique et de la rendre plus efficace et efficiente. Les visualisations graphiques de l’utilisation des dépenses publiques illustrent ce rôle de régulation et de performance. En outre, grâce aux technologies du web 2.0, l’open data permet au citoyen de collaborer, voire de coproduire les politiques publiques, ce qui rend ces dernières plus adaptées aux besoins de la collectivité, puisqu’elle en est l’artisan. L’avant-projet de loi pour une République numérique, dite « loi Lemaire », a été élaboré en prenant en compte les propositions des citoyens via une plate-forme web. 2.3.3. L’innovation et la croissance L'accès gratuit aux données brutes* peut être vecteur d'innovation et de création de valeur. Le raisonnement s’appuie sur le fait que les données sont considérées comme des biens publics. Elles sont non rivales (leur consommation par un agent n’a aucun effet sur les quantités disponibles pour les autres individus) et non exclusives (leur accès peut être ouvert à tous). A ce titre, les données sont potentiellement créatrices d'externalités positives. Les canaux ou leviers de la création de valeur sont triples : l’amélioration de l’efficience de processus existants : l’open data permet de mieux piloter l’activité par la comparaison des pratiques (le parangonnage ou « benchmarking ») ou d’éviter les décisions inefficientes (corruption, clientélisme) ; 14 la création de nouveaux biens, services ou marchés : les données sont susceptibles de générer un écosystème qui fournit des services d’analyse des données (par exemple des simulations de montant de pensions à partir des données de retraite) et/ou crée des applications à partir des données ouvertes ; des gains pour les consommateurs : l’open data concourt à la mise sur le marché de produits de meilleure qualité et plus individualisés. Il procure des économies de temps et d’argent. Les exemples les plus souvent cités en faveur d’une démarche open data concernent le secteur des transports et la thématique de la mobilité. Les applications développées permettent par exemple de comparer les prix des carburants, de s’orienter et de se repérer (projet alternatif à Google map appelé « OpenStreetMap » fondé sur la coproduction de données géographiques à partir de la communauté des réutilisateurs) ou de fluidifier la circulation (applications indiquant les horaires de passage des transports en commun). Deux études ont proposé des méthodes d’évaluation de la valeur ajoutée de l’open data. Pour la première, c’est la valeur du marché des informations publiques qui est mesurée (étude MEPSIR, « Measuring European Public Sector Information Resources » de la Commission européenne en 2006). À partir d’une enquête en ligne auprès d’organismes publics et de réutilisateurs directs des informations, l’étude évalue à 26 milliards d’euros le marché des informations publiques dans l’Union européenne. Cependant la méthodologie est fragile. Le chiffre correspond à la valeur médiane des estimations des réutilisateurs. En outre, l’étude évalue globalement l’état du marché des informations publiques et non les bénéfices potentiels spécifiques à l’ouverture des données. Pour la seconde, ce sont les gains d’opportunité qui sont comptabilisés (cf. rapport « Open data: unlocking innovation and performance with liquid information » de Mc Kinsey Global Institute). La valeur annuelle mondiale estimée de l’open data se situe entre 3 220 et 5 290 milliards de dollars. Un tel chiffrage reste délicat à établir car l’utilisation de l’open data se fait en combinaison avec d’autres données qui ne sont pas forcément ouvertes (big data privé). Une dernière limite vient de la difficulté à identifier et à recenser toutes les réutilisations puisque le principe de l’open data est justement de ne pas présumer de l’exploitation qui pourrait être faite des données. 3. ÉTAT DES LIEUX DE L’OPEN DATA EN FRANCE 3.1. L’open data, un enjeu politique fort qui se formalise dans un agenda institutionnel De nombreuses initiatives illustrent la volonté du Gouvernement d’engager résolument les administrations dans le développement de l’open data en France. Le calendrier s’étoffe et se précise : début 2012 : une charte de déontologie engage le gouvernement à mettre à disposition gratuitement sur Internet un grand nombre de données publiques ; septembre 2014 : un administrateur général des données de l’État est nommé : Henri Verdier, Directeur de la mission interministérielle Etalab ; 15 avril 2015 : un Conseil national du numérique est institué. Son rapport "Ambition numérique" promeut le concept de la "start-up République" pour faire de la France une République numérique promouvant "la liberté d'innover, l'égalité des droits, la fraternité d'un numérique accessible à tous, l'exemplarité d'un État qui se modernise". Pour ce faire, le Conseil propose la mise à disposition des données publiques en inscrivant dans la loi le principe « d’un open data par défaut » ; juin 2015 : l’Assemblée nationale ouvre son portail open data, avec des premiers jeux de données relatifs à la réserve parlementaire et aux questions écrites des députés ; août 2015 : la loi pour la croissance, l’activité et l’égalité des chances économiques (dite « loi Macron ») impose la réutilisation gratuite de données de transports publics et des services de mobilité. Ce calendrier renvoie à la place occupée par la France sur le marché de l’open data : en 2014, l’ONU a classé la France au 4ème rang mondial, 1er rang européen ; la plateforme data.gouv.fr (plus de 13 000 jeux de données, 1 300 réutilisations) a remporté en juin 2014 le trophée de la politique en faveur de l’open data ; la France a été désignée pour occuper à compter de janvier 2016 la présidence de l’open Government Partnership. 3.2. Les parties prenantes au débat : le poids de l’institutionnel 3.2.1. Les acteurs structurants Le Secrétariat général pour la modernisation de l’action publique (SGMAP), créé par décret en octobre 2012, appuie le Ministère responsable de la réforme de l’État dans le cadre du projet de modernisation de l’État. Partage des données, évaluation des politiques publiques, développement du numérique à l’attention de l’usager et amélioration de la relation aux administrés font partie des axes de travail transversaux répondant à la démarche de la révision générale des politiques publiques (RGPP). Le SGMAP inclut la mission Etalab chargée de la mise à disposition des données publiques pour l’État. Instaurée par décret en février 2011, elle accompagne les administrations dans l’ouverture de leurs données, pilote le portail data.gouv.fr et anime la communauté des réutilisateurs. L’Institut national des données de santé (INS), groupement d’intérêt public mis en place par la loi Santé de 2015 regroupe les services de l’État, les organismes de sécurité sociale, les producteurs et les réutilisateurs de données de santé. Il est le garant de la qualité des données mises à disposition et des conditions de leur utilisation. Par décret d'octobre 2005, la Direction de la recherche, des études, de l'évaluation et des statistiques (DREES) a été désignée pour assurer la gouvernance des données de santé. 3.2.2. Les acteurs en charge du conseil et de la promotion Le Ministère chargé des affaires sociales et de la santé assure la promotion de la démarche via l’édition de vadémécums, feuilles de route gouvernementales… 16 L’Agence du patrimoine immatériel de l’État (APIE) instituée en avril 2007, est compétente en matière de droits de propriété intellectuelle au profit des personnes publiques. Elle se prononce sur les cas de réutilisation pouvant questionner les droits d’auteur ou de propriété intellectuelle. Le COEPIA, placé auprès du Premier ministre, créé en 2010, exerce une fonction d’évaluation, d’expertise et de conseil, dans les domaines suivants : l’édition publique et les publications administratives, quel que soit leur support ; l’information et le renseignement administratif ; la mise à disposition des données publiques. La commission nationale du débat public (CNDP), autorité administrative indépendante de 1995, a mis en exergue la place de l’open data dans la participation éclairée des citoyens à la vie de la société. 3.2.3. Les organes de contrôle La CNIL, instituée par la loi Informatique et Libertés de janvier 1978, veille à ce que les développements informatiques restent conformes aux droits fondamentaux. Elle délivre les autorisations de collecte de données et peut également les retirer. La CADA a été mise en place par la loi de juillet 1978. Elle accompagne les administrations en matière de transparence et les citoyens en termes d’accès aux données publiques. Son avis reste consultatif mais elle peut prononcer des sanctions en cas de non-respect constaté des règles de réutilisation (amendes, interdiction de réutilisation pour une durée de 2 à 5 ans). 3.2.4. Synthèse des acteurs impliqués dans l’open data Figure 3 – Vue d’ensemble des acteurs liés à l’open data 17 3.3. Données publiques, données personnelles, données d’intérêt général : des enjeux juridiques multiples et complexes 3.3.1. Le cadre réglementaire Le cadre de l’open data se caractérise par la juxtaposition de droits (droit d’accès, protection de la vie privée…) et de normes (nationales et européennes). Concernant le droit d’accès aux documents administratifs : La loi du 17 juillet 1978 portant diverses mesures d'amélioration des relations entre l'administration et le public et diverses dispositions d'ordre administratif, social et fiscal généralise le droit d’accès aux données publiques ainsi que le cadre juridique de leur réutilisation. Ce droit s’impose à l’État, aux collectivités territoriales et à toute personne de droit public ou privé en charge d’une mission de service public. Des restrictions concernent le respect de divers principes (respect de la vie privée, secret médical, secret défense, secret des affaires, secrets commercial et industriel). Elle crée la CADA. Concernant la protection des données personnelles : La loi 78-17 du 6 janvier 1978 relative à l’informatique, aux fichiers et aux libertés définit les règles applicables en matière de collecte, traitement et conservation des données personnelles. Son article 1er dispose que « l’informatique doit être au service de chaque citoyen (…). Elle ne doit porter atteinte ni à l’identité humaine, ni aux droits de l’homme, ni à la vie privée, ni aux libertés individuelles ou publiques ». Elle crée la CNIL. Concernant la réutilisation des informations publiques, le droit européen s’impose : la directive Public Sector Information (PSI) du 17 novembre 2003 – 2003/98/CE- relative à la réutilisation des documents et des informations des organismes du secteur public et à sa valeur économique. Elle a été transposée en droit français par l’ordonnance du 6 juin 2005 qui a modifié la loi CADA en intégrant notamment le principe de la réutilisation des données publiques. Elle circonscrit les redevances au montant des coûts réels engagés pour la diffusion des données ; la directive 2013/37/UE du 26 juin 2013 propose une harmonisation des cadres juridiques apte à favoriser le développement de l’open data. Elle étend le champ des données concernées et prévoit un certain nombre de normes techniques (format ouvert, redevances limitées aux coûts marginaux de production). 3.3.2. Un périmètre évolutif Les données publiques*, données personnelles*, données d’intérêt général* peuvent se contrarier et questionnent l’évolution du cadre juridique. La notion de la donnée personnelle*, définie par la Loi informatique et libertés de 1978, soulève la question de la nécessaire anonymisation* des données pour le respect de la vie privée tel que défini à l’article 9 du Code civil. Elle retient comme ayant un caractère personnel « toute information relative à une personne physique identifiée ou qui peut être identifiée, directement ou 18 indirectement, par référence à un numéro d’identification ou à un ou plusieurs éléments qui lui sont propres ». La définition de la donnée publique* (Loi CADA) confère un droit à l’information publique. Elle désigne les « informations contenues dans les documents produits ou reçus par un acteur public dans l’exercice de ses missions de service public. Données brutes ou enrichies contenues dans les documents administratifs : dossiers, rapports, études, statistiques, circulaires, instructions … ». Des exclusions catégorielles demeurent, limitant par làmême l’intérêt de l’ouverture des données: données nominatives, personnelles, informations protégées. Le concept de données d’intérêt général*, expression apparue avec le projet de loi pour une République numérique porté par le rapport « Ambition numérique » de juin 2015, est repris par le projet de loi Macron dont un amendement crée une obligation d’ouverture de données de mobilité. En janvier 2015, la CNIL a formulé des propositions relatives à l’évolution de la loi Informatique et Libertés pour renforcer le droit d’accès aux données publiques par rapport aux nouveaux droits portés par le droit européen : droit à l’oubli, à la portabilité des données*. L’origine, la durée de conservation de la donnée, l’exercice par voie électronique des droits d’accès, de rectification, d’opposition figurent parmi les propositions. La représentation ci-dessous synthétise les différents concepts juridiques abordés précédemment dans le cadre d’une ouverture. Données personnelles Textes Conditions Droit d’accès et de rectification Loi CNIL Protection des données individuelles (collecte, traitement, conservation) Loi CNIL Droit à l’oubli Droit européen Anonymisation des données ou accord des usagers ou autorisation législative Droit à la portabilité des données Projet de loi Lemaire Règlement européen Données disponibles en format ouvert Des droits pour des libertés individuelles Libertés individuelles Respect de la vie privée Protection de l’individu (droit à l’oubli…) 19 Données publiques Texte Conditions Droit d’accès à l’information publique Loi CADA Restrictions : respect de la vie privée, respect de secrets (médical, défense, affaires) Droit de réutilisation Directives européennes 2003, 2013 Loi Macron Sous format ouvert et avec des redevances minimes Données d’intérêt général Le champ des données à libéraliser : fonction de l’utilité pour la collectivité Des objectifs à articuler avec les grandes libertés individuelles Transparence Contrôle action publique Economie du numérique Figure 4 – Les concepts juridiques mobilisés (focus de 2015) 3.4. Un mouvement institutionnalisé qui s'amplifie, proposant une nouvelle façon de concevoir et d’évaluer l’action publique Plusieurs textes reprennent ces derniers mois le sujet de l’open data sans toutefois apporter d’avancée décisive. La loi NOTRe du 7 août 2015, portant nouvelle organisation territoriale de la République, pose l’obligation pour les communes et leur établissement public de coopération intercommunale (EPCI) de plus de 3500 habitants de rendre accessibles les informations publiques relatives à leur territoire. En octobre 2015, l’Assemblée nationale et le Sénat ont adopté le texte de la Secrétaire d’État en charge de la réforme de l’État, Clothilde Valter, sur la gratuité de la réutilisation des données publiques détenues par l’État et les collectivités territoriales. Plus largement, ce texte transpose la directive européenne de 2013 en apportant plusieurs spécificités. Le principe de gratuité s’accompagne ainsi de dérogations pour les autorités publiques devant dégager des ressources propres (INSEE, IGN, Météo France …). 35 millions d’euros de redevances ont ainsi été collectées en 2012 au profit du budget de l’État. L’obligation de mise à disposition sous format électronique n’a pas été retenue. La mise à disposition dans un format ouvert reste facultative. La question des redevances pourra être réexaminée dans le cadre du projet de loi pour une République numérique. 20 Le projet de loi « Noé » (loi Macron 2) sur les Nouvelles Opportunités Économiques ambitionne une économie de la donnée fondée sur son accessibilité et traite de la circulation des données privées. Le projet sera présenté en janvier 2016. Le texte le plus attendu pour des mesures significatives reste le projet de loi Lemaire en faveur d’une République numérique. La version présentée en Conseil des ministres le 9 décembre 2015 présente un droit à la portabilité* et à la récupération des données. Le texte sera présenté à compter de janvier 2016 à l’Assemblée nationale. Dans sa version du mois de décembre 2015, il prévoit l’obligation de diffuser l’ensemble des informations publiques détenues par les organismes chargés d’une mission de service public dans un délai d’un an à compter de la promulgation de la loi. 3.5. Une progression en ordre dispersé et des interrogations qui subsistent En 2013 les collectivités territoriales se sont regroupées dans l’association « open data France ». Certaines, telles Rennes ou Paris, y ont acquis une visibilité. Puis ce sont les institutions, Sénat, Assemblée Nationale, Cour des comptes qui se sont inscrites dans le mouvement en ouvrant leur site open data. Des autorités administratives et des organismes publics, tels que la CADA ou l’INSEE, se sont jointes à cette dynamique en s’engageant dans l’ouverture de leurs données. Le secteur de la protection sociale est un acteur récent. La démarche atteint des degrés de maturité divers en fonction des branches, certaines ayant cette finalité inscrite dans leur convention d’objectifs et de gestion (COG), d’autres non. La CNAMTS a été l’une des premières institutions de la protection sociale à s’engager en mettant à disposition des jeux de données sur data.gouv.fr issus du SNIIRAM. L’article 47 du projet de loi Santé fixe un objectif d’information en matière de politiques de santé (offre de soins, qualité de la prise en charge, veille sanitaire) et également d’évaluation, de contrôle des dépenses. Les deux nouveaux acteurs, INS et DREES, ajoutent les éléments de cadrage nécessaires au portage de la démarche. Ils pourraient préfigurer, en particulier la DREES, la structure à mettre en place pour une dynamique open data sur l’ensemble des branches. La CNAF s'est également lancée dans la démarche en ouvrant, en juillet 2015, son propre portail data.caf.fr. Elle a organisé à l'automne 2015 un hackathon*. Des points très concrets sont soulevés à l’occasion de ces initiatives : opportunité, valeur ajoutée, coût et bénéfices. Ils se traitent individuellement, sans orientation de branche, occultant parfois les choix stratégiques à opérer : La nécessaire anonymisation des données, au nom du respect de la vie privée, mobilise la vigilance des OPS ; La gratuité ou non de la mise à disposition et du coût induit par l'open data pour les organismes dans un contexte de moyens contraints ; Les aspects techniques de format, le choix de la licence. Le tableau ci-dessous synthétise les démarches d’ouverture des données des OPS interviewés dans le cadre de la recherche-action. 21 Moyens humains dédiés à l’open data Organisation d’évènements associant des partenaires extérieurs (type hackathons) Extensions prévues au projet initial Non - Année de démarrage de la démarche Plates-formes de diffusion ACOSS - www.acoss.fr/home/obs ervatoireeconomique/donneesstatistiques.html Non CNAV 2014 www.statistiquesrecherches.cnav.fr Non Mettre à disposition des. données agrégées sur un site dédié Non - CARSAT Pays de la Loire 2015 opendata.carsat-pl.fr/ Oui Répondre aux demandes de données des partenaires extérieurs. Non Animer une communauté de réutilisateurs Oui Répondre à un engagement de la COG, décloisonner l’information, répondre aux obligations de transparence, harmoniser et simplifier les échanges avec les partenaires extérieurs, valoriser le patrimoine immatériel, créer de la valeur. CNAF 2011 data.caf.fr Objectifs poursuivis Mettre à disposition des données agrégées sur un site dédié. Labelliser des services pertinents développés par des tiers Oui 22 CNAMTS Année de démarrage de la démarche Plates-formes de diffusion 2010 www.data.gouv.fr/fr/org anizations/caissenationale-de-lassurance-maladiedes-travailleurs-salaries Moyens humains dédiés à l’open data Oui www.data.gouv.fr/fr/org anizations/pole-emploi/ et Pôle Emploi - www.poleemploi.org/informations /open-data-pole-emploi@/25799/viewcategory-25799.html? Oui Objectifs poursuivis Organisation d’évènements associant des partenaires extérieurs (type hackathons) Répondre aux obligations de transparence, valoriser le patrimoine immatériel, créer de la valeur. Répondre aux obligations de transparence, répondre à un engagement de la convention tripartite Etat – UNEDIC – Pôle Emploi, améliorer l’offre de services via la plate-forme collaborative de développement Emploi Store. Extensions prévues au projet initial Construire un site dédié Oui Oui Développer des applications à partir de données de Pôle Emploi et d’opérateurs de placement privé, poursuivre le développement de l’Emploi Store Tableau 2 – Vue d’ensemble des démarches open data d’OPS 23 4. ENJEUX ET OPPORTUNITES POUR LA PROTECTION SOCIALE EN FRANCE 4.1. Des atouts certains pour les organisations 4.1.1. Une image moderne, une visibilité accrue Un premier enjeu porte sur l’image des OPS. L'exemple des collectivités locales est intéressant au titre de la dynamique créée autour de la démarche open data : visibilité, modernité économique et politique. Le conseil national du numérique considère à ce titre l'ouverture des données comme un levier de modernisation, qui favorise à la fois la circulation de l'information entre les administrations et la multiplication d'outils pour l'exploiter. L’open data permet ainsi de développer à la fois la communication interne et externe. 4.1.2. Une source d’externalités positives pour l’économie mais aussi de retours sur investissements pour le producteur de données L'open data est également au cœur de la création d’un écosystème lié à la réutilisation des données. Il permet de valoriser le patrimoine immatériel, d’encourager l’innovation sociale, de créer des réseaux d’acteurs économiques et sociaux. L’organisation de hackathons reflète la volonté de certaines administrations d’entrer dans cette démarche de valorisation des données. Le hackathon de la CNAF qui s’est tenu les 2 et 3 octobre 2015 a permis aux participants de travailler sur la réutilisation de données plus fines, et donc plus proches des données brutes, que celles habituellement mises en ligne. Cette opération a mobilisé une centaine de participants répartis en 17 équipes durant 48h, et a débouché sur plusieurs projets innovants. Le 1er prix a été attribué à un projet d’application mobile permettant aux allocataires d’être informés sur les temps d’attente aux accueils de leur Caf de rattachement, et de les inviter à des rendez-vous collectifs sur une thématique précise selon leurs besoins. L’ouverture des données n’est donc pas sans effet positif sur les organismes sociaux eux-mêmes. Ce retour sur investissement a incité certaines branches de la Sécurité sociale à en faire une démarche obligatoire : ainsi, la COG de la CNAF a intégré l'open data. En effet, la démarche avait déjà été initiée par des organismes locaux, en particulier la Caf des Hauts-de-Seine qui s’était dotée d’un site portail dédié. L’objectif de la CNAF était double : harmoniser les données mises à disposition par les différents organismes suite à des saisines de la CADA par des allocataires à ce sujet ; réduire le nombre de conventions passées avec les partenaires pour l’obtention d’informations spécifiques. A titre d’exemple, la Caf du Rhône est passée de 140 conventions à quelques-unes grâce à la mise en ligne de ses données. Par ailleurs, un écosystème peut également se mettre en place entre les administrations elles-mêmes, et favoriser leur coordination. Le rapport de l’école des Ponts ParisTech souligne à ce sujet que l’État est son propre client en matière de besoins en données publiques. 4.1.3. Un gain de légitimité Un dernier point régulièrement mis en avant porte sur les impératifs démocratiques et la nécessaire transparence des structures du service public. 24 Le rapport Bouchoux présente ainsi l'open data comme un moyen de lutte contre la méfiance croissante à l'égard des institutions publiques, en renforçant le contrôle par la société civile (par le moyen de data-visualisations, de l’élaboration de classements, etc…). 4.2. Les risques d’une démarche open data restent maîtrisables 4.2.1. Le risque de ré-identification Ce risque ne doit pas être sous-estimé : des exemples comme AOL ou Netflix démontrent que la compromission d’informations personnelles à partir de bases de données considérées initialement comme anonymes peuvent avoir des conséquences dommageables en termes d’image (démission de dirigeants, perte de clients). C’est bien un risque d’image qui est en jeu. La balance doit être faite entre le risque de ne pas entamer de démarche open data et celui de compromettre des informations personnelles. En particulier, les données administratives de protection sociale ont un caractère personnel. Elles ne peuvent être publiées que sous certaines conditions : l’assentiment des personnes (inenvisageable à cette échelle), une autorisation légale motivée par la prééminence de l’intérêt général (peu probable) ou une dé-identification* des données. La dernière option est techniquement possible, à condition de respecter certains critères (cf. annexe sur la qualité de la dé-identification) sous le contrôle et les conseils de la CNIL. 4.2.2. Le risque de mésusage des données ouvertes par des acteurs extérieurs Le risque que les données publiées soient mal interprétées, détournées ou altérées à des fins intentionnelles existe. La CNAF cite le risque de stigmatisation qui pourrait être fait en cas d’ouverture des données relatives à la nationalité des allocataires. Néanmoins, la diffusion des données sous licence libre dégage les producteurs de toute responsabilité quant à d’éventuelles réutilisations malveillantes ou erronées. La CADA cite l’exemple de l’entreprise Quick qui a été condamnée pour avoir détourné les données d’un rapport de l’ANSES de manière à faire croire que cet organisme recommandait la consommation de produits vendus par le restaurateur. La qualité des données est aussi un sujet d’inquiétude des producteurs de données qui craignent qu’une qualité insuffisante ne favorise une mauvaise interprétation. Pour autant, le rapport CEREMA invite les producteurs de données à diffuser des données même si elles sont de qualité moyenne, celleci devant bénéficier du crowdsourcing* : les réutilisateurs contribueront à leur amélioration progressive par leurs retours. Le rôle des métadonnées* est alors essentiel : elles doivent être précises et détaillées afin d’expliquer et alerter à propos de la qualité et éviter toute ambiguïté. Par ailleurs, pour limiter ces types de risques, la CNAF a défini trois strates de données en fonction des publics de destination : le « my data » pour les échanges en interne (NB : cette définition, propre à la CNAF, ne correspond pas la définition officielle de MyData rappelée dans le glossaire) ; le share data pour les échanges avec les partenaires ; l’open data pour le grand public. Sur le plan technique, cette démarche de réduction des risques liés à la donnée prend la forme d’une ouverture des données en deux temps : dans un 25 premier temps, les données sont publiées sur le réseau interne afin de favoriser le décloisonnement des services et d’harmoniser les jeux de données. Une fois ce travail d’harmonisation réalisé et après avoir obtenu la garantie qu’aucune information confidentielle n’a été diffusée par erreur, les jeux de données sont mis en ligne sur le site data.caf.fr, ouvert au grand public. Le choix des données est également un sujet sensible pour la CNAF qui a mis en place une organisation spécifique : les jeux de données sont définis par un comité de gestion (composé de statisticiens et de chargés d’études), transmis pour accord à un comité éditorial (correspondant CNIL, directeur des statistiques), puis validés par le COMEX. 4.2.3. Le risque de non utilisation des données ouvertes Il n’est pas exclu que les entreprises, les associations ou les citoyens ne s’emparent pas de cette nouvelle opportunité. C’est le principal risque qui a été évoqué par la mission Etalab. En effet, il serait dommageable que l’investissement consacré à l’open data se solde par une absence de réutilisation par de nouveaux acteurs extérieurs. Cependant, il faut rappeler que l’open data constitue aussi une opportunité pour l’organisme lui-même, dans la mesure où il facilite les échanges internes d’informations en favorisant le décloisonnement. Par ailleurs, il est aussi profitable pour les partenaires qui font déjà des demandes de données : la CARSAT des Pays de la Loire a initié sa démarche open data pour répondre aux besoins des collectivités territoriales. 4.2.4. Le risque d’un déséquilibre au détriment du secteur public Si l’ouverture des données de protection sociale peut être vue comme un acte de transparence de la part des organismes concernés, elle peut également être utilisée à des fins commerciales. Cette implication du secteur privé est l'un des objectifs de la démarche open data puisqu’elle doit servir de levier pour l'innovation et l'activité économique. Les entreprises privées à but lucratif pourraient utiliser l’open data pour enrichir leurs propres données afin de disposer d’informations supplémentaires et offrir de nouveaux services pour capter la relation client sur certaines prestations. La situation serait alors déséquilibrée : les services publics de protection sociale se verraient contraints d’ouvrir leurs propres données, sans réciprocité de la part des acteurs du secteur marchand. Etalab souligne qu’il y a un risque d'accaparement des services publics à forte valeur ajoutée par des entreprises privées qui offriraient des prestations payantes de meilleure qualité que celles offertes par les organismes publics. Cette situation aboutirait à un service public à deux vitesses. Cependant, Etalab précise aussi que la réponse à ce risque est de se concentrer sur l'amélioration des services des administrations, et non de se focaliser sur des services que pourraient potentiellement proposer les acteurs du secteur marchand en utilisant les données ouvertes. Les avantages de l’open data du fait du décloisonnement contrebalancent largement les craintes hypothétiques d’une dégradation relative des services publics. Par ailleurs, Pôle emploi a passé des conventions d’échanges avec les opérateurs privés de placement afin d’enrichir ses propres bases et proposer des services adaptés aux demandeurs d’emploi via l’Emploi Store. Ainsi, une application permettant d'identifier des entreprises susceptibles de recruter certains profils dans les 3 mois, avec 80 % de probabilité, a été développée à partir des données personnelles des demandeurs d'emploi, des données publiques de Pôle Emploi et des données détenues par des opérateurs de 26 placement privés. Cette application sert à orienter les candidatures spontanées des demandeurs d'emploi. Une coopération entre public et privé est donc envisageable en matière de données, ce qui dément l’absence totale de réciprocité. 4.3. Un coût de l’open data à relativiser ? 4.3.1. Les dépenses et les effectifs liés au projet et à la structure pérenne Les données sont ventilées et retraitées pour des usages internes. Il n’est pas prévu qu’elles soient réutilisées par des tiers. Cela implique un changement d'attitude de la part des producteurs de données et un retraitement afin de répondre aux attentes des réutilisateurs. En 2012, le comité interministériel de modernisation de l’action publique (CIMAP) avait identifié le secteur de la santé comme peu porté sur l'ouverture et la réutilisation des bases de données pour cette raison : les bases de données du SNIIRAM ont été constituées pour répondre aux besoins des gestionnaires, et non aux attentes des tiers. Pour autant, cet utilisation des données à des fins internes n’est pas incompatible avec leur mise en ligne : la CNAF souligne que son SI décisionnel* permet de diffuser des données de qualité, sans coût supplémentaire. Pour ce faire, la caisse nationale a mobilisé un agent en CDD, dont le rôle est notamment de rédiger les métadonnées. La suppression des redevances et le retraitement des données n'est pas sans impact financier, même si celui-ci peut être relativisé au regard des certaines expériences. Le rapport du CEREMA « L’open data en collectivités à la lumière des données de mobilité » a fait apparaître des dépenses modérées : un investissement initial de 20 000 à 85 000 € pour développer la plate-forme open data, ce coût pouvant être réduit à zéro si le choix est fait de mutualiser avec un portail existant (comme data.gouv.fr). Le nombre d’ETP nécessaires pour lancer la plate-forme s’échelonne de 1 à 3 ETP à effectifs constants ; des coûts de fonctionnement technique allant de 5 000 à 37 000 € (les dépenses les plus élevées correspondent à un cas d’externalisation de l’activité). La maintenance de la plate-forme nécessite moins d’un ETP ; l’animation externe qui comprend la promotion de la réutilisation des données (concours, appels à projet) nécessite de l’ordre d’un demi ETP pour l’organisation. Il faut également tenir compte du prix du concours pour le lauréat (plusieurs dizaines de millier d’euros). En outre, les problématiques liées à la dé-identification* des données conduit à des retraitements dont le coût n’est pas chiffré à l’heure actuelle. Cependant, ce coût ne devrait pas être très élevé dans la mesure où il existe déjà des logiciels libres de dé-identification tels que Mu-Argus, développés par les statisticiens publics des Pays-Bas, et ARX (cf. annexe 1). 4.3.2. La suppression des redevances Dans un rapport publié en juillet 2013, Mohammed Trojette identifie une évolution majeure de l'administration : si la valorisation du patrimoine immatériel via le paiement de redevances a longtemps été préconisée, la création d'Etalab en 2011 témoigne d'un changement de posture. La donnée est désormais vue comme un bien public générateur d'externalités positives, nécessitant un accès libre et gratuit. Par ailleurs, l'existence de redevances pose la question de l'égalité d'accès à la donnée publique, et peut représenter une barrière à l'entrée pour certains réutilisateurs. Par conséquent, elles ne 27 peuvent plus constituer une source de financement pour initier un projet open data. Le rapport Trojette souligne que le coût financier de la mise en place d'une démarche open data est largement contrebalancé par des gains d'efficience à moyen terme. Pour cette raison, le gouvernement danois a décidé de créer un fonds de compensation général pour les producteurs de données publiques, afin d'inciter ces derniers à initier leur démarche sans être inquiétés par le financement. 4.4. Une démarche difficilement évaluable Le principe de l'open data, qui consiste à lever les barrières pour faciliter les réutilisations, empêche toute évaluation précise. Il est possible à minima de comptabiliser les téléchargements effectués, ce qui permet au moins de savoir si les données mises en ligne ont été mobilisées, sans pour autant connaître l’usage qui en est fait. Ce sont essentiellement les échanges avec la communauté de réutilisateurs qui démontreront si la démarche porte ses fruits. A ce titre, le rapport du CEREMA évoqué supra préconise de désigner un correspondant open data au sein de chaque service afin de relayer les demandes du service et de réfléchir aux jeux de données qui pourraient être ouverts. La CNAF envisage également de créer un label CNAF. Cette initiative permettrait non seulement de mieux estimer le nombre mais aussi de mesurer la qualité des réutilisations en labellisant les plus pertinentes. En outre, elle affirmerait le rôle des organismes publics auprès des partenaires. 4.5. Le positionnement du groupe sur la question de l’open data en matière de données administratives de protection sociale Au regard des enjeux exposés et des risques qui demeurent maîtrisables, nous recommandons d’entamer une démarche d’ouverture des données au sein des OPS pour des raisons de transparence, d’innovation et de positionnement stratégique au sein d’un nouvel écosystème. 4.5.1. L’argument de la transparence Les dépenses de protection sociales représentent 30% du PIB en France. Leur importance justifie à elle seule la politique d’ouverture des données en termes de transparence. Par ailleurs, comme l’affirme Daniel Lenoir, le directeur général de la CNAF, dans l’éditorial du site internet Cafdata : « Les organismes chargés de la mission de service public de sécurité sociale ne sont pas propriétaires des données, ils en sont les dépositaires ». Il est légitime de les mettre à la disposition de tous. Au-delà des données ayant trait à la protection sociale elle-même, la question de l’ouverture des données de gestion interne et de pilotage est également posée, même si elle ne sera pas abordée dans notre rapport. Les organismes de service public ne peuvent pas passer outre le besoin de transparence de la société. Une entité qui n’ouvrirait pas suffisamment ses données serait soupçonnée de vouloir cacher des dysfonctionnements, des abus. Certes, des publications comme les rapports d’activité ont été mises en place pour répondre aux besoins d’information, mais ces types de présentation rendent toute recherche précise fastidieuse et donc dissuasive pour le citoyen. L’open data permet de réaliser un référencement de chaque jeu de données, facilitant les recherches et rendant ainsi effective l’obligation de transparence en évitant de noyer l’information utile pour un utilisateur dans un flot de données diverses. 28 Une organisation qui ne joue pas le jeu serait plus susceptible de disparaître, d’être rattachée à un autre service. Elle n’aurait aucun appui de l’extérieur : ni de la part des citoyens auprès de qui elle n’aurait pas rendu compte, ni des entreprises qui ne verrait pas en elle un partenaire. Au contraire, une organisation qui s’inscrit dans le schéma de l’open data a l’opportunité de se faire connaître auprès de ces deux types d’acteurs et de gagner autant de soutien pour défendre son projet social et donc son existence même. En outre, le paysage de la protection sociale française est caractérisé par un fort morcellement : les uns le perçoivent comme un facteur de complexité dommageable au système dans son ensemble, d’autres y voient une richesse, une prise en compte de la diversité des catégories socio-professionnelles comme c’est le cas pour les régimes de retraite spéciaux. Le principal défaut du morcellement est le cloisonnement de l’information. Nous pensons que l’open data peut induire une amélioration sensible de l’échange d’informations entre organisations et ainsi démentir l’argument du compartimentage. Par ailleurs, l’ouverture des données est un prolongement logique de la coopération entre les régimes de retraite qui se manifeste au travers du GIP Union retraite. 4.5.2. Un levier pour développer l’offre de services L’open data constitue une opportunité dans la mesure où il permet de créer une nouvelle offre de services au profit des usagers. S’ils étaient amenés à délaisser ce point, les OPS courraient le risque de perdre la relation client qui serait captée par d’autres acteurs. Le lien entre les bénéficiaires et l’organisme de service public serait rompu, ce qui remettrait en cause la légitimité même de l’OPS. Le succès commercial de la stratégie d’Uber vis-àvis des taxis démontre que la loi ne suffit pas à préserver un modèle jusque-là bien établi. Il est essentiel de tout mettre en œuvre pour s’adapter aux besoins des usagers afin de conserver leur attachement à des organismes porteurs de valeurs collectives. En outre, l’open data impose une organisation adéquate des données de protection sociale avant de procéder à leur ouverture. Elles devraient être regroupées au sein d’une même branche et entre les différents régimes, sur l’exemple du SNIIRAM dans la branche maladie, afin de fournir une base complète et ainsi maximiser les chances de réutilisation. Cette base serait ensuite dé-identifiée pour en permettre l’ouverture. Cette étape préalable constitue une opportunité pour enrichir le big data de la protection sociale et ainsi développer les services ad hoc. 4.5.3. Une contribution à la création de richesse et la promotion d’un comportement responsable Les données de protection sociale peuvent constituer un gisement de création de valeur pour le secteur marchand. Ce serait une opportunité pour le service public de la protection sociale d’être également vu comme un partenaire des entreprises privées en matière de création de richesse. Il s’inscrirait dans un nouvel écosystème. Par ailleurs, les OPS ont une carte à jouer en matière de gestion responsable des données personnelles*. Les entreprises privées peuvent être tentées d’exploiter de manière illégale de tels types de données pour améliorer leurs techniques de marketing comme l’a montrée l’enquête du magazine télévisé « Cash investigations » intitulée « Marketing : les stratégies secrètes » diffusée le 6 octobre 2015. Le développement de l’open data et de la démarche corrélative de la dé-identification démontrerait la capacité du 29 service public à concilier la création de valeur ajoutée avec le respect de la vie privée. 5. DES D’OUTILS D’AIDE A LA DECISION POUR LANCER UNE DEMARCHE OPEN DATA Deux outils d’aide à la décision ont été élaborés afin de : visualiser le positionnement stratégique de différents scénarios en matière de « macro-objectifs » et de degré d’ouverture du projet ; préciser et formaliser ce qui est attendu d’une démarche open data par rapport à des critères plus opérationnels. 5.1. Un outil de comparaison stratégique Cet outil permet de mettre en relation deux critères pour mesurer l’ambition de la démarche open data. Il est utile pour visualiser le niveau d’ouverture et les objectifs stratégiques visés par les scénarios envisagés. Il répond ainsi aux deux questions : à quel point mon projet est-il vraiment « open data » ? Quels objectifs remplit-il ? 5.1.1. Le niveau d’ouverture des données, définition même de l’open data Le graphique ne fonctionne pas par une gradation régulière mais par addition de différents critères de manière à prendre en compte tous les cas de figure possibles. Les critères retenus sont ceux de Tim O’Reilly, à savoir des données : complètes ; brutes ; à jour ; accessibles à tous et pour tous les usages ; dont le traitement peut être automatisé ; dont l'accès est non discriminant ; au format non propriétaire ; publiées sous licence libre. 5.1.2. Les objectifs conférés au projet Là encore, les critères ne sont pas positionnés entre eux, nous n’avons pas considéré qu’un objectif pouvait être supérieur à un autre. Ce qui est pris en compte est simplement le nombre d’objectifs poursuivis par le projet parmi ceux communément associés aux démarches open data (cf. partie 2.3 notamment) : le respect de l'obligation légale ; la communication - affichage d'un rôle de chef de file ; la transparence ; la création de valeur/services ; la transformation interne. Le schéma ci-dessous illustre le résultat obtenu. 30 Figure 4 – Exemple de visualisation de l’outil stratégique 5.2. Un outil à portée plus opérationnelle Le second outil a été construit en partant de la méthode d’analyse Mareva 2 (Méthode d’analyse et de remontée de la valeur). Il détaille ce qui peut être attendu d’une démarche d’ouverture des données en termes d’apports à la stratégie de l’organisme, de contrôle de gestion, de coopération interne (entre services) ou externe (avec des partenaires), de relation à l'usager, etc… Les questions sont regroupées dans six chapitres : image et qualité de service, apport qualitatif aux agents, levier de transformation, besoins réglementaires et politiques, maîtrise des risques et degré d’ouverture des données. Pour chaque question, une note de 0 à 4 est attribuée et une moyenne est calculée par chapitre. Le résultat est rendu visible graphiquement sous la forme d’un hexagone, plus ou moins étendu. Le scénario optimal est celui qui atteint la surface la plus étendue. Les cotations répondent à la logique suivante : 0 : le critère n’est pas rempli ; 2 : le critère est partiellement rempli ; 4 : le critère est rempli. La grille d’analyse de l’annexe 2 montre un exemple de cotation pour deux scénarios fictifs : un scénario a minima qui correspondrait à une simple mise en ligne de données déjà diffusées par d’autres moyens (rapports écrits…) ; un scénario maximal qui a été noté à 4 pour chaque question, excepté pour celles liées au chapitre « Maîtrise des risques ». 31 Il importera, dans le cadre de « vrais » scénarios, de prévoir une justification pour chaque cotation.Les résultats de la grille précédente donnent ainsi lieu à la représentation suivante. Figure 5 - Exemple de visualisation graphique de l’outil opérationnel (scénarios fictifs) 6. LES PRÉCONISATIONS EN MATIÈRE D’OUVERTURE DES DONNÉES DE PROTECTION SOCIALE Sur ce type de sujet, il est nécessaire d’être proactif. Le développement d'internet par le passé a montré que tout retard était difficilement rattrapable. La question ne doit plus porter sur l’intérêt d’ouvrir les données mais plutôt sur les modalités de cette ouverture. 6.1. L’open data s’intègre dans une stratégie globale de l’exploitation de la donnée Au-delà de la simple ouverture, c’est la question de l’exploitation de la donnée qui est posée. Les services auxquels sont confiées les démarches d’ouverture témoignent d’une approche différente selon les organismes qui se sont lancés. Au sein de la Sécurité sociale, le pilotage est assuré par les directions statistiques (CNAF, CNAMTS et DRS). Ce choix se justifie par une compétence qui a trait à la donnée elle-même ainsi qu’à la mission d’appui stratégique que recouvrent ces services. D’autres structures ont opté pour un choix alternatif. Pôle emploi a confié la démarche d’ouverture à la direction de l’innovation et de la RSE. Le ressort identifié est celui de l’amélioration de l’efficience et du développement de l’offre de services, plus que la stratégie sur la donnée. Par ailleurs, le Crédit agricole a décidé de créer une entité ad hoc, le GIE CA Store, pour développer une offre de services adaptée et réactive à partir de l’ouverture d’API. 32 L’inconvénient de ces solutions est qu’elles relèvent d’un parti pris : les données seraient associées à une amélioration interne, à l’offre de service ou au pilotage stratégique de l’organisation. Il est évident qu’elles sont associées en réalité à tous ces aspects à la fois, et à bien d’autres comme la lutte contre la fraude (dataming) ou au marketing social. En effet, open data, big data et MyData sont complémentaires : le big data a vocation à fournir du sens à une masse d’informations, structurées ou non, afin de détecter des signaux faibles, de faire des prévisions. En outre, il est une clé essentielle de la personnalisation des services appréciés chez les consommateurs de technologies du web 2.0 ; le MyData doit permettre à l’usager de visualiser ses propres données. C’est le résultat d’une extraction de données spécifiques, éventuellement à partir de big data ; l’open data doit permettre le partage des informations pour enrichir mutuellement les bases de données des acteurs publics et privés. Nous confirmons à court terme un pilotage par les services statistiques, du fait de leur finalité transverse, avec l’appui technique de la direction des systèmes d’informations (DSI), pour gérer la politique des données de l’organisme. A moyen terme, il conviendrait de définir, au sein de la direction nationale chargée de la stratégie, un « chief data officer » (CDO) pour avoir une politique cohérente sur toutes les formes de traitements de la donnée : big data, Mydata et open data. Son rôle serait de définir les solutions organisationnelles, techniques et logicielles à la problématique de gestion des données (sélection des données les plus intéressantes à extraire, solutions de dé-identification pour l’open data, accessibilité des usagers à leurs propres données personnelles, traitements techniques du big data). En tant que cadre dirigeant, il assurerait le dialogue avec les autres directions ainsi qu’avec les partenaires extérieurs (pour organiser les échanges de données par exemple). Son service, proche de la DSI et dédié à la donnée, aurait pour clients les autres secteurs de l’entité pour répondre aux différents besoins. En matière de big data, des data scientists seraient également nécessaires à terme pour donner du sens à la masse d’informations stockées et la mise en œuvre des techniques de datamining*. Le fait qu'Henri Verdier, chef de la mission Etalab et administrateur général des données, ait également été nommé directeur interministériel du numérique et du système d’information et de communication de l'État (décision du Conseil des ministres du 23 septembre 2015) démontre le rôle central de la donnée dans la stratégie numérique. Préconisation n° 1 : Confier le pilotage de l’open data dans un premier temps au service chargé des statistiques au sein de l’organisme national. Dans un deuxième temps, un service de gestion de la donnée dirigé par un CDO paraît le plus adapté pour définir et mettre en œuvre une politique globale traitant de tous les aspects. 6.2. Un projet à forte dimension pédagogique Les principaux freins à l’open data sont internes. Son introduction va avoir pour conséquence de décloisonner l’information qui reste un enjeu de pouvoir. Certains acteurs internes pourraient entraver la démarche par crainte de perdre de l’influence au sein de l’organisation. Cette opposition est fréquente et s’est rencontrée par exemple au CA Store où la DSI était réfractaire au fait que des tiers puissent développer des programmes pour les clients. 33 En outre, les services de l’organisme peuvent avoir le sentiment de perdre le contrôle de leurs données. Pour se rassurer, il peut être alors tentant de ne publier que les données d’excellente qualité. La démarche en serait alors fortement retardée Il convient donc de rassurer le personnel au sujet de l’open data. L’équipe projet devrait intégrer cet accompagnement. Des associations telles que LiberTIC peuvent s’avérer utiles car elles organisent des campagnes d’information auprès de salariés d’entreprises. Préconisation n° 2 : prendre en considération le travail de pédagogie auprès des salariés en travaillant avec des associations impliquées dans la promotion de l’open data. 6.3. L’open data est une démarche collaborative 6.3.1. La recherche des réutilisateurs potentiels Dans un premier temps, il est nécessaire d’identifier les entités qui seraient intéressés par la démarche. Les partenaires évidents sont ceux qui réclament déjà des données à l’organisme, comme l’illustre l’exemple de la CARSAT des Pays de la Loire qui a entamé sa démarche open data pour répondre à des demandes. Pour les autres acteurs potentiellement intéressés, comme le secteur marchand, les interlocuteurs sont plus ou moins évidents selon le domaine de protection sociale considéré. Pour la branche retraite par exemple, la structuration de la filière de la silver économie autour de l’ASIPAG fait de cette entité un point d’entrée privilégié en matière d’open data. Les associations et les collectivités territoriales pourraient quant à elles être intéressées par les données relatives aux populations précaires, les fédérations nationales d’agences immobilières par les données liées aux aides au logement, etc... Afin de n’écarter aucun candidat potentiel, il convient de promouvoir la démarche en communiquant non seulement auprès des partenaires habituels, mais aussi auprès des associations impliquées dans l’open data (LiberTIC, OKFN…) qui répercuteront l’information dans leurs propres réseaux. Par ailleurs, une campagne de promotion via les réseaux sociaux est indispensable. La littérature recommande le recours à Twitter (#opendata) ou à LinkedIn. En revanche, Facebook demeure un media peu fréquenté par la communauté open data (cf. l’open data handbook de l’OKFN). Préconisation n° 3 : identifier les partenaires à partir des demandes de données déjà faites, promouvoir la démarche auprès des associations impliquées dans l’open data ainsi que sur les réseaux sociaux. 6.3.2. Un travail à réaliser en coopération avec les autres OPS détenant des données similaires Le morcellement de l’information nuit à l’open data. Par exemple, l’usager sera plus intéressé par une application qui lui donne la géolocalisation de l’ensemble des parkings d’une ville, qu’ils soient gérés par les pouvoirs publics ou par une entreprise privée. Le référencement des seuls parkings publics aura moins d’intérêt. C’est le cas aussi de Pôle emploi qui se heurte à la problématique des opérateurs de placement privés sur le marché de l’emploi. L’ouverture des données de ces acteurs est une condition de la pleine efficacité de l’open data dans ce domaine. L’exemple du risque vieillesse du fait de la multiplicité des régimes, ainsi que des retraites complémentaires 34 obligatoires, est aussi prégnant. Il conviendrait de mener l’ouverture sur l’ensemble de ces régimes, ce qui impliquerait un partage des données. Le GIP Union retraite apparaît comme la structure la plus indiquée pour piloter un tel projet dans la mesure où ce travail de coordination entre les régimes pour rationaliser la gestion de la donnée fait partie de ses missions. Préconisation n° 4 : susciter la coopération des autres régimes/entités disposant du même type de données pour mener à bien l’open data. La démarche d’ouverture ne doit cependant pas être stoppée par l’absence de coopération. L’essentiel demeure d’avancer progressivement et d’amorcer un mouvement collectif de l’ensemble des entités concernées. 6.4. Le processus d’ouverture des données est incrémental Il convient de ne pas attendre d’avoir suffisamment de données de bonne qualité pour les publier. Les expériences vécues par l’OKNF démontrent au contraire qu’il est nécessaire d’ouvrir rapidement celles qui offrent le moins d’obstacles, même si ce ne sont pas celles qui ont le plus d’intérêt. La rapidité permettra de montrer au personnel que le projet avance, ce qui est un facteur de motivation. Préconisation n° 5 : ouvrir les données déjà publiées dans des rapports publics, ainsi que les données agrégées* régulièrement demandées à l’organisme et qui ne présentent pas de risque de ré-identification. 6.5. La question du degré d’ouverture des données La difficulté de l’open data est qu’il lui est supposé des vertus pour le moment non prouvées et qu’il est sensé atteindre des cibles très différentes. En effet, les estimations en termes de gain de PIB de l’open data sont sujettes à caution (cf. §2.3.3). Par ailleurs, la transparence vise les citoyens et l’innovation les entreprises, mais les produits attendus sont-ils similaires ? On peut en douter dans la mesure où les entreprises sont en attente de données brutes (attente résumé par Tim Berners-Lee : « raw data, now ! ») tandis que le citoyen aura des difficultés à interpréter de tels jeux de données. Pour ces derniers, une réflexion sur la datavisualisation* et les API* est indispensable. Il est donc nécessaire de prévoir deux types de produits différents, sachant que les API réduisent l’ouverture des données et nécessitent plus de temps de développement. Préconisation n° 6 : amorcer une réflexion avec les partenaires, notamment les associations promouvant la transparence, sur les données susceptibles d’intéresser le citoyen afin d’en prévoir la datavisualisation via des API. Par ailleurs, la logique d’ouverture devrait être prolongée aux API, sur le modèle de ce que propose le CA Store (qui ne fait pas stricto sensu de l’open data mais de l’open API). Cette initiative permet le développement réactif d’applications par des tiers, contribuant à une amélioration du service à l’usager. L’avantage des API est aussi de pouvoir permettre une application MyData : l’usager pourrait non seulement avoir accès aux données déidentifiées des autres personnes, mais pourrait aussi obtenir les siennes. Préconisation n° 7 : ouvrir les API afin de développer l’offre de services de manière réactive. 6.6. L’organisation d’un concours Une négociation devrait être menée afin de discuter du niveau de retraitement des données avant leur ouverture. En effet, la priorité de l’organisme 35 producteur est la protection des données à caractère personnel tandis que l’intérêt des entreprises est de disposer des données les plus fines possibles afin de maximiser leur potentiel de réutilisation. Un parangonnage pourrait être mené pour avoir un état des lieux des réflexions sur le niveau de seuil acceptable de la K-anonymisation et Ldiversité (voir l’annexe 1), ainsi que les techniques et outils utilisés pour réduire le risque de ré-identification. La branche maladie dispose d’un retour d’expérience important dans ce domaine technique. Il conviendrait cependant de ne pas transposer les exigences de cette branche aux autres domaines de la protection sociale. En effet, il pourrait être excessif de requérir un niveau de protection équivalent à celui des données de santé. Les solutions existantes sur étagère (ARX, µ-Argus – voir l’annexe 1) pourraient suffire. Préconisation n° 8 : définir avec les partenaires les types de retraitements des données brutes qui pourraient concilier au mieux la protection des données personnelles avec le potentiel de réutilisation. C’est à ce moment que l’organisation d’un hackathon pourrait être envisagée. Cet événement serait l’occasion de déterminer le potentiel de réutilisation des jeux de données identifiés lors des discussions avec les partenaires. Il permettrait aussi de mettre en évidence les éventuelles failles de sécurité en termes de ré-identification. L’autre intérêt est de voir émerger d’autres acteurs intéressés par la démarche et ainsi construire un écosystème plus étoffé entre réutilisateurs et producteur de données. Les représentants d’Etalab nous ont précisé qu’ils étaient prêts à soutenir l'organisation d'un hackathon par des OPS. Préconisation n° 9 : une fois les jeux de données d’intérêt identifiés, organiser un concours type hackathon avec l’appui d’Etalab. Un tel réseau nécessite une stratégie d'animation de la part de l'organisme qui ouvre ses données, stratégie qui ne peut se limiter à la seule organisation d'un concours. Les échanges avec la communauté des réutilisateurs doivent perdurer après cet événement initial afin de faire vivre la démarche et l’améliorer par le crowdsourcing*. De même, l’organisme doit enrichir régulièrement le site open data, que ce soit par la mise à disposition de nouveaux jeux de données ou par l'actualisation des jeux déjà mis en ligne. Préconisation n° 10 : mettre en place un animateur pérenne de la communauté des réutilisateurs. 6.7. Le choix de la plate-forme de diffusion Les producteurs de données ouvertes devraient se faire référencer sur le site data.gouv.fr pour se donner de la visibilité. En effet, les OPS ne sont pas toujours bien identifiés par le citoyen, comme c’est le cas des activités de la DRS. Le site d’Etalab renverrait ensuite vers le portail de l’organisme qui aurait toute l’autonomie pour organiser ses jeux de données, ses métadonnées* et organiser les échanges avec sa communauté de réutilisateurs. Préconisation n° 11 : Référencer l’organisme producteur de données sur open.data.gouv.fr pour renvoyer vers un portail propre afin de donner de la visibilité aux données ouvertes tout en conservant une autonomie dans la présentation et l’animation du réseau de réutilisateurs. 36 6.8. Une licence ouverte pour des jeux de données ouverts Les entités qui se sont lancées dans une démarche open data ont principalement retenu deux types de licence pour couvrir leurs jeux de données mis à disposition du public : la licence OdbL (open database license) ou la licence Etalab, également dénommée « licence ouverte » (cf. annexe 6). Ces deux licences favorisent la réutilisation des données mises à disposition en garantissant : aux réutilisateurs que les données concernées sont libres de droits ; aux producteurs qu’ils ne sont pas responsables de l’usage fait de leurs données par les réutilisateurs. La principale différence est que la licence OdbL impose au réutilisateur de diffuser le fruit de son travail basé sur les données ouvertes dans des conditions identiques à celles dont il a bénéficié pour l’acquisition de ces mêmes données (« sharealike »). Cette licence interdit donc toute exploitation commerciale payante d’applications développées à partir de données ouvertes gratuites. La ville de Paris a choisi ce type de licence afin de promouvoir un modèle de l’économie du partage. La mission Etalab a conçu une licence ad hoc, la licence ouverte, pour lever la condition du « sharealike » qui peut devenir dissuasive pour le secteur marchand. La licence ouverte a donc une portée économique plus libérale que la licence OdbL. Quel que soit le choix de l’organisme, il importe qu’il se porte sur l’une de ces deux licences afin d’éviter la multiplication des normes et d’engendrer de la complexité dans les conditions de réutilisation. Préconisation n° 12 : Choisir la licence OdbL ou la licence ouverte d’Etalab afin d’assurer une homogénéité entre les jeux de données ouverts des différents producteurs et éviter ainsi une complexité nuisible à la réutilisation de jeux de données combinés. 6.9. L'open data pourrait être intégré à la logique de l’évolution des SI de la protection sociale L’organisation cible des SI de la sphère de la protection sociale, telle que pensée par la direction de la sécurité sociale, se prête à une démarche d’ouverture. En effet, le schéma stratégique des SI préconise l’unicité des référentiels* : le répertoire des cotisants déclarants (RCD) a vocation à unifier le référentiel des entreprises et des individus (REI) géré par l’ACOSS et le référentiel national des entreprises et exploitants (RNE) de la MSA ; le référentiel de gestion des carrières unique (RGCU) va se substituer au système national de gestion des carrières (SNGC) et ainsi regrouper les données de l’ensemble des régimes de retraite ; le répertoire national commun de protection sociale (RNCPS) permet quant à lui de regrouper dans un même référentiel l’ensemble des bénéficiaires de la Sécurité sociale et de Pôle emploi, la nature des prestations qui leur sont versées ainsi que leur adresse. Outre les référentiels, l’entretien avec l’ACOSS a mis en évidence l’intérêt que pouvaient posséder les déclarations sociales pour des entreprises. Une société de transport a ainsi demandé à une URSSAF des informations contenues dans ces documents afin de déterminer les principaux lieux de 37 travail des salariés et adapter en conséquence le tracé d’une ligne de tramway. La future déclaration sociale nominative (DSN) rassemblera à terme toutes les données qui faisaient jusqu’alors l’objet de déclarations séparées, renforçant l’intérêt de ce type de document pour l’open data. Le GIP MDS s’impose comme un acteur clé d’une éventuelle ouverture dans ce domaine. Toutes ces bases de données rempliront le critère d’exhaustivité qui est essentiel en matière d’open data. Il reste à les dé-identifier pour pouvoir les ouvrir. Préconisation n° 13 : inclure un volet open data dans les documents stratégiques relatifs aux SI (SSSI, SDSI) pour prévoir une ouverture des données dans les différents projets transversaux (RGCU, DSN, RNCPS…). 7. CONCLUSION Les différentes définitions de l’open data interrogent sur la notion même d’ouverture. Elles font apparaître qu’il n’y a pas, d’un côté, des données ouvertes, et, de l’autre, des données fermées, propriétaires. La frontière entre les deux extrêmes est un continuum et non une séparation nette. L’enjeu d’une démarche open data consiste à respecter un maximum de critères pour tendre vers une donnée « complètement ouverte » afin d’en assurer l’intérêt en terme de réutilisation - et l’interopérabilité*. Mais cet objectif n’est pas atteignable en ce qui concerne les données administratives de protection sociale. En effet, des données brutes* ne pourront pas être publiées en l’état pour des raisons légales de protection de la vie privée. Leur ouverture nécessite au préalable un retraitement pour les dé-identifier*. Les jeux de données doivent rester suffisamment détaillés : l’enjeu est de concilier une dé-identification robuste avec une préservation de la richesse des données. Il s’agit donc d’acquérir un savoir-faire ainsi qu’un réseau de partenaires pour arriver à cette finalité, sachant que le sujet pourrait devenir une priorité politique à court terme au regard du travail législatif actuel. Par ailleurs, un travail préalable de réorganisation des données afin de constituer des bases fiables et exhaustives est indispensable. Cette tâche est déjà en cours à travers la stratégie des SI de la Sécurité sociale à laquelle il reste à intégrer l’open data pour achever la démarche de décloisonnement de l’information. Par ailleurs, les données ne sont plus les simples matériaux de base cantonnés à l’accomplissement de la mission d’une administration sociale (payer des prestations, accompagner des populations…). Elles sont transverses car elles concernent aussi bien le cœur de métier que le marketing, le développement de l’offre de services, la lutte contre la fraude ou le pilotage stratégique d’une politique publique. C’est pour cette raison que l’open data n’a pas qu’une finalité de transparence mais contribue aussi à l’amélioration de la performance de l’action publique et à l’innovation dans l’économie. L’ouverture des données doit ainsi permettre de mettre en réseau des informations variées qui enrichiront la connaissance des administrations et contribueront ainsi à améliorer globalement le service rendu. Cette ouverture peut s’opérer mutuellement avec le secteur marchand en organisant des partenariats. La transversalité des données se traduit également par des axes de traitement différents. La question ne se borne pas à une question d’ouverture. Elle s’étend à l’enjeu des données de masse (big data*) et de l’exploitation par les usagers de leurs propres données (projet « MesDonnées »*). Cette vision 38 stratégique globale de la donnée nécessite à terme de nouveaux métiers au sein des OPS, comme celui de CDO et de datascientist pour répondre aux nouveaux enjeux. A une époque où l’individualisation des services est une tendance de fond, ne pas prendre la mesure de la gestion de la donnée dans son ensemble pourrait faire porter un risque de déclassement de l’action publique. 39 ANNEXE 1 - LA QUALITÉ DE LA DÉ-IDENTIFICATION Les données administratives de protection sociale présentent un caractère personnel*. Par conséquent, la question de leur anonymisation* (ou plus exactement de leur dé-identification*) se pose avant d’envisager toute ouverture. La présente annexe a pour objectif de définir les différents termes attachés à la problématique de la ré-identification et de présenter les critères à respecter pour assurer une parade adéquate. 1. Définitions essentielles 1.1. La nature des données Une donnée identifiante révèle directement l’identité d’une personne (couple nom/prénom, NIR...). Une donnée quasi-identifiante au sein d’une base de données peut conduire à l’identification d’un individu par recoupement d’informations obtenues à partir d’une autre source (inférence). Une étude menée en 2000 aux ÉtatsUnis par la professeure Latanya Sweeney a ainsi révélé que 87% de la population pouvait être identifiée à partir de la connaissance du sexe, de la date de naissance et du code ZIP. Ces trois types de données a priori anodins ont été utilisés pour relier le registre des électeurs du Massachusetts, qui comporte le nom, le sexe, la date de naissance et le code ZIP des électeurs, avec une base de données qui contenait le sexe, la date de naissance, le code ZIP et les diagnostics médicaux des employés de cet Etat. Il a été ainsi possible de déterminer l’état de santé du gouverneur du Massachusetts. Les données sensibles sont celles qui ne doivent pas être associées à un individu identifié, à savoir le diagnostic médical dans l’exemple présenté cidessus. Les données identifiantes et quasi-identifiantes ne sont pas sensibles en elles-mêmes. 1.2. La conciliation nécessaire entre la dé-identification et la réutilisation Un attaquant est la personne qui cherche à ré-identifier un individu pour rétablir le lien entre la donnée sensible et ce même individu. Il recoupera pour cela l’ensemble des informations dont il dispose (technique du record-linkage, ou liaison entre bases de données) afin de faire des inférences et remonter ainsi à l’identité de l’individu. L’anonymisation consiste à effacer tout lien entre les champs identifiants/quasi-identifiants et la donnée sensible pour entraver l’action de l’attaquant. Les critères d’anonymisation sont tels qu’on ne peut parler que de dé-identification dans de nombreux cas. Seuls les données agrégées peuvent être qualifiées d’anonymes, or leur ouverture présente souvent peu d’intérêt car elles ont été agrégées pour une finalité particulière. L’objectif de l’open data est justement de ne pas présumer de leur usage afin de maximiser les réutilisations potentielles, ce qui nécessite des données ouvertes les plus fines possibles à défaut des données brutes* elles-mêmes. Ces données se présentent sous la forme de multiplets (ou enregistrements), chacun correspondant à un individu. Les multiplets sont composés de plusieurs champs. Chaque champs est une donnée (un attribut) sensible 40 (maladie, ressources financières…) ou non sensible (nom, prénom, date de naissance, nationalité…). Concrètement, un multiplet correspond à une ligne de tableaux de données, chacune de ces lignes étant associée à un individu. Exemple : dans le tableau 1 présenté au paragraphe 2.1 ci-dessous, l’ensemble {1 ; 13053 ; 28 ; Russie ; Maladie cardio-vasculaire} est le multiplet qui caractérise l’individu n°1. L’open data en matière de données administratives de protection sociale concerne la diffusion de ces multiplets. Cela pose la question des retraitements nécessaires pour les anonymiser tout en conservant un niveau de détail suffisamment fin afin d’en garantir la réutilisation. 2. Les critères de dé-identification 2.1. Un exemple de jeu de donnée sans critère de dé-identification Le tableau suivant (tableau 1) présente les données médicales d’un hôpital fictif de New-York concernant douze patients. Les données identifiantes ont été remplacées par un numéro d’anonymat, le pseudonyme. Dans cet exemple, les attributs sont divisés en deux groupes : les attributs sensibles (représentés par les conditions médicales) et les attributs non sensibles (code postal, âge et nationalité). Données non sensibles Donnée sensible Pseudonyme CP Age Nationalité Condition 1 13053 28 Russie Maladie cardio-vasculaire 2 13068 29 Etats-Unis Maladie cardio-vasculaire 3 13068 21 Japon Infection virale 4 13053 23 Etats-Unis Infection virale 5 14853 50 Inde Cancer 6 14853 55 Russie Maladie cardio-vasculaire 7 14850 47 France Infection virale 8 14850 49 Etats-Unis Infection virale 9 13053 31 Etats-Unis Cancer 10 13053 37 Inde Cancer 11 13068 36 Japon Cancer 12 13068 35 Etats-Unis Cancer Tableau 1 – Jeu de données pseudonymisées 41 La pseudonymisation ne garantit pas un niveau de protection suffisamment élevé si les données ne sont pas plus retravaillées. Les champs quasiidentifiants des multiplets peuvent permettre de retrouver l’individu concerné comme l’illustre les diagnostics médicaux des employés de l’Etat du Massachusetts évoqué supra. Il est donc nécessaire que le jeu de données respecte un certain nombre de critères pour résister aux attaques de ré-identifications. 2.2. La K-anonymisation Pour contourner les attaques de record linkage, Sweeney et Samarati ont proposé le critère de la « K-anonymisation » (« K-anonimity ») qui consiste, au sein de chaque multiplet, à réduire le niveau de détail des données quasiidentifiantes. Ainsi, une table est « K-anonyme » si chaque enregistrement de la table est indiscernable d’au moins K-1 autres enregistrements. Dans le tableau 1, les attributs « code postal », « âge » et « nationalité » sont considérés comme des quasi-identifiants pour cette table. La nationalité sera masquée, les deux autres champs seront brouillés pour être moins précis (les codes postaux sont élargis à des régions, les âges précis sont remplacés par des tranches d’âges) et atteindre le critère de K-anonymisation avec K = 4. Dans le tableau 2 ci-dessous, chaque patient ayant la même clé d’identification se retrouve dans le même bloc, ensemble mis en évidence par des traits plus épais. Chaque bloc comprend 4 individus. Données non sensibles Pseudonyme CP Age Nationalité Données sensibles Condition 1 130** <30 * Maladie cardio-vasculaire 2 130** <30 * Maladie cardio-vasculaire 3 130** <30 * Infection virale 4 130** <30 * Infection virale 5 1485* ≥ 40 * Cancer 6 1485* ≥ 40 * Maladie cardio-vasculaire 7 1485* ≥ 40 * Infection virale 8 1485* ≥ 40 * Infection virale 9 130** 3* * Cancer 10 130** 3* * Cancer 11 130** 3* * Cancer 12 130** 3* * Cancer Tableau 2 – Jeu de données « 4-anonyme » 42 Ainsi, si un attaquant sait que Michel a été hospitalisé dans cet établissement et qu’il a plus de 40 ans, il déduira que ce patient est l’individu n° 5, 6, 7 ou 8 mais il ne pourra pas déterminer l’affection. Il pourrait aussi bien s’agir d’un cancer, d’une maladie cardio-vasculaire ou d’une infection virale. Michel est ainsi protégé de la divulgation de la donnée sensible qui le concerne. Néanmoins, le K-anonymisation ne peut à lui seul empêcher la divulgation d’informations sensibles. Si l’attaquant sait que Larry a été hospitalisé et qu’il a entre 30 et 39 ans, il devinera que Larry correspond aux individus n° 9, 10, 11 ou 12. Il déduira automatiquement que ce patient est atteint d’un cancer puisque tous les individus de ce bloc ont la même affection. 2.3. La L-diversité Il est donc nécessaire d’ajouter un critère supplémentaire de diversité. Un jeu de données est L-divers si le brouillage des données quasi-identifiantes conduit à avoir au moins L valeurs différentes de la donnée sensible au sein de chaque bloc de patients. Le tableau 3 illustre ce cas de figure. Données non sensibles Pseudonyme CP Age Données sensibles Nationalité Condition 1 1305* ≤ 40 * Maladie cardio-vasculaire 4 1305* ≤ 40 * Infection virale 9 1305* ≤ 40 * Cancer 10 1305* ≤ 40 * Cancer 5 1485* > 40 * Cancer 6 1485* > 40 * Maladie cardio-vasculaire 7 1485* > 40 * Infection virale 8 1485* > 40 * Infection virale 2 1306* ≤ 40 * Maladie cardio-vasculaire 3 1306* ≤ 40 * Infection virale 11 1306* ≤ 40 * Cancer 12 1306* ≤ 40 * Cancer Tableau 3 – Jeu de données « 4-anonyme » et « 3-divers » Même si l’attaquant sait que Larry a été soigné dans cet hôpital et qu’il connaît son âge, voire son adresse, il ne pourra pas déterminer l’affection puisqu'il y aura toujours 3 données sensibles différentes pour chaque bloc. Bien sûr, il sera toujours possible à l’attaquant de déterminer l'information sensible si celui-ci parvient à enrichir ses connaissances. S'il sait, par exemple, que Larry travaille dans une profession exposée à des facteurs de risques cancérigènes 43 élevés, il pourra raisonnablement penser qu’il s’agit d’un cancer. Mais l’obtention de ces informations complémentaires lui demandera plus de moyens. 2.4. La T-proximité Pour que la dé-identification soit encore plus efficace, il faudrait en outre que la distribution des variables sensibles pour les individus ayant une même clé d’identification soit suffisamment proche de la distribution sur la totalité de la population. Il s’agit de la « T-proximité » (la distance entre les deux distributions est inférieure à T). Avec la T-proximité, le jeu de données remplit un critère supplémentaire de protection contre la ré-identification, mais il diminue sensiblement l’intérêt du jeu de données : Comment détecter que des habitants d'une localité sont plus exposés à certaines maladies que le reste de la population ? L’intérêt d’un jeu de données vient principalement de sa capacité à mettre en évidence des irrégularités dans la répartition des données sensibles afin de mettre en place des stratégies pour les corriger. 44 ANNEXE 2 – GRILLE D’ANALYSE DE DEUX SCÉNARIOS FICTIFS Scénario à minima Scénario maximal Image et qualité de service L'application déployée permet-elle un gain de temps pour les bénéficiaires du service fourni ? L'application déployée permet-elle un gain économique pour les bénéficiaires du service fourni ? Si un gain est identifié, est-il significatif pour les bénéficiaires du service fourni (de nature à faire évoluer leur comportement) ? L'information fournie par le service permet-elle d'améliorer la prise de décision des bénéficiaires (partenaires, entreprises ou associations uniquement) ? Le service est-il de nature à dynamiser un secteur d'activité ? Le scénario prévoit-il l'ouverture de nouvelles données ? L'application déployée permet-elle d'améliorer l'information du bénéficiaire (contenu, personnalisation, transparence, …) ? Le service fourni est-il plus simple et compréhensible pour le bénéficiaire ? L'application déployée permet-elle de réduire le nombre d'interlocuteurs pour le bénéficiaire ? L'application déployée apporte-t-elle de nouveaux services ou un service plus complet par rapport à la situation initiale ? L'application déployée permet-elle un échange avec les bénéficiaires (forums, téléphone…) ? Le déploiement s'effectuera-t-il sans perturbations temporaires significative du service fourni ? L'application déployée contribue-t-elle au rayonnement de l'organisme? (rôle de référent...) L'application déployée a-t-elle d'autres impacts significatifs en matière d'éthique ? Le projet permet-il de développer les partenariats extérieurs de l'organisme? Moyenne 4 2 4 4 0 4 0 4 0 0 4 4 0 4 4 4 4 4 2 4 0 4 2 0 2 4 0 4 4 4 1,6 3,7 45 Apports qualitatifs aux agents L'application déployée permet-elle de recentrer les gestionnaires de service sur leur cœur de métier ? L'application déployée permet-elle d'optimiser les ressources et/ou d'améliorer les processus (faire mieux ou aussi bien avec pareil ou moins) ? L'application déployée est-elle de nature à renforcer la responsabilisation des services ? L'application déployée permet-elle la communication et le partage (informations, bonnes pratiques…) entre les entités ou les ministères ? Moyenne Levier de transformation Ce projet permet-il de transformer une organisation ou faire évoluer ses processus ? Ce projet permet-il la mise en place d'une infrastructure ou de fonctions transverses utiles à d'autres projets ? Ce projet permet-il la mise en place d'un référentiel partagé (ou de données partagées) avec d'autres projets ? Moyenne Besoins réglementaire et politique Ce projet correspond-il à l'application d'une obligation réglementaire ? La réglementation française ou européenne fait-elle porter un risque particulier au projet ou à l'application déployée ? Le projet contribue-t-il au cadre stratégique de l'organisme ? Ce projet répond-il à une obligation de nature politique ? L'immobilisme fait-il courir un risque politique fort ? Moyenne 2 4 4 4 0 4 4 4 2,5 4 2 4 2 4 4 4 2,7 4 0 0 4 4 4 2 0 4 2 0 2 2 46 Maitrise des risques Les fichiers mis à disposition ne contiennent pas de données à caractère personnel Le risque de ré-identification par croisement des fichiers est maitrisé. L'exploitation par un tiers des fichiers mis à disposition ne risque pas d'affecter la réputation de l'organisme. Y a-t-il un risque d'ouvrir des données qui ne devraient pas l'être ? Ce projet fait-il preuve de simplicité fonctionnelle ? Le projet risque-t-il d'être mal accepté en interne ? (changements organisationnels, transformation des métiers...) Moyenne Degré d'ouverture des données Les données sont-elles complètes ? Les données sont-elles brutes ? Les données sont-elles à jour ? Les données sont-elles accessibles à tous pour tous usages ? Le traitement peut-il être automatisé ? Il n'existe pas de discriminations pour accéder aux données. S'agit-il d'un format non propriétaire ? S'agit-il d'une licence libre ? Moyenne 4 4 0 2 4 2 2 4 4 0 2 2 3,3 1,7 0 0 4 2 4 4 2 2 4 4 4 4 4 4 4 4 2,3 4 47 ANNEXE 3 – SYNTHÈSE DES PRÉCONISATIONS Préconisation n° 1 : Confier le pilotage de l’open data dans un premier temps au service chargé de la statistique au sein de l’organisme national. Dans un deuxième temps, un service de gestion de la donnée dirigé par un « chief data officer » paraît le plus adapté pour définir et mettre en œuvre une politique globale traitant de tous les aspects de la donnée. Préconisation n° 2 : prendre en considération le travail de pédagogie auprès des salariés en associant des associations impliquées dans la promotion de l’open data. Préconisation n° 3 : identifier les partenaires à partir des demandes de données déjà faites, promouvoir la démarche auprès des associations impliquées dans l’open data ainsi que sur les réseaux sociaux. Préconisation n° 4 : susciter la coopération des autres régimes/entités disposant du même type de données pour mener à bien l’open data. Préconisation n° 5 : ouvrir les données déjà publiées dans des rapports publics, ainsi que les données agrégées régulièrement demandées à l’organisme et qui ne présentent pas de risque de ré-identification. Préconisation n° 6 : amorcer une réflexion avec les partenaires, notamment les associations promouvant la transparence, sur les données susceptibles d’intéresser le citoyen afin d’en prévoir la datavisualisation via des API. Préconisation n° 7 : ouvrir les API afin de développer l’offre de services de manière réactive. Préconisation n° 8 : définir avec les partenaires les types de retraitements des données brutes qui pourraient concilier au mieux la protection des données personnelles avec le potentiel de réutilisation. Préconisation n° 9 : une fois les jeux de données d’intérêt identifiés, organiser un concours type hackathon avec l’appui d’Etalab. Préconisation n° 10 : mettre en place un animateur pérenne de la communauté des réutilisateurs. Préconisation n° 11 : Référencer l’organisme producteur de données sur open.data.gouv.fr pour renvoyer vers un portail propre afin de donner de la visibilité aux données ouvertes tout en conservant une autonomie dans leur présentation et l’animation du réseau de réutilisateurs. Préconisation n° 12 : Choisir la licence OdbL ou la licence ouverte d’Etalab afin d’assurer une homogénéité entre les jeux de données ouverts des différents producteurs et éviter ainsi une complexité nuisible à la réutilisation de jeux de données combinés. Préconisation n° 13 : inclure un volet open data dans les documents stratégiques relatifs aux SI (SSSI, SDSI) pour prévoir une ouverture des données dans les différents projets transversaux (RGCU, DSN, RNCPS…). 48 ANNEXE 4 – GLOSSAIRE Anonymisation : procédé qui permet de respecter les trois critères garantissant le caractère anonyme d’un jeu de données : L’individualisation : il ne doit pas être possible d’individualiser une personne ; La corrélation : il ne doit pas être possible de relier plusieurs données au sein d’un même jeu ou entre plusieurs jeux de données ; L’inférence : il ne doit pas être possible de déduire des informations. Dans les faits, dès que des données ne sont pas agrégées, elles ne peuvent être anonymisées. Elles peuvent en revanche être dé-identifiées. API : Interface de programmation permettant d’accéder à une application ou à un programme. Des jeux de données peuvent être rendus accessibles soit par téléchargement (pour les jeux de données raisonnablement stables dans le temps) soit par API (pour les jeux de données très volumineux ou très volatiles). Big data : ensembles de données qui deviennent tellement volumineux qu'ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données ou de gestion de l'information. Crowdsourcing : capacité à s’appuyer sur les utilisateurs des données pour les produire, coproduire ou améliorer (exemple : pouvoir signaler une erreur voir même la corriger). L’exemple typique de cette démarche est le projet openstreetmap. Datamining : Ensemble de techniques ayant pour objet l’extraction d’un savoir à partir de grandes quantités de données, par des méthodes automatiques ou semi-automatiques. Datavisualisation : représentation des données de façon visuelle. Cela peut se concrétiser par des graphiques, des camemberts, des diagrammes, des cartographies, des chronologies, des infographies ou même des créations graphiques inédites ou des photos. La présentation sous une forme illustrée rend les données plus lisibles et compréhensibles. Dé-identification : procédé au terme duquel l’identité de personnes (nom, NIR…) dans un jeu de données est masquée. Des données dé-identifiées ne sont pas nécessairement anonymes (voir « anonymisation ») car le processus ne respectera pas l’un des 3 critères. Données : description élémentaire d’une réalité, résultat d’une expérience ou d’une observation. Elles peuvent résulter d’un premier travail de traitement opéré sur des données brutes qui permet de leur donner du sens. Elles recouvrent aussi bien du texte (documents de travail, notes internes, comptes rendus, rapports, instructions…) que des chiffres (bases de données, tableaux statistiques…) ou du code (informatique…). Le terme « donnée » est assimilé à celui « d’information ». Données administratives de protection sociale : données à caractère personnel d’usagers détenues par les organismes dans le cadre de l’exécution de leur mission de service public. 49 Données agrégées : données issues de traitements appliquées à des données plus fines pour répondre à un axe d’analyse particulier. Il peut s’agir par exemple du montant total des pensions de base versées dans un département calculé à partir des bases de données individualisées d’une CARSAT. Des données agrégées sont anonymes. Données brutes : bases de données élémentaires détenues par les organismes dans le cadre de leurs missions. Ces données n’ont été ni agrégées ni soumises à aucun autre traitement d’analyse ou de synthèse (regroupement par zones géographiques ou tranches d’âges, calculs de moyennes, dé-identification ou anonymisation…). Elles peuvent avoir fait l’objet de corrections en cas d’erreur (âge manifestement trop élevé, mauvaise orthographe d’une adresse, montant erroné de prestations versées...). Données (ou informations) publiques : Informations contenues dans les documents produits ou reçus par un acteur public dans l’exercice de ses missions de service public. Il peut s’agir de données brutes ou enrichies contenues dans les documents administratifs : dossiers, rapports, études, statistiques, circulaires, instructions, notes et réponses ministérielles (loi CADA – article 10). Le projet de loi Lemaire cite également les bases de données comme un type d’information publique. La première rédaction de ce texte prévoyait aussi d’intégrer le code source des logiciels utilisés par les administrations. Ce point a été abandonné. NB : La réutilisation des données prévue par la loi CADA ne concerne pas les services publics à caractère industriel et commercial qui sont exclues (cf. article 10). Le projet de loi Lemaire prévoit d’élargir l’obligation d’ouverture à ces organismes en supprimant cette exception. Données à caractère personnel ou données personnelles : toute information relative à une personne physique identifiée ou qui peut être identifiée, directement ou indirectement, par référence à un numéro d’identification ou à un ou plusieurs éléments qui lui sont propres. Pour déterminer si une personne est identifiable, il convient de considérer l’ensemble des moyens en vue de permettre son identification dont dispose ou auxquels peut avoir accès le responsable du traitement ou toute autre personne (loi CNIL – article 2). Données d’intérêt général : données privées dont l’intérêt pour la collectivité justifierait une obligation d’ouverture. Cette notion a été utilisée pour imposer une ouverture des données de mobilité détenues par des entreprises privées ou publiques chargées d’une mission à caractère industriel et commercial (sociétés de transport public) exclues du champ d’application de la loi CADA. Données ouvertes : partage de données publiques ou privées par leur mise en ligne dans des formats ouverts (par opposition aux formats propriétaires dont les spécifications techniques ne sont pas accessibles au public) en autorisant leur réutilisation libre (sans restrictions juridiques ou techniques) et gratuite par toute personne. Données privées : par opposition aux données publiques, il s’agit d’informations détenues par des acteurs ne relevant pas de l’obligation légale de communication de documents : les entreprises privées et les personnes publiques assurant une mission à caractère industriel et commercial sont exclues du périmètre de l’article 10 de la loi CADA. 50 Entrepôts de données : base de données utilisée pour stocker des informations provenant des logiciels métiers d’une entreprise et fournir ainsi un socle à l'aide à la décision en entreprise. Hackathon : Concours organisé sur une courte période (24 à 48h) durant lequel des jeux de données sont mis à la disposition de développeurs afin de programmer des applications et/ou d’en évaluer la robustesse en terme de réidentification. Hyperlien (ou lien hypertexte, ou lien web, ou lien) : référence dans un système hypertexte permettant de passer automatiquement d'un document consulté à un document lié. Les hyperliens sont notamment utilisés dans le World Wide Web pour permettre le passage d'une page Web à une autre à l'aide d'un clic. Information : l'information désigne à la fois le message à communiquer et les symboles utilisés pour l'écrire. Interopérabilité : capacité que possède un produit ou un système, dont les interfaces sont intégralement connues, à fonctionner avec d’autres produits ou systèmes existants ou futurs et ce sans restriction d’accès ou de mise en œuvre. Libre/ouvert (format, standard, logiciel, données) : Les termes format ouvert, format libre ou encore spécification ouverte, désignent des formats de données interopérables et dont les spécifications techniques sont publiques et sans restriction d’accès ni de mise en œuvre. Les fichiers portant l’extension « .csv » sont libres, par opposition à un format fermé ou propriétaire comme les fichiers Excel (extension « .xls »). NB : des données en format libre ne sont pas forcément gratuites (une redevance peut être demandée en contrepartie de leur fourniture). A contrario, des données en format propriétaire, non libres, peuvent être gratuites. Mydata / Midata / Mesdonnées : démarche ayant pour objectif à ce que les individus, agissant seuls ou en commun, puissent exploiter leurs propres données pour en tirer des bénéfices personnels ou mutuels. Il s’agit à l’origine du nom d’un programme britannique. Open source : ouverture et partage des codes de programmation des logiciels (différent de la gratuité des logiciels). Portabilité des données : possibilité de gérer soi-même ses données personnelles, de les porter d'un système à un autre, de les partager entre plusieurs systèmes. Il s’agit pour l’usager d’un droit à disposer librement de ses données (gestion, choix d’un fournisseur de données) qui sont restituées dans un format standard ouvert. Pseudonymisation : procédé de dé-identification avec recours à un identifiant conventionnel (numéro d’anonymat) en lieu et place de l’identité de la personne. Réutilisateur : personne physique ou moral qui collecte les données ouvertes par des organismes producteurs de données afin de produire un service. Les utilisateurs sont les organismes producteurs. SI décisionnel (informatique décisionnelle) : moyens, outils et méthodes qui permettent de collecter, consolider, modéliser et restituer les données, matérielles ou immatérielles, d'une entreprise en vue d'offrir une aide à la décision et de permettre à un décideur d’avoir une vue d’ensemble de l’activité traitée. 51 URI : moyen d’identification d’une ressource physique ou abstraite (comme une page web) d’un réseau et dont la syntaxe respecte une norme internet élaborée par le W3C. URL : sous-ensemble d’URI qui, en plus d’identifier une ressource, permet de la localiser. Il s’agit par exemple de l’adresse d’une page web : http://www.en3s.fr. Web (ou World Wide Web) : littéralement la « toile (d’araignée) mondiale », communément appelé le Web, le WWW est un système hypertexte public fonctionnant sur Internet. Le Web permet de consulter, avec un navigateur, des pages accessibles sur des sites. L’image de la toile d’araignée vient des hyperliens qui lient les pages web entre elles. Il ne s’agit que d’une des applications d’Internet distincte d’autres applications comme le courrier électronique, la messagerie instantanée, et le partage de fichiers en pair à pair. Le Web a été inventé par Tim Berners-Lee et Robert Cailliau plusieurs années après Internet. 52 ANNEXE 5 – SIGLES ACOSS : Agence centrale des organismes de sécurité sociale ANSES : Agence nationale de sécurité sanitaire de l’alimentation, de l’environnement et du travail APIE : Agence du patrimoine immatériel de l’Etat ASIPAG : Syndicat national de la Silver économie CADA : Commission d’accès aux documents administratifs CAF : Caisse d’allocations familiales CDC : Caisse des dépôts et consignations CARSAT : Caisse d’assurance retraite et de santé au travail CEREMA : Centre d'études et d'expertise sur les risques, l'environnement, la mobilité et l'aménagement CIMAP : Comité interministériel de modernisation de l’action publique CNAF : Caisse nationale des allocations familiales CNAMTS : Caisse nationale d’assurance maladie des travailleurs salariés CNAV : Caisse nationale d’assurance vieillesse CNDP : Commission nationale du débat public CNIL : Commission nationale de l’informatique et des libertés. CNRACL : Caisse nationale de retraite des agents des collectivités locales COEPIA : Conseil d’orientation de l’éditique publique et de l’information administrative CP : Code postal DREES : Direction de la recherche, des études, de l’évaluation et des statistiques DRS : Direction des retraites et de la solidarité (Caisse des dépôts et consignations) DSI : Direction du système d’informations DSN : Déclaration sociale nominative DSS : Direction de la Sécurité sociale EPCI : Etablissement public de coopération intercommunale ETP : Equivalent temps plein GIE : Groupe d’intérêt économique GIP : Groupe d’intérêt public IGN : Institut national de l’information géographique et forestière INS : Institut national des données de santé INSEE : Institut national de la statistique et des études économiques 53 IRCANTEC : Institution de retraite complémentaire des agents non titulaires de l’Etat et des collectivités publiques LFSS : Loi de financement de la Sécurité sociale MDS : Modernisation des déclarations sociales MSA : Mutualité sociale agricole NIR: Numéro d’inscription au repertoire national d’identification des personnes physique OdaF : Open data Foundation OdbL : Open database license OKFN : Open Knowledge Foundation OPS : Organismes de protection sociale OSS : Organismes de Sécurité sociale RA : Recherche-action RAVGDT : Régie des allocations viagères des gérants de débits de tabac RCD : Répertoire des cotisants déclarants REI : Référentiel des entreprises et des individus RSE : Responsabilité sociale et environnementale RGCU : Répertoire de gestion des carrières unique RGPP : Révision général des politiques publiques RNE : Référentiel national des entreprises et exploitants SDSI : Schéma directeur des systèmes d’information SGMAP : Secrétariat général de modernisation de l’action publique SI : système d’informations SNGC : Système national de gestion des carrières SNIIRAM : Système national d’information interrégimes d’assurance maladie SSSI : Schéma stratégique des systèmes d’informations UCANSS : Union des caisses nationales de Sécurité sociale URI : Uniform Resource Identifier URL : Uniform Resource Locator URSSAF : Union de recouvrement des cotisations de sécurité sociale et d’allocations familiales. W3C : World Wide Web Consortium 54 ANNEXE 6 – LISTE DES INTERVIEWS Organisme Interviewé Fonction Date et modalité ACOSS Agence Centrale des organismes de sécurité sociale M. VIARD Christian Direction de la Statistique, des études, de la prévision 01/10/2015 Entretien téléphonique ASIPAG Syndicat national de la Silver économie M. PIGNIEZ Jérôme Secrétaire général 15/09/2015 Entretien téléphonique BCSS Banque carrefour de la Sécurité sociale M. DESTERBECQ Thierry Juriste 10/12/2015 Entretien en face à face CADA Commission d’Accès aux Documents Administratif M. POLGE Nicolas Rapporteur général 24/09/2015 Entretien en face à face CARSAT Pays de Loire Caisse d’Assurance Retraite et de la Santé au Travail Mme LUDWIG Julie Statisticienne en charge du projet open data 22/05/2015 Entretien en face à face CREDIT AGRICOLE STORE GIE service d’applications bancaires M. METHIVIER Emmanuel Directeur 25/08/2015 Entretien en face à face CNAF Caisse Nationale d’allocations familiales M. TAPIE Bernard Directeur des statistiques, des études et de la recherche 09/07/2015 Entretien en face à face et 01/12/2015 entretien téléphonique 55 Organisme Interviewé Fonction Date et modalité CNAMTS Caisse Nationale de l’Assurance Maladie des Travailleurs Salariés M. LESAGE Jean Michel Directeur du Pôle Paris Val de Seine Hébergement SNIIRAM 08/07/2015 Entretien en face à face CNAMTS Caisse Nationale de l’Assurance Maladie des Travailleurs Salariés M. GISSOT Claude Directeur de la stratégie, des études et des statistiques (DSES) Maîtrise d’ouvrage SNIIRAM 03/09/2015 Entretien téléphonique CNAV Caisse Nationale d’Assurance Vieillesse Mme BREUIL Pascale Directrice de la Statistique, prospective, recherche 04/08/2015 Entretien téléphonique ETALAB M. EIDELMAN Alexis Datascientist 03/06/2015 Conseiller auprès de la mission Etalab Entretiens en face à face M. RATIER Daniel FRANCE STRATEGIE Commissariat général à la stratégie et à la prospective M. MARGUERIT David Chargé de mission au département des questions sociales 03/06/2015 Entretien en face à face POLE EMPLOI M. CHAPUIS Raynald Directeur Innovation et RSE 25/08/2015 Entretien téléphonique UCANSS M. LEGAIT Bertrand Directeur des études et des statistiques 23/07/2015 Entretien téléphonique 56 ANNEXE 7 – LA LICENCE OUVERTE D’ETALAB La présente annexe présente une copie des conditions de la licence ouverte. La reprise du logotype indiqué en en-tête de la page suivante indique que le jeu de donnée concerné est soumis à cette licence. 57 LICENCE OUVERTE OPEN LICENCE Vous pouvez réutiliser « l’Information » rendue disponible par le « Producteur » dans les libertés et les conditions prévues par la présente licence. LA REUTILISATION DE L’INFORMATION DIFFUSEE SOUS CETTE LICENCE Le « Producteur » garantit au « Réutilisateur » le droit personnel, non exclusif et gratuit, de réutilisation de « l’Information » soumise à la présente licence, dans le monde entier et pour une durée illimitée, dans les libertés et les conditions exprimées ci-dessous. VOUS ETES LIBRE DE REUTILISER « L’INFORMATION » : • • • • Reproduire, copier, publier et transmettre « l’Information » ; Diffuser et redistribuer « l’Information » ; Adapter, modifier, extraire et transformer à partir de « l’Information », notamment pour créer des « Informations dérivées » ; Exploiter « l’Information » à titre commercial, par exemple en la combinant avec d’autres « Informations », ou en l’incluant dans votre propre produit ou application. SOUS RESERVE DE : • Mentionner la paternité de « l’Information » : sa source (a minima le nom du « Producteur ») et la date de sa dernière mise à jour. Le « Réutilisateur » peut notamment s’acquitter de cette condition en indiquant un ou des liens hypertextes (URL) renvoyant vers « l’Information » et assurant une mention effective de sa paternité. Cette mention de paternité ne doit ni conférer un caractère officiel à la réutilisation de « l’Information », ni suggérer une quelconque reconnaissance ou caution par le « Producteur », ou par toute autre entité publique, du « Réutilisateur » ou de sa réutilisation. OCTOBRE 2011 58 LICENCE OUVERTE RESPONSABILITE « L’Information » est mise à disposition telle que produite ou reçue par le « Producteur », sans autre garantie expresse ou tacite qui n’est pas prévue par la présente licence. Le « Producteur » garantit qu’il met à disposition gratuitement « l’Information » dans les libertés et les conditions définies par la présente licence. Il ne peut garantir l’absence de défauts ou d’irrégularités éventuellement contenues dans « l’Information ». Il ne garantit pas la fourniture continue de « l’Information ». Il ne peut être tenu pour responsable de toute perte, préjudice ou dommage de quelque sorte causé à des tiers du fait de la réutilisation. Le « Réutilisateur » est le seul responsable de la réutilisation de « l’Information ». La réutilisation ne doit pas induire en erreur des tiers quant au contenu de « l’Information », sa source et sa date de mise à jour. DROITS DE PROPRIETE INTELLECTUELLE Le « Producteur » garantit que « l’Information » ne contient pas de droits de propriété intellectuelle appartenant à des tiers. Les éventuels « Droits de propriété intellectuelle » détenus par le « Producteur » sur des documents contenant « l’Information » ne font pas obstacle à la libre réutilisation de « l’Information ». Lorsque le « Producteur » détient des « Droits de propriété intellectuelle » sur des documents qui contiennent « l’Information », il les cède de façon non exclusive, à titre gracieux, pour le monde entier et pour toute la durée des « Droits de propriété intellectuelle », au « Réutilisateur » qui peut en faire tout usage conformément aux libertés et aux conditions définies par la présente licence. COMPATIBILITE DE LA PRESENTE LICENCE Pour faciliter la réutilisation des « Informations », cette licence a été conçue pour être compatible avec toute licence libre qui exige a minima la mention de paternité. Elle est notamment compatible avec les licences « open Government Licence » (OGL) du RoyaumeUni, « Creative Commons Attribution 2.0 » (CC-BY 2.0) de Creative Commons et « open data Commons Attribution » (ODC-BY) de l’open Knowledge Foundation. DROIT APPLICABLE La présente licence est régie par le droit français. OCTOBRE 2011 59 DEFINITIONS DROITS DE PROPRIETE INTELLECTUELLE* Il s’agit des droits identifiés comme tels par le Code de la propriété intellectuelle (droit d’auteur, droits voisins au droit d’auteur, droit sui generis des bases de données). INFORMATION* Il s’agit des données ou des informations proposées à la réutilisation dans les libertés et les conditions de cette licence. PRODUCTEUR* Il s’agit de l’entité qui produit « l’Information » et l’ouvre à la réutilisation dans les libertés et les conditions prévues par cette licence. REUTILISATEUR* Il s’agit de toute personne physique ou morale qui réutilise « l’Information » conformément aux libertés et aux conditions de cette licence. INFORMATIONS DERIVEES* Il s’agit des nouvelles données ou informations qui ont été créés soit directement à partir « d’Informations », soit à partir d’une combinaison « d’Informations » et d’autres données ou informations qui ne seraient pas soumises à cette licence. À propos de la licence ouverte Etalab est la mission chargée sous l’autorité du Premier ministre d’ouvrir le plus grand nombre de données publiques des administrations de l’Etat et de ses établissements publics. Elle a réalisé la Licence Ouverte pour faciliter la réutilisation libre et gratuite de ces informations publiques, telles que définies par l’article 10 de la loi n°78-753 du 17 juillet 1978. Dans le cadre de leurs missions de service public, les administrations produisent ou reçoivent des informations publiques qui peuvent être réutilisées par toute personne physique ou morale à d’autres fins que celles de la mission de service public. Ne sont pas des informations publiques au sens de la loi du 17 juillet 1978 les informations contenues dans des documents dont la communication ne constitue pas un droit (en application de la loi du 17 juillet 1978 ou d’autres dispositions législatives, sauf si ces informations font l’objet d’une diffusion publique), celles contenues dans des documents produits ou reçus par les administrations dans l’exercice d’une mission de service public à caractère industriel ou commercial, et celles contenues dans des documents sur lesquels des tiers détiennent des droits de propriété intellectuelle. Ne sont également pas des informations publiques susceptibles d’être réutilisées celles qui contiennent des données à caractère personnel, sauf lorsque les personnes intéressées y ont consenti, ou lorsqu’elles ont fait l’objet d’une anonymisation par l’administration, ou lorsqu’une disposition légale ou réglementaire le permet (dans ces trois cas, la réutilisation est subordonnée au respect de la loi n°78-17 du 6 janvier 1978). Cette licence est une version 1.0 de la Licence Ouverte Etalab se réserve la faculté de proposer de nouvelles versions de la Licence Ouverte. Cependant, les réutilisateurs pourront continuer à réutiliser les informations disponibles sous cette licence s’ils le souhaitent. 60 ANNEXE 8 – BIBLIOGRAPHIE ET SITOGRAPHIE Bibliographie : Aquitaine Europe Communication (AEC), Les données publiques, guide juridique et pratique n°4, décembre 2010, 27 p. BOUCHOUX Corinne, Accès aux documents administratifs et aux données publiques Rapport d’information au Sénat fait au nom de la mission commune d’information sur l’accès aux documents administratifs et aux données publiques, tome 1, 2014, 215 p. BRAS Pierre-Louis, LOTH André, Rapport sur la gouvernance et l’utilisation des données de santé, IGAS-DREES, Rapport à la ministre des Affaires sociales et de la Santé, 2013, 128 p. BRUGIERE Amandine, NEPOTE Charles, Guide pratique de l’ouverture des données publiques territoriales, Version de travail n°1, Fing, Janvier 2011, 66 p. CEREMA, L'Open data en collectivités à la lumière des données de mobilité, 2015, 86 p. Charte du G8 pour l’ouverture des données publiques, 18 juin 2013, Traduction non-officielle préparée par Etalab en collaboration avec le gouvernement du Canada, 11 p. CHIGNARD Simon, Opendata. Comprendre l’ouverture des données publiques, FYP Editions, Mars 2012, 191 p. Commission nationale de l’informatique et des libertés, Rapport de résultats : Consultation Open data et données personnelles, avril 2014, 82 p. Commission open data en santé, Rapport remis à Mme Marisol Touraine, Ministre des Affaires Sociales et de la Santé le 9 juillet 2014, 63 p. Conseil d’orientation de l’édition publique administrative (COEPIA), Quelle information et de l’information pour quel public ? 61 Information administrative, données publiques, administratives, Rapport 2012-2013, 2013, 200 p. publications Conseil national du numérique, Ambition numérique, pour une politique française et européenne de la transition numérique, Rapport remis au Premier ministre, juin 2015, 399 p. Deloitte Conseil, Département de Loire Atlantique Open Data 44 Evaluation de la démarche, 2014, 64 p. Direction de la recherche, des études, de l’évaluation et de la statistique, Données de santé : anonymat et risque de ré-identification, Dossier solidarité et santé n°64, juillet 2015, 103 p. École des Ponts ParisTech, Pour une politique ambitieuse des données publiques, 2011, 116 p. Etalab, Vade-mecum sur le partage et l'ouverture des données publiques, 11 p. GORCE Gaëtan, PILLET François, La protection des données personnelles dans l’Open data : une exigence et une opportunité, Rapport d’information de la commission des lois du Sénat, 2014, 85 p. HAMEL Marie-Pierre, MARGUERIT David, Analyse des bis data, quels usages, quels défis ? Commissariat général à la stratégie et à la prospective, Note d’analyse n°8, 2013, 12 p. KOBER Vincent, Open data ouverture, exploitation, valorisation des données publiques, Territorial éditions, Voiron, 2014, 100 p. MANYIKA J. et al., Open data: unlocking innovation and performance with liquid information, Mc Kinsey Global Institute, 2013, 103 p. MGDIS, Livre Blanc : Réussir son projet Open Data, 2014, 15 p. Open Knowledge Foundation, Open data handbook documentation, 2012, 23p. 62 TROJETTE Mohammed, Ouverture des données publiques, les exceptions au principe de gratuité sont-elles toutes légitimes ?, Rapport au Premier ministre, juillet 2013, 121 p. UBALDI B., Open Government Data: Towards Empirical Analysis of Open Government Data Initiatives, OECD Working Papers on Public Governance, No. 22, OECD, 60 p. Sitographie : http://www.bpifrance-lelab.fr/Bpifrance-Le-Lab/ Bpifrance Le Lab est un think tank dédié aux PME et aux ETI françaises http://www.data.caf.fr Site open data des allocations familiales http://data.gouv.fr Plate-forme ouverte des données publiques françaises, administrée par Etalab http://donneesouvertes.info/ Site de Simon Chignard, auteur de « L'open data, comprendre l'ouverture des données publiques » (Fyp Editions, 2012) https://libertic.wordpress.com/ Blog de l’association nantaise LiberTIC dont l’objectif est de promouvoir l’edémocratie et l’ouverture des données publiques https://www.data.gov/ Plate-forme ouverte des données publiques des Etats-Unis. https://data.gov.uk/ Plate-forme ouverte des données publiques du Royaume-Uni 63 TABLE DES MATIÈRES SOMMAIRE ..................................................................................................... 4 1. INTRODUCTION ...................................................................................... 5 1.1. Qu’est-ce que l’open data? ................................................................................5 1.2. Quelles particularités de l’open data en matière de données administratives de protection sociale ?.......................................................................................5 1.3. La Direction des retraites et de la solidarité (DRS) de la Caisse des dépôts et consignations (CDC) en tant qu’acteur de la protection sociale .......................5 1.4. La démarche open data de la DRS .....................................................................6 1.5. Le périmètre du projet .......................................................................................7 2. L’OPEN DATA, UN CONCEPT RECENT AUX FINALITES POLITIQUES ET ECONOMIQUES .......................................................................................... 7 2.1. Une démarche d'ouverture associée à une sémantique complexe ..................7 2.1.1. Les définitions de l’open data ................................................................ 7 2.1.2. Les notions associées ............................................................................. 9 2.1.3. Des notions connexes distinctes mais complémentaires .................... 11 2.2. Une histoire récente qui mobilise de nombreux acteurs ............................... 12 2.2.1. Une origine scientifique dans une optique de partage des données .. 12 2.2.2. Une promotion par les développeurs informatiques .......................... 12 2.2.3. Un sujet dont s’emparent les corps intermédiaires ............................ 13 2.2.4. Une démarche reprise par les politiques, en particulier dans le monde anglo-saxon .......................................................................................... 13 2.2.5. Un intérêt du secteur marchand ........................................................ 13 2.3. Des moteurs de l’open data caractérisés par leur variété.............................. 14 3. 2.3.1. La transparence ................................................................................... 14 2.3.2. La performance .................................................................................... 14 2.3.3. L’innovation et la croissance ............................................................... 14 ÉTAT DES LIEUX DE L’OPEN DATA EN FRANCE ............................... 15 3.1. L’open data, un enjeu politique fort qui se formalise dans un agenda institutionnel................................................................................................... 15 3.2. Les parties prenantes au débat : le poids de l’institutionnel.......................... 16 3.2.1. Les acteurs structurants....................................................................... 16 3.2.2. Les acteurs en charge du conseil et de la promotion .......................... 16 3.2.3. Les organes de contrôle ....................................................................... 17 64 3.2.4. Synthèse des acteurs impliqués dans l’open data ............................... 17 3.3. Données publiques, données personnelles, données d’intérêt général : des enjeux juridiques multiples et complexes ...................................................... 18 3.3.1. Le cadre réglementaire ........................................................................ 18 3.3.2. Un périmètre évolutif .......................................................................... 18 3.4. Un mouvement institutionnalisé qui s'amplifie, proposant une nouvelle façon de concevoir et d’évaluer l’action publique ................................................... 20 3.5. Une progression en ordre dispersé et des interrogations qui subsistent ...... 21 4. ENJEUX ET OPPORTUNITES POUR LA PROTECTION SOCIALE EN FRANCE .................................................................................................... 24 4.1. Des atouts certains pour les organisations ..................................................... 24 4.1.1. Une image moderne, une visibilité accrue .......................................... 24 4.1.2. Une source d’externalités positives pour l’économie mais aussi de retours sur investissements pour le producteur de données ............. 24 4.1.3. Un gain de légitimité ............................................................................ 24 4.2. Les risques d’une démarche open data restent maîtrisables ......................... 25 4.2.1. Le risque de ré-identification ............................................................... 25 4.2.2. Le risque de mésusage des données ouvertes par des acteurs extérieurs ............................................................................................. 25 4.2.3. Le risque de non utilisation des données ouvertes ............................. 26 4.2.4. Le risque d’un déséquilibre au détriment du secteur public ............... 26 4.3. Un coût de l’open data à relativiser ? ............................................................. 27 4.3.1. Les dépenses et les effectifs liés au projet et à la structure pérenne . 27 4.3.2. La suppression des redevances ........................................................... 27 4.4. Une démarche difficilement évaluable ........................................................... 28 4.5. Le positionnement du groupe sur la question de l’open data en matière de données administratives de protection sociale .............................................. 28 4.5.1. L’argument de la transparence ............................................................ 28 4.5.2. Un levier pour développer l’offre de services ..................................... 29 4.5.3. Une contribution à la création de richesse et la promotion d’un comportement responsable ................................................................ 29 5. DES D’OUTILS D’AIDE A LA DECISION POUR LANCER UNE DEMARCHE OPEN DATA ......................................................................... 30 5.1. Un outil de comparaison stratégique ............................................................. 30 5.1.1. Le niveau d’ouverture des données, définition même de l’open data 30 5.1.2. Les objectifs conférés au projet ........................................................... 30 5.2. Un outil à portée plus opérationnelle............................................................. 31 65 6. LES PRECONISATIONS EN MATIERE D’OUVERTURE DES DONNEES DE PROTECTION SOCIALE ..................................................................... 32 6.1. L’open data s’intègre dans une stratégie globale de l’exploitation de la donnée ............................................................................................................ 32 6.2. Un projet à forte dimension pédagogique ..................................................... 33 6.3. L’open data est une démarche collaborative ................................................. 34 6.3.1. La recherche des réutilisateurs potentiels .......................................... 34 6.3.2. Un travail à réaliser en coopération avec les autres OPS détenant des données similaires ............................................................................... 34 6.4. Le processus d’ouverture des données est incrémental ................................ 35 6.5. La question du degré d’ouverture des données ............................................. 35 6.6. L’organisation d’un concours .......................................................................... 35 6.7. Le choix de la plate-forme de diffusion .......................................................... 36 6.8. Une licence ouverte pour des jeux de données ouverts ................................ 37 6.9. L'open data pourrait être intégré à la logique de l’évolution des SI de la protection sociale ........................................................................................... 37 7. CONCLUSION........................................................................................ 38 ANNEXE 1 - LA QUALITE DE LA DE-IDENTIFICATION ............................... 40 1. 2. Définitions essentielles ................................................................................... 40 1.1. La nature des données............................................................................. 40 1.2. La conciliation nécessaire entre la dé-identification et la réutilisation ... 40 Les critères de dé-identification ..................................................................... 41 2.1. Un exemple de jeu de donnée sans critère de dé-identification ............ 41 2.2. La K-anonymisation ................................................................................. 42 2.3. La L-diversité ............................................................................................ 43 2.4. La T-proximité .......................................................................................... 44 ANNEXE 2 – GRILLE D’ANALYSE DE DEUX SCENARIOS FICTIFS ........... 45 ANNEXE 3 – SYNTHESE DES PRECONISATIONS ..................................... 48 ANNEXE 4 – GLOSSAIRE ............................................................................ 49 ANNEXE 5 – SIGLES .................................................................................... 53 ANNEXE 6 – LISTE DES INTERVIEWS ........................................................ 55 ANNEXE 7 – LA LICENCE OUVERTE D’ETALAB ........................................ 57 ANNEXE 8 – BIBLIOGRAPHIE ET SITOGRAPHIE ....................................... 61 TABLE DES MATIERES ................................................................................ 64 66 Ecole nationale supérieure de Sécurité sociale. Rapport réalisé par Valérie GAYTE, Benjamin GENY, Aurélie JAULIN, Nicolas MACQUERON et Benjamin NORMAND (chef de projet). Sous la direction d’Isabelle BRIDENNE, responsable des études de la DRS à la CDC. Titre du rapport : L’open data en matière de données administratives de protection sociale. Mots clés : open data, Etalab, données brutes, hackathon, anonymisation, innovation, transparence, performance, big data, MyData. La création de l’agence Etalab en 2011 a marqué un tournant dans l’appréhension par les administrations publiques des données qu’elles produisent ou collectent. La donnée administrative n’est ainsi plus considérée comme la propriété exclusive de son détenteur, mais comme un levier d’amélioration des pratiques et de création de valeur. Dans cette approche, les bases de données de la sphère de la protection sociale deviennent alors de véritables gisements de matières premières. L’enjeu de ce rapport est de s’interroger sur l’opportunité d’introduire une démarche open data au sein de la protection sociale, ainsi que sur ses modalités de mise en place. Le présent rapport s’appuie sur un travail de recherche documentaire préalable, qui a pour objectif d’appréhender les grands enjeux liés à l’ouverture des données sociale, et de délimiter le périmètre de l’open data. Ce travail préliminaire a ensuite servi de base de discussion lors des entretiens menés avec les principaux organismes de protection sociale, mais également avec d’autres opérateurs du service public ainsi qu’avec deux structures privées. Cette phase d’entretien a pour finalité de comparer les pratiques existantes afin d’identifier les facteurs de réussite et les points de vigilance. Ce double travail de recherche a permis de confronter les objectifs affichés de la démarche avec les contraintes et les difficultés rencontrés par les différents interlocuteurs, en particulier sur les moyens mobilisables. La création de grilles comparatives et l’application d’une méthode d’analyse de la valeur a conduit le groupe à dégager un certain nombre d’axes de travail, présentés sous forme de préconisations. L’ouverture des données suppose en effet de définir une stratégie globale d’exploitation de la donnée pour préparer la mise en place de l’open data, mais également pour développer et animer la démarche dans la durée. 67