L`open data en matière de données administratives de

publicité
FORMATION INITIALE
D’actu
54ème promotion, 2015-2016
RECHERCHE-ACTION
RAPPORT FINAL
L’OPEN
DATA EN MATIERE
DONNEES
ADMINISTRATIVES
PROTECTION SOCIALE
DE
DE
Membres du groupe de travail
Benjamin NORMAND – chef de projet
Valérie GAYTE
Benjamin GENY
Aurélie JAULIN
Nicolas MACQUERON
Directeur de recherche-action
Isabelle BRIDENNE
Responsable des études à la direction des
retraites et de la solidarité de la Caisse des
dépôts et consignations
REMERCIEMENTS
Nous remercions chaleureusement Isabelle BRIDENNE et Sébastien
CAMBIER ainsi que l’ensemble de l’équipe projet « open data » de la
Direction des retraites et de la solidarité de la Caisse des dépôts pour l’aide
qu’ils nous ont apportée dans notre projet de recherche-action.
Nous tenons également à remercier l’ensemble des personnes qui ont
accepté de répondre à nos questions et ont ainsi contribué à alimenter notre
réflexion sur l’open data et les sujets connexes.
Nous souhaitons aussi remercier ceux qui nous ont mis en relation avec
certains acteurs liés à notre projet, nous faisant ainsi gagner un temps
précieux :
Dominique LIBAULT, directeur général de l’EN3S ;
Rémi DECOUT-PAOLINI, maître des requêtes au Conseil d’État ;
Agnès CARDINEAU, responsable projet à l’EN3S ;
Olivier DELAVEAU et Renato PACCHIONI, étudiants à l’EN3S.
2
Identification
Rapport RA
Date du rapport
17 décembre 2015
Date
de
soutenance
Statut
la Avril 2016
Validé
Les propos du présent rapport n’engagent que leurs auteurs.
« Si l’on partage des données sur le Web, des
données
publiques,
des
données
scientifiques, des données citoyennes, quelles
qu’elles soient, d’autres que nous sauront en
tirer des créations merveilleuses que nous
n’aurions jamais imaginées ».
Sir Timothy John Berners Lee – inventeur du
World Wide Web.
3
SOMMAIRE
1.
INTRODUCTION ...................................................................................... 5
2.
L’OPEN DATA, UN CONCEPT RECENT AUX FINALITES POLITIQUES
ET ECONOMIQUES ................................................................................. 7
3.
ÉTAT DES LIEUX DE L’OPEN DATA EN FRANCE ............................... 15
4.
ENJEUX ET OPPORTUNITES POUR LA PROTECTION SOCIALE EN
FRANCE ................................................................................................. 24
5.
DES D’OUTILS D’AIDE A LA DECISION POUR LANCER UNE
DEMARCHE OPEN DATA...................................................................... 30
6.
LES PRECONISATIONS EN MATIERE D’OUVERTURE DES DONNEES
DE PROTECTION SOCIALE .................................................................. 32
7.
CONCLUSION........................................................................................ 38
ANNEXE 1 - LA QUALITE DE LA DE-IDENTIFICATION ............................... 40
ANNEXE 2 – GRILLE D’ANALYSE DE DEUX SCENARIOS FICTIFS ........... 45
ANNEXE 3 – SYNTHESE DES PRECONISATIONS ..................................... 48
ANNEXE 4 – GLOSSAIRE ............................................................................ 49
ANNEXE 5 – SIGLES .................................................................................... 53
ANNEXE 6 – LISTE DES INTERVIEWS ........................................................ 55
ANNEXE 7 – LA LICENCE OUVERTE D’ETALAB ........................................ 57
ANNEXE 8 – BIBLIOGRAPHIE ET SITOGRAPHIE ....................................... 61
TABLE DES MATIERES ................................................................................ 64
NB : Les termes suivis d’un astérisque (*) sont explicités dans le glossaire en
annexe 4.
4
1. INTRODUCTION
1.1. Qu’est-ce que l’open data?
L’open data consiste à partager des données publiques* ou privées* par leur
mise en ligne dans des formats ouverts (par opposition aux formats
propriétaires dont les spécifications techniques ne sont pas accessibles au
public) en autorisant leur réutilisation libre (sans restrictions juridiques ou
techniques) et gratuite par toute personne.
L’open data est lié aux nouvelles possibilités qu’offrent les technologies et
médias sociaux contemporains. Il s’inscrit dans le mouvement plus général de
l’open source* (formats ouverts), qui permet l’interopérabilité* des
programmes informatiques, et du Web 2.0, qui favorise la coproduction entre
internautes et la diffusion des informations. L’idée sous-jacente est celle du
partage et de la réutilisation des données.
Une donnée peut être mise à disposition selon différents degrés d’ouverture
comme le mettent en évidence des définitions plus précises comme celles de
Tim O’Reilly (éditeur d’ouvrages informatiques de référence internationale) et
Tim Berners-Lee (un des inventeurs du World Wide Web*) qui seront
détaillées dans la première partie de ce rapport. Il existe plusieurs manières
de mettre en œuvre un projet open data qui dépendra principalement du
degré d’ouverture que l’on souhaite offrir aux utilisateurs potentiels.
1.2. Quelles particularités de l’open data en matière de données
administratives de protection sociale ?
Les données administratives de protection sociale peuvent être définie comme
des données personnelles* détenues ou collectées par un organisme de
protection sociale dans l’exercice de ses missions de service public : données
d’identification, d’affiliation aux différents régimes, sur la nature et les
montants des prestations servies, etc… Ces données concernent aussi bien
des personnes physiques (versement d’allocations, de pensions…) que
morales (recouvrement de cotisations). Elles couvrent toutes les dimensions
du cœur de métier des organismes : la gestion des bénéficiaires et des
prestations (légales et extra-légales), la relation clients, le cas échéant la
gestion du risque. La gestion et le pilotage en sont exclus.
La sensibilité de ces données tient à deux principaux facteurs :
leur caractère personnel* ;
la nature même des informations qu’elles transmettent, directement ou
indirectement, sur un individu (ex : les remboursements de soins via la
codification des actes renseignent sur l’état de santé d’un individu).
Ces caractéristiques entraînent de facto une complexité accrue dans la mise
en œuvre d’une démarche open data en matière de données administratives.
Celle-ci devra en effet prendre en compte certains risques particuliers (comme
le risque de ré-identification) et composer avec les régulateurs : la commission
nationale de l’informatique et des libertés (CNIL), la commission d’accès aux
documents administratifs (CADA).
1.3. La Direction des retraites et de la solidarité (DRS) de la Caisse des
dépôts et consignations (CDC) en tant qu’acteur de la protection sociale
La Caisse des Dépôts a été créée, en 1816, pour sécuriser l’épargne et
rétablir la confiance dans le crédit public. Elle assure depuis lors un rôle de
5
tiers de confiance et remplit des missions qui lui sont confiées par les pouvoirs
publics.
La Direction des retraites et de la solidarité (2 000 personnes sur 3 sites –
Paris, Angers, Bordeaux) dispose de mandats de gestion délégués
notamment par :
des régimes de retraite (Caisse nationale de retraite des agents des
collectivités locales (CNRACL), Institution de retraite complémentaire
des agents non titulaires de l’État et des collectivités publiques
(IRCANTEC), Régie des allocations viagères des gérants de tabac
(RAVGDT)…) ;
des fonds de solidarité (Service de l’allocation de solidarité aux
personnes âgées (SASPA), Fonds pour l’insertion des personnes
handicapées dans la fonction publique (FIPHFP), Allocation temporaire
d’invalidité des agents des collectivités locales (ATI),…) ;
le compte individuel de formation.
Au titre de ses mandats, la DRS détient de nombreuses données
administratives de protection sociale sur une population large d’affiliés :
données de carrière des fonctionnaires territoriaux et hospitaliers, des
contractuels de l’État ;
rémunérations (assiettes de cotisation) ;
montants des pensions versées (retraite, pension invalidité) et
prestations sociales ;
informations sur des publics particuliers (élus locaux, débitants de
tabacs, bénéficiaires du « Minimum vieillesse »…).
Elle détient également des données sur les employeurs (collectivités
territoriales, établissements publics de santé…).
1.4. La démarche open data de la DRS
Le point de départ de cette recherche-action (RA) est le souhait de la direction
des retraites et de la solidarité de la CDC de s’engager dans une démarche
d’ouverture de ses données. Afin d’étudier à la fois l’opportunité et la
faisabilité de ce projet, elle a mis en place une équipe de projet interne
composée de trois statisticiens, d’un informaticien, d’un chargé de
communication, d’un gestionnaire des risques, d’un juriste et d’une
responsable financière. Le partage des tâches entre ce groupe de travail
interne à la DRS et notre groupe de RA nous a amené à nous concentrer sur
les activités suivantes :
repositionner le projet dans son contexte, c’est-à-dire préciser les
intérêts et les enjeux d’une démarche d’ouverture de données ;
analyser différentes expériences, notamment celles menées par des
acteurs du monde de la protection sociale ;
élaborer un argumentaire sur l’opportunité de l’ouverture des données
au sein de la DRS pour une prise de décision ;
proposer aux acteurs de la protection sociale susceptibles d’entamer
une démarche d’ouverture de données des outils d'aide à la décision
permettant de qualifier, positionner et comparer différents scénarios de
mise en œuvre de telles démarches ;
6
proposer aux organismes de protection sociale (OPS) et à leur tutelle
des préconisations pour mener à bien une démarche d'ouverture des
données.
1.5. Le périmètre du projet
Les données administratives de protection sociale, telles que définies plus
haut, sont au cœur de notre sujet. Les données de gestion interne, prises en
compte dans les travaux de la DRS et entrant dans l’objectif de transparence
assigné à l’open data, ont été abordées à la marge car elles ne représentent
pas les mêmes enjeux en termes de volume de données, de sensibilité, de
risques.
Une incursion dans le domaine marchand a été effectuée à la faveur d'un
entretien avec le Crédit Agricole store.
De la matrice SWOT initialement prévue, nous sommes passés à deux outils
permettant d’évaluer les apports des démarches d’open data envisagées par
des acteurs de la protection sociale sur la base des critères nous paraissant
les plus pertinents. En effet, compte tenu de la maturité du sujet au sein de la
protection sociale, l’objectif n’était pas tant de juger de l’efficacité d’une
démarche open data mais plutôt de son opportunité et de sa faisabilité.
Le scénario de mise en œuvre de la démarche au sein de la DRS, prévu dans
la note de cadrage, n'a finalement pas été élaboré. En effet, notre groupe de
travail et celui de la DRS ayant conduit leurs travaux simultanément, c'est ce
dernier qui s'est attaché à la construction de scénarios spécifiques à la CDC,
ce que leur permettait leur connaissance précise des données. Nous nous
sommes consacrés à examiner plus globalement le contexte, les prérequis,
les finalités et les conditions d’une démarche d'ouverture des données réussie
dans le domaine de la protection sociale et non dans un établissement
spécifique.
2. L’OPEN DATA, UN CONCEPT RÉCENT AUX FINALITÉS POLITIQUES ET
ÉCONOMIQUES
2.1.
Une démarche d'ouverture associée à une sémantique complexe
2.1.1. Les définitions de l’open data
L’open data correspond à la fois à un contenu (de la donnée*) et à un
processus (le fait de la mettre à la disposition de tous). Définir le concept
suppose d’intégrer ces deux aspects. Deux définitions ont retenu notre
attention.
La première, celle de Tim O’Reilly, repose sur huit principes qui forment les
contours d’un open data « pur » : des données complètes, brutes*, à jour,
accessibles à tous et pour tous les usages, dont le traitement peut être
automatisé, dont l’accès est non discriminant, le format non-propriétaire et la
licence libre*.
Les jeux de données complets (à l’échelle d’un territoire ou d’une
population cible) sont l’une des garanties face au risque de nonréutilisation des données. L’exhaustivité des données mises à
disposition conditionne leur valeur ajoutée pour les utilisateurs
potentiels. Toutes les données ont ainsi vocation à être ouvertes sauf
celles susceptibles de porter atteinte à la vie privée des individus ou à
la sécurité.
7
Le caractère brut de la donnée laisse l’utilisateur libre de fixer luimême ses critères d’agrégation en fonction de ses besoins. Les
données sont rendues disponibles sous leur forme la plus fine.
Le fait que les données soient à jour est là encore une garantie de
valeur ajoutée et de réutilisation potentielle. La mise à jour des
données publiées de façon régulière est l’un des impératifs et des défis
de l’open data.
L’accessibilité à tous et pour tous les usages est consubstantielle au
principe même de l’open data. Une fois la donnée publiée, aucune
restriction d’usage à certaines catégories d’utilisateurs n’est justifiée.
Les jeux de données fournis doivent pouvoir être traités de façon
automatisée et informatisée.
L’open data suppose une liberté d’accès maximale aux données. En
ce sens, les barrières à l’entrée telles que l’inscription ou
l’enregistrement préalable sont de nature à limiter les réutilisations.
Toutefois, un enregistrement sur la base du volontariat peut permettre
d’animer une communauté d’utilisateurs et de mieux mesurer l’utilité
(ou a contrario la faible pertinence) des données fournies.
Le format non propriétaire (par exemple les fichiers portant
l’extension « .csv » au lieu du « .xlsx » d’Excel) est à privilégier, là
encore pour des raisons d’accessibilité et d’interopérabilité*. Par
ailleurs, elles doivent être structurées, c’est-à-dire être organisées et
classées en vue de faciliter leur lecture et leur traitement, ce que ne
permettent pas, par exemple, des données sous format PDF.
Une licence libre encadre les règles de réutilisation des données
(mention de la source, modification possible des données) et garantit
la possibilité de réutiliser ces données avec le moins de restrictions
possibles.
Une autre possibilité consiste, comme le propose Tim Berners-Lee, à établir
un classement en 5 étoiles gradué selon le niveau d’exigence et la proximité à
un open data idéal.
Critères
Exemple
1 étoile
Données accessibles sur le Tableau téléchargé au format
web
PDF
2 étoiles
1 étoile + données structurées
Tableau téléchargé au format
Excel « .xls »
3 étoiles
2 étoiles + format ouvert
Tableau téléchargé au format
« .csv » et non « .xls »
4 étoiles
3 étoiles + URI* associé aux Tableau accessible sur une
données
page web avec une adresse
URL spécifique
5 étoiles
4 étoiles + liens avec d’autres Tableau accessible sur une
données pour fournir un page web et dont certaines
contexte plus précis
informations pointent vers
d’autres pages web par lien
hypertexte
Tableau 1 – Classification 5 étoiles des données ouvertes (Tim Berners-Lee)
8
Ces deux définitions mettent en évidence le fait que des données peuvent être
plus ou moins ouvertes en fonction du nombre de critères remplis. La question
qui se pose dans une telle démarche est de déterminer le degré d’ouverture
qu’une entité est prête à atteindre.
2.1.2. Les notions associées
Ces définitions supposent de s’entendre sur un certain nombre de notions
associées.
En premier lieu, il s’agit de distinguer les notions de « libre »* et « gratuit ». Un
logiciel gratuit n’est pas forcément libre dans la mesure où l’accès au code
n’est pas permis. Si nous nous intéressons aux formats de mise à disposition,
l’accès à un jeu de données peut être gratuit mais son format peut empêcher
une utilisation libre (par exemple s’il est sous un format propriétaire de type
PDF). Il existe des formes intermédiaires entre libre et gratuit. Un format de
type Excel est ainsi qualifié de standard de fait : il n’est pas ouvert (à l’inverse
du format « .csv ») mais le programme est largement répandu et facile
d’accès. Cependant, un fichier au format Excel pourrait ne pas être lu par des
systèmes d’exploitation minoritaires et spécialisés.
Il convient, en second lieu, de différencier les données brutes des données
agrégées :
nous entendons par données brutes les données détaillées qui n’ont
subi aucune altération et qui ont été mises à disposition sur l’unité la
plus fine : ce sont des données « élémentaires » ou « atomiques ».
Elles proviennent des systèmes d’informations (SI) des organismes
(individus identifiés, adresses complètes, montants exacts des
prestations versées…). Elles peuvent faire l’objet de corrections en cas
d’incohérence ;
les données agrégées sont des regroupements opérés selon un
certain nombre de critères (la zone géographique, tranches d’âge,
etc...). Elles permettent, par exemple, d’obtenir le montant total de
prestations versées à l’échelle d’une ville. Le type d’agrégation
dépend de l’objectif du réutilisateur.
Les données brutes ne peuvent pas être ouvertes directement. Un travail de
traitement est nécessaire au préalable. C’est notamment le cas pour les
données administratives de protection sociale qui sont à caractère personnel
et nécessitent de masquer certaines informations (NIR, noms, prénoms…). En
outre, il faut aussi les convertir dans un format libre ou fusionner plusieurs
jeux de données brutes pour atteindre le critère d’exhaustivité, etc…
Si l’accès à des données agrégées peut s’avérer plus facile pour des noninitiés, les jeux de données bruts laissent la liberté de l’usage à l’utilisateur
averti. Les API* (Application Programming Interface) permettent d’obtenir des
données agrégées à partir de données brutes. L’open data, dans sa définition
la plus stricte, exclut le recours aux API puisque le réutilisateur n’aura pas
accès directement aux données élémentaires. La figure 1.1 ci-dessous montre
que comment le réutilisateur accède librement à un jeu de données ouvert,
élaboré à partir des données brutes, ce qui lui permet de retraiter lui-même les
données comme il le souhaite (en les agrégeant ou en leur appliquant un
filtre).
9
1. Accès aux données
Données ouvertes
Traitements (déidentification, conversion
en format ouvert….)
Réutilisateur
Données brutes
Déversement des
données dans un
entrepôt*
2. Récupération des
données utiles
SI des organismes
Figure 1.1 – Exploitation directe de données ouvertes
En présence d’une API, le réutilisateur n’aura pas d’accès direct à l’ensemble
des données. Il pourrait s’agir d’un formulaire électronique qui demanderait le
type de données que souhaite visualiser le réutilisateur (cf. le site de l’INSEE
qui offre la possibilité d’obtenir les chiffres du chômage soit à l’échelle du pays
soit par région voire par ville). L’API récupérera directement les données
ouvertes utiles qu’elle traitera elle-même pour répondre aux besoins du
réutilisateur. La phase amont aux données ouvertes illustrée sur la figure 1.1
demeure identique et n’est pas représentée dans la figure 1.2.
NB : il pourrait aussi être envisagé une API qui accède directement à des
données brutes et qui procède à la dé-identification avant de présenter le
résultat au réutilisateur.
10
2. Accès aux données
Données
ouvertes
1. Demande de données
API
Réutilisateur
3. Récupération des données
utiles
4. Présentation des données
retraitées répondant à la
demande
Figure 1.2 – Exploitation de données ouvertes via une API
Bien qu’elles ne remplissent pas le critère d’accessibilité à l’ensemble des
données, les API ne doivent pas être négligées car elles constituent un outil
précieux pour rendre l’information intelligible à l’attention de l’usager lambda.
2.1.3. Des notions connexes distinctes mais complémentaires
Le big data* correspond à la collecte et au traitement de données de masse.
La majeure partie du big data n’est pas mise à disposition de façon libre et
gratuite mais captée et analysée par le biais de processus coûteux. Certaines
données ouvertes peuvent atteindre un volume critique qui leur donne le statut
de données de masse. C’est notamment le cas des données publiques (cf
l’open data government dans la figure 1 infra) auxquelles appartiennent les
données administratives de protection sociale. Les données accessibles par
l’open data peuvent être combinées avec celles issues du big data.
Un exemple de big data est celui du système national d’information
interrégimes d’assurance maladie (SNIIRAM) de la CNAMTS : une base de
données de 500 To représentant un investissement de plusieurs dizaines de
millions d’euros et sur laquelle travaillent 80 personnes.
Le MyData* (ou MesDonnées) désigne le champ des données personnelles.
L’open data l’exclut a priori pour des raisons de protection de la vie privée.
Cependant, des réflexions s’engagent quant à l’intérêt de permettre aux
individus un accès aux données les concernant associé à une comparaison
avec les données d’autres usagers aux profils similaires. Il s’agit de permettre
à un individu de se comparer aux comportements de ses pairs afin de
favoriser les comportements vertueux. Une telle application pourrait ainsi
influer sur les comportements dans le domaine de la consommation électrique
par exemple. En outre, certains individus sont prêts à renoncer à la protection
de leurs données personnelles et à les divulguer volontairement en échange
11
de services (c’est toute la logique d’un réseau social professionnel tel que
LinkedIn).
Figure 2 – Positionnement des différentes démarches relatives aux données
2.2.
Une histoire récente qui mobilise de nombreux acteurs
2.2.1. Une origine scientifique dans une optique de partage des données
L’expression « open data » apparaît pour la première fois en 1995 dans un
article écrit par une agence scientifique américaine prônant un échange
complet et ouvert des données scientifiques entre les différents pays. Le
Conseil national de la recherche aux États-Unis défend pour la première fois,
dans une publication du Comité sur les données géophysiques et
environnementales, l’intérêt d’une démarche d’open data et ce d’autant plus
que des problématiques transcendant les frontières nationales occupent
l’agenda international.
2.2.2. Une promotion par les développeurs informatiques
L’open data se développe par la suite à partir d’une filiation avec le
mouvement de l’open source* qui prône les mêmes notions d’ouverture, de
participation et de collaboration. Chacun peut bénéficier des innovations des
autres via une plate-forme collaborative dans la mesure où il s’engage luimême à partager avec la communauté sa production. Politiquement,
l’ouverture des données ou des codes sources est une réponse collective aux
risques de privatisation des données et de concentration du pouvoir par des
monopoles commerciaux.
En 2003 se crée l’open Knowledge Foundation (OKFN) puis, en 2006, l’open
data Foundation (OdaF) qui regroupent des associations à but non lucratif
12
organisées en communautés
d’économistes de l’information.
de
développeurs,
de
chercheurs
ou
2.2.3. Un sujet dont s’emparent les corps intermédiaires
L’open data peut servir d’outil de contrôle citoyen à partir des données mises
à disposition par les acteurs publics (gouvernement ouvert).
La transparence doit, selon ces mouvements issus de la société civile, être
mise au service d’une démocratie plus aboutie. La devise de la Sunlight
Foundation aux États-Unis (2008) affirme ainsi : « la lumière du soleil est le
meilleur des désinfectants ». En France, l’association Regards citoyens (2009)
se fait connaître du grand public par le suivi de l’activité des élus (et leur
classement) à l’Assemblée, au Sénat et au Parlement européen.
2.2.4. Une démarche reprise par les politiques, en particulier dans le monde
anglo-saxon
Le premier jour de son mandat, le président Obama signe deux
mémorandums concernant l’open data et destinés aux dirigeants des
ministères et des agences gouvernementales. Le premier, « Transparency
and open government » reprend trois principes au cœur d’une démarche de
démocratie participative :
la transparence qui doit rendre les informations ayant trait aux affaires
publiques accessibles aux citoyens grâce aux nouvelles technologies ;
la participation qui permet aux citoyens de contribuer à l’élaboration
des politiques publiques (logique de crowdsourcing*) ;
la collaboration qui promeut les échanges au sein même des
administrations publiques, et entre les sphères publiques et privées
(ONG, entreprises).
Cette initiative est reprise par le gouvernement britannique suite au scandale
des notes de frais du Parlement en 2009. Le premier ministre travailliste,
Gordon Brown, s’entoure de deux conseillers et chercheurs en informatique,
pionniers et artisans du mouvement d’ouverture (« openness »), Tim BernersLee et Nigel Shadbolt. Ils sont en charge de la mise en place du portail des
données publiques data.gov.uk. La même année, l’agence en charge des
données cartographiques (Ordnance Survey) annonce la mise en ligne et
l’accès libre et gratuit à ses cartes au 1/10 000ème.
Au niveau international, le G8 a adopté en juin 2013 une charte pour
l’ouverture des données publiques.
2.2.5. Un intérêt du secteur marchand
Les GAFA (Google, Amazon, Facebook, Apple) se sont construits sur la base
d’un certain degré d’ouverture de leurs données. Ils ont autorisé des
réutilisateurs à accéder à leurs données via des interfaces de programmation
(API), ce qui permettait de les exploiter sans toutefois pouvoir les télécharger.
Amazon et Google Maps sont les deux exemples les plus significatifs de ce
que Simon Chignard, dans son livre « open data : comprendre l’ouverture des
données publiques », appelle la demi-ouverture des données. Les données
restent la propriété de ces entreprises qui les stockent et en contrôlent
l’usage. C’est l’accès qui est ouvert sous certaines conditions par
l’intermédiaire d’API, d’où la notion de demi-ouverture.
Les acteurs du secteur marchand peuvent aussi s’impliquer dans l’open data
en participant eux-mêmes à la démarche (open data government initiative de
Microsoft ou Google Foundation) ou en finançant des associations
13
promouvant la démarche (cf. les financeurs de la Sunlight Foundation tel que
Pierre Omidyar, le fondateur d’e-Bay). Leur intérêt résulte d’une volonté
d’accéder de façon libre et gratuite à une matière première brute (par
exemple, les données cartographiques).
2.3.
Des moteurs de l’open data caractérisés par leur variété
Cet historique nous a permis d’esquisser un panorama de l’argumentaire en
faveur de l’open data. Trois justifications sont ainsi avancées en faveur de la
généralisation de l’ouverture des données publiques. Les deux premières
raisons sont plutôt d’ordre politique. La troisième correspond à une vision
économique de l’open data.
2.3.1. La transparence
Cette notion d’inspiration libérale se rapproche du concept « d’accountability »
(le fait de répondre de ses actes). L’article 15 de la déclaration des droits de
l’homme et du citoyen énonce : « La Société a le droit de demander compte à
tout Agent public de son administration ». L’open data répond à cette
obligation constitutionnelle et permet ainsi de conforter la confiance
démocratique.
La transparence renvoie en outre à l’idée que les données produites par le
financement public appartiennent in fine aux contribuables. Ceci justifie leur
mise à disposition gratuite.
2.3.2. La performance
Selon la théorie économique de l’agence, le simple fait de publier les données
d’un organisme inciterait celui-ci à être plus performant. Des études ont ainsi
montré que la diffusion publique des taux de mortalité dans les hôpitaux
permettait d’atteindre des résultats presque similaires à la mise en place de
systèmes d’incitations financières (rapport « Pour une politique ambitieuse
des données publiques », Ecole des Pont ParisTech).
L’open data apparaît dès lors comme un moyen de contrôler l’action publique
et de la rendre plus efficace et efficiente. Les visualisations graphiques de
l’utilisation des dépenses publiques illustrent ce rôle de régulation et de
performance.
En outre, grâce aux technologies du web 2.0, l’open data permet au citoyen
de collaborer, voire de coproduire les politiques publiques, ce qui rend ces
dernières plus adaptées aux besoins de la collectivité, puisqu’elle en est
l’artisan. L’avant-projet de loi pour une République numérique, dite « loi
Lemaire », a été élaboré en prenant en compte les propositions des citoyens
via une plate-forme web.
2.3.3. L’innovation et la croissance
L'accès gratuit aux données brutes* peut être vecteur d'innovation et de
création de valeur. Le raisonnement s’appuie sur le fait que les données sont
considérées comme des biens publics. Elles sont non rivales (leur
consommation par un agent n’a aucun effet sur les quantités disponibles pour
les autres individus) et non exclusives (leur accès peut être ouvert à tous). A
ce titre, les données sont potentiellement créatrices d'externalités positives.
Les canaux ou leviers de la création de valeur sont triples :
l’amélioration de l’efficience de processus existants : l’open data
permet de mieux piloter l’activité par la comparaison des pratiques (le
parangonnage ou « benchmarking ») ou d’éviter les décisions
inefficientes (corruption, clientélisme) ;
14
la création de nouveaux biens, services ou marchés : les données sont
susceptibles de générer un écosystème qui fournit des services
d’analyse des données (par exemple des simulations de montant de
pensions à partir des données de retraite) et/ou crée des applications
à partir des données ouvertes ;
des gains pour les consommateurs : l’open data concourt à la mise sur
le marché de produits de meilleure qualité et plus individualisés. Il
procure des économies de temps et d’argent. Les exemples les plus
souvent cités en faveur d’une démarche open data concernent le
secteur des transports et la thématique de la mobilité. Les applications
développées permettent par exemple de comparer les prix des
carburants, de s’orienter et de se repérer (projet alternatif à
Google map appelé « OpenStreetMap » fondé sur la coproduction de
données géographiques à partir de la communauté des réutilisateurs)
ou de fluidifier la circulation (applications indiquant les horaires de
passage des transports en commun).
Deux études ont proposé des méthodes d’évaluation de la valeur ajoutée de
l’open data.
Pour la première, c’est la valeur du marché des informations publiques qui est
mesurée (étude MEPSIR, « Measuring European Public Sector Information
Resources » de la Commission européenne en 2006). À partir d’une enquête
en ligne auprès d’organismes publics et de réutilisateurs directs des
informations, l’étude évalue à 26 milliards d’euros le marché des informations
publiques dans l’Union européenne. Cependant la méthodologie est fragile. Le
chiffre correspond à la valeur médiane des estimations des réutilisateurs. En
outre, l’étude évalue globalement l’état du marché des informations publiques
et non les bénéfices potentiels spécifiques à l’ouverture des données.
Pour la seconde, ce sont les gains d’opportunité qui sont comptabilisés (cf.
rapport « Open data: unlocking innovation and performance with liquid
information » de Mc Kinsey Global Institute). La valeur annuelle mondiale
estimée de l’open data se situe entre 3 220 et 5 290 milliards de dollars. Un tel
chiffrage reste délicat à établir car l’utilisation de l’open data se fait en
combinaison avec d’autres données qui ne sont pas forcément ouvertes (big
data privé). Une dernière limite vient de la difficulté à identifier et à recenser
toutes les réutilisations puisque le principe de l’open data est justement de ne
pas présumer de l’exploitation qui pourrait être faite des données.
3. ÉTAT DES LIEUX DE L’OPEN DATA EN FRANCE
3.1.
L’open data, un enjeu politique fort qui se formalise dans un
agenda institutionnel
De nombreuses initiatives illustrent la volonté du Gouvernement d’engager
résolument les administrations dans le développement de l’open data en
France. Le calendrier s’étoffe et se précise :
début 2012 : une charte de déontologie engage le gouvernement à
mettre à disposition gratuitement sur Internet un grand nombre de
données publiques ;
septembre 2014 : un administrateur général des données de l’État est
nommé : Henri Verdier, Directeur de la mission interministérielle
Etalab ;
15
avril 2015 : un Conseil national du numérique est institué. Son rapport
"Ambition numérique" promeut le concept de la "start-up République"
pour faire de la France une République numérique promouvant "la
liberté d'innover, l'égalité des droits, la fraternité d'un numérique
accessible à tous, l'exemplarité d'un État qui se modernise". Pour ce
faire, le Conseil propose la mise à disposition des données publiques
en inscrivant dans la loi le principe « d’un open data par défaut » ;
juin 2015 : l’Assemblée nationale ouvre son portail open data, avec
des premiers jeux de données relatifs à la réserve parlementaire et
aux questions écrites des députés ;
août 2015 : la loi pour la croissance, l’activité et l’égalité des chances
économiques (dite « loi Macron ») impose la réutilisation gratuite de
données de transports publics et des services de mobilité.
Ce calendrier renvoie à la place occupée par la France sur le marché de
l’open data :
en 2014, l’ONU a classé la France au 4ème rang mondial, 1er rang
européen ;
la plateforme data.gouv.fr (plus de 13 000 jeux de données, 1 300
réutilisations) a remporté en juin 2014 le trophée de la politique en
faveur de l’open data ;
la France a été désignée pour occuper à compter de janvier 2016 la
présidence de l’open Government Partnership.
3.2.
Les parties prenantes au débat : le poids de l’institutionnel
3.2.1. Les acteurs structurants
Le Secrétariat général pour la modernisation de l’action publique (SGMAP),
créé par décret en octobre 2012, appuie le Ministère responsable de la
réforme de l’État dans le cadre du projet de modernisation de l’État. Partage
des données, évaluation des politiques publiques, développement du
numérique à l’attention de l’usager et amélioration de la relation aux
administrés font partie des axes de travail transversaux répondant à la
démarche de la révision générale des politiques publiques (RGPP).
Le SGMAP inclut la mission Etalab chargée de la mise à disposition des
données publiques pour l’État. Instaurée par décret en février 2011, elle
accompagne les administrations dans l’ouverture de leurs données, pilote le
portail data.gouv.fr et anime la communauté des réutilisateurs.
L’Institut national des données de santé (INS), groupement d’intérêt public mis
en place par la loi Santé de 2015 regroupe les services de l’État, les
organismes de sécurité sociale, les producteurs et les réutilisateurs de
données de santé. Il est le garant de la qualité des données mises à
disposition et des conditions de leur utilisation.
Par décret d'octobre 2005, la Direction de la recherche, des études, de
l'évaluation et des statistiques (DREES) a été désignée pour assurer la
gouvernance des données de santé.
3.2.2. Les acteurs en charge du conseil et de la promotion
Le Ministère chargé des affaires sociales et de la santé assure la promotion
de la démarche via l’édition de vadémécums, feuilles de route
gouvernementales…
16
L’Agence du patrimoine immatériel de l’État (APIE) instituée en avril 2007, est
compétente en matière de droits de propriété intellectuelle au profit des
personnes publiques. Elle se prononce sur les cas de réutilisation pouvant
questionner les droits d’auteur ou de propriété intellectuelle.
Le COEPIA, placé auprès du Premier ministre, créé en 2010, exerce une
fonction d’évaluation, d’expertise et de conseil, dans les domaines suivants :
l’édition publique et les publications administratives, quel que
soit leur support ;
l’information et le renseignement administratif ;
la mise à disposition des données publiques.
La commission nationale du débat public (CNDP), autorité administrative
indépendante de 1995, a mis en exergue la place de l’open data dans la
participation éclairée des citoyens à la vie de la société.
3.2.3. Les organes de contrôle
La CNIL, instituée par la loi Informatique et Libertés de janvier 1978, veille à
ce que les développements informatiques restent conformes aux droits
fondamentaux. Elle délivre les autorisations de collecte de données et peut
également les retirer.
La CADA a été mise en place par la loi de juillet 1978. Elle accompagne les
administrations en matière de transparence et les citoyens en termes d’accès
aux données publiques. Son avis reste consultatif mais elle peut prononcer
des sanctions en cas de non-respect constaté des règles de réutilisation
(amendes, interdiction de réutilisation pour une durée de 2 à 5 ans).
3.2.4. Synthèse des acteurs impliqués dans l’open data
Figure 3 – Vue d’ensemble des acteurs liés à l’open data
17
3.3.
Données publiques, données personnelles, données d’intérêt
général : des enjeux juridiques multiples et complexes
3.3.1. Le cadre réglementaire
Le cadre de l’open data se caractérise par la juxtaposition de droits (droit
d’accès, protection de la vie privée…) et de normes (nationales et
européennes).
Concernant le droit d’accès aux documents administratifs :
La loi du 17 juillet 1978 portant diverses mesures d'amélioration
des relations entre l'administration et le public et diverses
dispositions d'ordre administratif, social et fiscal généralise le droit
d’accès aux données publiques ainsi que le cadre juridique de leur
réutilisation. Ce droit s’impose à l’État, aux collectivités territoriales
et à toute personne de droit public ou privé en charge d’une
mission de service public. Des restrictions concernent le respect de
divers principes (respect de la vie privée, secret médical, secret
défense, secret des affaires, secrets commercial et industriel). Elle
crée la CADA.
Concernant la protection des données personnelles :
La loi 78-17 du 6 janvier 1978 relative à l’informatique, aux fichiers
et aux libertés définit les règles applicables en matière de collecte,
traitement et conservation des données personnelles. Son article
1er dispose que « l’informatique doit être au service de chaque
citoyen (…). Elle ne doit porter atteinte ni à l’identité humaine, ni
aux droits de l’homme, ni à la vie privée, ni aux libertés
individuelles ou publiques ». Elle crée la CNIL.
Concernant la réutilisation des informations publiques, le droit européen
s’impose :
la directive Public Sector Information (PSI) du 17 novembre 2003 –
2003/98/CE- relative à la réutilisation des documents et des
informations des organismes du secteur public et à sa valeur
économique. Elle a été transposée en droit français par
l’ordonnance du 6 juin 2005 qui a modifié la loi CADA en intégrant
notamment le principe de la réutilisation des données publiques.
Elle circonscrit les redevances au montant des coûts réels engagés
pour la diffusion des données ;
la directive 2013/37/UE du 26 juin 2013 propose une harmonisation
des cadres juridiques apte à favoriser le développement de l’open
data. Elle étend le champ des données concernées et prévoit un
certain nombre de normes techniques (format ouvert, redevances
limitées aux coûts marginaux de production).
3.3.2. Un périmètre évolutif
Les données publiques*, données personnelles*, données d’intérêt général*
peuvent se contrarier et questionnent l’évolution du cadre juridique.
La notion de la donnée personnelle*, définie par la Loi informatique et libertés
de 1978, soulève la question de la nécessaire anonymisation* des données
pour le respect de la vie privée tel que défini à l’article 9 du Code civil. Elle
retient comme ayant un caractère personnel « toute information relative à une
personne physique identifiée ou qui peut être identifiée, directement ou
18
indirectement, par référence à un numéro d’identification ou à un ou plusieurs
éléments qui lui sont propres ».
La définition de la donnée publique* (Loi CADA) confère un droit à
l’information publique. Elle désigne les « informations contenues dans les
documents produits ou reçus par un acteur public dans l’exercice de ses
missions de service public. Données brutes ou enrichies contenues dans les
documents administratifs : dossiers, rapports, études, statistiques, circulaires,
instructions … ». Des exclusions catégorielles demeurent, limitant par làmême l’intérêt de l’ouverture des données: données nominatives,
personnelles, informations protégées.
Le concept de données d’intérêt général*, expression apparue avec le projet
de loi pour une République numérique porté par le rapport « Ambition
numérique » de juin 2015, est repris par le projet de loi Macron dont un
amendement crée une obligation d’ouverture de données de mobilité.
En janvier 2015, la CNIL a formulé des propositions relatives à l’évolution de
la loi Informatique et Libertés pour renforcer le droit d’accès aux données
publiques par rapport aux nouveaux droits portés par le droit européen : droit
à l’oubli, à la portabilité des données*. L’origine, la durée de conservation de
la donnée, l’exercice par voie électronique des droits d’accès, de rectification,
d’opposition figurent parmi les propositions.
La représentation ci-dessous synthétise les différents concepts juridiques
abordés précédemment dans le cadre d’une ouverture.
Données personnelles
Textes
Conditions
Droit d’accès et de rectification
Loi CNIL
Protection des données
individuelles (collecte,
traitement, conservation)
Loi CNIL
Droit à l’oubli
Droit européen
Anonymisation des
données
ou accord des usagers
ou autorisation
législative
Droit à la portabilité des
données
Projet de loi Lemaire
Règlement européen
Données disponibles en
format ouvert
Des droits pour des libertés
individuelles
Libertés
individuelles
Respect de la
vie privée
Protection de
l’individu
(droit à
l’oubli…)
19
Données publiques
Texte
Conditions
Droit d’accès à l’information
publique
Loi CADA
Restrictions : respect de la
vie privée, respect de secrets
(médical, défense, affaires)
Droit de réutilisation
Directives
européennes
2003, 2013
Loi Macron
Sous format ouvert et avec
des redevances minimes
Données d’intérêt général
Le champ des données à
libéraliser : fonction de
l’utilité pour la collectivité
Des objectifs à articuler avec les
grandes libertés individuelles
Transparence
Contrôle action
publique
Economie du
numérique
Figure 4 – Les concepts juridiques mobilisés (focus de 2015)
3.4.
Un mouvement institutionnalisé qui s'amplifie, proposant une
nouvelle façon de concevoir et d’évaluer l’action publique
Plusieurs textes reprennent ces derniers mois le sujet de l’open data sans
toutefois apporter d’avancée décisive.
La loi NOTRe du 7 août 2015, portant nouvelle organisation territoriale de la
République, pose l’obligation pour les communes et leur établissement public
de coopération intercommunale (EPCI) de plus de 3500 habitants de rendre
accessibles les informations publiques relatives à leur territoire.
En octobre 2015, l’Assemblée nationale et le Sénat ont adopté le texte de la
Secrétaire d’État en charge de la réforme de l’État, Clothilde Valter, sur la
gratuité de la réutilisation des données publiques détenues par l’État et les
collectivités territoriales. Plus largement, ce texte transpose la directive
européenne de 2013 en apportant plusieurs spécificités. Le principe de
gratuité s’accompagne ainsi de dérogations pour les autorités publiques
devant dégager des ressources propres (INSEE, IGN, Météo France …). 35
millions d’euros de redevances ont ainsi été collectées en 2012 au profit du
budget de l’État. L’obligation de mise à disposition sous format électronique
n’a pas été retenue. La mise à disposition dans un format ouvert reste
facultative. La question des redevances pourra être réexaminée dans le cadre
du projet de loi pour une République numérique.
20
Le projet de loi « Noé » (loi Macron 2) sur les Nouvelles Opportunités
Économiques ambitionne une économie de la donnée fondée sur son
accessibilité et traite de la circulation des données privées. Le projet sera
présenté en janvier 2016.
Le texte le plus attendu pour des mesures significatives reste le projet de loi
Lemaire en faveur d’une République numérique. La version présentée en
Conseil des ministres le 9 décembre 2015 présente un droit à la portabilité* et
à la récupération des données. Le texte sera présenté à compter de janvier
2016 à l’Assemblée nationale. Dans sa version du mois de décembre 2015, il
prévoit l’obligation de diffuser l’ensemble des informations publiques détenues
par les organismes chargés d’une mission de service public dans un délai
d’un an à compter de la promulgation de la loi.
3.5.
Une progression en ordre dispersé et des interrogations qui
subsistent
En 2013 les collectivités territoriales se sont regroupées dans l’association
« open data France ». Certaines, telles Rennes ou Paris, y ont acquis une
visibilité. Puis ce sont les institutions, Sénat, Assemblée Nationale, Cour des
comptes qui se sont inscrites dans le mouvement en ouvrant leur site open
data. Des autorités administratives et des organismes publics, tels que la
CADA ou l’INSEE, se sont jointes à cette dynamique en s’engageant dans
l’ouverture de leurs données.
Le secteur de la protection sociale est un acteur récent. La démarche atteint
des degrés de maturité divers en fonction des branches, certaines ayant cette
finalité inscrite dans leur convention d’objectifs et de gestion (COG), d’autres
non.
La CNAMTS a été l’une des premières institutions de la protection sociale à
s’engager en mettant à disposition des jeux de données sur data.gouv.fr issus
du SNIIRAM. L’article 47 du projet de loi Santé fixe un objectif d’information en
matière de politiques de santé (offre de soins, qualité de la prise en charge,
veille sanitaire) et également d’évaluation, de contrôle des dépenses. Les
deux nouveaux acteurs, INS et DREES, ajoutent les éléments de cadrage
nécessaires au portage de la démarche. Ils pourraient préfigurer, en particulier
la DREES, la structure à mettre en place pour une dynamique open data sur
l’ensemble des branches.
La CNAF s'est également lancée dans la démarche en ouvrant, en juillet
2015, son propre portail data.caf.fr. Elle a organisé à l'automne 2015 un
hackathon*.
Des points très concrets sont soulevés à l’occasion de ces initiatives :
opportunité, valeur ajoutée, coût et bénéfices. Ils se traitent individuellement,
sans orientation de branche, occultant parfois les choix stratégiques à opérer :
La nécessaire anonymisation des données, au nom du respect de la
vie privée, mobilise la vigilance des OPS ;
La gratuité ou non de la mise à disposition et du coût induit par l'open
data pour les organismes dans un contexte de moyens contraints ;
Les aspects techniques de format, le choix de la licence.
Le tableau ci-dessous synthétise les démarches d’ouverture des données des
OPS interviewés dans le cadre de la recherche-action.
21
Moyens
humains
dédiés à
l’open
data
Organisation
d’évènements
associant des
partenaires
extérieurs
(type
hackathons)
Extensions prévues au
projet initial
Non
-
Année de
démarrage
de la
démarche
Plates-formes de
diffusion
ACOSS
-
www.acoss.fr/home/obs
ervatoireeconomique/donneesstatistiques.html
Non
CNAV
2014
www.statistiquesrecherches.cnav.fr
Non
Mettre à disposition des.
données agrégées sur un site
dédié
Non
-
CARSAT
Pays de la
Loire
2015
opendata.carsat-pl.fr/
Oui
Répondre aux demandes de
données
des
partenaires
extérieurs.
Non
Animer une communauté
de réutilisateurs
Oui
Répondre à un engagement de
la
COG,
décloisonner
l’information,
répondre
aux
obligations de transparence,
harmoniser et simplifier les
échanges avec les partenaires
extérieurs,
valoriser
le
patrimoine immatériel, créer de
la valeur.
CNAF
2011
data.caf.fr
Objectifs poursuivis
Mettre
à
disposition
des
données agrégées sur un site
dédié.
Labelliser des services
pertinents développés par
des tiers
Oui
22
CNAMTS
Année de
démarrage
de la
démarche
Plates-formes de
diffusion
2010
www.data.gouv.fr/fr/org
anizations/caissenationale-de-lassurance-maladiedes-travailleurs-salaries
Moyens
humains
dédiés à
l’open
data
Oui
www.data.gouv.fr/fr/org
anizations/pole-emploi/
et
Pôle
Emploi
-
www.poleemploi.org/informations
/open-data-pole-emploi@/25799/viewcategory-25799.html?
Oui
Objectifs poursuivis
Organisation
d’évènements
associant des
partenaires
extérieurs
(type
hackathons)
Répondre aux obligations de
transparence,
valoriser
le
patrimoine immatériel, créer de
la valeur.
Répondre aux obligations de
transparence, répondre à un
engagement de la convention
tripartite Etat – UNEDIC – Pôle
Emploi, améliorer l’offre de
services via la plate-forme
collaborative de développement
Emploi Store.
Extensions prévues au
projet initial
Construire un site dédié
Oui
Oui
Développer
des
applications à partir de
données de Pôle Emploi et
d’opérateurs de placement
privé,
poursuivre
le
développement
de
l’Emploi Store
Tableau 2 – Vue d’ensemble des démarches open data d’OPS
23
4. ENJEUX ET OPPORTUNITES POUR LA PROTECTION SOCIALE EN FRANCE
4.1.
Des atouts certains pour les organisations
4.1.1. Une image moderne, une visibilité accrue
Un premier enjeu porte sur l’image des OPS. L'exemple des collectivités
locales est intéressant au titre de la dynamique créée autour de la démarche
open data : visibilité, modernité économique et politique. Le conseil national
du numérique considère à ce titre l'ouverture des données comme un levier de
modernisation, qui favorise à la fois la circulation de l'information entre les
administrations et la multiplication d'outils pour l'exploiter. L’open data permet
ainsi de développer à la fois la communication interne et externe.
4.1.2. Une source d’externalités positives pour l’économie mais aussi de
retours sur investissements pour le producteur de données
L'open data est également au cœur de la création d’un écosystème lié à la
réutilisation des données. Il permet de valoriser le patrimoine immatériel,
d’encourager l’innovation sociale, de créer des réseaux d’acteurs
économiques et sociaux.
L’organisation de hackathons reflète la volonté de certaines administrations
d’entrer dans cette démarche de valorisation des données. Le hackathon de la
CNAF qui s’est tenu les 2 et 3 octobre 2015 a permis aux participants de
travailler sur la réutilisation de données plus fines, et donc plus proches des
données brutes, que celles habituellement mises en ligne. Cette opération a
mobilisé une centaine de participants répartis en 17 équipes durant 48h, et a
débouché sur plusieurs projets innovants. Le 1er prix a été attribué à un projet
d’application mobile permettant aux allocataires d’être informés sur les temps
d’attente aux accueils de leur Caf de rattachement, et de les inviter à des
rendez-vous collectifs sur une thématique précise selon leurs besoins.
L’ouverture des données n’est donc pas sans effet positif sur les organismes
sociaux eux-mêmes. Ce retour sur investissement a incité certaines branches
de la Sécurité sociale à en faire une démarche obligatoire : ainsi, la COG de
la CNAF a intégré l'open data. En effet, la démarche avait déjà été initiée par
des organismes locaux, en particulier la Caf des Hauts-de-Seine qui s’était
dotée d’un site portail dédié. L’objectif de la CNAF était double :
harmoniser les données mises à disposition par les différents
organismes suite à des saisines de la CADA par des allocataires à ce
sujet ;
réduire le nombre de conventions passées avec les partenaires pour
l’obtention d’informations spécifiques. A titre d’exemple, la Caf du
Rhône est passée de 140 conventions à quelques-unes grâce à la
mise en ligne de ses données.
Par ailleurs, un écosystème peut également se mettre en place entre les
administrations elles-mêmes, et favoriser leur coordination. Le rapport de
l’école des Ponts ParisTech souligne à ce sujet que l’État est son propre client
en matière de besoins en données publiques.
4.1.3. Un gain de légitimité
Un dernier point régulièrement mis en avant porte sur les impératifs
démocratiques et la nécessaire transparence des structures du service public.
24
Le rapport Bouchoux présente ainsi l'open data comme un moyen de lutte
contre la méfiance croissante à l'égard des institutions publiques, en
renforçant le contrôle par la société civile (par le moyen de data-visualisations,
de l’élaboration de classements, etc…).
4.2.
Les risques d’une démarche open data restent maîtrisables
4.2.1. Le risque de ré-identification
Ce risque ne doit pas être sous-estimé : des exemples comme AOL ou Netflix
démontrent que la compromission d’informations personnelles à partir de
bases de données considérées initialement comme anonymes peuvent avoir
des conséquences dommageables en termes d’image (démission de
dirigeants, perte de clients). C’est bien un risque d’image qui est en jeu. La
balance doit être faite entre le risque de ne pas entamer de démarche open
data et celui de compromettre des informations personnelles.
En particulier, les données administratives de protection sociale ont un
caractère personnel. Elles ne peuvent être publiées que sous certaines
conditions : l’assentiment des personnes (inenvisageable à cette échelle), une
autorisation légale motivée par la prééminence de l’intérêt général (peu
probable) ou une dé-identification* des données. La dernière option est
techniquement possible, à condition de respecter certains critères (cf. annexe
sur la qualité de la dé-identification) sous le contrôle et les conseils de la
CNIL.
4.2.2. Le risque de mésusage des données ouvertes par des acteurs
extérieurs
Le risque que les données publiées soient mal interprétées, détournées ou
altérées à des fins intentionnelles existe. La CNAF cite le risque de
stigmatisation qui pourrait être fait en cas d’ouverture des données relatives à
la nationalité des allocataires. Néanmoins, la diffusion des données sous
licence libre dégage les producteurs de toute responsabilité quant à
d’éventuelles réutilisations malveillantes ou erronées. La CADA cite l’exemple
de l’entreprise Quick qui a été condamnée pour avoir détourné les données
d’un rapport de l’ANSES de manière à faire croire que cet organisme
recommandait la consommation de produits vendus par le restaurateur.
La qualité des données est aussi un sujet d’inquiétude des producteurs de
données qui craignent qu’une qualité insuffisante ne favorise une mauvaise
interprétation. Pour autant, le rapport CEREMA invite les producteurs de
données à diffuser des données même si elles sont de qualité moyenne, celleci devant bénéficier du crowdsourcing* : les réutilisateurs contribueront à leur
amélioration progressive par leurs retours. Le rôle des métadonnées* est alors
essentiel : elles doivent être précises et détaillées afin d’expliquer et alerter à
propos de la qualité et éviter toute ambiguïté.
Par ailleurs, pour limiter ces types de risques, la CNAF a défini trois strates de
données en fonction des publics de destination :
le « my data » pour les échanges en interne (NB : cette définition,
propre à la CNAF, ne correspond pas la définition officielle de
MyData rappelée dans le glossaire) ;
le share data pour les échanges avec les partenaires ;
l’open data pour le grand public.
Sur le plan technique, cette démarche de réduction des risques liés à la
donnée prend la forme d’une ouverture des données en deux temps : dans un
25
premier temps, les données sont publiées sur le réseau interne afin de
favoriser le décloisonnement des services et d’harmoniser les jeux de
données. Une fois ce travail d’harmonisation réalisé et après avoir obtenu la
garantie qu’aucune information confidentielle n’a été diffusée par erreur, les
jeux de données sont mis en ligne sur le site data.caf.fr, ouvert au grand
public.
Le choix des données est également un sujet sensible pour la CNAF qui a mis
en place une organisation spécifique : les jeux de données sont définis par un
comité de gestion (composé de statisticiens et de chargés d’études), transmis
pour accord à un comité éditorial (correspondant CNIL, directeur des
statistiques), puis validés par le COMEX.
4.2.3. Le risque de non utilisation des données ouvertes
Il n’est pas exclu que les entreprises, les associations ou les citoyens ne
s’emparent pas de cette nouvelle opportunité. C’est le principal risque qui a
été évoqué par la mission Etalab. En effet, il serait dommageable que
l’investissement consacré à l’open data se solde par une absence de
réutilisation par de nouveaux acteurs extérieurs. Cependant, il faut rappeler
que l’open data constitue aussi une opportunité pour l’organisme lui-même,
dans la mesure où il facilite les échanges internes d’informations en favorisant
le décloisonnement. Par ailleurs, il est aussi profitable pour les partenaires qui
font déjà des demandes de données : la CARSAT des Pays de la Loire a initié
sa démarche open data pour répondre aux besoins des collectivités
territoriales.
4.2.4. Le risque d’un déséquilibre au détriment du secteur public
Si l’ouverture des données de protection sociale peut être vue comme un acte
de transparence de la part des organismes concernés, elle peut également
être utilisée à des fins commerciales. Cette implication du secteur privé est
l'un des objectifs de la démarche open data puisqu’elle doit servir de levier
pour l'innovation et l'activité économique. Les entreprises privées à but lucratif
pourraient utiliser l’open data pour enrichir leurs propres données afin de
disposer d’informations supplémentaires et offrir de nouveaux services pour
capter la relation client sur certaines prestations. La situation serait alors
déséquilibrée : les services publics de protection sociale se verraient
contraints d’ouvrir leurs propres données, sans réciprocité de la part des
acteurs du secteur marchand.
Etalab souligne qu’il y a un risque d'accaparement des services publics à forte
valeur ajoutée par des entreprises privées qui offriraient des prestations
payantes de meilleure qualité que celles offertes par les organismes publics.
Cette situation aboutirait à un service public à deux vitesses. Cependant,
Etalab précise aussi que la réponse à ce risque est de se concentrer sur
l'amélioration des services des administrations, et non de se focaliser sur des
services que pourraient potentiellement proposer les acteurs du secteur
marchand en utilisant les données ouvertes. Les avantages de l’open data du
fait du décloisonnement contrebalancent largement les craintes hypothétiques
d’une dégradation relative des services publics.
Par ailleurs, Pôle emploi a passé des conventions d’échanges avec les
opérateurs privés de placement afin d’enrichir ses propres bases et proposer
des services adaptés aux demandeurs d’emploi via l’Emploi Store. Ainsi, une
application permettant d'identifier des entreprises susceptibles de recruter
certains profils dans les 3 mois, avec 80 % de probabilité, a été développée à
partir des données personnelles des demandeurs d'emploi, des données
publiques de Pôle Emploi et des données détenues par des opérateurs de
26
placement privés. Cette application sert à orienter les candidatures
spontanées des demandeurs d'emploi.
Une coopération entre public et privé est donc envisageable en matière de
données, ce qui dément l’absence totale de réciprocité.
4.3.
Un coût de l’open data à relativiser ?
4.3.1. Les dépenses et les effectifs liés au projet et à la structure pérenne
Les données sont ventilées et retraitées pour des usages internes. Il n’est pas
prévu qu’elles soient réutilisées par des tiers. Cela implique un changement
d'attitude de la part des producteurs de données et un retraitement afin de
répondre aux attentes des réutilisateurs. En 2012, le comité interministériel de
modernisation de l’action publique (CIMAP) avait identifié le secteur de la
santé comme peu porté sur l'ouverture et la réutilisation des bases de
données pour cette raison : les bases de données du SNIIRAM ont été
constituées pour répondre aux besoins des gestionnaires, et non aux attentes
des tiers. Pour autant, cet utilisation des données à des fins internes n’est pas
incompatible avec leur mise en ligne : la CNAF souligne que son SI
décisionnel* permet de diffuser des données de qualité, sans coût
supplémentaire. Pour ce faire, la caisse nationale a mobilisé un agent en
CDD, dont le rôle est notamment de rédiger les métadonnées.
La suppression des redevances et le retraitement des données n'est pas sans
impact financier, même si celui-ci peut être relativisé au regard des certaines
expériences. Le rapport du CEREMA « L’open data en collectivités à la
lumière des données de mobilité » a fait apparaître des dépenses modérées :
un investissement initial de 20 000 à 85 000 € pour développer la
plate-forme open data, ce coût pouvant être réduit à zéro si le choix
est fait de mutualiser avec un portail existant (comme data.gouv.fr). Le
nombre d’ETP nécessaires pour lancer la plate-forme s’échelonne de
1 à 3 ETP à effectifs constants ;
des coûts de fonctionnement technique allant de 5 000 à 37 000 € (les
dépenses les plus élevées correspondent à un cas d’externalisation de
l’activité). La maintenance de la plate-forme nécessite moins d’un
ETP ;
l’animation externe qui comprend la promotion de la réutilisation des
données (concours, appels à projet) nécessite de l’ordre d’un demi
ETP pour l’organisation. Il faut également tenir compte du prix du
concours pour le lauréat (plusieurs dizaines de millier d’euros).
En outre, les problématiques liées à la dé-identification* des données conduit
à des retraitements dont le coût n’est pas chiffré à l’heure actuelle.
Cependant, ce coût ne devrait pas être très élevé dans la mesure où il existe
déjà des logiciels libres de dé-identification tels que Mu-Argus, développés par
les statisticiens publics des Pays-Bas, et ARX (cf. annexe 1).
4.3.2. La suppression des redevances
Dans un rapport publié en juillet 2013, Mohammed Trojette identifie une
évolution majeure de l'administration : si la valorisation du patrimoine
immatériel via le paiement de redevances a longtemps été préconisée, la
création d'Etalab en 2011 témoigne d'un changement de posture. La donnée
est désormais vue comme un bien public générateur d'externalités positives,
nécessitant un accès libre et gratuit. Par ailleurs, l'existence de redevances
pose la question de l'égalité d'accès à la donnée publique, et peut représenter
une barrière à l'entrée pour certains réutilisateurs. Par conséquent, elles ne
27
peuvent plus constituer une source de financement pour initier un projet open
data.
Le rapport Trojette souligne que le coût financier de la mise en place d'une
démarche open data est largement contrebalancé par des gains d'efficience à
moyen terme. Pour cette raison, le gouvernement danois a décidé de créer un
fonds de compensation général pour les producteurs de données publiques,
afin d'inciter ces derniers à initier leur démarche sans être inquiétés par le
financement.
4.4.
Une démarche difficilement évaluable
Le principe de l'open data, qui consiste à lever les barrières pour faciliter les
réutilisations, empêche toute évaluation précise. Il est possible à minima de
comptabiliser les téléchargements effectués, ce qui permet au moins de savoir
si les données mises en ligne ont été mobilisées, sans pour autant connaître
l’usage qui en est fait. Ce sont essentiellement les échanges avec la
communauté de réutilisateurs qui démontreront si la démarche porte ses
fruits. A ce titre, le rapport du CEREMA évoqué supra préconise de désigner
un correspondant open data au sein de chaque service afin de relayer les
demandes du service et de réfléchir aux jeux de données qui pourraient être
ouverts.
La CNAF envisage également de créer un label CNAF. Cette initiative
permettrait non seulement de mieux estimer le nombre mais aussi de mesurer
la qualité des réutilisations en labellisant les plus pertinentes. En outre, elle
affirmerait le rôle des organismes publics auprès des partenaires.
4.5.
Le positionnement du groupe sur la question de l’open data en
matière de données administratives de protection sociale
Au regard des enjeux exposés et des risques qui demeurent maîtrisables,
nous recommandons d’entamer une démarche d’ouverture des données au
sein des OPS pour des raisons de transparence, d’innovation et de
positionnement stratégique au sein d’un nouvel écosystème.
4.5.1. L’argument de la transparence
Les dépenses de protection sociales représentent 30% du PIB en France.
Leur importance justifie à elle seule la politique d’ouverture des données en
termes de transparence. Par ailleurs, comme l’affirme Daniel Lenoir, le
directeur général de la CNAF, dans l’éditorial du site internet Cafdata : « Les
organismes chargés de la mission de service public de sécurité sociale ne
sont pas propriétaires des données, ils en sont les dépositaires ». Il est
légitime de les mettre à la disposition de tous. Au-delà des données ayant trait
à la protection sociale elle-même, la question de l’ouverture des données de
gestion interne et de pilotage est également posée, même si elle ne sera pas
abordée dans notre rapport.
Les organismes de service public ne peuvent pas passer outre le besoin de
transparence de la société. Une entité qui n’ouvrirait pas suffisamment ses
données serait soupçonnée de vouloir cacher des dysfonctionnements, des
abus. Certes, des publications comme les rapports d’activité ont été mises en
place pour répondre aux besoins d’information, mais ces types de
présentation rendent toute recherche précise fastidieuse et donc dissuasive
pour le citoyen. L’open data permet de réaliser un référencement de chaque
jeu de données, facilitant les recherches et rendant ainsi effective l’obligation
de transparence en évitant de noyer l’information utile pour un utilisateur dans
un flot de données diverses.
28
Une organisation qui ne joue pas le jeu serait plus susceptible de disparaître,
d’être rattachée à un autre service. Elle n’aurait aucun appui de l’extérieur : ni
de la part des citoyens auprès de qui elle n’aurait pas rendu compte, ni des
entreprises qui ne verrait pas en elle un partenaire. Au contraire, une
organisation qui s’inscrit dans le schéma de l’open data a l’opportunité de se
faire connaître auprès de ces deux types d’acteurs et de gagner autant de
soutien pour défendre son projet social et donc son existence même.
En outre, le paysage de la protection sociale française est caractérisé par un
fort morcellement : les uns le perçoivent comme un facteur de complexité
dommageable au système dans son ensemble, d’autres y voient une richesse,
une prise en compte de la diversité des catégories socio-professionnelles
comme c’est le cas pour les régimes de retraite spéciaux. Le principal défaut
du morcellement est le cloisonnement de l’information. Nous pensons que
l’open data peut induire une amélioration sensible de l’échange d’informations
entre organisations et ainsi démentir l’argument du compartimentage. Par
ailleurs, l’ouverture des données est un prolongement logique de la
coopération entre les régimes de retraite qui se manifeste au travers du GIP
Union retraite.
4.5.2. Un levier pour développer l’offre de services
L’open data constitue une opportunité dans la mesure où il permet de créer
une nouvelle offre de services au profit des usagers. S’ils étaient amenés à
délaisser ce point, les OPS courraient le risque de perdre la relation client qui
serait captée par d’autres acteurs. Le lien entre les bénéficiaires et
l’organisme de service public serait rompu, ce qui remettrait en cause la
légitimité même de l’OPS. Le succès commercial de la stratégie d’Uber vis-àvis des taxis démontre que la loi ne suffit pas à préserver un modèle jusque-là
bien établi. Il est essentiel de tout mettre en œuvre pour s’adapter aux besoins
des usagers afin de conserver leur attachement à des organismes porteurs de
valeurs collectives.
En outre, l’open data impose une organisation adéquate des données de
protection sociale avant de procéder à leur ouverture. Elles devraient être
regroupées au sein d’une même branche et entre les différents régimes, sur
l’exemple du SNIIRAM dans la branche maladie, afin de fournir une base
complète et ainsi maximiser les chances de réutilisation. Cette base serait
ensuite dé-identifiée pour en permettre l’ouverture. Cette étape préalable
constitue une opportunité pour enrichir le big data de la protection sociale et
ainsi développer les services ad hoc.
4.5.3. Une contribution à la création de richesse et la promotion d’un
comportement responsable
Les données de protection sociale peuvent constituer un gisement de création
de valeur pour le secteur marchand. Ce serait une opportunité pour le service
public de la protection sociale d’être également vu comme un partenaire des
entreprises privées en matière de création de richesse. Il s’inscrirait dans un
nouvel écosystème.
Par ailleurs, les OPS ont une carte à jouer en matière de gestion responsable
des données personnelles*. Les entreprises privées peuvent être tentées
d’exploiter de manière illégale de tels types de données pour améliorer leurs
techniques de marketing comme l’a montrée l’enquête du magazine télévisé
« Cash investigations » intitulée « Marketing : les stratégies secrètes »
diffusée le 6 octobre 2015. Le développement de l’open data et de la
démarche corrélative de la dé-identification démontrerait la capacité du
29
service public à concilier la création de valeur ajoutée avec le respect de la vie
privée.
5. DES D’OUTILS D’AIDE A LA DECISION POUR LANCER UNE DEMARCHE OPEN
DATA
Deux outils d’aide à la décision ont été élaborés afin de :
visualiser le positionnement stratégique de différents scénarios en
matière de « macro-objectifs » et de degré d’ouverture du projet ;
préciser et formaliser ce qui est attendu d’une démarche open data
par rapport à des critères plus opérationnels.
5.1.
Un outil de comparaison stratégique
Cet outil permet de mettre en relation deux critères pour mesurer l’ambition de
la démarche open data. Il est utile pour visualiser le niveau d’ouverture et les
objectifs stratégiques visés par les scénarios envisagés. Il répond ainsi aux
deux questions : à quel point mon projet est-il vraiment « open data » ? Quels
objectifs remplit-il ?
5.1.1. Le niveau d’ouverture des données, définition même de l’open data
Le graphique ne fonctionne pas par une gradation régulière mais par addition
de différents critères de manière à prendre en compte tous les cas de figure
possibles.
Les critères retenus sont ceux de Tim O’Reilly, à savoir des données :
complètes ;
brutes ;
à jour ;
accessibles à tous et pour tous les usages ;
dont le traitement peut être automatisé ;
dont l'accès est non discriminant ;
au format non propriétaire ;
publiées sous licence libre.
5.1.2. Les objectifs conférés au projet
Là encore, les critères ne sont pas positionnés entre eux, nous n’avons pas
considéré qu’un objectif pouvait être supérieur à un autre. Ce qui est pris en
compte est simplement le nombre d’objectifs poursuivis par le projet parmi
ceux communément associés aux démarches open data (cf. partie 2.3
notamment) :
le respect de l'obligation légale ;
la communication - affichage d'un rôle de chef de file ;
la transparence ;
la création de valeur/services ;
la transformation interne.
Le schéma ci-dessous illustre le résultat obtenu.
30
Figure 4 – Exemple de visualisation de l’outil stratégique
5.2.
Un outil à portée plus opérationnelle
Le second outil a été construit en partant de la méthode d’analyse Mareva 2
(Méthode d’analyse et de remontée de la valeur). Il détaille ce qui peut être
attendu d’une démarche d’ouverture des données en termes d’apports à la
stratégie de l’organisme, de contrôle de gestion, de coopération interne (entre
services) ou externe (avec des partenaires), de relation à l'usager, etc…
Les questions sont regroupées dans six chapitres : image et qualité de
service, apport qualitatif aux agents, levier de transformation, besoins
réglementaires et politiques, maîtrise des risques et degré d’ouverture des
données.
Pour chaque question, une note de 0 à 4 est attribuée et une moyenne est
calculée par chapitre. Le résultat est rendu visible graphiquement sous la
forme d’un hexagone, plus ou moins étendu. Le scénario optimal est celui qui
atteint la surface la plus étendue. Les cotations répondent à la logique
suivante :
0 : le critère n’est pas rempli ;
2 : le critère est partiellement rempli ;
4 : le critère est rempli.
La grille d’analyse de l’annexe 2 montre un exemple de cotation pour deux
scénarios fictifs :
un scénario a minima qui correspondrait à une simple mise en ligne de
données déjà diffusées par d’autres moyens (rapports écrits…) ;
un scénario maximal qui a été noté à 4 pour chaque question, excepté
pour celles liées au chapitre « Maîtrise des risques ».
31
Il importera, dans le cadre de « vrais » scénarios, de prévoir une justification
pour chaque cotation.Les résultats de la grille précédente donnent ainsi lieu à
la représentation suivante.
Figure 5 - Exemple de visualisation graphique de l’outil opérationnel
(scénarios fictifs)
6. LES PRÉCONISATIONS EN MATIÈRE D’OUVERTURE DES DONNÉES DE
PROTECTION SOCIALE
Sur ce type de sujet, il est nécessaire d’être proactif. Le développement
d'internet par le passé a montré que tout retard était difficilement rattrapable.
La question ne doit plus porter sur l’intérêt d’ouvrir les données mais plutôt sur
les modalités de cette ouverture.
6.1.
L’open data s’intègre dans une stratégie globale de l’exploitation
de la donnée
Au-delà de la simple ouverture, c’est la question de l’exploitation de la donnée
qui est posée.
Les services auxquels sont confiées les démarches d’ouverture témoignent
d’une approche différente selon les organismes qui se sont lancés. Au sein de
la Sécurité sociale, le pilotage est assuré par les directions statistiques
(CNAF, CNAMTS et DRS). Ce choix se justifie par une compétence qui a trait
à la donnée elle-même ainsi qu’à la mission d’appui stratégique que
recouvrent ces services. D’autres structures ont opté pour un choix alternatif.
Pôle emploi a confié la démarche d’ouverture à la direction de l’innovation et
de la RSE. Le ressort identifié est celui de l’amélioration de l’efficience et du
développement de l’offre de services, plus que la stratégie sur la donnée. Par
ailleurs, le Crédit agricole a décidé de créer une entité ad hoc, le GIE CA
Store, pour développer une offre de services adaptée et réactive à partir de
l’ouverture d’API.
32
L’inconvénient de ces solutions est qu’elles relèvent d’un parti pris : les
données seraient associées à une amélioration interne, à l’offre de service ou
au pilotage stratégique de l’organisation. Il est évident qu’elles sont associées
en réalité à tous ces aspects à la fois, et à bien d’autres comme la lutte contre
la fraude (dataming) ou au marketing social. En effet, open data, big data et
MyData sont complémentaires :
le big data a vocation à fournir du sens à une masse d’informations,
structurées ou non, afin de détecter des signaux faibles, de faire des
prévisions. En outre, il est une clé essentielle de la personnalisation
des services appréciés chez les consommateurs de technologies du
web 2.0 ;
le MyData doit permettre à l’usager de visualiser ses propres données.
C’est le résultat d’une extraction de données spécifiques,
éventuellement à partir de big data ;
l’open data doit permettre le partage des informations pour enrichir
mutuellement les bases de données des acteurs publics et privés.
Nous confirmons à court terme un pilotage par les services statistiques, du fait
de leur finalité transverse, avec l’appui technique de la direction des systèmes
d’informations (DSI), pour gérer la politique des données de l’organisme. A
moyen terme, il conviendrait de définir, au sein de la direction nationale
chargée de la stratégie, un « chief data officer » (CDO) pour avoir une
politique cohérente sur toutes les formes de traitements de la donnée : big
data, Mydata et open data. Son rôle serait de définir les solutions
organisationnelles, techniques et logicielles à la problématique de gestion des
données (sélection des données les plus intéressantes à extraire, solutions de
dé-identification pour l’open data, accessibilité des usagers à leurs propres
données personnelles, traitements techniques du big data). En tant que cadre
dirigeant, il assurerait le dialogue avec les autres directions ainsi qu’avec les
partenaires extérieurs (pour organiser les échanges de données par
exemple). Son service, proche de la DSI et dédié à la donnée, aurait pour
clients les autres secteurs de l’entité pour répondre aux différents besoins. En
matière de big data, des data scientists seraient également nécessaires à
terme pour donner du sens à la masse d’informations stockées et la mise en
œuvre des techniques de datamining*.
Le fait qu'Henri Verdier, chef de la mission Etalab et administrateur général
des données, ait également été nommé directeur interministériel du
numérique et du système d’information et de communication de l'État
(décision du Conseil des ministres du 23 septembre 2015) démontre le rôle
central de la donnée dans la stratégie numérique.
Préconisation n° 1 : Confier le pilotage de l’open data dans un premier temps
au service chargé des statistiques au sein de l’organisme national. Dans un
deuxième temps, un service de gestion de la donnée dirigé par un CDO paraît
le plus adapté pour définir et mettre en œuvre une politique globale traitant de
tous les aspects.
6.2.
Un projet à forte dimension pédagogique
Les principaux freins à l’open data sont internes. Son introduction va avoir
pour conséquence de décloisonner l’information qui reste un enjeu de pouvoir.
Certains acteurs internes pourraient entraver la démarche par crainte de
perdre de l’influence au sein de l’organisation. Cette opposition est fréquente
et s’est rencontrée par exemple au CA Store où la DSI était réfractaire au fait
que des tiers puissent développer des programmes pour les clients.
33
En outre, les services de l’organisme peuvent avoir le sentiment de perdre le
contrôle de leurs données. Pour se rassurer, il peut être alors tentant de ne
publier que les données d’excellente qualité. La démarche en serait alors
fortement retardée
Il convient donc de rassurer le personnel au sujet de l’open data. L’équipe
projet devrait intégrer cet accompagnement. Des associations telles que
LiberTIC peuvent s’avérer utiles car elles organisent des campagnes
d’information auprès de salariés d’entreprises.
Préconisation n° 2 : prendre en considération le travail de pédagogie auprès
des salariés en travaillant avec des associations impliquées dans la promotion
de l’open data.
6.3.
L’open data est une démarche collaborative
6.3.1. La recherche des réutilisateurs potentiels
Dans un premier temps, il est nécessaire d’identifier les entités qui seraient
intéressés par la démarche. Les partenaires évidents sont ceux qui réclament
déjà des données à l’organisme, comme l’illustre l’exemple de la CARSAT des
Pays de la Loire qui a entamé sa démarche open data pour répondre à des
demandes.
Pour les autres acteurs potentiellement intéressés, comme le secteur
marchand, les interlocuteurs sont plus ou moins évidents selon le domaine de
protection sociale considéré.
Pour la branche retraite par exemple, la structuration de la filière de la silver
économie autour de l’ASIPAG fait de cette entité un point d’entrée privilégié
en matière d’open data. Les associations et les collectivités territoriales
pourraient quant à elles être intéressées par les données relatives aux
populations précaires, les fédérations nationales d’agences immobilières par
les données liées aux aides au logement, etc...
Afin de n’écarter aucun candidat potentiel, il convient de promouvoir la
démarche en communiquant non seulement auprès des partenaires habituels,
mais aussi auprès des associations impliquées dans l’open data (LiberTIC,
OKFN…) qui répercuteront l’information dans leurs propres réseaux. Par
ailleurs, une campagne de promotion via les réseaux sociaux est
indispensable. La littérature recommande le recours à Twitter (#opendata) ou
à LinkedIn. En revanche, Facebook demeure un media peu fréquenté par la
communauté open data (cf. l’open data handbook de l’OKFN).
Préconisation n° 3 : identifier les partenaires à partir des demandes de
données déjà faites, promouvoir la démarche auprès des associations
impliquées dans l’open data ainsi que sur les réseaux sociaux.
6.3.2. Un travail à réaliser en coopération avec les autres OPS détenant des
données similaires
Le morcellement de l’information nuit à l’open data. Par exemple, l’usager
sera plus intéressé par une application qui lui donne la géolocalisation de
l’ensemble des parkings d’une ville, qu’ils soient gérés par les pouvoirs publics
ou par une entreprise privée. Le référencement des seuls parkings publics
aura moins d’intérêt. C’est le cas aussi de Pôle emploi qui se heurte à la
problématique des opérateurs de placement privés sur le marché de l’emploi.
L’ouverture des données de ces acteurs est une condition de la pleine
efficacité de l’open data dans ce domaine. L’exemple du risque vieillesse du
fait de la multiplicité des régimes, ainsi que des retraites complémentaires
34
obligatoires, est aussi prégnant. Il conviendrait de mener l’ouverture sur
l’ensemble de ces régimes, ce qui impliquerait un partage des données.
Le GIP Union retraite apparaît comme la structure la plus indiquée pour piloter
un tel projet dans la mesure où ce travail de coordination entre les régimes
pour rationaliser la gestion de la donnée fait partie de ses missions.
Préconisation n° 4 : susciter la coopération des autres régimes/entités
disposant du même type de données pour mener à bien l’open data.
La démarche d’ouverture ne doit cependant pas être stoppée par l’absence de
coopération. L’essentiel demeure d’avancer progressivement et d’amorcer un
mouvement collectif de l’ensemble des entités concernées.
6.4.
Le processus d’ouverture des données est incrémental
Il convient de ne pas attendre d’avoir suffisamment de données de bonne
qualité pour les publier. Les expériences vécues par l’OKNF démontrent au
contraire qu’il est nécessaire d’ouvrir rapidement celles qui offrent le moins
d’obstacles, même si ce ne sont pas celles qui ont le plus d’intérêt. La rapidité
permettra de montrer au personnel que le projet avance, ce qui est un facteur
de motivation.
Préconisation n° 5 : ouvrir les données déjà publiées dans des rapports
publics, ainsi que les données agrégées* régulièrement demandées à
l’organisme et qui ne présentent pas de risque de ré-identification.
6.5.
La question du degré d’ouverture des données
La difficulté de l’open data est qu’il lui est supposé des vertus pour le moment
non prouvées et qu’il est sensé atteindre des cibles très différentes. En effet,
les estimations en termes de gain de PIB de l’open data sont sujettes à
caution (cf. §2.3.3). Par ailleurs, la transparence vise les citoyens et
l’innovation les entreprises, mais les produits attendus sont-ils similaires ? On
peut en douter dans la mesure où les entreprises sont en attente de données
brutes (attente résumé par Tim Berners-Lee : « raw data, now ! ») tandis que
le citoyen aura des difficultés à interpréter de tels jeux de données. Pour ces
derniers, une réflexion sur la datavisualisation* et les API* est indispensable. Il
est donc nécessaire de prévoir deux types de produits différents, sachant que
les API réduisent l’ouverture des données et nécessitent plus de temps de
développement.
Préconisation n° 6 : amorcer une réflexion avec les partenaires, notamment
les associations promouvant la transparence, sur les données susceptibles
d’intéresser le citoyen afin d’en prévoir la datavisualisation via des API.
Par ailleurs, la logique d’ouverture devrait être prolongée aux API, sur le
modèle de ce que propose le CA Store (qui ne fait pas stricto sensu de l’open
data mais de l’open API). Cette initiative permet le développement réactif
d’applications par des tiers, contribuant à une amélioration du service à
l’usager. L’avantage des API est aussi de pouvoir permettre une application
MyData : l’usager pourrait non seulement avoir accès aux données déidentifiées des autres personnes, mais pourrait aussi obtenir les siennes.
Préconisation n° 7 : ouvrir les API afin de développer l’offre de services de
manière réactive.
6.6.
L’organisation d’un concours
Une négociation devrait être menée afin de discuter du niveau de retraitement
des données avant leur ouverture. En effet, la priorité de l’organisme
35
producteur est la protection des données à caractère personnel tandis que
l’intérêt des entreprises est de disposer des données les plus fines possibles
afin de maximiser leur potentiel de réutilisation.
Un parangonnage pourrait être mené pour avoir un état des lieux des
réflexions sur le niveau de seuil acceptable de la K-anonymisation et Ldiversité (voir l’annexe 1), ainsi que les techniques et outils utilisés pour
réduire le risque de ré-identification. La branche maladie dispose d’un retour
d’expérience important dans ce domaine technique. Il conviendrait cependant
de ne pas transposer les exigences de cette branche aux autres domaines de
la protection sociale. En effet, il pourrait être excessif de requérir un niveau de
protection équivalent à celui des données de santé. Les solutions existantes
sur étagère (ARX, µ-Argus – voir l’annexe 1) pourraient suffire.
Préconisation n° 8 : définir avec les partenaires les types de retraitements
des données brutes qui pourraient concilier au mieux la protection des
données personnelles avec le potentiel de réutilisation.
C’est à ce moment que l’organisation d’un hackathon pourrait être envisagée.
Cet événement serait l’occasion de déterminer le potentiel de réutilisation des
jeux de données identifiés lors des discussions avec les partenaires. Il
permettrait aussi de mettre en évidence les éventuelles failles de sécurité en
termes de ré-identification. L’autre intérêt est de voir émerger d’autres acteurs
intéressés par la démarche et ainsi construire un écosystème plus étoffé entre
réutilisateurs et producteur de données. Les représentants d’Etalab nous ont
précisé qu’ils étaient prêts à soutenir l'organisation d'un hackathon par des
OPS.
Préconisation n° 9 : une fois les jeux de données d’intérêt identifiés,
organiser un concours type hackathon avec l’appui d’Etalab.
Un tel réseau nécessite une stratégie d'animation de la part de l'organisme qui
ouvre ses données, stratégie qui ne peut se limiter à la seule organisation d'un
concours. Les échanges avec la communauté des réutilisateurs doivent
perdurer après cet événement initial afin de faire vivre la démarche et
l’améliorer par le crowdsourcing*. De même, l’organisme doit enrichir
régulièrement le site open data, que ce soit par la mise à disposition de
nouveaux jeux de données ou par l'actualisation des jeux déjà mis en ligne.
Préconisation n° 10 : mettre en place un animateur pérenne de la
communauté des réutilisateurs.
6.7.
Le choix de la plate-forme de diffusion
Les producteurs de données ouvertes devraient se faire référencer sur le site
data.gouv.fr pour se donner de la visibilité. En effet, les OPS ne sont pas
toujours bien identifiés par le citoyen, comme c’est le cas des activités de la
DRS. Le site d’Etalab renverrait ensuite vers le portail de l’organisme qui
aurait toute l’autonomie pour organiser ses jeux de données, ses
métadonnées* et organiser les échanges avec sa communauté de
réutilisateurs.
Préconisation n° 11 : Référencer l’organisme producteur de données sur
open.data.gouv.fr pour renvoyer vers un portail propre afin de donner de la
visibilité aux données ouvertes tout en conservant une autonomie dans la
présentation et l’animation du réseau de réutilisateurs.
36
6.8.
Une licence ouverte pour des jeux de données ouverts
Les entités qui se sont lancées dans une démarche open data ont
principalement retenu deux types de licence pour couvrir leurs jeux de
données mis à disposition du public : la licence OdbL (open database license)
ou la licence Etalab, également dénommée « licence ouverte » (cf. annexe 6).
Ces deux licences favorisent la réutilisation des données mises à disposition
en garantissant :
aux réutilisateurs que les données concernées sont libres de droits ;
aux producteurs qu’ils ne sont pas responsables de l’usage fait de
leurs données par les réutilisateurs.
La principale différence est que la licence OdbL impose au réutilisateur de
diffuser le fruit de son travail basé sur les données ouvertes dans des
conditions identiques à celles dont il a bénéficié pour l’acquisition de ces
mêmes données (« sharealike »). Cette licence interdit donc toute exploitation
commerciale payante d’applications développées à partir de données
ouvertes gratuites. La ville de Paris a choisi ce type de licence afin de
promouvoir un modèle de l’économie du partage.
La mission Etalab a conçu une licence ad hoc, la licence ouverte, pour lever la
condition du « sharealike » qui peut devenir dissuasive pour le secteur
marchand. La licence ouverte a donc une portée économique plus libérale que
la licence OdbL.
Quel que soit le choix de l’organisme, il importe qu’il se porte sur l’une de ces
deux licences afin d’éviter la multiplication des normes et d’engendrer de la
complexité dans les conditions de réutilisation.
Préconisation n° 12 : Choisir la licence OdbL ou la licence ouverte d’Etalab
afin d’assurer une homogénéité entre les jeux de données ouverts des
différents producteurs et éviter ainsi une complexité nuisible à la réutilisation
de jeux de données combinés.
6.9.
L'open data pourrait être intégré à la logique de l’évolution des SI
de la protection sociale
L’organisation cible des SI de la sphère de la protection sociale, telle que
pensée par la direction de la sécurité sociale, se prête à une démarche
d’ouverture. En effet, le schéma stratégique des SI préconise l’unicité des
référentiels* :
le répertoire des cotisants déclarants (RCD) a vocation à unifier le
référentiel des entreprises et des individus (REI) géré par l’ACOSS et
le référentiel national des entreprises et exploitants (RNE) de la MSA ;
le référentiel de gestion des carrières unique (RGCU) va se substituer
au système national de gestion des carrières (SNGC) et ainsi
regrouper les données de l’ensemble des régimes de retraite ;
le répertoire national commun de protection sociale (RNCPS) permet
quant à lui de regrouper dans un même référentiel l’ensemble des
bénéficiaires de la Sécurité sociale et de Pôle emploi, la nature des
prestations qui leur sont versées ainsi que leur adresse.
Outre les référentiels, l’entretien avec l’ACOSS a mis en évidence l’intérêt que
pouvaient posséder les déclarations sociales pour des entreprises. Une
société de transport a ainsi demandé à une URSSAF des informations
contenues dans ces documents afin de déterminer les principaux lieux de
37
travail des salariés et adapter en conséquence le tracé d’une ligne de
tramway. La future déclaration sociale nominative (DSN) rassemblera à terme
toutes les données qui faisaient jusqu’alors l’objet de déclarations séparées,
renforçant l’intérêt de ce type de document pour l’open data. Le GIP MDS
s’impose comme un acteur clé d’une éventuelle ouverture dans ce domaine.
Toutes ces bases de données rempliront le critère d’exhaustivité qui est
essentiel en matière d’open data. Il reste à les dé-identifier pour pouvoir les
ouvrir.
Préconisation n° 13 : inclure un volet open data dans les documents
stratégiques relatifs aux SI (SSSI, SDSI) pour prévoir une ouverture des
données dans les différents projets transversaux (RGCU, DSN, RNCPS…).
7. CONCLUSION
Les différentes définitions de l’open data interrogent sur la notion même
d’ouverture. Elles font apparaître qu’il n’y a pas, d’un côté, des données
ouvertes, et, de l’autre, des données fermées, propriétaires. La frontière entre
les deux extrêmes est un continuum et non une séparation nette. L’enjeu
d’une démarche open data consiste à respecter un maximum de critères pour
tendre vers une donnée « complètement ouverte » afin d’en assurer l’intérêt en terme de réutilisation - et l’interopérabilité*. Mais cet objectif n’est pas
atteignable en ce qui concerne les données administratives de protection
sociale.
En effet, des données brutes* ne pourront pas être publiées en l’état pour des
raisons légales de protection de la vie privée. Leur ouverture nécessite au
préalable un retraitement pour les dé-identifier*. Les jeux de données doivent
rester suffisamment détaillés : l’enjeu est de concilier une dé-identification
robuste avec une préservation de la richesse des données. Il s’agit donc
d’acquérir un savoir-faire ainsi qu’un réseau de partenaires pour arriver à cette
finalité, sachant que le sujet pourrait devenir une priorité politique à court
terme au regard du travail législatif actuel. Par ailleurs, un travail préalable de
réorganisation des données afin de constituer des bases fiables et
exhaustives est indispensable. Cette tâche est déjà en cours à travers la
stratégie des SI de la Sécurité sociale à laquelle il reste à intégrer l’open data
pour achever la démarche de décloisonnement de l’information.
Par ailleurs, les données ne sont plus les simples matériaux de base
cantonnés à l’accomplissement de la mission d’une administration
sociale (payer des prestations, accompagner des populations…). Elles sont
transverses car elles concernent aussi bien le cœur de métier que le
marketing, le développement de l’offre de services, la lutte contre la fraude ou
le pilotage stratégique d’une politique publique. C’est pour cette raison que
l’open data n’a pas qu’une finalité de transparence mais contribue aussi à
l’amélioration de la performance de l’action publique et à l’innovation dans
l’économie. L’ouverture des données doit ainsi permettre de mettre en réseau
des informations variées qui enrichiront la connaissance des administrations
et contribueront ainsi à améliorer globalement le service rendu. Cette
ouverture peut s’opérer mutuellement avec le secteur marchand en organisant
des partenariats.
La transversalité des données se traduit également par des axes de
traitement différents. La question ne se borne pas à une question d’ouverture.
Elle s’étend à l’enjeu des données de masse (big data*) et de l’exploitation par
les usagers de leurs propres données (projet « MesDonnées »*). Cette vision
38
stratégique globale de la donnée nécessite à terme de nouveaux métiers au
sein des OPS, comme celui de CDO et de datascientist pour répondre aux
nouveaux enjeux. A une époque où l’individualisation des services est une
tendance de fond, ne pas prendre la mesure de la gestion de la donnée dans
son ensemble pourrait faire porter un risque de déclassement de l’action
publique.
39
ANNEXE 1 - LA QUALITÉ DE LA DÉ-IDENTIFICATION
Les données administratives de protection sociale présentent un caractère
personnel*. Par conséquent, la question de leur anonymisation* (ou plus
exactement de leur dé-identification*) se pose avant d’envisager toute
ouverture.
La présente annexe a pour objectif de définir les différents termes attachés à
la problématique de la ré-identification et de présenter les critères à respecter
pour assurer une parade adéquate.
1. Définitions essentielles
1.1. La nature des données
Une donnée identifiante révèle directement l’identité d’une personne
(couple nom/prénom, NIR...).
Une donnée quasi-identifiante au sein d’une base de données peut conduire
à l’identification d’un individu par recoupement d’informations obtenues à
partir d’une autre source (inférence). Une étude menée en 2000 aux ÉtatsUnis par la professeure Latanya Sweeney a ainsi révélé que 87% de la
population pouvait être identifiée à partir de la connaissance du sexe, de la
date de naissance et du code ZIP. Ces trois types de données a priori anodins
ont été utilisés pour relier le registre des électeurs du Massachusetts, qui
comporte le nom, le sexe, la date de naissance et le code ZIP des électeurs,
avec une base de données qui contenait le sexe, la date de naissance, le
code ZIP et les diagnostics médicaux des employés de cet Etat. Il a été ainsi
possible de déterminer l’état de santé du gouverneur du Massachusetts.
Les données sensibles sont celles qui ne doivent pas être associées à un
individu identifié, à savoir le diagnostic médical dans l’exemple présenté cidessus. Les données identifiantes et quasi-identifiantes ne sont pas sensibles
en elles-mêmes.
1.2. La conciliation nécessaire entre la dé-identification et la réutilisation
Un attaquant est la personne qui cherche à ré-identifier un individu pour
rétablir le lien entre la donnée sensible et ce même individu. Il recoupera pour
cela l’ensemble des informations dont il dispose (technique du record-linkage,
ou liaison entre bases de données) afin de faire des inférences et remonter
ainsi à l’identité de l’individu.
L’anonymisation consiste à effacer tout lien entre les champs
identifiants/quasi-identifiants et la donnée sensible pour entraver l’action de
l’attaquant. Les critères d’anonymisation sont tels qu’on ne peut parler que de
dé-identification dans de nombreux cas. Seuls les données agrégées peuvent
être qualifiées d’anonymes, or leur ouverture présente souvent peu d’intérêt
car elles ont été agrégées pour une finalité particulière. L’objectif de l’open
data est justement de ne pas présumer de leur usage afin de maximiser les
réutilisations potentielles, ce qui nécessite des données ouvertes les plus
fines possibles à défaut des données brutes* elles-mêmes.
Ces données se présentent sous la forme de multiplets (ou enregistrements),
chacun correspondant à un individu. Les multiplets sont composés de
plusieurs champs. Chaque champs est une donnée (un attribut) sensible
40
(maladie, ressources financières…) ou non sensible (nom, prénom, date de
naissance, nationalité…). Concrètement, un multiplet correspond à une ligne
de tableaux de données, chacune de ces lignes étant associée à un individu.
Exemple : dans le tableau 1 présenté au paragraphe 2.1 ci-dessous,
l’ensemble {1 ; 13053 ; 28 ; Russie ; Maladie cardio-vasculaire} est le multiplet
qui caractérise l’individu n°1.
L’open data en matière de données administratives de protection sociale
concerne la diffusion de ces multiplets. Cela pose la question des
retraitements nécessaires pour les anonymiser tout en conservant un niveau
de détail suffisamment fin afin d’en garantir la réutilisation.
2. Les critères de dé-identification
2.1. Un exemple de jeu de donnée sans critère de dé-identification
Le tableau suivant (tableau 1) présente les données médicales d’un hôpital
fictif de New-York concernant douze patients. Les données identifiantes ont
été remplacées par un numéro d’anonymat, le pseudonyme. Dans cet
exemple, les attributs sont divisés en deux groupes : les attributs sensibles
(représentés par les conditions médicales) et les attributs non sensibles (code
postal, âge et nationalité).
Données non sensibles
Donnée sensible
Pseudonyme
CP
Age
Nationalité
Condition
1
13053
28
Russie
Maladie cardio-vasculaire
2
13068
29
Etats-Unis
Maladie cardio-vasculaire
3
13068
21
Japon
Infection virale
4
13053
23
Etats-Unis
Infection virale
5
14853
50
Inde
Cancer
6
14853
55
Russie
Maladie cardio-vasculaire
7
14850
47
France
Infection virale
8
14850
49
Etats-Unis
Infection virale
9
13053
31
Etats-Unis
Cancer
10
13053
37
Inde
Cancer
11
13068
36
Japon
Cancer
12
13068
35
Etats-Unis
Cancer
Tableau 1 – Jeu de données pseudonymisées
41
La pseudonymisation ne garantit pas un niveau de protection suffisamment
élevé si les données ne sont pas plus retravaillées. Les champs quasiidentifiants des multiplets peuvent permettre de retrouver l’individu concerné
comme l’illustre les diagnostics médicaux des employés de l’Etat du
Massachusetts évoqué supra.
Il est donc nécessaire que le jeu de données respecte un certain nombre de
critères pour résister aux attaques de ré-identifications.
2.2. La K-anonymisation
Pour contourner les attaques de record linkage, Sweeney et Samarati ont
proposé le critère de la « K-anonymisation » (« K-anonimity ») qui consiste, au
sein de chaque multiplet, à réduire le niveau de détail des données quasiidentifiantes.
Ainsi, une table est « K-anonyme » si chaque enregistrement de la table est
indiscernable d’au moins K-1 autres enregistrements.
Dans le tableau 1, les attributs « code postal », « âge » et « nationalité » sont
considérés comme des quasi-identifiants pour cette table. La nationalité sera
masquée, les deux autres champs seront brouillés pour être moins précis (les
codes postaux sont élargis à des régions, les âges précis sont remplacés par
des tranches d’âges) et atteindre le critère de K-anonymisation avec K = 4.
Dans le tableau 2 ci-dessous, chaque patient ayant la même clé
d’identification se retrouve dans le même bloc, ensemble mis en évidence par
des traits plus épais. Chaque bloc comprend 4 individus.
Données non sensibles
Pseudonyme
CP
Age
Nationalité
Données sensibles
Condition
1
130**
<30
*
Maladie cardio-vasculaire
2
130**
<30
*
Maladie cardio-vasculaire
3
130**
<30
*
Infection virale
4
130**
<30
*
Infection virale
5
1485*
≥ 40
*
Cancer
6
1485*
≥ 40
*
Maladie cardio-vasculaire
7
1485*
≥ 40
*
Infection virale
8
1485*
≥ 40
*
Infection virale
9
130**
3*
*
Cancer
10
130**
3*
*
Cancer
11
130**
3*
*
Cancer
12
130**
3*
*
Cancer
Tableau 2 – Jeu de données « 4-anonyme »
42
Ainsi, si un attaquant sait que Michel a été hospitalisé dans cet établissement
et qu’il a plus de 40 ans, il déduira que ce patient est l’individu n° 5, 6, 7 ou 8
mais il ne pourra pas déterminer l’affection. Il pourrait aussi bien s’agir d’un
cancer, d’une maladie cardio-vasculaire ou d’une infection virale. Michel est
ainsi protégé de la divulgation de la donnée sensible qui le concerne.
Néanmoins, le K-anonymisation ne peut à lui seul empêcher la divulgation
d’informations sensibles. Si l’attaquant sait que Larry a été hospitalisé et qu’il
a entre 30 et 39 ans, il devinera que Larry correspond aux individus n° 9, 10,
11 ou 12. Il déduira automatiquement que ce patient est atteint d’un cancer
puisque tous les individus de ce bloc ont la même affection.
2.3. La L-diversité
Il est donc nécessaire d’ajouter un critère supplémentaire de diversité. Un jeu
de données est L-divers si le brouillage des données quasi-identifiantes
conduit à avoir au moins L valeurs différentes de la donnée sensible au sein
de chaque bloc de patients. Le tableau 3 illustre ce cas de figure.
Données non sensibles
Pseudonyme
CP
Age
Données sensibles
Nationalité
Condition
1
1305* ≤ 40
*
Maladie cardio-vasculaire
4
1305* ≤ 40
*
Infection virale
9
1305* ≤ 40
*
Cancer
10
1305* ≤ 40
*
Cancer
5
1485* > 40
*
Cancer
6
1485* > 40
*
Maladie cardio-vasculaire
7
1485* > 40
*
Infection virale
8
1485* > 40
*
Infection virale
2
1306* ≤ 40
*
Maladie cardio-vasculaire
3
1306* ≤ 40
*
Infection virale
11
1306* ≤ 40
*
Cancer
12
1306* ≤ 40
*
Cancer
Tableau 3 – Jeu de données « 4-anonyme » et « 3-divers »
Même si l’attaquant sait que Larry a été soigné dans cet hôpital et qu’il connaît
son âge, voire son adresse, il ne pourra pas déterminer l’affection puisqu'il y
aura toujours 3 données sensibles différentes pour chaque bloc. Bien sûr, il
sera toujours possible à l’attaquant de déterminer l'information sensible si
celui-ci parvient à enrichir ses connaissances. S'il sait, par exemple, que Larry
travaille dans une profession exposée à des facteurs de risques cancérigènes
43
élevés, il pourra raisonnablement penser qu’il s’agit d’un cancer. Mais
l’obtention de ces informations complémentaires lui demandera plus de
moyens.
2.4. La T-proximité
Pour que la dé-identification soit encore plus efficace, il faudrait en outre que
la distribution des variables sensibles pour les individus ayant une même clé
d’identification soit suffisamment proche de la distribution sur la totalité de la
population. Il s’agit de la « T-proximité » (la distance entre les deux
distributions est inférieure à T).
Avec la T-proximité, le jeu de données remplit un critère supplémentaire de
protection contre la ré-identification, mais il diminue sensiblement l’intérêt du
jeu de données : Comment détecter que des habitants d'une localité sont plus
exposés à certaines maladies que le reste de la population ? L’intérêt d’un jeu
de données vient principalement de sa capacité à mettre en évidence des
irrégularités dans la répartition des données sensibles afin de mettre en place
des stratégies pour les corriger.
44
ANNEXE 2 – GRILLE D’ANALYSE DE DEUX SCÉNARIOS FICTIFS
Scénario à minima Scénario maximal
Image et qualité de service
L'application déployée permet-elle un gain de temps pour les bénéficiaires du service fourni ?
L'application déployée permet-elle un gain économique pour les bénéficiaires du service fourni ?
Si un gain est identifié, est-il significatif pour les bénéficiaires du service fourni (de nature à faire
évoluer leur comportement) ?
L'information fournie par le service permet-elle d'améliorer la prise de décision des bénéficiaires
(partenaires, entreprises ou associations uniquement) ?
Le service est-il de nature à dynamiser un secteur d'activité ?
Le scénario prévoit-il l'ouverture de nouvelles données ?
L'application déployée permet-elle d'améliorer l'information du bénéficiaire (contenu, personnalisation,
transparence, …) ?
Le service fourni est-il plus simple et compréhensible pour le bénéficiaire ?
L'application déployée permet-elle de réduire le nombre d'interlocuteurs pour le bénéficiaire ?
L'application déployée apporte-t-elle de nouveaux services ou un service plus complet par rapport à la
situation initiale ?
L'application déployée permet-elle un échange avec les bénéficiaires (forums, téléphone…) ?
Le déploiement s'effectuera-t-il sans perturbations temporaires significative du service fourni ?
L'application déployée contribue-t-elle au rayonnement de l'organisme? (rôle de référent...)
L'application déployée a-t-elle d'autres impacts significatifs en matière d'éthique ?
Le projet permet-il de développer les partenariats extérieurs de l'organisme?
Moyenne
4
2
4
4
0
4
0
4
0
0
4
4
0
4
4
4
4
4
2
4
0
4
2
0
2
4
0
4
4
4
1,6
3,7
45
Apports qualitatifs aux agents
L'application déployée permet-elle de recentrer les gestionnaires de service sur leur cœur de métier ?
L'application déployée permet-elle d'optimiser les ressources et/ou d'améliorer les processus (faire
mieux ou aussi bien avec pareil ou moins) ?
L'application déployée est-elle de nature à renforcer la responsabilisation des services ?
L'application déployée permet-elle la communication et le partage (informations, bonnes pratiques…)
entre les entités ou les ministères ?
Moyenne
Levier de transformation
Ce projet permet-il de transformer une organisation ou faire évoluer ses processus ?
Ce projet permet-il la mise en place d'une infrastructure ou de fonctions transverses utiles à d'autres
projets ?
Ce projet permet-il la mise en place d'un référentiel partagé (ou de données partagées) avec d'autres
projets ?
Moyenne
Besoins réglementaire et politique
Ce projet correspond-il à l'application d'une obligation réglementaire ?
La réglementation française ou européenne fait-elle porter un risque particulier au projet ou à
l'application déployée ?
Le projet contribue-t-il au cadre stratégique de l'organisme ?
Ce projet répond-il à une obligation de nature politique ?
L'immobilisme fait-il courir un risque politique fort ?
Moyenne
2
4
4
4
0
4
4
4
2,5
4
2
4
2
4
4
4
2,7
4
0
0
4
4
4
2
0
4
2
0
2
2
46
Maitrise des risques
Les fichiers mis à disposition ne contiennent pas de données à caractère personnel
Le risque de ré-identification par croisement des fichiers est maitrisé.
L'exploitation par un tiers des fichiers mis à disposition ne risque pas d'affecter la réputation de
l'organisme.
Y a-t-il un risque d'ouvrir des données qui ne devraient pas l'être ?
Ce projet fait-il preuve de simplicité fonctionnelle ?
Le projet risque-t-il d'être mal accepté en interne ? (changements organisationnels, transformation
des métiers...)
Moyenne
Degré d'ouverture des données
Les données sont-elles complètes ?
Les données sont-elles brutes ?
Les données sont-elles à jour ?
Les données sont-elles accessibles à tous pour tous usages ?
Le traitement peut-il être automatisé ?
Il n'existe pas de discriminations pour accéder aux données.
S'agit-il d'un format non propriétaire ?
S'agit-il d'une licence libre ?
Moyenne
4
4
0
2
4
2
2
4
4
0
2
2
3,3
1,7
0
0
4
2
4
4
2
2
4
4
4
4
4
4
4
4
2,3
4
47
ANNEXE 3 – SYNTHÈSE DES PRÉCONISATIONS
Préconisation n° 1 : Confier le pilotage de l’open data dans un premier temps
au service chargé de la statistique au sein de l’organisme national. Dans un
deuxième temps, un service de gestion de la donnée dirigé par un « chief data
officer » paraît le plus adapté pour définir et mettre en œuvre une politique
globale traitant de tous les aspects de la donnée.
Préconisation n° 2 : prendre en considération le travail de pédagogie auprès
des salariés en associant des associations impliquées dans la promotion de
l’open data.
Préconisation n° 3 : identifier les partenaires à partir des demandes de
données déjà faites, promouvoir la démarche auprès des associations
impliquées dans l’open data ainsi que sur les réseaux sociaux.
Préconisation n° 4 : susciter la coopération des autres régimes/entités
disposant du même type de données pour mener à bien l’open data.
Préconisation n° 5 : ouvrir les données déjà publiées dans des rapports
publics, ainsi que les données agrégées régulièrement demandées à
l’organisme et qui ne présentent pas de risque de ré-identification.
Préconisation n° 6 : amorcer une réflexion avec les partenaires, notamment
les associations promouvant la transparence, sur les données susceptibles
d’intéresser le citoyen afin d’en prévoir la datavisualisation via des API.
Préconisation n° 7 : ouvrir les API afin de développer l’offre de services de
manière réactive.
Préconisation n° 8 : définir avec les partenaires les types de retraitements
des données brutes qui pourraient concilier au mieux la protection des
données personnelles avec le potentiel de réutilisation.
Préconisation n° 9 : une fois les jeux de données d’intérêt identifiés,
organiser un concours type hackathon avec l’appui d’Etalab.
Préconisation n° 10 : mettre en place un animateur pérenne de la
communauté des réutilisateurs.
Préconisation n° 11 : Référencer l’organisme producteur de données sur
open.data.gouv.fr pour renvoyer vers un portail propre afin de donner de la
visibilité aux données ouvertes tout en conservant une autonomie dans leur
présentation et l’animation du réseau de réutilisateurs.
Préconisation n° 12 : Choisir la licence OdbL ou la licence ouverte d’Etalab
afin d’assurer une homogénéité entre les jeux de données ouverts des
différents producteurs et éviter ainsi une complexité nuisible à la réutilisation
de jeux de données combinés.
Préconisation n° 13 : inclure un volet open data dans les documents
stratégiques relatifs aux SI (SSSI, SDSI) pour prévoir une ouverture des
données dans les différents projets transversaux (RGCU, DSN, RNCPS…).
48
ANNEXE 4 – GLOSSAIRE
Anonymisation : procédé qui permet de respecter les trois critères
garantissant le caractère anonyme d’un jeu de données :
L’individualisation : il ne doit pas être possible d’individualiser une
personne ;
La corrélation : il ne doit pas être possible de relier plusieurs données
au sein d’un même jeu ou entre plusieurs jeux de données ;
L’inférence : il ne doit pas être possible de déduire des informations.
Dans les faits, dès que des données ne sont pas agrégées, elles ne peuvent
être anonymisées. Elles peuvent en revanche être dé-identifiées.
API : Interface de programmation permettant d’accéder à une application ou à
un programme. Des jeux de données peuvent être rendus accessibles soit par
téléchargement (pour les jeux de données raisonnablement stables dans le
temps) soit par API (pour les jeux de données très volumineux ou très
volatiles).
Big data : ensembles de données qui deviennent tellement volumineux qu'ils
en deviennent difficiles à travailler avec des outils classiques de gestion de
base de données ou de gestion de l'information.
Crowdsourcing : capacité à s’appuyer sur les utilisateurs des données pour
les produire, coproduire ou améliorer (exemple : pouvoir signaler une erreur
voir même la corriger). L’exemple typique de cette démarche est le projet
openstreetmap.
Datamining : Ensemble de techniques ayant pour objet l’extraction d’un
savoir à partir de grandes quantités de données, par des méthodes
automatiques ou semi-automatiques.
Datavisualisation : représentation des données de façon visuelle. Cela peut
se concrétiser par des graphiques, des camemberts, des diagrammes, des
cartographies, des chronologies, des infographies ou même des créations
graphiques inédites ou des photos. La présentation sous une forme illustrée
rend les données plus lisibles et compréhensibles.
Dé-identification : procédé au terme duquel l’identité de personnes (nom,
NIR…) dans un jeu de données est masquée. Des données dé-identifiées ne
sont pas nécessairement anonymes (voir « anonymisation ») car le processus
ne respectera pas l’un des 3 critères.
Données : description élémentaire d’une réalité, résultat d’une expérience ou
d’une observation. Elles peuvent résulter d’un premier travail de traitement
opéré sur des données brutes qui permet de leur donner du sens. Elles
recouvrent aussi bien du texte (documents de travail, notes internes, comptes
rendus, rapports, instructions…) que des chiffres (bases de données,
tableaux statistiques…) ou du code (informatique…). Le terme « donnée » est
assimilé à celui « d’information ».
Données administratives de protection sociale : données à caractère
personnel d’usagers détenues par les organismes dans le cadre de
l’exécution de leur mission de service public.
49
Données agrégées : données issues de traitements appliquées à des
données plus fines pour répondre à un axe d’analyse particulier. Il peut s’agir
par exemple du montant total des pensions de base versées dans un
département calculé à partir des bases de données individualisées d’une
CARSAT. Des données agrégées sont anonymes.
Données brutes : bases de données élémentaires détenues par les
organismes dans le cadre de leurs missions. Ces données n’ont été ni
agrégées ni soumises à aucun autre traitement d’analyse ou de synthèse
(regroupement par zones géographiques ou tranches d’âges, calculs de
moyennes, dé-identification ou anonymisation…). Elles peuvent avoir fait
l’objet de corrections en cas d’erreur (âge manifestement trop élevé, mauvaise
orthographe d’une adresse, montant erroné de prestations versées...).
Données (ou informations) publiques : Informations contenues dans les
documents produits ou reçus par un acteur public dans l’exercice de ses
missions de service public. Il peut s’agir de données brutes ou enrichies
contenues dans les documents administratifs : dossiers, rapports, études,
statistiques, circulaires, instructions, notes et réponses ministérielles (loi
CADA – article 10).
Le projet de loi Lemaire cite également les bases de données comme un type
d’information publique. La première rédaction de ce texte prévoyait aussi
d’intégrer le code source des logiciels utilisés par les administrations. Ce point
a été abandonné.
NB : La réutilisation des données prévue par la loi CADA ne concerne pas les
services publics à caractère industriel et commercial qui sont exclues (cf.
article 10). Le projet de loi Lemaire prévoit d’élargir l’obligation d’ouverture à
ces organismes en supprimant cette exception.
Données à caractère personnel ou données personnelles : toute
information relative à une personne physique identifiée ou qui peut être
identifiée, directement ou indirectement, par référence à un numéro
d’identification ou à un ou plusieurs éléments qui lui sont propres. Pour
déterminer si une personne est identifiable, il convient de considérer
l’ensemble des moyens en vue de permettre son identification dont dispose ou
auxquels peut avoir accès le responsable du traitement ou toute autre
personne (loi CNIL – article 2).
Données d’intérêt général : données privées dont l’intérêt pour la collectivité
justifierait une obligation d’ouverture. Cette notion a été utilisée pour imposer
une ouverture des données de mobilité détenues par des entreprises privées
ou publiques chargées d’une mission à caractère industriel et commercial
(sociétés de transport public) exclues du champ d’application de la loi CADA.
Données ouvertes : partage de données publiques ou privées par leur mise
en ligne dans des formats ouverts (par opposition aux formats propriétaires
dont les spécifications techniques ne sont pas accessibles au public) en
autorisant leur réutilisation libre (sans restrictions juridiques ou techniques) et
gratuite par toute personne.
Données privées : par opposition aux données publiques, il s’agit
d’informations détenues par des acteurs ne relevant pas de l’obligation légale
de communication de documents : les entreprises privées et les personnes
publiques assurant une mission à caractère industriel et commercial sont
exclues du périmètre de l’article 10 de la loi CADA.
50
Entrepôts de données : base de données utilisée pour stocker des
informations provenant des logiciels métiers d’une entreprise et fournir ainsi
un socle à l'aide à la décision en entreprise.
Hackathon : Concours organisé sur une courte période (24 à 48h) durant
lequel des jeux de données sont mis à la disposition de développeurs afin de
programmer des applications et/ou d’en évaluer la robustesse en terme de réidentification.
Hyperlien (ou lien hypertexte, ou lien web, ou lien) : référence dans un
système hypertexte permettant de passer automatiquement d'un document
consulté à un document lié. Les hyperliens sont notamment utilisés dans le
World Wide Web pour permettre le passage d'une page Web à une autre à
l'aide d'un clic.
Information : l'information désigne à la fois le message à communiquer et les
symboles utilisés pour l'écrire.
Interopérabilité : capacité que possède un produit ou un système, dont les
interfaces sont intégralement connues, à fonctionner avec d’autres produits ou
systèmes existants ou futurs et ce sans restriction d’accès ou de mise en
œuvre.
Libre/ouvert (format, standard, logiciel, données) : Les termes format
ouvert, format libre ou encore spécification ouverte, désignent des formats de
données interopérables et dont les spécifications techniques sont publiques et
sans restriction d’accès ni de mise en œuvre. Les fichiers portant l’extension
« .csv » sont libres, par opposition à un format fermé ou propriétaire comme
les fichiers Excel (extension « .xls »).
NB : des données en format libre ne sont pas forcément gratuites (une
redevance peut être demandée en contrepartie de leur fourniture). A contrario,
des données en format propriétaire, non libres, peuvent être gratuites.
Mydata / Midata / Mesdonnées : démarche ayant pour objectif à ce que les
individus, agissant seuls ou en commun, puissent exploiter leurs propres
données pour en tirer des bénéfices personnels ou mutuels. Il s’agit à l’origine
du nom d’un programme britannique.
Open source : ouverture et partage des codes de programmation des
logiciels (différent de la gratuité des logiciels).
Portabilité des données : possibilité de gérer soi-même ses données
personnelles, de les porter d'un système à un autre, de les partager entre
plusieurs systèmes. Il s’agit pour l’usager d’un droit à disposer librement de
ses données (gestion, choix d’un fournisseur de données) qui sont restituées
dans un format standard ouvert.
Pseudonymisation : procédé de dé-identification avec recours à un
identifiant conventionnel (numéro d’anonymat) en lieu et place de l’identité de
la personne.
Réutilisateur : personne physique ou moral qui collecte les données ouvertes
par des organismes producteurs de données afin de produire un service. Les
utilisateurs sont les organismes producteurs.
SI décisionnel (informatique décisionnelle) : moyens, outils et méthodes
qui permettent de collecter, consolider, modéliser et restituer les données,
matérielles ou immatérielles, d'une entreprise en vue d'offrir une aide à la
décision et de permettre à un décideur d’avoir une vue d’ensemble de l’activité
traitée.
51
URI : moyen d’identification d’une ressource physique ou abstraite (comme
une page web) d’un réseau et dont la syntaxe respecte une norme internet
élaborée par le W3C.
URL : sous-ensemble d’URI qui, en plus d’identifier une ressource, permet de
la localiser. Il s’agit par exemple de l’adresse d’une page web :
http://www.en3s.fr.
Web (ou World Wide Web) : littéralement la « toile (d’araignée) mondiale »,
communément appelé le Web, le WWW est un système hypertexte public
fonctionnant sur Internet. Le Web permet de consulter, avec un navigateur,
des pages accessibles sur des sites. L’image de la toile d’araignée vient des
hyperliens qui lient les pages web entre elles. Il ne s’agit que d’une des
applications d’Internet distincte d’autres applications comme le courrier
électronique, la messagerie instantanée, et le partage de fichiers en pair à
pair. Le Web a été inventé par Tim Berners-Lee et Robert Cailliau plusieurs
années après Internet.
52
ANNEXE 5 – SIGLES
ACOSS : Agence centrale des organismes de sécurité sociale
ANSES : Agence nationale de sécurité sanitaire de l’alimentation, de
l’environnement et du travail
APIE : Agence du patrimoine immatériel de l’Etat
ASIPAG : Syndicat national de la Silver économie
CADA : Commission d’accès aux documents administratifs
CAF : Caisse d’allocations familiales
CDC : Caisse des dépôts et consignations
CARSAT : Caisse d’assurance retraite et de santé au travail
CEREMA : Centre d'études et d'expertise sur les risques, l'environnement, la
mobilité et l'aménagement
CIMAP : Comité interministériel de modernisation de l’action publique
CNAF : Caisse nationale des allocations familiales
CNAMTS : Caisse nationale d’assurance maladie des travailleurs salariés
CNAV : Caisse nationale d’assurance vieillesse
CNDP : Commission nationale du débat public
CNIL : Commission nationale de l’informatique et des libertés.
CNRACL : Caisse nationale de retraite des agents des collectivités locales
COEPIA : Conseil d’orientation de l’éditique publique et de l’information
administrative
CP : Code postal
DREES : Direction de la recherche, des études, de l’évaluation et des
statistiques
DRS : Direction des retraites et de la solidarité (Caisse des dépôts et
consignations)
DSI : Direction du système d’informations
DSN : Déclaration sociale nominative
DSS : Direction de la Sécurité sociale
EPCI : Etablissement public de coopération intercommunale
ETP : Equivalent temps plein
GIE : Groupe d’intérêt économique
GIP : Groupe d’intérêt public
IGN : Institut national de l’information géographique et forestière
INS : Institut national des données de santé
INSEE : Institut national de la statistique et des études économiques
53
IRCANTEC : Institution de retraite complémentaire des agents non titulaires
de l’Etat et des collectivités publiques
LFSS : Loi de financement de la Sécurité sociale
MDS : Modernisation des déclarations sociales
MSA : Mutualité sociale agricole
NIR: Numéro d’inscription au repertoire national d’identification des personnes
physique
OdaF : Open data Foundation
OdbL : Open database license
OKFN : Open Knowledge Foundation
OPS : Organismes de protection sociale
OSS : Organismes de Sécurité sociale
RA : Recherche-action
RAVGDT : Régie des allocations viagères des gérants de débits de tabac
RCD : Répertoire des cotisants déclarants
REI : Référentiel des entreprises et des individus
RSE : Responsabilité sociale et environnementale
RGCU : Répertoire de gestion des carrières unique
RGPP : Révision général des politiques publiques
RNE : Référentiel national des entreprises et exploitants
SDSI : Schéma directeur des systèmes d’information
SGMAP : Secrétariat général de modernisation de l’action publique
SI : système d’informations
SNGC : Système national de gestion des carrières
SNIIRAM : Système national d’information interrégimes d’assurance maladie
SSSI : Schéma stratégique des systèmes d’informations
UCANSS : Union des caisses nationales de Sécurité sociale
URI : Uniform Resource Identifier
URL : Uniform Resource Locator
URSSAF : Union de recouvrement des cotisations de sécurité sociale et
d’allocations familiales.
W3C : World Wide Web Consortium
54
ANNEXE 6 – LISTE DES INTERVIEWS
Organisme
Interviewé
Fonction
Date et
modalité
ACOSS
Agence Centrale des
organismes de sécurité
sociale
M. VIARD
Christian
Direction de la
Statistique, des
études, de la
prévision
01/10/2015
Entretien
téléphonique
ASIPAG
Syndicat national de la
Silver économie
M. PIGNIEZ
Jérôme
Secrétaire
général
15/09/2015
Entretien
téléphonique
BCSS
Banque carrefour de la
Sécurité sociale
M.
DESTERBECQ
Thierry
Juriste
10/12/2015
Entretien en
face à face
CADA
Commission d’Accès
aux Documents
Administratif
M. POLGE
Nicolas
Rapporteur
général
24/09/2015
Entretien en
face
à face
CARSAT Pays de
Loire
Caisse d’Assurance
Retraite et de la Santé
au Travail
Mme LUDWIG
Julie
Statisticienne en
charge du projet
open data
22/05/2015
Entretien en
face
à face
CREDIT AGRICOLE
STORE
GIE service
d’applications
bancaires
M. METHIVIER
Emmanuel
Directeur
25/08/2015
Entretien en
face
à face
CNAF
Caisse Nationale
d’allocations familiales
M. TAPIE
Bernard
Directeur des
statistiques, des
études et de la
recherche
09/07/2015
Entretien en
face
à face et
01/12/2015
entretien
téléphonique
55
Organisme
Interviewé
Fonction
Date et
modalité
CNAMTS
Caisse Nationale de
l’Assurance Maladie
des Travailleurs
Salariés
M. LESAGE
Jean Michel
Directeur du
Pôle Paris Val
de Seine Hébergement
SNIIRAM
08/07/2015
Entretien en
face
à face
CNAMTS
Caisse Nationale de
l’Assurance Maladie
des Travailleurs
Salariés
M. GISSOT
Claude
Directeur de la
stratégie, des
études et des
statistiques
(DSES) Maîtrise
d’ouvrage
SNIIRAM
03/09/2015
Entretien
téléphonique
CNAV
Caisse Nationale
d’Assurance Vieillesse
Mme BREUIL
Pascale
Directrice de la
Statistique,
prospective,
recherche
04/08/2015
Entretien
téléphonique
ETALAB
M. EIDELMAN
Alexis
Datascientist
03/06/2015
Conseiller
auprès de la
mission Etalab
Entretiens en
face
à face
M. RATIER
Daniel
FRANCE STRATEGIE
Commissariat général
à la stratégie et à la
prospective
M. MARGUERIT
David
Chargé de
mission au
département
des questions
sociales
03/06/2015
Entretien en
face
à face
POLE EMPLOI
M. CHAPUIS
Raynald
Directeur
Innovation et
RSE
25/08/2015
Entretien
téléphonique
UCANSS
M. LEGAIT
Bertrand
Directeur des
études et des
statistiques
23/07/2015
Entretien
téléphonique
56
ANNEXE 7 – LA LICENCE OUVERTE D’ETALAB
La présente annexe présente une copie des conditions de la licence ouverte.
La reprise du logotype indiqué en en-tête de la page suivante indique que le
jeu de donnée concerné est soumis à cette licence.
57
LICENCE OUVERTE
OPEN LICENCE
Vous pouvez réutiliser « l’Information » rendue disponible par le « Producteur » dans
les libertés et les conditions prévues par la présente licence.
LA REUTILISATION DE L’INFORMATION DIFFUSEE SOUS CETTE
LICENCE
Le « Producteur » garantit au « Réutilisateur » le droit personnel, non exclusif et gratuit, de
réutilisation de « l’Information » soumise à la présente licence, dans le monde entier et pour
une durée illimitée, dans les libertés et les conditions exprimées ci-dessous.
VOUS ETES LIBRE DE REUTILISER « L’INFORMATION » :
•
•
•
•
Reproduire, copier, publier et transmettre « l’Information » ;
Diffuser et redistribuer « l’Information » ;
Adapter, modifier, extraire et transformer à partir de « l’Information »,
notamment
pour créer des « Informations dérivées » ;
Exploiter « l’Information » à titre commercial, par exemple en la combinant avec d’autres
« Informations », ou en l’incluant dans votre propre produit ou application.
SOUS RESERVE DE :
•
Mentionner la paternité de « l’Information » : sa source (a minima le nom du « Producteur
») et la date de sa dernière mise à jour.
Le « Réutilisateur » peut notamment s’acquitter de cette condition en indiquant un ou des
liens hypertextes (URL) renvoyant vers « l’Information » et assurant une mention
effective de sa paternité.
Cette mention de paternité ne doit ni conférer un caractère officiel à la réutilisation de «
l’Information », ni suggérer une quelconque reconnaissance ou caution par le «
Producteur », ou par toute autre entité publique, du « Réutilisateur » ou de sa réutilisation.
OCTOBRE 2011
58
LICENCE OUVERTE
RESPONSABILITE
« L’Information » est mise à disposition telle que produite ou reçue par le « Producteur », sans
autre garantie expresse ou tacite qui n’est pas prévue par la présente licence.
Le « Producteur » garantit qu’il met à disposition gratuitement « l’Information » dans les
libertés et les conditions définies par la présente licence. Il ne peut garantir l’absence de
défauts ou d’irrégularités éventuellement contenues dans « l’Information ». Il ne garantit pas
la fourniture continue de « l’Information ». Il ne peut être tenu pour responsable de toute
perte, préjudice ou dommage de quelque sorte causé à des tiers du fait de la réutilisation.
Le « Réutilisateur » est le seul responsable de la réutilisation de « l’Information ». La
réutilisation ne doit pas induire en erreur des tiers quant au contenu de « l’Information », sa
source et sa date de mise à jour.
DROITS DE PROPRIETE INTELLECTUELLE
Le « Producteur » garantit que « l’Information » ne contient pas de droits de propriété
intellectuelle appartenant à des tiers.
Les éventuels « Droits de propriété intellectuelle » détenus par le « Producteur » sur des
documents contenant « l’Information » ne font pas obstacle à la libre réutilisation de «
l’Information ». Lorsque le « Producteur » détient des « Droits de propriété intellectuelle » sur
des documents qui contiennent « l’Information », il les cède de façon non exclusive, à titre
gracieux, pour le monde entier et pour toute la durée des « Droits de propriété intellectuelle »,
au « Réutilisateur » qui peut en faire tout usage conformément aux libertés et aux conditions
définies par la présente licence.
COMPATIBILITE DE LA PRESENTE LICENCE
Pour faciliter la réutilisation des « Informations », cette licence a été conçue pour être
compatible avec toute licence libre qui exige a minima la mention de paternité. Elle est
notamment compatible avec les licences « open Government Licence » (OGL) du RoyaumeUni, « Creative Commons Attribution 2.0 » (CC-BY 2.0) de Creative Commons et « open data
Commons Attribution » (ODC-BY) de l’open Knowledge Foundation.
DROIT APPLICABLE
La présente licence est régie par le droit français.
OCTOBRE 2011
59
DEFINITIONS
DROITS DE PROPRIETE
INTELLECTUELLE*
Il s’agit des droits identifiés comme tels
par le Code de la propriété intellectuelle
(droit d’auteur, droits voisins au droit
d’auteur, droit sui generis des bases de
données).
INFORMATION*
Il s’agit des données ou des informations
proposées à la réutilisation dans les libertés
et les conditions de cette licence.
PRODUCTEUR*
Il s’agit de l’entité qui produit «
l’Information » et l’ouvre à la réutilisation
dans les libertés et les conditions prévues
par cette licence.
REUTILISATEUR*
Il s’agit de toute personne physique ou
morale qui réutilise « l’Information »
conformément
aux libertés et aux
conditions de cette licence.
INFORMATIONS DERIVEES*
Il s’agit des nouvelles données ou
informations qui ont été créés soit
directement à partir « d’Informations »,
soit à partir d’une combinaison «
d’Informations » et d’autres données ou
informations
qui ne seraient pas
soumises à cette licence.
À propos de la licence ouverte
Etalab est la mission chargée sous l’autorité du Premier ministre d’ouvrir le plus grand nombre
de données publiques des administrations de l’Etat et de ses établissements publics. Elle a
réalisé la Licence Ouverte pour faciliter la réutilisation libre et gratuite de ces informations
publiques, telles que définies par l’article 10 de la loi n°78-753 du 17 juillet 1978.
Dans le cadre de leurs missions de service public, les administrations produisent ou reçoivent des
informations publiques qui peuvent être réutilisées par toute personne physique ou morale à d’autres
fins que celles de la mission de service public.
Ne sont pas des informations publiques au sens de la loi du 17 juillet 1978 les informations contenues
dans des documents dont la communication ne constitue pas un droit (en application de la loi du 17
juillet 1978 ou d’autres dispositions législatives, sauf si ces informations font l’objet d’une diffusion
publique), celles contenues dans des documents produits ou reçus par les administrations dans l’exercice
d’une mission de service public à caractère industriel ou commercial, et celles contenues dans des
documents sur lesquels des tiers détiennent des droits de propriété intellectuelle.
Ne sont également pas des informations publiques susceptibles d’être réutilisées celles qui contiennent
des données à caractère personnel, sauf lorsque les personnes intéressées y ont consenti, ou lorsqu’elles
ont fait l’objet d’une anonymisation par l’administration, ou lorsqu’une disposition légale ou
réglementaire le permet (dans ces trois cas, la réutilisation est subordonnée au respect de la loi n°78-17
du 6 janvier 1978).
Cette licence est une version 1.0 de la Licence Ouverte Etalab se réserve la faculté de
proposer de nouvelles versions de la Licence Ouverte. Cependant, les réutilisateurs
pourront continuer à réutiliser les informations disponibles sous cette licence s’ils le
souhaitent.
60
ANNEXE 8 – BIBLIOGRAPHIE ET SITOGRAPHIE
Bibliographie :
Aquitaine Europe Communication (AEC), Les données publiques, guide
juridique et pratique n°4, décembre 2010, 27 p.
BOUCHOUX Corinne, Accès aux documents administratifs et aux
données publiques Rapport d’information au Sénat fait au nom de la mission
commune d’information sur l’accès aux documents administratifs et aux
données publiques, tome 1, 2014, 215 p.
BRAS Pierre-Louis, LOTH André, Rapport sur la gouvernance et
l’utilisation des données de santé, IGAS-DREES, Rapport à la ministre des
Affaires sociales et de la Santé, 2013, 128 p.
BRUGIERE Amandine, NEPOTE Charles, Guide pratique de l’ouverture
des données publiques territoriales, Version de travail n°1, Fing, Janvier
2011, 66 p.
CEREMA, L'Open data en collectivités à la lumière des données de
mobilité, 2015, 86 p.
Charte du G8 pour l’ouverture des données publiques, 18 juin 2013,
Traduction non-officielle préparée par Etalab en collaboration avec le
gouvernement du Canada, 11 p.
CHIGNARD Simon, Opendata. Comprendre l’ouverture des données
publiques, FYP Editions, Mars 2012, 191 p.
Commission nationale de l’informatique et des libertés, Rapport de
résultats : Consultation Open data et données personnelles, avril 2014,
82 p.
Commission open data en santé, Rapport remis à Mme Marisol Touraine,
Ministre des Affaires Sociales et de la Santé le 9 juillet 2014, 63 p.
Conseil d’orientation de l’édition publique
administrative (COEPIA), Quelle information
et de l’information
pour quel public ?
61
Information
administrative,
données
publiques,
administratives, Rapport 2012-2013, 2013, 200 p.
publications
Conseil national du numérique, Ambition numérique, pour une politique
française et européenne de la transition numérique, Rapport remis au
Premier ministre, juin 2015, 399 p.
Deloitte Conseil, Département de Loire Atlantique Open Data 44
Evaluation de la démarche, 2014, 64 p.
Direction de la recherche, des études, de l’évaluation et de la statistique,
Données de santé : anonymat et risque de ré-identification, Dossier
solidarité et santé n°64, juillet 2015, 103 p.
École des Ponts ParisTech, Pour une politique ambitieuse des données
publiques, 2011, 116 p.
Etalab, Vade-mecum sur le partage et l'ouverture des données
publiques, 11 p.
GORCE Gaëtan,
PILLET François, La protection des données
personnelles dans l’Open data : une exigence et une opportunité,
Rapport d’information de la commission des lois du Sénat, 2014, 85 p.
HAMEL Marie-Pierre, MARGUERIT David, Analyse des bis data, quels
usages, quels défis ? Commissariat général à la stratégie et à la
prospective, Note d’analyse n°8, 2013, 12 p.
KOBER Vincent, Open data ouverture, exploitation, valorisation des
données publiques, Territorial éditions, Voiron, 2014, 100 p.
MANYIKA J. et al., Open data: unlocking innovation and performance
with liquid information, Mc Kinsey Global Institute, 2013, 103 p.
MGDIS, Livre Blanc : Réussir son projet Open Data, 2014, 15 p.
Open Knowledge Foundation, Open data handbook documentation,
2012, 23p.
62
TROJETTE Mohammed,
Ouverture des données publiques, les
exceptions au principe de gratuité sont-elles toutes légitimes ?, Rapport
au Premier ministre, juillet 2013, 121 p.
UBALDI B., Open Government Data: Towards Empirical Analysis of Open
Government Data Initiatives, OECD Working Papers on Public Governance,
No. 22, OECD, 60 p.
Sitographie :
http://www.bpifrance-lelab.fr/Bpifrance-Le-Lab/
Bpifrance Le Lab est un think tank dédié aux PME et aux ETI françaises
http://www.data.caf.fr
Site open data des allocations familiales
http://data.gouv.fr
Plate-forme ouverte des données publiques françaises, administrée par Etalab
http://donneesouvertes.info/
Site de Simon Chignard, auteur de « L'open data, comprendre l'ouverture des
données publiques » (Fyp Editions, 2012)
https://libertic.wordpress.com/
Blog de l’association nantaise LiberTIC dont l’objectif est de promouvoir l’edémocratie et l’ouverture des données publiques
https://www.data.gov/
Plate-forme ouverte des données publiques des Etats-Unis.
https://data.gov.uk/
Plate-forme ouverte des données publiques du Royaume-Uni
63
TABLE DES MATIÈRES
SOMMAIRE ..................................................................................................... 4
1.
INTRODUCTION ...................................................................................... 5
1.1. Qu’est-ce que l’open data? ................................................................................5
1.2. Quelles particularités de l’open data en matière de données administratives
de protection sociale ?.......................................................................................5
1.3. La Direction des retraites et de la solidarité (DRS) de la Caisse des dépôts et
consignations (CDC) en tant qu’acteur de la protection sociale .......................5
1.4. La démarche open data de la DRS .....................................................................6
1.5. Le périmètre du projet .......................................................................................7
2. L’OPEN DATA, UN CONCEPT RECENT AUX FINALITES POLITIQUES ET
ECONOMIQUES .......................................................................................... 7
2.1. Une démarche d'ouverture associée à une sémantique complexe ..................7
2.1.1.
Les définitions de l’open data ................................................................ 7
2.1.2.
Les notions associées ............................................................................. 9
2.1.3.
Des notions connexes distinctes mais complémentaires .................... 11
2.2. Une histoire récente qui mobilise de nombreux acteurs ............................... 12
2.2.1.
Une origine scientifique dans une optique de partage des données .. 12
2.2.2.
Une promotion par les développeurs informatiques .......................... 12
2.2.3.
Un sujet dont s’emparent les corps intermédiaires ............................ 13
2.2.4.
Une démarche reprise par les politiques, en particulier dans le monde
anglo-saxon .......................................................................................... 13
2.2.5.
Un intérêt du secteur marchand ........................................................ 13
2.3. Des moteurs de l’open data caractérisés par leur variété.............................. 14
3.
2.3.1.
La transparence ................................................................................... 14
2.3.2.
La performance .................................................................................... 14
2.3.3.
L’innovation et la croissance ............................................................... 14
ÉTAT DES LIEUX DE L’OPEN DATA EN FRANCE ............................... 15
3.1. L’open data, un enjeu politique fort qui se formalise dans un agenda
institutionnel................................................................................................... 15
3.2. Les parties prenantes au débat : le poids de l’institutionnel.......................... 16
3.2.1.
Les acteurs structurants....................................................................... 16
3.2.2.
Les acteurs en charge du conseil et de la promotion .......................... 16
3.2.3.
Les organes de contrôle ....................................................................... 17
64
3.2.4.
Synthèse des acteurs impliqués dans l’open data ............................... 17
3.3. Données publiques, données personnelles, données d’intérêt général : des
enjeux juridiques multiples et complexes ...................................................... 18
3.3.1.
Le cadre réglementaire ........................................................................ 18
3.3.2.
Un périmètre évolutif .......................................................................... 18
3.4. Un mouvement institutionnalisé qui s'amplifie, proposant une nouvelle façon
de concevoir et d’évaluer l’action publique ................................................... 20
3.5. Une progression en ordre dispersé et des interrogations qui subsistent ...... 21
4. ENJEUX ET OPPORTUNITES POUR LA PROTECTION SOCIALE EN
FRANCE .................................................................................................... 24
4.1. Des atouts certains pour les organisations ..................................................... 24
4.1.1.
Une image moderne, une visibilité accrue .......................................... 24
4.1.2.
Une source d’externalités positives pour l’économie mais aussi de
retours sur investissements pour le producteur de données ............. 24
4.1.3.
Un gain de légitimité ............................................................................ 24
4.2. Les risques d’une démarche open data restent maîtrisables ......................... 25
4.2.1.
Le risque de ré-identification ............................................................... 25
4.2.2.
Le risque de mésusage des données ouvertes par des acteurs
extérieurs ............................................................................................. 25
4.2.3.
Le risque de non utilisation des données ouvertes ............................. 26
4.2.4.
Le risque d’un déséquilibre au détriment du secteur public ............... 26
4.3. Un coût de l’open data à relativiser ? ............................................................. 27
4.3.1.
Les dépenses et les effectifs liés au projet et à la structure pérenne . 27
4.3.2.
La suppression des redevances ........................................................... 27
4.4. Une démarche difficilement évaluable ........................................................... 28
4.5. Le positionnement du groupe sur la question de l’open data en matière de
données administratives de protection sociale .............................................. 28
4.5.1.
L’argument de la transparence ............................................................ 28
4.5.2.
Un levier pour développer l’offre de services ..................................... 29
4.5.3.
Une contribution à la création de richesse et la promotion d’un
comportement responsable ................................................................ 29
5. DES D’OUTILS D’AIDE A LA DECISION POUR LANCER UNE
DEMARCHE OPEN DATA ......................................................................... 30
5.1. Un outil de comparaison stratégique ............................................................. 30
5.1.1.
Le niveau d’ouverture des données, définition même de l’open data 30
5.1.2.
Les objectifs conférés au projet ........................................................... 30
5.2. Un outil à portée plus opérationnelle............................................................. 31
65
6. LES PRECONISATIONS EN MATIERE D’OUVERTURE DES DONNEES
DE PROTECTION SOCIALE ..................................................................... 32
6.1. L’open data s’intègre dans une stratégie globale de l’exploitation de la
donnée ............................................................................................................ 32
6.2. Un projet à forte dimension pédagogique ..................................................... 33
6.3. L’open data est une démarche collaborative ................................................. 34
6.3.1.
La recherche des réutilisateurs potentiels .......................................... 34
6.3.2.
Un travail à réaliser en coopération avec les autres OPS détenant des
données similaires ............................................................................... 34
6.4. Le processus d’ouverture des données est incrémental ................................ 35
6.5. La question du degré d’ouverture des données ............................................. 35
6.6. L’organisation d’un concours .......................................................................... 35
6.7. Le choix de la plate-forme de diffusion .......................................................... 36
6.8. Une licence ouverte pour des jeux de données ouverts ................................ 37
6.9. L'open data pourrait être intégré à la logique de l’évolution des SI de la
protection sociale ........................................................................................... 37
7.
CONCLUSION........................................................................................ 38
ANNEXE 1 - LA QUALITE DE LA DE-IDENTIFICATION ............................... 40
1.
2.
Définitions essentielles ................................................................................... 40
1.1.
La nature des données............................................................................. 40
1.2.
La conciliation nécessaire entre la dé-identification et la réutilisation ... 40
Les critères de dé-identification ..................................................................... 41
2.1.
Un exemple de jeu de donnée sans critère de dé-identification ............ 41
2.2.
La K-anonymisation ................................................................................. 42
2.3.
La L-diversité ............................................................................................ 43
2.4.
La T-proximité .......................................................................................... 44
ANNEXE 2 – GRILLE D’ANALYSE DE DEUX SCENARIOS FICTIFS ........... 45
ANNEXE 3 – SYNTHESE DES PRECONISATIONS ..................................... 48
ANNEXE 4 – GLOSSAIRE ............................................................................ 49
ANNEXE 5 – SIGLES .................................................................................... 53
ANNEXE 6 – LISTE DES INTERVIEWS ........................................................ 55
ANNEXE 7 – LA LICENCE OUVERTE D’ETALAB ........................................ 57
ANNEXE 8 – BIBLIOGRAPHIE ET SITOGRAPHIE ....................................... 61
TABLE DES MATIERES ................................................................................ 64
66
Ecole nationale supérieure de Sécurité sociale.
Rapport réalisé par Valérie GAYTE, Benjamin GENY, Aurélie JAULIN, Nicolas
MACQUERON et Benjamin NORMAND (chef de projet).
Sous la direction d’Isabelle BRIDENNE, responsable des études de la DRS à
la CDC.
Titre du rapport : L’open data en matière de données administratives de
protection sociale.
Mots clés : open data, Etalab, données brutes, hackathon, anonymisation,
innovation, transparence, performance, big data, MyData.
La création de l’agence Etalab en 2011 a marqué un tournant dans
l’appréhension par les administrations publiques des données qu’elles
produisent ou collectent. La donnée administrative n’est ainsi plus considérée
comme la propriété exclusive de son détenteur, mais comme un levier
d’amélioration des pratiques et de création de valeur. Dans cette approche,
les bases de données de la sphère de la protection sociale deviennent alors
de véritables gisements de matières premières. L’enjeu de ce rapport est de
s’interroger sur l’opportunité d’introduire une démarche open data au sein de
la protection sociale, ainsi que sur ses modalités de mise en place.
Le présent rapport s’appuie sur un travail de recherche documentaire
préalable, qui a pour objectif d’appréhender les grands enjeux liés à
l’ouverture des données sociale, et de délimiter le périmètre de l’open data.
Ce travail préliminaire a ensuite servi de base de discussion lors des
entretiens menés avec les principaux organismes de protection sociale, mais
également avec d’autres opérateurs du service public ainsi qu’avec deux
structures privées. Cette phase d’entretien a pour finalité de comparer les
pratiques existantes afin d’identifier les facteurs de réussite et les points de
vigilance.
Ce double travail de recherche a permis de confronter les objectifs affichés de
la démarche avec les contraintes et les difficultés rencontrés par les différents
interlocuteurs, en particulier sur les moyens mobilisables. La création de
grilles comparatives et l’application d’une méthode d’analyse de la valeur a
conduit le groupe à dégager un certain nombre d’axes de travail, présentés
sous forme de préconisations. L’ouverture des données suppose en effet de
définir une stratégie globale d’exploitation de la donnée pour préparer la mise
en place de l’open data, mais également pour développer et animer la
démarche dans la durée.
67
Téléchargement