
1
Enjeuxéthiquesdu«BigData»:Opportunitésetrisques
Séminaireorganiséparlegroupe«StatistiqueetenjeuxPublics»delaSFdSle22mai2014
AccueilduDirecteurduGroupeNationaldesEcolesd’Economieetde
Statistiques
AntoineFrachot,directeurduGENESGroupedesécolesnationalesd’économieetdestatistique
souhaitelabienvenueauxparticipantsdansleslocauxdel’ENSAE.LeGENESregroupedeuxécoles,
l’ENSAIetl’ENSAE,quitoutesdeuxontdéveloppédesfilièresspécifiquementdédiéesauxBigData;
uncentrederecherche,leCREST,etuncentredeformationcontinueleCEPE;etlecentred’accès
sécuriséauxdonnéesCASD.Cedernieraétéconçupourpermettreàdeschercheursdetravaillersur
lesdonnéesconfidentiellesdelastatistiquepubliquefrançaise:actuellement,plusde600chercheurs
françaisouétrangersytravaillentsurdesdonnéesdel’Insee,deservicesstatistiquesdeministèresou
encoresurdesdonnéesfiscales,quitoutesprésententunhautdegrédeconfidentialitéetde
sensibilité.Acesdonnéess’ajouterontpeutêtreunjourdesdonnéesdesanté.LeCASDpermetces
travauxderecherchetoutenassurantauxcitoyensetauxentreprisesledegrédesécurisationauquel
ilsontdroit.Avecd’autresinitiativescommeleprojetTeralab,ouleportailDatascience.net,leCASD
constitueunécosystèmequitémoignedelavolontéduGENESd’êtreprésentdanslafilièredesBig
Data,avecunecompétenceparticulièresurlesquestionsdeconfidentialitéetdesensibilitédes
données:d’songrandintérêtpourleséminaired’aujourd’hui.
IntroductiondelajournéeparLaprésidentedelaSFdS
AnneGégoutPetit,présidentedelaSociétéFrançaisedeStatistique,sefélicitequelaSFdSaitpu
organisercettejournée,pouraborderlemondetouffudesBigDataparcertainsdesesaspectsles
plusimportants:lesenjeuxsociauxetéthiques.LaSFdS,c’estunesociétésavantede1200membres,
statisticiensdumondeacadémiqueaussibienquedel’industrieoudel’administrationpublique.Sa
missionestlapromotiondelasciencestatistiqueetdumétierdestatisticien.Pourremplircette
mission,elleorganisedescolloques,deséchanges,desateliers,etpubliedesrevues:leJournaldela
SFdS,revuescientifique,CSBigs,revued’étudedecas,Statistiqueetenseignement,Statistiqueet
société.LaSFdScomptequinzegroupesthématiquesquiseconsacrentlesunsàundomaine
d’application,d’autresàundomainescientifique,d’autresenfinàunethématiqueparticulière.Le
groupeStatistiqueetEnjeuxPublics,quiorganiseleséminaired’aujourd’hui,etaussidesCafésdela
StatistiquemensuelsàParis,seconsacreàréfléchir,etàfaireréfléchirsurcequec’estdemanipuler
lastatistiquedanslemonded’aujourd’hui:qu’estcequecelasignifie,qu’estcequecelaimplique
aussicommerelationsaveclerestedelaviesociale.
LadéfinitiondesBigDatapassetraditionnellementparl’évocationdestrois«V»:Volume,Vitesse,
Variété.Maisilyaaussid’autres«V»:neseraitceque«Véracité»‐onsesouvientquedefaux

2
tweetsontpuentraînerunebaisseduNASDAQet«Valeur»,rappelantlesenjeuxéconomiques
quis’yattachent.Silemarketingestl’aspectleplusconnu,desdéveloppementsimportants
s’amorcentdansl’industrie,enmédecine,dansl’environnement.Sansoublierleprogrèsdela
connaissancescientifiqueetdel’informationdescitoyenssurleursdroits.Toutescesréalisationsou
cesperspectivesposentdesquestionsd’ordreéthique:parexemple,doitoninformerlespersonnes
desrisquesdemaladiequ’ellescourentdufaitdeleurpatrimoinegénétique?Doitonlaisserguider
lespolitiquesetlesdécisionsparletraitementdedonnées?Pluslargement,quelleplacepourle
citoyendanscemondebaignédedonnées?
Leprogrammedelajournéevapermettred’abordertouscessujets:quelesorganisatricesensoient
remerciées!
PanoramadesapplicationsduBigDataetdelaDataScience
ArnaudLaroche,fondateurdeBluestone,sociétédeconseilen«DataScience»,situed’abord
l’émergenceactuelleduphénomène«BigData»lapressionmonte»)commeconséquencede
quatreévolutions,dontdeuxpeuventêtrequalifiéesderévolutions:
- ladigitalisationdenotremonde,élémentdéclencheur:noussommesdésormaisentourésde
capteurs,nouslaissonspartoutdestracesinformatiques;
- leremplacementdegros«supercalculateurs»parunemyriadedepetitesmachines
travaillantenparallèle,dontlenombrepeutêtreaugmentéouréduitenfonctiondes
besoins.Cetterévolutiontechnologiquediviselesinvestissementsrequispourentrerdansce
domaineetlesmetàportéedepetitessociétésinnovantes;
- leprogrèsdelasciencedesalgorithmescapablesd’opérersurdetrèsgrosvolumesde
données:«machinelearning»,réseauxdeneurones,etc.Acetteoccasionrenaîtlavieille
controverse(déjàprésenteenFrancelorsdurenouveaudel’analysefactoriellevers1970)
entrelesanalyses«conduitesparlesdonnées»etlesanalysesreposantsurdesmodèles.
Lesdeuxécolesdevraientserépondreplutôtques’opposer…;
- lechangementd’attitudedesdirigeantsvisàvisdesdonnées,sortederévolutionculturelle:
autrefois,lesdonnéesdel’entrepriseétaientvuescommedessousproduitsdesactivitésde
gestion,analyséespardeséquipesde«datamining»dontl’influencedansl’entrepriseétait
réduite;aujourd’hui,onconstruitdesapplications,desservices,desprocessusquisont
conduitsparlesdonnées.Le«buzzmédiatique»estàlafoiscauseetconséquencedecette
sensibilisationdu«management».
ArnaudLarocheprésenteensuiterapidementuneclassificationdes«casd’usage»desBigDataen
septgrandsgroupes(voirsadiapositive).Lesusageslesmieuxconnusrelèventdelapersonnalisation
dela«relationclient»,maisilfautnoterledéveloppementrapidedesusagesindustriels(comme
«piloterentempsréelleréseauélectrique»),delamaintenanceprédictive(alertersuffisammenttôt
surlaprobabilitédedéfaillanced’unélément),etdelagestiondurisque,lesalgorithmesse
centrentdeplusenplussurlespersonnesplutôtquesurlesgroupes.Mentionparticulièreestfaite
delacréationd’indicateurséconomiquesavancésàpartirdedonnéescaptées«danslavraievie»,
sansplanderecueilpréalable:cesnouveauxindicateurspeuventremettreencauseceuxdes
systèmespublicsdestatistiques.

3
PourArnaudLaroche,laprogressionactuelledesBigDataposedeuxtypesdequestionséthiques.Les
premières,lesplusconnues,concernentlaprotectiondesconsommateursetdescitoyenscontrele
dévoilementdeleursdonnéespersonnelles.Laquestionaradicalementchangéparrapportàcequi
prévalaitilya60ans:ondélivredel’informationsursoiàbeaucoupplusdegens,sanssavoirquiils
sont,ilssont,etsansmaîtrisercequ’ilspeuventenfaireetavecquiilspeuventlespartager.
L’enjeuestderendreunemaîtrisedesesinformationsauconsommateuretaucitoyen.Maiscene
sontpaslesseulesquestionséthiquesposéesparlesBigData.Seposeaussilaquestiond’une
éventuelle«surmathématisationdumonde»,c’estàdiredunombredeplusenplusgranddes
décisionsprisespardesmachines.Qu’ils’agissedefinance,dedécisionsconcernantdespersonnes,
desinteractionssociales,l’invasiondesalgorithmesn’estpasunmythe:unesociétévientmêmede
faireentrerunrobotdanssonconseild’administration!StephenHawking,cosmologiste,alertesur
lesdangersdel’intelligenceartificielleetsurunepossiblepertedecontrôledel’hommesurla
machine:sommesnousàlaveilled’unegrandecatastrophe,quenousannonceraientàjustetitre
desœuvresdefictioncontemporaines?
Etatdeslieuxdelaréflexionsurlaprotectiondesdonnéesauxniveaux
françaisetinternational
SophieVullietTavernier,directricedesrelationsaveclespublicsetlarechercheàlaCNIL,décrittout
d’abordle«modèleeuropéen»pourlaprotectiondesdonnéespersonnelles:celleciestconsidérée
commeundroitfondamental,inscritdanslaloiettraduitpardesrèglesdebonusage,etcedroitest
protégéparuneautoritéadministrativeindépendantedisposantdepouvoirsdesanction,quiesten
FrancelaCNIL.Cemodèlen’estpasuniversel:seuls80Etatsdisposentdeloisdeprotectiondes
données,etparexemplelesÉtatsUnisn’ontpasdeloidéraleralesurlaprotectiondes
données,seulementdesloissectoriellesoudesloisdanscertainsÉtats.
LerôledelaCNILévolue:samissiondecontrôle«traditionnelle»(contledesdéclarationsde
fichiers)tendàdiminuerenpoidsrelatif;samissiondesanction,récemmentillustréedanslecasde
l’amendeinfligéeàGoogle,gagneenpuissancegrâceauxretomesmédiatiquesdecesdécisions;
l’évolutionsefaitsurtoutauprofitdel’activiténouvelled’accompagnementetdeconseilaux
porteursdeprojet,notammentdansledomainedesBigData,activitépourlaquellelaCNILaliédes
partenariatsavecdiversorganismesenparticulierdansledomainedelarecherche1.Ils’agiteneffet
defairefaceauxnouveauxdéfisdutemps.
Ceuxcisontd’abordposésparl’évolutiontechnologique:lacaptationautomatiquededonnéesà
l’insudesindividussebanalise.Etparl’évolutionéconomique:ladonnéepersonnelleestaucœur
desmodèleséconomiquesdunumérique.Laglobalisationestprésenteaussi:lesacteurscléssont
auxÉtatsUnis,etnes’estimentpassoumisàlalégislationeuropéenne.Plusprofondément,lesfis
viennentdel’évolutiondesusagesetdescomportements:lesnouveauxservicesquiémergent
proviennentnonseulementdescapteursdedonnéespersonnellesmaisaussidubesoinlégitimedes

1 L’INRIA(Institutnationalderechercheeninformatiqueetenautomatique),laconférencedesgrandesécoles,Mines
Télécom…

4
individusdesexprimer,departagerleursinformationsavecleursproches,etc.Etlescomportements
sontambivalents:mélangedefascinationdevantlatechnologie,depassivitéparrapportausoucide
«privacy»,enmêmetempsmontéedespréoccupations…maispasdesprécautions2!Dernierdéfi
enfin,celuidelasécurité,tantvisàvisdestiersquedespuissancesétrangères:ilnesepassepasde
semainesansqu’onapprenneunenouvellefailledesécurité.
Lesimpactsdecesévolutionsentermesdeprotectiondesindividussontinquiétants:pourrésumer,
lesrisquessontaccrus,lesdroitssontpeuexercés,etlesobligationssontmalrespectées.
PouranalyserlerapportentrelesBigDataetlaprotectiondesdonnées,ilfautd’abordrappelerles
définitionsdesdonnéespersonnellesetdesdonnéessensibles.Selonlaloifrançaise,«constitueune
donnéeàcaractèrepersonneltouteinformationrelativeàunepersonnephysiqueidentifiéeouqui
peutêtreidentifiée,directementouindirectement,parréférenceàunnumérod’identificationouàun
ouplusieursélémentsquiluisontpropres.Pourdéterminersiunepersonneestidentifiable,ilconvient
deconsidérerl’ensembledesmoyensenvuedepermettresonidentificationdontdisposeouauxquels
peutavoiraccèsleresponsabledutraitementoutoutautrepersonne»(article2).Cettedéfinitionest
interprétéedefaçonlargeparlaCNIL,aucasparcasselonlanaturedesdonnées,l’importance
relativedel’échantillondepopulationconcernée,etc.Celapeutprovoquerdesincompréhensions
aveclesacteursdel’OpenDataetduBigDataquionttendanceàcroirequ’unedonnéenefigure
pluslenomniaucunnuméroidentifiantn’estplusunedonnéepersonnelle.LaCNILfournitdes
conseilspouruneréelleanonymisation,etpoursuitavecl’INRIAdesrecherchessurcethème(de
mêmequesonhomologueauRoyaumeUnilefaitavecdiverspartenairespublics).Laloidéfinitaussi
lesdonnéessensibles:«ilestinterditdecollecteroudetraiterdesdonnéesàcaractèrepersonnelqui
fontapparaitredirectementouindirectementlesoriginesracialesouethniqueslesopinionspolitiques,
philosophiquesoureligieusesoul’appartenancesyndicaledespersonnesouquisontrelativesàla
santéouàlaviesexuelledecellesci»(article8;ilexistedesdérogations).
LesBigDataobligentàexaminercesconcepts.Ils’agitdestockageetd’analyseencontinudetout
typededonnées:structuréesounonstructurées,textes,photos,vidéos,etc…Lafrontièreentre
cellesdecesdonnéesquineposentpasdeproblèmeetcellesquisontpotentiellementpersonnelles
et/ousensiblesesttrèsdifficileàtracer:onpeutpenserquebeaucoupdecesdonnéessont
potentiellementpersonnellesparrecoupement.Etquepenserdesdonnéesprédictivesde
comportements?Cesontsansdoutedenouvellesdonnéessensibles,pourlesquellesunnouveau
modederégulationpourraitêtreenvisagé.
IlfautdoncsoumettrelesBigDataàl’épreuvedelagrilled’analysedelaprotectiondesdonnées,qui
comportecinqcritères:
‐Finalité,proportionnalité
‐Pertinencedesdonnéestraitées
‐Conservationlimitéedesdonnées

2Parexemple,65%desutilisateursde«smartphones»déclarentêtrepréoccupésdelaconfidentialitédeleursdonnées,
mais30%n’ontpasdecodedeverrouillage

5
‐Sécuritéetconfidentialité
‐Respectdesdroitsdesintéressés:loyautéettransparence(droitàl’information,
consentement,droitd’opposition,droitd’accèsetderectification)
SurchaquepointdecettegrillelesBigDataposentquestion.Onpeutensoulignerquelquesuns:
- Parprincipe,leBigDataestfondésurl’interconnexionetlacentralisationdetoutesles
donnéespossibles;
- Finalitéimprécise:dansleBigData,oncherchedescorrélations,sanssavoirapriorisurquoi
onvas’arrêter;
- Pertinence:quiddesalgorithmesdécisionnelsetdeleuréventuelle«dictature»?ilnefaut
pasoublierquelaloiinterditquedesdécisionsconcernantdespersonnespuissentêtre
prisesparvoieautomatique(article10);
- Collecteloyale:sichacunpeutêtretenupourresponsabledestracesqu’illaissedans
l’espacepublic,lewebsocialn’estpasunespacepublic,etsesparticipantsontdesdroitsvis
àvisdelacollectedeleursdonnées.LeConseild’Etatdanssonarrêté«PagesJaunes»du13
mars2014adonnéraisonàlaCNIL,àproposdel’obligationd’informerlesinternautessurla
collected’informationsissuesduwebsocial;
- Sécurité:lesdifférents«clouds»sontendehorsdelajuridictiondel’UnionEuropéenne.
Lecadrejuridiquedevratilévoluer?Pourlesfinalitésderechercheetdestatistiques,etpourla
conservationàdesfinshistoriquesouscientifiques,desexceptionsetdesdérogationsontdéjàété
définies.Lefuturcadreeuropéensedessineunrèglementestenpréparation.Ilprévoiraun
renforcementdudroitdespersonnessurleurspropresdonnéesàsignalerqu’unrécentarrêtdela
Courdejusticedel’UnioneuropéenneafaitobligationàGooglederespecterle«droitàl’oubli».Le
nouveaurèglementrenforceralaresponsabilitédesentreprisesenfaisantdisparaîtrecorrélativement
lesdéclarations.Unencadrementspécifiqueseraprévupourlestraitementsderechercheetde
statistique,dontilresteencoreàbiendéfinirlechamp.Uncadreallégépourraitêtredéfinipourles
données«pseudonymisées»,c’estàdirelesdonnéesdontl’identifiantindividuelaétéremplacépar
undérivécrypténepermettantpasdeleretrouver.Resteàpréciserquelcontrôleseraexigé,etpar
quiilseraexercépourcesdispositions,quipeuventconcernerlarecherchemédicale,l’évaluationdes
modèlesdesoins,etc.Ildevraityavoiraussidescontrepartiesauxdérogations,enparticulierde
façonquesoitrespecleprincipe«pasdedécisionconcernantlesindividusprisedefaçon
automatique».
BigDataetRelationClient:quelimpactsurlesindustriesetactivitésde
servicestraditionnelles?
FrançoisBourdoncle,cofondateurdelasociétéExalead,pionnièredanslesdomainesdesmoteurs
derechercheetduBigData,faitentendreunetonalitédifférente.Ilconsidèrecommerévélateurle
titredelajournée:«EnjeuxéthiquesduBigData».CommetoujoursenFranceetenEurope,leBig
Dataestd’abordenvisagécommeunproblème,lesopportunitésqu’iloffrenesontconsidéréesqu’en
1 / 22 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !