Leslimitesdesmodèlescomportementauxdubig
data
Danssachroniquemensuelle«Recherches»,l’économistePaulSeabrightexpliquepourquoiil
nefautpassurestimerlaqualitédelacompréhensionqu’onpeuttirerdes«donnéesmassives».
LEMONDEECONOMIE|16.03.2017à11h06•Misàjourle16.03.2017à15h06|ParPaulSeabright(Institut
d'étudesavancéesdeToulouse)
Ledébatsurlesavantagesetlesinconvénientsdesbigdata(«donnéesmassives»)tendà
opposerlesbénéficesd’unemeilleurecompréhensiondescomportementshumainsauxdangers
d’abusconcernantlavieprivée.UnarticledeSusanAthey,ancienneéconomisteenchefde
Microsoft,montrequ’ilnefautpasnonplussurestimerlaqualitédelacompréhensionqu’onpeut
entirer(«BeyondPrediction:UsingBigDataforPolicyProblems»,Sciencen°6324,3février
2017).
Jusqu’àrécemment,lesanalysesstatistiquesdescomportementshumainsdevaientchoisirentre
deuxtypesd’informations.Lesenquêtespermettentdeposerbeaucoupdequestionsà
relativementpeudegens,aveclerisquequelespersonnesinterrogéessoientpeu
représentativesdel’ensembledelapopulation.Avecunéchantillonpluslarge,lesrecensements
permettentdes’adresseràbeaucoupdegens,voireàdespopulationsentières,maisenleur
posantpeudequestions,cequilimitel’analyseàunemodélisationsimple.
Miseengarde
Désormais,lesentreprisescommeGoogle,AppleouFacebookdisposentdemillionsdevariables
décrivantlecomportementdemillionsdepersonnes.Lestechniquesd’apprentissagemachine
(«machinelearning»)peuventycernerdestendancesquiéchapperaientàunregardpurement
humain.MaisSusanAtheynousmetengardecontreunoptimismefacilequantàlasophistication
desmodèlescomportementauxquiendécoulent.
Observerdescomportements,lescerneràl’aidedel’algorithmeleplussophistiqué,nenousaide
pasàsavoirsicescomportementsrestentinchangéslorsquenousessayonsd’intervenirpour
améliorerlasituation.Or,quasimenttouteslesapplicationsdesbigdataconcernentune
interventionpotentielle,quecesoitunepolitiquepublique,lapolitiquecommercialed’une
entrepriseoulechoixd’unhôpitalentredifférentstraitements.
«LesentreprisescommeGoogle,AppleouFacebookdisposentdemillionsdevariablesdécrivantlecomportement
demillionsdepersonnes.Lestechniquesd’apprentissagemachine(“machinelearning”)peuventycernerdes
tendancesquiéchapperaientàunregardpurementhumain».KamiPhuc/Flickr/CCBY2.0