Leslimitesdesmodèlescomportementauxdubig
data
Danssachroniquemensuelle«Recherches»,léconomistePaulSeabrightexpliquepourquoiil
nefautpassurestimerlaqualitédelacomphensionquonpeuttirerdes«donnéesmassives».
LEMONDEECONOMIE|16.03.2017à11h06Misàjourle16.03.2017à15h06|ParPaulSeabright(Institut
d'étudesavancéesdeToulouse)
Ledébatsurlesavantagesetlesinconnientsdesbigdata(«donnéesmassives»)tendà
opposerlesbénéficesd’unemeilleurecompréhensiondescomportementshumainsauxdangers
d’abusconcernantlavieprie.UnarticledeSusanAthey,ancienneéconomisteenchefde
Microsoft,montrequilnefautpasnonplussurestimerlaqualitédelacomphensionquonpeut
entirer(«BeyondPrediction:UsingBigDataforPolicyProblems»,Sciencen°6324,3février
2017).
Jusquàrécemment,lesanalysesstatistiquesdescomportementshumainsdevaientchoisirentre
deuxtypesd’informations.Lesenquêtespermettentdeposerbeaucoupdequestionsà
relativementpeudegens,aveclerisquequelespersonnesinterrogéessoientpeu
repsentativesdel’ensembledelapopulation.Avecunéchantillonpluslarge,lesrecensements
permettentdes’adresseràbeaucoupdegens,voireàdespopulationsentières,maisenleur
posantpeudequestions,cequilimitel’analyseàunemodélisationsimple.
Miseengarde
Désormais,lesentreprisescommeGoogle,AppleouFacebookdisposentdemillionsdevariables
crivantlecomportementdemillionsdepersonnes.Lestechniquesd’apprentissagemachine
(«machinelearning»)peuventycernerdestendancesquiéchapperaientàunregardpurement
humain.MaisSusanAtheynousmetengardecontreunoptimismefacilequantàlasophistication
desmodèlescomportementauxquiendécoulent.
Observerdescomportements,lescerneràl’aidedel’algorithmeleplussophistiqué,nenousaide
pasàsavoirsicescomportementsrestentinchangéslorsquenousessayonsd’intervenirpour
améliorerlasituation.Or,quasimenttouteslesapplicationsdesbigdataconcernentune
interventionpotentielle,quecesoitunepolitiquepublique,lapolitiquecommercialed’une
entrepriseoulechoixd’unhôpitalentredifférentstraitements.
«LesentreprisescommeGoogle,AppleouFacebookdisposentdemillionsdevariablesdécrivantlecomportement
demillionsdepersonnes.Lestechniquesd’apprentissagemachine(“machinelearning”)peuventycernerdes
tendancesquiéchapperaientàunregardpurementhumain».KamiPhuc/Flickr/CCBY2.0
Lireaussi:Lesdangersetlesincongruisdubigdata(/smartcities/article/2016/11/23/lesdangers
etlesincongruitesdubigdata_5036690_4811534.html)
Sonarticlecitedenombreuxcasoùlestendancesobservéesparlesméthodesdubigdatane
suffisentpaspourprédirel’impactduneintervention.LasociétéeBayavaitcrucalculerparces
méthodesquesonretoursurinvestissementenpublicitéenligneétaitde1400%àcaused’une
fortecorrélationentrelesachatsetlesinvestissementspublicitaires.Apsunevérification
expérimentale,ilaétéconstatéquelevrairetourétaitde…63%,carlaplupartdesachats
auraientétéfaitssanslesannonces!
Desrisquesscientifiques
Lapprentissagemachineestsouventutiliparlesentreprisespriespourprédirelesprofilsde
clientslesplussusceptiblesdequitterlafirmepourunconcurrent.Cesprédictionssontutilies
pourallouerleserviceapsventeenprioritéauxclientsdefidélitéfaible.Maiscesinterventions
sontsouventdécevantes:êtresusceptibledepartirversunconcurrentnerendpasforcémentle
clientsensibleauxeffortsdelafirmepourlegarder.
Unexempledesrisquesscientifiquesdesanalysesbigdataapparaîtdansunarticled’unautre
économisteenchefdunegrandeentreprise–enl’occurrenceHalVarian,deGoogle(«BigData:
NewtricksforEconometrics»,JournalofEconomicPerspectives(https://www.aeaweb.org/articles?
id=10.1257/jep.28.2.3),n°28/2,printemps2014).OnconstatedepuisvingtansquêtrenoirauxEtats
Unisestassociéàuneprobabilitéplusfaibledesevoiraccorderunprêtimmobilier.Uneanalyse
bigdataeffectuéeparVarianmontrequelorsquonprendencomptelefaitdavoirputrouverou
nonuneassurance(conditionnécessairepourunprêt),ladifférenceracialenejoueplusaucun
rôle.
Peutonenconclurequelesdifférencesracialesnesontpasimportantespouraccéderauxprêts
immobiliers?Pasdutout!CommelereconnaîtVarian,trouveruneassurancepourraitêtreplus
difficilepourlesAméricainsnoirsquepourlesautres–c’estpeutêtremêmeàtraversl’allocation
desassurancesqueladiscriminationracialeauraitsonimpactprincipalsurl’accèsauxprêts.Les
bigdatapermettentdeprédirequirecevraunprêt,maisenexpliquerlescausesresteundéfi
autrementpluscomplexe.
1 / 2 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !