questions,desretoursd’expérienceserontnécessaires.
LeBigData:véritablerévolutiontechnologique
Levolumeetlavariétédel’informationdisponiblevontpermettred’enrichirconsidérablementla
connaissanceduclient,depouvoircréerdesprofilsderisqueenfonctiondesesgoûts,deson
réseausocial.L’entreprisepourraétudierunesourceinépuisablededonnées,entempsquasi
réel.L’individuneseraplusvudemanièreisolée,maisentantqu’élémentd’ungroupeformant
unréseau.
L’entreprisepourraanalyserdescentaines,voiredesmilliersdedimensions,afind’optimiseret
identifierlesperformancesdesmodèlesdecrédit.Lavitessedemiseàjourdesdonnées,parfois
entempsréel,estuneexcellenteaidepourlamaîtrisedurisqueetlaprisededécision.
Maisuntravailimportantdevraêtrefaitenamontsurlaméthodologieàemployerpourtraiterdes
informations,dontleformatestdifférentduformatstandard(textesetchiffres),commeles
images,lesvidéosouencorelesmails.
Lavariétédessourcespourraégalementpermettreàl’entreprised’améliorerlaqualitéetla
fiabilitédesesdonnéesencomparantlesdifférentessourcesentreelles,devérifierlacohérence
desinformationsobtenueslorsdelademandedeprêt,maisàlaconditionquelesdonnéesainsi
collectéessoientcorrectementintégréesàlabasededonnées.Eneffet,lesdonnéesissuesde
latoileserontengrandepartienonstructurées,carellesaurontpotentiellementunnombrede
valeurstoutesdifférentesetimpossiblesàcatégoriser.Pourleurexploitation,ellesdevrontêtre
structurées.Danslecasoùlesdonnéessontmalintégrées,l’entrepriserisquedese«noyer»
sousunflotd’informationsqu’elleneserapascapablederestitueretvalorisercorrectement.
LavéracitédesinformationsissuesdesréseauxsociauxtelsqueFacebookouViadeoseraà
contrôler.Eneffet,n’importequellepersonnepeutindiquercequ’ellesouhaite.Desinformations
issuesdesitescommeViadeoetLinkedinserontplusfacilementvérifiables,aveclesbulletinsde
salaireparexemple.
Avecl’augmentationconsidérableduvolumededonnées,lestatisticienn’auraplusletemps
d’étudierlesvariablesuneàune.Ildevrad'abordfairedutraitementdemasse,puisanalyserles
variablesquiressortentcommediscriminantes.Auvudelamultitudededonnéesdisponibles,
descompétencesmétierserontnécessaires,afindemieuxciblerlesvariablesoucroisementde
variablespouvantaideràlaprédictionducritèrededéfaut,ounondéfaut.
Demême,lesméthodesstatistiquesusuelles,commelarégressionlogistique[1],lesarbresde
décisionouencorelesréseauxdeneurones,negèrentpaslesvaleursmanquantes,cequiva
demanderuneétudeapprofondiedesraisonsdel’absencedecesinformations.
Deplus,larégressionlogistique[2]esttrèssensibleauproblèmedemulticolinéaritépartielle,
quisemanifestelorsqu’unevariableexplicativeestfortementcorréléeàuneouplusieurs
variablesexplicatives(ouàl’unedeleurcombinaison).Lorsqueceproblèmeestrencontré,on
observesouvent:
unefortevariance[3]despondérationsestiméesetd'importantsintervallesdeconfiance[4]
autourdespondérations;
lestestsdeWald,quitestentlanullitédechaquepondération,nonrejetés,bienqueles
variablesexplicativesconcernéessoientsignificativesvisàvisdudéfaut;
despondérationsestiméesdesignescontrairesaurisquededéfaut;
desvariablesquientrentdanslemodèlealorsqueçanedevraitpasêtrelecas.
Testerdemultiplesmodèles
Pourpallierceproblème,untravailconsidérable,enamont,del'étudedesliaisonsentreles
différentesvariablesexplicativesestexigéetdemultiplesmodèlesdoiventêtretestés,en
excluantuneouplusieursvariablesexplicativesconcernéesparleproblèmedemulticolinéarité.