par Daniel D. Guerrez
Guide InsideBIGDATA de
l’analyse prédicve
PRÉSENTÉ PAR
www.insidebigdata.com | 508-259-8570 | [email protected]om
Guide de l’analyse prédicve
2
Lanalyse prédicve moderne est née dans les an-
nées 1940, lorsque les gouvernements ont commencé
à employer les premiers modèles informaques (simu-
laons de Monte-Carlo, modèles informaques pour
réseaux de neurones, programmaon linéaire) pour
décoder les messages allemands pendant la Deuxième
guerre mondiale, à automaser le ciblage des armes
anaériennes ulisées contre les avions ennemis et à
recourir aux simulaons informaques pour prédire le
comportement des réacons nucléaires en chaîne du
projet Manhaan. Dans les années 1960, les entreprises
et les établissements de recherche sont entrés dans l’ère
de la commercialisaon de l’analyse avec la programma-
on non linéaire, et de la résoluon heurisque de pro-
blèmes via l’informaque : premiers modèles capables
de prévoir les condions météorologiques, résoudre le
« problème du plus court chemin » pour améliorer les
quesons de transport aérien et de logisque et appli-
quer la modélisaon prédicve aux demandes de cré-
dit en foncon des risques. Puis dans les années 1970–
1990, l’analyse a été ulisée de façon plus répandue dans
les entreprises et l’analyse prescripve en temps réel est
devenue réalité dans les startups technologiques. Toute-
fois, l’analyse prédicve est largement restée l’apanage
des stasciens et n’a été introduite dans le monde des
aaires que via des rapports staques par lots.
Aujourd’hui, l’analyse prédicve a nalement inves la
majorité des entreprises, qui y ont recours au quodien
dans des cas d’ulisaon toujours plus nombreux. Ce
phénomène de plus en plus répandu a été engendré par
les réalités d’une économie mondiale, les entreprises
n’ayant de cesse de se constuer un avantage concur-
renel, et il a pu se développer grâce à d’importantes
innovaons technologiques.
Ces innovaons regroupent notamment des perfor-
mances informaques plus évoluves, les bases de don-
nées relaonnelles, les nouvelles technologies Big Data
comme Hadoop et les logiciels d’analyse en libre service
qui placent les données et les modèles prédicfs entre
les mains des décideurs de premier plan. Tout cela a per-
mis aux entreprises de rester en concurrence sur fond
d’innovaon analyque.
Tout d’abord, les entreprises ont adopté l’analyse simple
et la découverte des données pour comprendre l’état de
leurs acvités et examiner en profondeur les données
an de comprendre les « pourquoi » cachés derrière ces
dernières. En se familiarisant pet à pet avec leurs don-
nées, elles comprennent qu’il est possible de dépasser
encore leurs concurrents grâce à l’analyse avancée.
Histoire de l’analyse prédicve
Dénion de l’analyse prédicve
Lanalyse prédicve, parfois appelée analyse
avancée, est un terme ulisé pour décrire une
série de techniques analyques et stasques
permeant de prédire des acons ou des com-
portements futurs. Dans les entreprises, l’ana-
lyse prédicve est ulisée pour prendre des déci-
sions proacves et déterminer des acons, au
moyen de modèles stasques permeant de
découvrir des schémas dans des données histo-
riques et transaconnelles, dans le but d’iden-
er des risques potenels et des opportunités.
Lanalyse prédicve intègre plusieurs acvités
que nous allons explorer dans le présent docu-
ment : l’accès aux données, l’analyse explora-
toire des données et la visualisaon, l’élabora-
on d’hypothèses et de modèles de données,
l’applicaon de modèles prédicfs, ainsi que l’es-
maon et/ou la prédicon de résultats futurs.
Sommaire
Dénion de l’analyse prédicve ...... 2
Histoire de l’analyse prédicve ........ 2
Ulisaons méer de l’analyse
prédicve ......................... 3
Les classes dans l’analyse prédicve ... 4
Les logiciels d’analyse prédicve ...... 6
R : le logiciel de choix pour l’analyse
prédicve .......................... 7
Laccès aux données pour l’analyse
prédicve .......................... 8
Lanalyse exploratoire des données .... 8
La modélisaon prédicve ..........10
Le déploiement en producon ....... 11
Conclusion ........................ 11
www.insidebigdata.com | 508-259-8570 | [email protected]om
Guide de l’analyse prédicve
3
Il est évidemment nécessaire d’uliser l’analyse prédicve
dans l’entreprise, car elle ore une analyse plus intelligente,
qui permet d’opmiser les prises de décision, d’accroître la
compévité sur le marché, d’envisager plus directement
les opportunités du marché et les menaces, de réduire l’in-
certude et de gérer les risques, d’amener une approche
de planicaon et d’acon proacves, de découvrir des
schémas judicieux et des moyens d’anciper et de réagir
aux tendances émergentes.
Lanalyse quantave avancée a prouvé sa pernence dans
de très nombreux secteurs et domaines représentafs. De
nombreux problèmes de l’entreprise peuvent être résolus,
dans diverses catégories, grâce à l’analyse prédicve. En
voici quelques exemples :
Prévisions des ventes : elles prédisent ce que vous pou-
vez aendre tel mois ou tel trimestre, en foncon de
l’historique de vos taux de conversion, autrement dit ce
qu’a été le pourcentage de gains de votre équipe com-
merciale par le passé pour des opportunités similaires,
en combinaison avec le pipeline des ventes actuelles,
c’est-à-dire le nombre d’opportunités sur lesquelles tra-
vaille votre équipe sur la période considérée.
Détecon des fraudes : permet de repérer les de-
mandes de crédit inappropriées, les transacons frau-
duleuses réalisées hors ligne et en ligne, les usurpaons
d’identé, les fausses demandes d’indemnisaons, etc.
Opmisaon des campagnes de vente : permet aux
vendeurs de modéliser les résultats des campagnes sur
la base d’une analyse approfondie des comportements,
des préférences et des données de prol des clients.
Analyse markeng et clientèle : recueille des données
issues du markeng numérique, des médias sociaux,
des centres d’appels, des applicaons mobiles, etc.
et ulise les informaons relaves à ce qu’ont fait les
clients dans le passé pour évaluer ce qu’ils vont faire
dans le futur.
Analyse RH : permet aux entreprises d’analyser le
passé et de regarder vers le futur an de repérer des
tendances dans les facteurs clés liés aux départs volon-
taires, aux absences et autres sources de risque, ainsi
que d’idener des tendances dans les compétences
requises par rapport aux ressources ulisées.
Geson des risques : permet de prédire le meilleur
portefeuille an de maximiser le retour sur le modèle
d’évaluaon des acfs nanciers et l’évaluaon des
risques de probabilité pour générer des prévisions
exactes.
Le cœur de l’analyse prédicve se fonde sur la capture
des relaons entre des points de données issues du
passé et sur l’ulisaon de ces relaons pour prédire les
En maère de prévision des ventes, l’analyse prédicve fournit des réponses ciblées pernentes à un
vaste éventail d’ulisateurs méer an de les aider à améliorer les prises de décision. Image reproduite
avec l’aimable autorisaon de TIBCO Spoire.
Ulisaons méer de l’analyse prédicve
www.insidebigdata.com | 508-259-8570 | [email protected]om
Guide de l’analyse prédicve
4
résultats futurs. An de pouvoir faire des prédicons
sur la base d’un ensemble de données spécique,
on ulise une ou plusieurs variables prédicves pour
prédire une variable réponse. Sous sa forme la plus
simple, l’analyse prédicve est un support permet-
tant d’établir des prévisions pour la prise de décision
en entreprise. Pour des exigences plus complexes,
on ulise des techniques d’analyse prédicve avan-
cées an d’orienter les processus stratégiques de
l’entreprise. Cee secon vous présente une vue
d’ensemble des principales catégories de l’analyse
prédicve : l’apprenssage supervisé et l’apprens-
sage non supervisé.
Lapprenssage supervisé est divisé en deux grandes
catégories : la régression pour les réponses quan-
taves (une valeur numérique), par exemple le
nombre de kilomètres par litre d’essence pour une
voiture donnée, et la classicaon pour les réponses
qui peuvent uniquement prendre quelques valeurs
connues, telles que « vrai » ou « faux ».
Régression : la régression est la forme la plus
courante de l’analyse prédicve. Elle fait inter-
venir une variable réponse quantave (ce que
vous tentez de prédire), par exemple le prix de
vente d’une maison, selon une série de variables
prédicves (nombre de mètres carrés, nombre
de chambres, revenus moyens dans le voisinage
selon les données de recensement...). La rela-
on entre le prix de vente et les prédicteurs de
l’ensemble d’apprenssage fournirait un modèle
prédicf.
Les méthodes de régression, y compris celles
menonnées ci-dessus, sont nombreuses : -
gression linéaire mulvariée, régression polyno-
miale, arbres de régression, pour n’en citer que
quelques-unes.
Classicaon : la classicaon est un autre
type d’analyse prédicve communément u-
lisé. Elle fait intervenir une variable réponse
qualitave, par exemple l’échelle salariale, qui
peut être partagée en trois classes ou catégo-
ries : salaire élevé, salaire moyen et bas salaire.
Cee méthode examine un ensemble de don-
nées dans lequel chaque observaon conent
des informaons sur la variable réponse ainsi
que sur les variables prédicves. Supposons
qu’un analyste souhaite pouvoir classier
l’échelle salariale de personnes n’appartenant
pas à l’ensemble de données, en foncon des
caractérisques associées à ces personnes, par
exemple l’âge, le sexe et la profession. Cee
tâche de classicaon se déroulerait de la ma-
nière suivante : examiner l’ensemble de don-
nées contenant les variables prédicves et la
variable réponse déjà classiée, l’échelle sala-
riale. Lalgorithme apprend ainsi les combinai-
sons de variables associées à tel ou tel niveau
de l’échelle salariale. Cet ensemble de don-
nées est appelé l’ensemble d’apprenssage.
Lalgorithme examinerait ensuite les nouvelles
observaons pour lesquelles aucune infor-
maon sur l’échelle salariale n’est disponible.
Sur la base des classicaons dans l’ensemble
d’apprenssage, l’algorithme aribuerait des
classicaons aux nouvelles observaons. Par
exemple, une directrice markeng de 51 ans
pourrait être classée dans l’échelon des reve-
nus élevés.
Les types de méthodes de classicaon sont
nombreux : régression logisque, arbres de
décision, machines à vecteurs de support,
forêts aléatoires, k plus proches voisins, naïve
bayésienne, etc.
Lapprenssage non supervisé permet de rer des
conclusions à parr d’ensembles de données compo-
sés de données en entrée sans réponses équetées.
La méthode d’apprenssage non supervisé la plus
Les classes dans l’analyse prédicve
La régression est la forme la plus
courante de l’analyse prédicve. Elle
fait intervenir une variable réponse
quantave (ce que vous tentez de
prédire).
La classicaon est un autre type
d’analyse prédicve communé-
ment ulisé. Elle fait intervenir une
variable réponse qualitave. Cee
méthode examine un ensemble de
données dans lequel chaque obser-
vaon conent des informaons sur
la variable réponse ainsi que sur les
variables prédicves.
www.insidebigdata.com | 508-259-8570 | [email protected]om
Guide de l’analyse prédicve
5
courante est l’analyse de clusters, qui est ulisée pour
l’analyse exploratoire des données an de trouver des
schémas cachés ou des groupes de données.
Clustering : les techniques non supervisées
comme le clustering nous aident à comprendre
les relaons entre les variables ou entre les ob-
servaons en déterminant si elles tombent dans
des groupes relavement disncts. Par exemple,
dans une analyse de segmentaon de la clien-
tèle, nous pouvons observer plusieurs variables :
sexe, âge, code postal, revenus, etc. Nous pen-
sons que les clients tombent dans diérents
groupes, comme les acheteurs fréquents et les
acheteurs occasionnels. Une analyse par clas-
sicaon serait possible si l’historique d’achat
des clients était disponible, mais cela n’est pas
le cas avec l’apprenssage non supervisé ; nous
ne disposons pas de variables réponse indiquant
si un client est ou non un acheteur fréquent. En
revanche, nous pouvons tenter de regrouper les
clients en foncon des variables an d’idener
des groupes de clients disncts.
Il existe d’autres types d’apprenssage stas-
que non supervisé, notamment le clustering
par les k-moyennes, le groupement hiérar-
chique, l’analyse en composantes principales,
etc.
Le clustering montre les relaons entre les variables ou entre les observaons en déterminant si elles tombent
dans des groupes relavement disncts. Image reproduite avec l’aimable autorisaon de TIBCO Spoire.
1 / 11 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !