La fouille de données : panorama des méthodes
Ce qui est abordé dans ce cours :
⌅clustering (classification automatique, classification non supervisée,
segmentation, typologie...) :
regrouper des individus qui se ressemblent en catégories homogènes
⌅classification supervisée (discrimination, analyse discriminante,
scoring) :
classer des individus dans des classes définies a priori
Notations :
⌅les individus (observations) sont décrits par un ensemble de p
variables aléatoires explicatives X=(X1,...,Xp)2E(E=Rp,...)
⌅Xi=(Xi1,...,Xip)sont les variables explicatives pour l’individu i
(1 in)
⌅Zi2{1,...,K}est le numéro de la classe de l’individu i
17 / 100
Classification non supervisée vs supervisée
Classification non supervisée
⌅Ziinconnue (aucun à priori)
⌅objectif : à partir de l’observation de X1,...,Xn, trouver Z1,...,Zn
⌅les classes sont ensuite interprétées dans le but de leur donner une
signification concrète
Classification supervisée
⌅Ziconnue (signification connue a priori)
⌅objectif : à partir de l’observation de (X1,Z1),...,(Xn,Zn)construire
une règle de classement (classifieur) r:
r:X! r(X)=Z
⌅utiliser cette règle de classement pour classer de nouveaux individus
de classes inconnues
18 / 100
Apprentissage automatique inductif
Aristote
“La connaissance vient du monde”
Définition
Trouver des règles générales (voire des concepts) à partir d’un
ensemble d’observations particulières
Autres types d’apprentissage
⌅apprentissage par cœur
⌅apprentissage par renforcement
⌅apprentissage par abduction
19 / 100
Applications
Classification non supervisée
⌅analyse exploratoire : donner une représentation simplifiée des
données pour mieux les comprendre
⌅exemple : typologie clients en marketing (Gestion de la relation
clients / CRM - Customer Relationship Management)
Classification supervisée
⌅analyse prédictive : prédire une variable (Z) qualitative à partir de
variables explicatives (X)
⌅exemples : prédire si un prospect va acheter le produit qu’on lui
propose, prédire la probabilité qu’un patient soit atteint d’une certaine
maladie...
20 / 100