pres - Université de Bordeaux

publicité
Analyse discriminante linéaire et quadratique
Bayésien naïf
Régression logistique
Chapitre II
Approches basées sur un modèle
M2 MAS - Université de Bordeaux
2016-2017
Chapitre 2
Apprentissage supervisé
1/32
Analyse discriminante linéaire et quadratique
Bayésien naïf
Régression logistique
Introduction
Deux approches possibles pour constuire une règle de classification g.
Approche basée sur un modèle.
Apprentissage de Loi(Y |X ) puis déduction de g
Exemples : analyse discriminante linéaire, bayésien naïf, régression
logistique, etc.
Approche de type prototype.
Apprentissage direct de la règle classification g
Exemples : k-plus proches voisins, arbres de classification, forêts
aléatoires, etc.
Règle de classification de Bayes :
g(x )
=
arg min
`∈{1,...,K }
=
K
X
Ck` P(Y = k|X = x )
k=1
arg max P(Y = `|X = x )
(coût 0-1)
`∈{1,...,K }
Chapitre 2
Apprentissage supervisé
2/32
Analyse discriminante linéaire et quadratique
Bayésien naïf
Régression logistique
Dans les approches basées sur un modèle, on distingue :
l’approche directe comme en régression logistique :
P[Y = 1|X = x ] =
exp(X T β)
1 + exp(X T β)
Estimation du paramètre β à partir des données d’apprentissage.
l’approche indirecte comme en analyse discriminante linéaire ou en
bayésien naïf. Cette approche utilise la formule de Bayes :
f (x |Y = k)P(Y = k)
P(Y = k|X = x ) = PK
f (x |Y = j)P(Y = j)
j=1
L’approche indirect nécessite donc l’estimation de fk (x ) = f (x |Y = k) et
de πk = P(Y = k).
- fk (x ) prend une forme paramétrique (e.g. gaussienne, etc.) de
paramètre θk :
- Estimation des paramètres {θ1 , . . . , θK , π1 , . . . , πK } à partir des
données d’apprentissage
Chapitre 2
Apprentissage supervisé
3/32
Analyse discriminante linéaire et quadratique
Bayésien naïf
Régression logistique
Plan
1
Analyse discriminante linéaire et quadratique
2
Bayésien naïf
3
Régression logistique
Chapitre 2
Apprentissage supervisé
4/32
Analyse discriminante linéaire et quadratique
Bayésien naïf
Régression logistique
Analyse discriminante linéaire et quadratique
X ∈ Rp et Y ∈ {1, . . . , K }
Ensemble d’apprentissage (Xi , Yi ), i = 1, . . . , n
Hypothèse paramétrique gaussienne X ∼ N (µk , Σk ) dans chaque groupe
k i.e.
fk (x ) =
1
1
exp(− (x − µk )T Σ−1
k (x − µk ))
2
(2π)p/2 |Σk |1/2
Paramètres inconnus θk = {µk , Σk } et πk
Chapitre 2
Apprentissage supervisé
5/32
Analyse discriminante linéaire et quadratique
Bayésien naïf
Régression logistique
Chapitre 2
Apprentissage supervisé
6/32
Analyse discriminante linéaire et quadratique
Bayésien naïf
Régression logistique
Paramètres inconnus estimés par maximum de vraisemblance :
θ = (π1 , . . . , πK , µ1 , . . . , µK , Σ1 , . . . , ΣK ).
Log-vraissemblance de l’échantillon (X1 , Y1 ), . . . , (Xn , Yn )
`(θ) = log
n
Y
f (xi , yi )
i=1
=
n
X
log(πyi fyi (xi ))
i=1
=
K
X
nk log(πk ) +
k=1
Estimateurs
π
bk =
K
X
X
log(fk (xi ))
k=1 i:yi =k
nk
1 X
,µ
bk =
xi
n
nk
i:yi =k
X
bk = 1
Σ
(xi − µ
bk )(xi − µ
bk )T
nk
i:yi =k
Chapitre 2
Apprentissage supervisé
7/32
Analyse discriminante linéaire et quadratique
Bayésien naïf
Régression logistique
Règle de classification
g(x ) = arg max P(Y = `|X = x )
`∈{1,...,K }
= arg max log (P(Y = `|X = x ))
`∈{1,...,K }
= arg max δ` (x )
`∈{1,...,K }
où
1
b ` | − 1 (x − µ
b −1
δ` (x ) = − log |Σ
b` )T Σ
b` ) + log(π
b` )
` (x − µ
2
2
δ` est appellée fonction discriminante quadratique.
-2δ` est appellée dans SAS la distance de Mahalanobis généralisée entre x
et µ
b` .
La frontière de décision entre deux classes k et ` est décrite par une
équation quadratique en x {x : δk (x ) = δ` (x )}
Chapitre 2
Apprentissage supervisé
8/32
Analyse discriminante linéaire et quadratique
Bayésien naïf
Régression logistique
Chapitre 2
Apprentissage supervisé
9/32
Analyse discriminante linéaire et quadratique
Bayésien naïf
Régression logistique
Chapitre 2
Apprentissage supervisé
10/32
Analyse discriminante linéaire et quadratique
Bayésien naïf
Régression logistique
On suppose maintenant que Σk = Σ pour tout k
L’estimée du maximum de vraisemblance de Σ est la matrice de
covariance intra-groupe définie par :
b=
Σ
K
1X b
n k Σk
n
k=1
La règle de classification devient
g(x ) = arg max δ` (x )
`∈{1,...,K }
où
1 T b −1
µ
bk Σ µ
bk + log(π
bk )
2
δ` est alors appellée fonction discriminante linéaire.
b −1 µ
δ` (x ) = x T Σ
bk −
La frontière de décision entre deux classes k et ` est décrite par une
équation linéaire en x {x : δk (x ) = δ` (x )}
Chapitre 2
Apprentissage supervisé
11/32
Analyse discriminante linéaire et quadratique
Bayésien naïf
Régression logistique
Chapitre 2
Apprentissage supervisé
12/32
Analyse discriminante linéaire et quadratique
Bayésien naïf
Régression logistique
Chapitre 2
Apprentissage supervisé
13/32
Analyse discriminante linéaire et quadratique
Bayésien naïf
Régression logistique
Les fonctions discriminantes δk permettent :
de calculer un un score d’appartenance d’une entrée x à la classe k,
de calculer les probabilités à posteriori avec :
exp δk (x )
P(Y = k|X = x ) = PK
exp δ` (x )
`=1
Lorsque Σk = Σ et π
bk = 1/K pour tout k :
on fait de l’analyse discriminante linéaire avec probabilités à priori égales,
les fonctions discriminantes calculent les distances de Mahalanobis
b −1 ) entre x et les centres de gravité µ
(métrique Σ
bk ,
on affecte x à la classe la plus proche,
on parle de règle géométrique de classement de Mahalanobis-Fisher.
Chapitre 2
Apprentissage supervisé
14/32
Analyse discriminante linéaire et quadratique
Bayésien naïf
Régression logistique
En analyse discriminante linéaire et K = 2 classes :
le score de Fisher est une fonction linéaire qui s’écrit :
∆(x ) = δ1 (x ) − δ2 (x )
b −1 (µ
= xT Σ
b1 − µ
b2 ) −
1
π
b
b −1 (µ
(µ
b1 + µ
b2 )0 Σ
b1 − µ
b2 ) + log( 1 ).
2
π
b2
la probabilité à posteriori d’appartenir à la classe 1 s’écrit comme une
fonction logistique du score de Fisher :
P(Y = 1|X = x ) =
exp(∆(x ))
1 + exp(∆(x ))
La règle de classification de Fisher consiste à comparer le score de Fisher
à 0 pour prédire la classe de x .
Chapitre 2
Apprentissage supervisé
15/32
Analyse discriminante linéaire et quadratique
Bayésien naïf
Régression logistique
Il existe un lien entre l’ADL et l’analyse factorielle discriminante.
En AFD, on projette les données (centrées) sur le sous-espace vectoriel
engendré par la base {v1 , . . . , vK −1 } des vecteurs propres de la matrice
b −1 B où B est la matrice de covariance inter-groupe i.e. la matrice de
Σ
covariance des centres de gravités µ
bk pondérés par π
bk .
On obtient ainsi K − 1 variables discriminantes non corrélées qui sont des
combinaisons linéaires Xvk des variables d’entrées centrées.
On effectue ainsi une réduction de dimension de p à K − 1 variables.
Si K = 3 par exemple, les données peuvent alors être représentées en 2D
pour tout p sans perte d’information pour la classification par ADL.
Chapitre 2
Apprentissage supervisé
16/32
Analyse discriminante linéaire et quadratique
Bayésien naïf
Régression logistique
Plan
1
Analyse discriminante linéaire et quadratique
2
Bayésien naïf
3
Régression logistique
Chapitre 2
Apprentissage supervisé
17/32
Analyse discriminante linéaire et quadratique
Bayésien naïf
Régression logistique
Bayésien naïf
On se place dans le cadre où les variables d”entrées X = (X1 , . . . , Xp ) sont de
type quelconque (quantitatif ou qualitatif) et Y ∈ {1, . . . , K }.
Hypothèse : indépendance des variables Xj dans chaque groupe k
fk (x ) =
p
Y
fk,j (xj )
j=1
L’approche indirect donne :
g(x ) = arg max πk fk (x )
k∈{1,...,K }
= arg max πk
k∈{1,...,K }
p
Y
fk,j (xj )
j=1
Les paramètres πk et les p densités en dimension 1 fk,j (xj ) sont estimés
sur les données d’apprentissage.
Chapitre 2
Apprentissage supervisé
18/32
Analyse discriminante linéaire et quadratique
Bayésien naïf
Régression logistique
Si la variable Xj est qualitative, on estime la probabilité
fk,j (x ) = P(Xj = x |Y = k) par la fréquence empirique de la modalité x dans le
groupe k.
Si la variable Xj est quantitative existe différentes approches pour estimer la
densité fk,j :
- on peut supposer une forme paramétrique pour fk,j (x ). Par exemple
1
1
fk,j (x ) = p
exp − 2 (x − µk,j )2
2
2σk,j
2πσk,j
2
où les estimateurs du maximum de vraissemblance de µk,j et σk,j
sont la
moyenne et la variance empirique de la variable j dans le groupe k.
- fk,j (x ) peut aussi être estimé de façon non paramétrique à l’aide d’un
histogramme ou d’un estimateur de densité à noyau.
Chapitre 2
Apprentissage supervisé
19/32
Analyse discriminante linéaire et quadratique
Bayésien naïf
Régression logistique
L’hypothèse d’indépendance des variables d’entrée dans les groupes est
généralement fausse. Pourtant cette approche est très courante :
- car elle est simple, rapide et fonctionne pour une variable de sortie non
binaire, et des variables d’entrées de type quelconque.
- elle permet de traiter des données de grande dimension.
Exercice : Un fournisseur d’élécticité veut prédire la demande de puissance
éléctrique de ses clients à partir de trois variables binaires : Chauffage
électrique ou non, Maison/Appartement, Sèche linge ou non. La variable de
sortie a K = 4 modalités correspondant à 3, 6, 9 et 12 kWh.
Comment construiriez-vous un classifieur Bayésien naïf ?
Chapitre 2
Apprentissage supervisé
20/32
Analyse discriminante linéaire et quadratique
Bayésien naïf
Régression logistique
Plan
1
Analyse discriminante linéaire et quadratique
2
Bayésien naïf
3
Régression logistique
Chapitre 2
Apprentissage supervisé
21/32
Analyse discriminante linéaire et quadratique
Bayésien naïf
Régression logistique
Régression logistique
On se place dans le cadre où les variables d’entrées peuvent être de type
quelconque (quantitatif ou qualitatif) et Y ∈ {0, 1}.
Après recodage des données qualitatives avec les indicatrices des
modalités, les variables d’entrée sont toutes quantitatives ou binaires et
on aura X = (X1 , . . . , Xp ) ∈ Rp .
En régression logistique, on s’intéresse à la loi de Y |X qui est une loi de
Bernoulli de paramètre p avec :
P(Y = 1|X = x ) = p
P(Y = 0|X = x ) = 1 − p
Chapitre 2
Apprentissage supervisé
22/32
Analyse discriminante linéaire et quadratique
Bayésien naïf
Régression logistique
Régression logistique
On fait l’hypothèse que la probabilité p = P(Y = 1|X = x ) est une
fonction logistique d’un score linéaire
β0 + β1 x1 + . . . + β1 xp ∈ R
et la fonction logistique f : R → [0, 1] est définie par :
f (u) =
Chapitre 2
exp(u)
.
1 + exp(u)
Apprentissage supervisé
23/32
Analyse discriminante linéaire et quadratique
Bayésien naïf
Régression logistique
Régression logistique
On modélise donc la probabilité à posteriori "de succès" par :
P(Y = 1|X = x ) =
exp(β0 +
Pp
βx)
j=1 j j
P
p
1 + exp(β0 +
j=1
βj xj )
Le score linéaire est alors :
β0 +
p
X
βj xj = f −1 (p) = log
j=1
p
.
1−p
La fonction f −1 est appelée fonction logit avec :
logit(p) = log
Chapitre 2
p
.
1−p
Apprentissage supervisé
24/32
Analyse discriminante linéaire et quadratique
Bayésien naïf
Régression logistique
Régression logistique
Paramètres inconnus estimés par maximum de vraisemblance :
β = (β0 , . . . , βp ).
Log-vraissemblance de l’échantillon (X1 , Y1 ), . . . , (Xn , Yn )
`(β) = log
n
Y
P(Yi = yi |Xi = xi , )
i=1
n
= log
Y
piyi (1 − pi )1−yi
i=1
avec
pi = P(Yi = 1|Xi = xi ) =
Chapitre 2
exp(β0 +
Pp
βx )
j=1 j i,j
P
.
p
1 + exp(β0 +
Apprentissage supervisé
j=1
βj xi,j )
25/32
Analyse discriminante linéaire et quadratique
Bayésien naïf
Régression logistique
Régression logistique
L’estimateur β̂ = (β̂0 , . . . , β̂p ) du maximum de vraissemblance n’a pas de
forme explicite. Les logiciels utilisent donc des algorithmes d’optimisation
pour estimer les paramètres β0 , . . . , βp sur les données d’apprentissage.
L’algorithme souvent utilisé est celui de Newton-Raphson qui est une
méthode itérative de type gradient basée sur la relation suivante :
β
(t)
=β
(t−1)
−
∂ 2 `(β) ∂β∂β T β (t−1)
!−1
∂`(β) ∂β β (t−1)
La règle de classification g affecte alors une nouvelle observation x à la
classe 1 si
Pp
exp(β̂0 + j=1 β̂j xj )
pi =
Pp
1 + exp(βˆ0 +
β̂j xj )
j=1
est supérieur à 0.5. Elle est affectée à la classe 0 sinon.
Chapitre 2
Apprentissage supervisé
26/32
Analyse discriminante linéaire et quadratique
Bayésien naïf
Régression logistique
Régression logistique
La régression logistique peut s’étendre au cas de classes multiples. On parle
alors de régression logistique multinomiale.
On a maintenant Y ∈ {1, . . . , K } et on note X = (1, X1 , . . . , Xp ).
Le modèle prend la forme
P(Y = 1|X = x )
= x T β1
P(Y = K |X = x )
P(Y = 2|X = x )
= x T β2
log
P(Y = K |X = x )
..
.
log
log
P(Y = K − 1|X = x )
= x T βK −1
P(Y = K |X = x )
avec β1 , . . . , βK −1 des vecteurs de Rp+1 .
Les K − 1 vecteurs βk sont estimés par maximum de vraisemblance sur
les données d’apprentissage.
Chapitre 2
Apprentissage supervisé
27/32
Analyse discriminante linéaire et quadratique
Bayésien naïf
Régression logistique
Régression logistique
Les probabilités à posteriori sont alors :
P(Y = K |X = x ) =
P(Y = 1|X = x ) =
1
1+
PK −1
`=1
exp(x T β` )
exp(x T β1 )
1+
PK −1
`=1
exp(x T β` )
..
.
P(Y = K − 1|X = x ) =
exp(x T βK −1 )
1+
PK −1
`=1
exp(x T β` )
La règle de classification g affecte alors une nouvelle observation x à la
classe la plus probable à posteriori.
Chapitre 2
Apprentissage supervisé
28/32
Analyse discriminante linéaire et quadratique
Bayésien naïf
Régression logistique
Régression logistique
Exemple : p = 2, K = 3 classes
Chapitre 2
Apprentissage supervisé
29/32
Analyse discriminante linéaire et quadratique
Bayésien naïf
Régression logistique
Régression logistique
Comparaison avec l’analyse discriminante linéaire
La régression logistique et l’ADL induisent des règles de classification linéaires
en x . En effet :
- en analyse discriminante linéaire (ADL) :
log
avec α0 = log
π1
π0
P(Y = 1|X = x )
= α0 + x T α
P(Y = 0|X = x )
− 21 (µ0 + µ1 )T Σ−1 (µ1 − µ0 ) et α = Σ−1 (µ1 − µ0 )
- en régression logistique :
log
P(Y = 1|X = x )
= β0 + β1 x1 + . . . + βp xp
Pr(Y = 0|X = x )
avec les paramètres βk estimé en utilisant directement la loi
conditionnelle.
Chapitre 2
Apprentissage supervisé
30/32
Analyse discriminante linéaire et quadratique
Bayésien naïf
Régression logistique
Régression logistique
Comparaison avec l’analyse discriminante linéaire
Les deux modélisations induisent des écritures différentes de la vraissemblance
et donc des estimations différentes des paramètres :
- en ADL, on maximise la loi jointe
n
Y
f (xi , yi ) =
i=1
n
Y
fk (xi )
i=1
n
Y
P(Y = yi )
i=1
| {z }|
gaussien
{z
}
Bernoulli
- en régression logistique on maximise directement la loi conditionnelle
n
Y
i=1
f (xi , yi ) =
n
Y
n
Y
P(Y = yi |X = xi )
|
Chapitre 2
pX (xi )
i=1
i=1
{z
logistique
}|
{z
inconnu
Apprentissage supervisé
}
31/32
Analyse discriminante linéaire et quadratique
Bayésien naïf
Régression logistique
Régression logistique
Exemple : p = 2, K = 3 classes.
Régression logistique (à gauche) versus LDA (à droite).
Chapitre 2
Apprentissage supervisé
32/32
Téléchargement