Apprentissage: cours 5b
Mod´elisation probabiliste, r´egression et classification lin´eaire
Guillaume Obozinski
15 mars 2012
Maximum de vraisemblance : cas g´en´eratif et conditionnel
Mod`ele g´en´eratif :
R(θ) = E[ log(pθ(X, Y ))] b
Rn(θ) = 1
n
n
X
i=1
log(pθ(xi, yi))
Mod`ele conditionnel :
R(θ) = E[ log(pθ(Y|X)) |X]b
Rn(θ) = 1
n
n
X
i=1
log(pθ(yi|xi))
Mod`ele probabiliste pour la r´egression lin´eaire
On consid`ere la mod´elisation probabiliste d’un couple entr´ee sortie (X, Y ) avec X=Rpet Y=R
Pr´ecis´ement on ne mod´elise que la loi conditionnelle de Ysachant Xcomme ´etant Y=w>X+εavec
ε N (0, σ2) pour les param`etres θ= (w, σ2)Rp×R+. La log-vraisemblance du mod`ele est
log(pθ(y|x)) = 1
2σ2(yw>x)2+1
2log(2πσ2).
L’estimateur du maximum de vraisemblance en west donc celui de la r´egression lin´eaire.
Exercice 1.Calculer l’EMV de σ2
Complement sur la r´egression lin´eaire
En haute dimension, i.e., quand p>n, le pr´edicteur de la r´egression lin´eaire se calcule plus efficacement
qu’avec la formule issue des ´equations normales
Exercice 2.(Lemme d’inversion de matrice) Soit XRn×ptel que I+X>Xest inversible. Quel est la
complexit´e de l’inversion matricielle d’une matrice p×pen en´eral ? Si p>n, comment calculer (I+X>X)1
plus efficacement ?
En se basant sur le r´esultat de l’exercice on
Proposition 1. Soit ˆ
fλle pr´edicteur de la r´egression lin´eaire r´egularis´ee pour une matrice de design Xet
un vecteur de variables de sortie y. D´enotons K=XX>la matrice de Gram des donn´ees. On a
f:x07→ y>(I+K)1X x0.
Exercice 3.En introduisant la d´ecomposition en valeurs singuli`eres de X, montrer que la r´egularisation
par la norme euclidienne est interpr´et´e simplement dans les bases d´efinies par la d´ecomposition en valeurs
singuli`eres comme une op´eration sur le spectre de la matrice de design.
1
Mod`ele de la r´egression logistique
On consid`ere de le probl`eme de la classification binaire, i.e. X=Rpet Y={0,1}. Il s’agit de mod´eliser
P(Y|X=x). Cette distribution est enti`erement caract´eris´ee par le rapport de vraisemblance
p(X=x|Y= 1)
p(X=x|Y= 0) =p(Y= 1|X=x)
p(Y= 0|X=x)
1π
πavec π=P(Y= 1).
On mod´elise donc la fonction f(x) = log( p(Y=1|X=x)
p(Y=0|X=x)) ce qui conduit au mod`ele
P(Y= 1|X=x) = σ(f(x)) avec σ(z) = 1
1 + ez.
La fonction σappel´ee fonction logistique satisfait les propri´et´es :
σ(z)=1σ(z)
σ0(z) = σ(z)(1 σ(z)) = σ(z)σ(z)
On se restreint aux fonctions fw:x7→ w>xlin´eaires.
Comme log(P(Y= 1|X=x) = log(1 + ez) le probl`eme de maximisation de la vraisemblance est
´equivalent `a la minimisation du risque empirique pour la perte logistique d´efinie par
`(y, a) = ylog(σ(a)) + (1 y) log(σ(a))
On a donc : b
Rn(w) = 1
n
n
X
i=1
yilog(σ(w>xi)) + (1 yi) log(1 σ(w>xi)).
Comme
a `(y, a) = σ(a)y, on a wb
Rn(w) = Pn
i=1 xi(yiσ(w>xi)) qui ne se r´esout pas sous forme
analytique. On doit donc recourir `a un algorithme it´eratif
Moindres carr´es pond´er´es it´er´es
Si on peut se permettre un algorithme quadratique en pon privil´egiera l’algorithme de Newton.
La d´eriv´ee seconde de la perte logistique est
a `(a, y) = σ(a)σ(a) d’o`u le d´eveloppement de Taylor
du risque empirique `a l’ordre 2. On note ηi=σ(x>
iw(t)), η= (ηi)16i6pRpet D(η) = Diag(ηi(1 η
i))16i6p.
b
Rn(w)b
Rnw(t)+
n
X
i=1
(yiηi)x>
i(ww(t)) + 1
2(ww(t))>hn
X
i=1
ηi(1 ηi)xix>
ii(ww(t))
(yη)X(ww(t)) + 1
2(ww(t))X>D(η)X(ww(t))
Exercice 4.(Impl´ementation) En d´eduire l’algorithme de Newton pour la r´egression logistique. Expliquer le
terme de “moindres carr´es pond´er´es it´er´es” (algorithme IRLS : Iterated Reweighted Least Squares) au vu
de l’algorithme de Newton.
2
1 / 2 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !