Mod`ele de la r´egression logistique
On consid`ere de le probl`eme de la classification binaire, i.e. X=Rpet Y={0,1}. Il s’agit de mod´eliser
P(Y|X=x). Cette distribution est enti`erement caract´eris´ee par le rapport de vraisemblance
p(X=x|Y= 1)
p(X=x|Y= 0) =p(Y= 1|X=x)
p(Y= 0|X=x)
1−π
πavec π=P(Y= 1).
On mod´elise donc la fonction f(x) = log( p(Y=1|X=x)
p(Y=0|X=x)) ce qui conduit au mod`ele
P(Y= 1|X=x) = σ(f(x)) avec σ(z) = 1
1 + e−z.
La fonction σappel´ee fonction logistique satisfait les propri´et´es :
–σ(−z)=1−σ(z)
–σ0(z) = σ(z)(1 −σ(z)) = σ(z)σ(−z)
On se restreint aux fonctions fw:x7→ w>xlin´eaires.
Comme −log(P(Y= 1|X=x) = log(1 + e−z) le probl`eme de maximisation de la vraisemblance est
´equivalent `a la minimisation du risque empirique pour la perte logistique d´efinie par
−`(y, a) = ylog(σ(a)) + (1 −y) log(σ(−a))
On a donc : b
Rn(w) = −1
n
n
X
i=1
yilog(σ(w>xi)) + (1 −yi) log(1 −σ(w>xi)).
Comme ∂
∂a `(y, a) = σ(a)−y, on a ∇wb
Rn(w) = Pn
i=1 xi(yi−σ(w>xi)) qui ne se r´esout pas sous forme
analytique. On doit donc recourir `a un algorithme it´eratif
Moindres carr´es pond´er´es it´er´es
Si on peut se permettre un algorithme quadratique en pon privil´egiera l’algorithme de Newton.
La d´eriv´ee seconde de la perte logistique est ∂
∂a −`(a, y) = σ(a)σ(−a) d’o`u le d´eveloppement de Taylor
du risque empirique `a l’ordre 2. On note ηi=σ(x>
iw(t)), η= (ηi)16i6p∈Rpet D(η) = Diag(ηi(1 −η−
i))16i6p.
b
Rn(w)≈b
Rnw(t)+
n
X
i=1
(yi−ηi)x>
i(w−w(t)) + 1
2(w−w(t))>hn
X
i=1
ηi(1 −ηi)xix>
ii(w−w(t))
≈(y−η)X(w−w(t)) + 1
2(w−w(t))X>D(η)X(w−w(t))
Exercice 4.(Impl´ementation) En d´eduire l’algorithme de Newton pour la r´egression logistique. Expliquer le
terme de “moindres carr´es pond´er´es it´er´es” (algorithme IRLS : Iterated Reweighted Least Squares) au vu
de l’algorithme de Newton.
2