Notes de cours

publicité
Apprentissage: cours 5b
Modélisation probabiliste, régression et classification linéaire
Guillaume Obozinski
15 mars 2012
Maximum de vraisemblance : cas génératif et conditionnel
Modèle génératif :
bn ( θ ) = − 1
R
n
R ( θ ) = −E[ log(pθ (X, Y ))]
n
X
log(pθ (xi , yi ))
i=1
Modèle conditionnel :
bn ( θ ) = − 1
R
n
R ( θ ) = −E[ log(pθ (Y |X)) | X]
n
X
log(pθ (yi |xi ))
i=1
Modèle probabiliste pour la régression linéaire
On considère la modélisation probabiliste d’un couple entrée sortie (X, Y ) avec X = Rp et Y = R
Précisément on ne modélise que la loi conditionnelle de Y sachant X comme étant Y = w> X + ε avec
ε ∼ N (0, σ 2 ) pour les paramètres θ = (w, σ 2 ) ∈ Rp × R+ . La log-vraisemblance du modèle est
− log(pθ (y|x)) =
1
1
(y − w> x)2 + log(2πσ 2 ).
2σ 2
2
L’estimateur du maximum de vraisemblance en w est donc celui de la régression linéaire.
Exercice 1. Calculer l’EMV de σ 2
Complement sur la régression linéaire
En haute dimension, i.e., quand p > n, le prédicteur de la régression linéaire se calcule plus efficacement
qu’avec la formule issue des équations normales
Exercice 2. (Lemme d’inversion de matrice) Soit X ∈ Rn×p tel que I + X> X est inversible. Quel est la
complexité de l’inversion matricielle d’une matrice p×p en général ? Si p > n, comment calculer (I+X> X)−1
plus efficacement ?
En se basant sur le résultat de l’exercice on
Proposition 1. Soit fˆλ le prédicteur de la régression linéaire régularisée pour une matrice de design X et
un vecteur de variables de sortie y. Dénotons K = XX> la matrice de Gram des données. On a
f : x0 7→ y> (nλI + K)−1 X x0 .
Exercice 3. En introduisant la décomposition en valeurs singulières de X, montrer que la régularisation
par la norme euclidienne est interprété simplement dans les bases définies par la décomposition en valeurs
singulières comme une opération sur le spectre de la matrice de design.
1
Modèle de la régression logistique
On considère de le problème de la classification binaire, i.e. X = Rp et Y = {0, 1}. Il s’agit de modéliser
P(Y |X = x). Cette distribution est entièrement caractérisée par le rapport de vraisemblance
p(Y = 1|X = x) 1 − π
p(X = x|Y = 1)
=
p(X = x|Y = 0)
p(Y = 0|X = x) π
avec
π = P(Y = 1).
=1|X=x)
On modélise donc la fonction f (x) = log( p(Y
p(Y =0|X=x) ) ce qui conduit au modèle
P(Y = 1|X = x) = σ(f (x))
avec
σ(z) =
1
.
1 + e−z
La fonction σ appelée fonction logistique satisfait les propriétés :
– σ(−z) = 1 − σ(z)
– σ 0 (z) = σ(z)(1 − σ(z)) = σ(z)σ(−z)
On se restreint aux fonctions fw : x 7→ w> x linéaires.
Comme − log(P(Y = 1|X = x) = log(1 + e−z ) le problème de maximisation de la vraisemblance est
équivalent à la minimisation du risque empirique pour la perte logistique définie par
−`(y, a) = y log(σ(a)) + (1 − y) log(σ(−a))
bn ( w ) = − 1
On a donc : R
n
n
X
yi log(σ(w> xi )) + (1 − yi ) log(1 − σ(w> xi )).
i=1
∂
b n ( w ) = Pn xi (yi − σ(w> xi )) qui ne se résout pas sous forme
`(y, a) = σ(a) − y, on a ∇w R
Comme ∂a
i=1
analytique. On doit donc recourir à un algorithme itératif
Moindres carrés pondérés itérés
Si on peut se permettre un algorithme quadratique en p on privilégiera l’algorithme de Newton.
∂
− `(a, y) = σ(a)σ(−a) d’où le développement de Taylor
La dérivée seconde de la perte logistique est ∂a
> (t)
p
du risque
empirique
à
l’ordre
2.
On
note
η
=
σ(x
i
i w ), η = (ηi )16i6p ∈ R et D(η) = Diag (ηi (1 − η −
i))16i6p .
n
n
hX
i
X
1
(t) >
(t)
(t)
bn ( w ) ≈ R
b n w(t) +
R
ηi (1 − ηi )xi x>
(yi − ηi )x>
i (w − w )
i (w − w ) + (w − w )
2
i=1
i=1
1
≈ (y − η)X(w − w(t) ) + (w − w(t) )X> D(η)X(w − w(t) )
2
Exercice 4. (Implémentation) En déduire l’algorithme de Newton pour la régression logistique. Expliquer le
terme de “moindres carrés pondérés itérés” (algorithme IRLS : Iterated Reweighted Least Squares) au vu
de l’algorithme de Newton.
2
Téléchargement