Apprentissage: cours 5b Modélisation probabiliste, régression et classification linéaire Guillaume Obozinski 15 mars 2012 Maximum de vraisemblance : cas génératif et conditionnel Modèle génératif : bn ( θ ) = − 1 R n R ( θ ) = −E[ log(pθ (X, Y ))] n X log(pθ (xi , yi )) i=1 Modèle conditionnel : bn ( θ ) = − 1 R n R ( θ ) = −E[ log(pθ (Y |X)) | X] n X log(pθ (yi |xi )) i=1 Modèle probabiliste pour la régression linéaire On considère la modélisation probabiliste d’un couple entrée sortie (X, Y ) avec X = Rp et Y = R Précisément on ne modélise que la loi conditionnelle de Y sachant X comme étant Y = w> X + ε avec ε ∼ N (0, σ 2 ) pour les paramètres θ = (w, σ 2 ) ∈ Rp × R+ . La log-vraisemblance du modèle est − log(pθ (y|x)) = 1 1 (y − w> x)2 + log(2πσ 2 ). 2σ 2 2 L’estimateur du maximum de vraisemblance en w est donc celui de la régression linéaire. Exercice 1. Calculer l’EMV de σ 2 Complement sur la régression linéaire En haute dimension, i.e., quand p > n, le prédicteur de la régression linéaire se calcule plus efficacement qu’avec la formule issue des équations normales Exercice 2. (Lemme d’inversion de matrice) Soit X ∈ Rn×p tel que I + X> X est inversible. Quel est la complexité de l’inversion matricielle d’une matrice p×p en général ? Si p > n, comment calculer (I+X> X)−1 plus efficacement ? En se basant sur le résultat de l’exercice on Proposition 1. Soit fˆλ le prédicteur de la régression linéaire régularisée pour une matrice de design X et un vecteur de variables de sortie y. Dénotons K = XX> la matrice de Gram des données. On a f : x0 7→ y> (nλI + K)−1 X x0 . Exercice 3. En introduisant la décomposition en valeurs singulières de X, montrer que la régularisation par la norme euclidienne est interprété simplement dans les bases définies par la décomposition en valeurs singulières comme une opération sur le spectre de la matrice de design. 1 Modèle de la régression logistique On considère de le problème de la classification binaire, i.e. X = Rp et Y = {0, 1}. Il s’agit de modéliser P(Y |X = x). Cette distribution est entièrement caractérisée par le rapport de vraisemblance p(Y = 1|X = x) 1 − π p(X = x|Y = 1) = p(X = x|Y = 0) p(Y = 0|X = x) π avec π = P(Y = 1). =1|X=x) On modélise donc la fonction f (x) = log( p(Y p(Y =0|X=x) ) ce qui conduit au modèle P(Y = 1|X = x) = σ(f (x)) avec σ(z) = 1 . 1 + e−z La fonction σ appelée fonction logistique satisfait les propriétés : – σ(−z) = 1 − σ(z) – σ 0 (z) = σ(z)(1 − σ(z)) = σ(z)σ(−z) On se restreint aux fonctions fw : x 7→ w> x linéaires. Comme − log(P(Y = 1|X = x) = log(1 + e−z ) le problème de maximisation de la vraisemblance est équivalent à la minimisation du risque empirique pour la perte logistique définie par −`(y, a) = y log(σ(a)) + (1 − y) log(σ(−a)) bn ( w ) = − 1 On a donc : R n n X yi log(σ(w> xi )) + (1 − yi ) log(1 − σ(w> xi )). i=1 ∂ b n ( w ) = Pn xi (yi − σ(w> xi )) qui ne se résout pas sous forme `(y, a) = σ(a) − y, on a ∇w R Comme ∂a i=1 analytique. On doit donc recourir à un algorithme itératif Moindres carrés pondérés itérés Si on peut se permettre un algorithme quadratique en p on privilégiera l’algorithme de Newton. ∂ − `(a, y) = σ(a)σ(−a) d’où le développement de Taylor La dérivée seconde de la perte logistique est ∂a > (t) p du risque empirique à l’ordre 2. On note η = σ(x i i w ), η = (ηi )16i6p ∈ R et D(η) = Diag (ηi (1 − η − i))16i6p . n n hX i X 1 (t) > (t) (t) bn ( w ) ≈ R b n w(t) + R ηi (1 − ηi )xi x> (yi − ηi )x> i (w − w ) i (w − w ) + (w − w ) 2 i=1 i=1 1 ≈ (y − η)X(w − w(t) ) + (w − w(t) )X> D(η)X(w − w(t) ) 2 Exercice 4. (Implémentation) En déduire l’algorithme de Newton pour la régression logistique. Expliquer le terme de “moindres carrés pondérés itérés” (algorithme IRLS : Iterated Reweighted Least Squares) au vu de l’algorithme de Newton. 2