Université Denis Diderot Master 2 - Apprentissage Apprentissage statistique Examen - 2 heures - Problème - "Vitesses rapides" 1. On se propose de démontrer l’inégalité de Bernstein. On désigne par X1 , . . . , Xn une suite de v.a. i.i.d. à valeurs réelles bornées, centrées et de variance σ 2 . (a) Montrer que : ∀s > 0, ∀t > 0, P{ n X Xi > t} ≤ exp −st + n log E[esX1 ] . i=1 (b) Soit f (x) = (ex − x − 1)/x2 pour x > 0. Montrer que : ∀s > 0, E[esX1 ] ≤ 1 + s2 f (s||X1 ||∞ )σ 2 ≤ exp s2 f (s||X1 ||∞ )σ 2 . (c) En déduire l’inégalité de Bennett : ( n ) X nσ 2 ||X1 ||∞ t P Xi > t ≤ exp − h , ||X1 ||∞ nσ 2 i=1 où h(x) = (1 + x) log(1 + x) − x pour x ≥ 0. (d) Montrer que : ∀x ≥ 0, h(x) ≥ x2 . 2(1 + x/3) En déduire l’inégalité exponentielle de Bernstein : ! ( ) n 2 X nt , P n−1 Xi > t ≤ exp − 2 2 2σ + 3 ||X1 ||∞ t i=1 2. On se place dans le cadre de la classification supervisée. On considère (X, Y ) un couple de v.a. à valeurs dans Rd × {−1, +1}. On note p = P{Y = +1}, η(X) = P{Y = +1 | X} et on désigne par L(C) = P{C(X) 6= Y } l’erreur de classification d’une règle prédictive C : Rd → {−1, +1}. (a) Pour toute règle prédictive C, montrer que l’excès de risque peut s’exprimer de la façon suivante : L(C) − L∗ = E[|2η(X) − 1| · I{C(X) 6= C ∗ (X)}], où C ∗ (X) = 2 · I{η(X) > 1/2} − 1 désigne le classifieur naïf de Bayes et L∗ = L(C ∗ ). mardi 10 mai 2011 page 1 Université Denis Diderot Master 2 - Apprentissage (b) On suppose la "condition de bruit" suivante vérifiée : |η(X) − 1/2| ≥ c presque-sûrement, pour une certaine constante c > 0. On considère un ensemble C de classifieurs, de cardinal N < ∞, et on suppose que C ∗ ∈ C. On pose fC (X, Y ) = I{C(X) 6= Y } − I{C ∗ (X) 6= Y }. Montrer qu’il existe une constante K < ∞ telle que : var(fC ) ≤ K · E[fC ]. (c) En utilisant l’inégalité de Bernstein, combinée à la borne de la réunion (sur l’ensemble C) et à l’inégalité ci-dessus, montrer que pour tout δ ∈ (0, 1), on a avec une probabilité supérieure à 1 − δ : ∀C ∈ C, r n 1X 2KE[fC ] log(N δ) 4 log(N/δ) E[fC ] ≤ fC (Xi , Yi ) + + . n n 3n i=1 (d) On désigne par Cn∗ le minimiseur P du risque empirique sur la classe C : Ln (Cn∗ ) = minC∈C Ln (C) avec L(C) = (1/n) 1≤i≤n I{Yi 6= C(Xi )}. Montrer qu’avec une probabilité supérieure à 1 − δ ∈ (0, 1), on a : r 2K(L(Cn∗ ) − L∗ ) log(N/δ) 4 log(N/δ) ∗ ∗ L(Cn ) − L ≤ + . n 3n (e) En déduire qu’avec une probabilité supérieure à 1 − δ ∈ (0, 1), on a : L(Cn∗ ) − L∗ ≤ 2K log(N/δ)/n. - Exercice - "Convexification du Risque" On se place dans le cadre de la classification binaire, on utilisera les mêmes notations que dans le Problème (on considère un couple de v.a. (X, Y ) à valeurs dans Rd × {−1, 1}, etc). On suppose que 0 < η(X) < 1 presque-sûrement. Soit φ : R → R+ une fonction dérivable, strictement convexe, croissante, nulle en −∞, et égale à 1 en 0. Pour tout classifieur Cf (X) = sgn(f (X)), avec f : Rd → R, on considère la version convexifiée du risque de classification : A(f ) = E[φ(−Y f (X))]. 1. On pose, pour tout u ∈ [0, 1], a ∈ R, hu (a) = uφ(−a) + (1 − u)φ(a). Montrer que A(f ∗ ) = minf A(f ) pour f ∗ (x) = arg min hη(x) (a). a f ∗ (x) On justifiera que est bien définie pour tout x ∈ Rd . 2. Dériver la fonction a 7→ hη(x) (a) afin de montrer que f ∗ (x) coincide avec le classifieur naïf de Bayes. 3. (Lemme de Zhang) On pose H(u) = inf a hu (a) pour u ∈ (0, 1) et on suppose qu’il existe des constantes s ≥ 1 et c ≥ 0 telles que : ∀u ∈ (0, 1), 1 | − u|s ≤ cs (1 − H(u)). 2 Montrer que pour toute fonction f : Rd → R, L(Cf ) − L∗ ≤ 2c(A(f ) − A∗ )1/s , avec A∗ = inf f A(f ). INDICATION : on commencera par montrer l’inégalité L(Cf ) − L∗ ≤ 2(E[I{(2η(X) − 1)f (X) < 0}|η(X) − 1/2|s ])1/s . 4. Que vaut H dans le cas φ(a) = exp(a) ? Pour quelles constantes c et s la condition ci-dessus est-elle vérifiée ? mardi 10 mai 2011 page 2