Apprentissage statistique

Université Denis Diderot
Master 2 - Apprentissage
Apprentissage statistique
Examen - 2 heures
- Problème - "Vitesses rapides"
1. On se propose de démontrer l’inégalité de Bernstein. On désigne par X1 , . . . , Xn une suite
de v.a. i.i.d. à valeurs réelles bornées, centrées et de variance σ 2 .
(a) Montrer que : ∀s > 0, ∀t > 0,
P{
n
X
Xi > t} ≤ exp −st + n log E[esX1 ] .
i=1
(b) Soit f (x) = (ex − x − 1)/x2 pour x > 0. Montrer que : ∀s > 0,
E[esX1 ] ≤ 1 + s2 f (s||X1 ||∞ )σ 2 ≤ exp s2 f (s||X1 ||∞ )σ 2 .
(c) En déduire l’inégalité de Bennett :
( n
)
X
nσ 2
||X1 ||∞ t
P
Xi > t ≤ exp −
h
,
||X1 ||∞
nσ 2
i=1
où h(x) = (1 + x) log(1 + x) − x pour x ≥ 0.
(d) Montrer que : ∀x ≥ 0,
h(x) ≥
x2
.
2(1 + x/3)
En déduire l’inégalité exponentielle de Bernstein :
!
(
)
n
2
X
nt
,
P n−1
Xi > t ≤ exp − 2 2
2σ + 3 ||X1 ||∞ t
i=1
2. On se place dans le cadre de la classification supervisée. On considère (X, Y ) un couple
de v.a. à valeurs dans Rd × {−1, +1}. On note p = P{Y = +1}, η(X) = P{Y = +1 | X}
et on désigne par L(C) = P{C(X) 6= Y } l’erreur de classification d’une règle prédictive
C : Rd → {−1, +1}.
(a) Pour toute règle prédictive C, montrer que l’excès de risque peut s’exprimer de la
façon suivante :
L(C) − L∗ = E[|2η(X) − 1| · I{C(X) 6= C ∗ (X)}],
où C ∗ (X) = 2 · I{η(X) > 1/2} − 1 désigne le classifieur naïf de Bayes et L∗ = L(C ∗ ).
mardi 10 mai 2011
page 1
Université Denis Diderot
Master 2 - Apprentissage
(b) On suppose la "condition de bruit" suivante vérifiée :
|η(X) − 1/2| ≥ c presque-sûrement,
pour une certaine constante c > 0. On considère un ensemble C de classifieurs, de
cardinal N < ∞, et on suppose que C ∗ ∈ C. On pose fC (X, Y ) = I{C(X) 6= Y } −
I{C ∗ (X) 6= Y }. Montrer qu’il existe une constante K < ∞ telle que :
var(fC ) ≤ K · E[fC ].
(c) En utilisant l’inégalité de Bernstein, combinée à la borne de la réunion (sur l’ensemble
C) et à l’inégalité ci-dessus, montrer que pour tout δ ∈ (0, 1), on a avec une probabilité
supérieure à 1 − δ : ∀C ∈ C,
r
n
1X
2KE[fC ] log(N δ) 4 log(N/δ)
E[fC ] ≤
fC (Xi , Yi ) +
+
.
n
n
3n
i=1
(d) On désigne par Cn∗ le minimiseur P
du risque empirique sur la classe C : Ln (Cn∗ ) =
minC∈C Ln (C) avec L(C) = (1/n) 1≤i≤n I{Yi 6= C(Xi )}. Montrer qu’avec une probabilité supérieure à 1 − δ ∈ (0, 1), on a :
r
2K(L(Cn∗ ) − L∗ ) log(N/δ) 4 log(N/δ)
∗
∗
L(Cn ) − L ≤
+
.
n
3n
(e) En déduire qu’avec une probabilité supérieure à 1 − δ ∈ (0, 1), on a :
L(Cn∗ ) − L∗ ≤ 2K log(N/δ)/n.
- Exercice - "Convexification du Risque"
On se place dans le cadre de la classification binaire, on utilisera les mêmes notations que dans
le Problème (on considère un couple de v.a. (X, Y ) à valeurs dans Rd × {−1, 1}, etc). On suppose
que 0 < η(X) < 1 presque-sûrement. Soit φ : R → R+ une fonction dérivable, strictement
convexe, croissante, nulle en −∞, et égale à 1 en 0. Pour tout classifieur Cf (X) = sgn(f (X)),
avec f : Rd → R, on considère la version convexifiée du risque de classification :
A(f ) = E[φ(−Y f (X))].
1. On pose, pour tout u ∈ [0, 1], a ∈ R, hu (a) = uφ(−a) + (1 − u)φ(a). Montrer que A(f ∗ ) =
minf A(f ) pour
f ∗ (x) = arg min hη(x) (a).
a
f ∗ (x)
On justifiera que
est bien définie pour tout x ∈ Rd .
2. Dériver la fonction a 7→ hη(x) (a) afin de montrer que f ∗ (x) coincide avec le classifieur naïf
de Bayes.
3. (Lemme de Zhang) On pose H(u) = inf a hu (a) pour u ∈ (0, 1) et on suppose qu’il existe
des constantes s ≥ 1 et c ≥ 0 telles que : ∀u ∈ (0, 1),
1
| − u|s ≤ cs (1 − H(u)).
2
Montrer que pour toute fonction f : Rd → R,
L(Cf ) − L∗ ≤ 2c(A(f ) − A∗ )1/s ,
avec A∗ = inf f A(f ). INDICATION : on commencera par montrer l’inégalité L(Cf ) − L∗ ≤
2(E[I{(2η(X) − 1)f (X) < 0}|η(X) − 1/2|s ])1/s .
4. Que vaut H dans le cas φ(a) = exp(a) ? Pour quelles constantes c et s la condition ci-dessus
est-elle vérifiée ?
mardi 10 mai 2011
page 2