Université Denis Diderot Master 2 - Apprentissage
(b) On suppose la "condition de bruit" suivante vérifiée :
|η(X)−1/2| ≥ cpresque-sûrement,
pour une certaine constante c > 0. On considère un ensemble Cde classifieurs, de
cardinal N < ∞, et on suppose que C∗∈ C. On pose fC(X, Y ) = I{C(X)6=Y} −
I{C∗(X)6=Y}. Montrer qu’il existe une constante K < ∞telle que :
var(fC)≤K·E[fC].
(c) En utilisant l’inégalité de Bernstein, combinée à la borne de la réunion (sur l’ensemble
C) et à l’inégalité ci-dessus, montrer que pour tout δ∈(0,1), on a avec une probabilité
supérieure à 1−δ:∀C∈ C,
E[fC]≤1
n
n
X
i=1
fC(Xi, Yi) + r2KE[fC] log(Nδ)
n+4 log(N/δ)
3n.
(d) On désigne par C∗
nle minimiseur du risque empirique sur la classe C:Ln(C∗
n) =
minC∈C Ln(C)avec L(C) = (1/n)P1≤i≤nI{Yi6=C(Xi)}. Montrer qu’avec une pro-
babilité supérieure à 1−δ∈(0,1), on a :
L(C∗
n)−L∗≤r2K(L(C∗
n)−L∗) log(N/δ)
n+4 log(N/δ)
3n.
(e) En déduire qu’avec une probabilité supérieure à 1−δ∈(0,1), on a :
L(C∗
n)−L∗≤2Klog(N/δ)/n.
- Exercice - "Convexification du Risque"
On se place dans le cadre de la classification binaire, on utilisera les mêmes notations que dans
le Problème (on considère un couple de v.a. (X, Y )à valeurs dans Rd×{−1,1},etc). On suppose
que 0< η(X)<1presque-sûrement. Soit φ:R→R+une fonction dérivable, strictement
convexe, croissante, nulle en −∞, et égale à 1en 0. Pour tout classifieur Cf(X) = sgn(f(X)),
avec f:Rd→R, on considère la version convexifiée du risque de classification :
A(f) = E[φ(−Y f(X))].
1. On pose, pour tout u∈[0,1],a∈R,hu(a) = uφ(−a) + (1 −u)φ(a). Montrer que A(f∗) =
minfA(f)pour
f∗(x) = arg min
ahη(x)(a).
On justifiera que f∗(x)est bien définie pour tout x∈Rd.
2. Dériver la fonction a7→ hη(x)(a)afin de montrer que f∗(x)coincide avec le classifieur naïf
de Bayes.
3. (Lemme de Zhang) On pose H(u) = infahu(a)pour u∈(0,1) et on suppose qu’il existe
des constantes s≥1et c≥0telles que : ∀u∈(0,1),
|1
2−u|s≤cs(1 −H(u)).
Montrer que pour toute fonction f:Rd→R,
L(Cf)−L∗≤2c(A(f)−A∗)1/s,
avec A∗= inffA(f).INDICATION : on commencera par montrer l’inégalité L(Cf)−L∗≤
2(E[I{(2η(X)−1)f(X)<0}|η(X)−1/2|s])1/s.
4. Que vaut Hdans le cas φ(a) = exp(a)? Pour quelles constantes cet sla condition ci-dessus
est-elle vérifiée ?
mardi 10 mai 2011 page 2