Université Denis Diderot Master 2 - Apprentissage
Apprentissage statistique
Examen - 2 heures
- Problème - "Vitesses rapides"
1. On se propose de démontrer l’inégalité de Bernstein. On désigne par X1, . . . , Xnune suite
de v.a. i.i.d. à valeurs réelles bornées, centrées et de variance σ2.
(a) Montrer que : s > 0,t > 0,
P{
n
X
i=1
Xi> t} ≤ exp st +nlog E[esX1].
(b) Soit f(x) = (exx1)/x2pour x > 0. Montrer que : s > 0,
E[esX1]1 + s2f(s||X1||)σ2exp s2f(s||X1||)σ2.
(c) En déduire l’inégalité de Bennett :
P(n
X
i=1
Xi> t)exp 2
||X1||
h||X1||t
2,
h(x) = (1 + x) log(1 + x)xpour x0.
(d) Montrer que : x0,
h(x)x2
2(1 + x/3).
En déduire l’inégalité exponentielle de Bernstein :
P(n1
n
X
i=1
Xi> t)exp nt2
2σ2+2
3||X1||t!,
2. On se place dans le cadre de la classification supervisée. On considère (X, Y )un couple
de v.a. à valeurs dans Rd× {−1,+1}. On note p=P{Y= +1},η(X) = P{Y= +1 |X}
et on désigne par L(C) = P{C(X)6=Y}l’erreur de classification d’une règle prédictive
C:Rd→ {−1,+1}.
(a) Pour toute règle prédictive C, montrer que l’excès de risque peut s’exprimer de la
façon suivante :
L(C)L=E[|2η(X)1| · I{C(X)6=C(X)}],
C(X)=2·I{η(X)>1/2} − 1désigne le classifieur naïf de Bayes et L=L(C).
mardi 10 mai 2011 page 1
Université Denis Diderot Master 2 - Apprentissage
(b) On suppose la "condition de bruit" suivante vérifiée :
|η(X)1/2| ≥ cpresque-sûrement,
pour une certaine constante c > 0. On considère un ensemble Cde classifieurs, de
cardinal N < , et on suppose que C∈ C. On pose fC(X, Y ) = I{C(X)6=Y} −
I{C(X)6=Y}. Montrer qu’il existe une constante K < telle que :
var(fC)K·E[fC].
(c) En utilisant l’inégalité de Bernstein, combinée à la borne de la réunion (sur l’ensemble
C) et à l’inégalité ci-dessus, montrer que pour tout δ(0,1), on a avec une probabilité
supérieure à 1δ:C∈ C,
E[fC]1
n
n
X
i=1
fC(Xi, Yi) + r2KE[fC] log(Nδ)
n+4 log(N)
3n.
(d) On désigne par C
nle minimiseur du risque empirique sur la classe C:Ln(C
n) =
minC∈C Ln(C)avec L(C) = (1/n)P1inI{Yi6=C(Xi)}. Montrer qu’avec une pro-
babilité supérieure à 1δ(0,1), on a :
L(C
n)Lr2K(L(C
n)L) log(N)
n+4 log(N)
3n.
(e) En déduire qu’avec une probabilité supérieure à 1δ(0,1), on a :
L(C
n)L2Klog(N)/n.
- Exercice - "Convexification du Risque"
On se place dans le cadre de la classification binaire, on utilisera les mêmes notations que dans
le Problème (on considère un couple de v.a. (X, Y )à valeurs dans Rd×{−1,1},etc). On suppose
que 0< η(X)<1presque-sûrement. Soit φ:RR+une fonction dérivable, strictement
convexe, croissante, nulle en −∞, et égale à 1en 0. Pour tout classifieur Cf(X) = sgn(f(X)),
avec f:RdR, on considère la version convexifiée du risque de classification :
A(f) = E[φ(Y f(X))].
1. On pose, pour tout u[0,1],aR,hu(a) = (a) + (1 u)φ(a). Montrer que A(f) =
minfA(f)pour
f(x) = arg min
ahη(x)(a).
On justifiera que f(x)est bien définie pour tout xRd.
2. Dériver la fonction a7→ hη(x)(a)afin de montrer que f(x)coincide avec le classifieur naïf
de Bayes.
3. (Lemme de Zhang) On pose H(u) = infahu(a)pour u(0,1) et on suppose qu’il existe
des constantes s1et c0telles que : u(0,1),
|1
2u|scs(1 H(u)).
Montrer que pour toute fonction f:RdR,
L(Cf)L2c(A(f)A)1/s,
avec A= inffA(f).INDICATION : on commencera par montrer l’inégalité L(Cf)L
2(E[I{(2η(X)1)f(X)<0}|η(X)1/2|s])1/s.
4. Que vaut Hdans le cas φ(a) = exp(a)? Pour quelles constantes cet sla condition ci-dessus
est-elle vérifiée ?
mardi 10 mai 2011 page 2
1 / 2 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !