J.-Y. Audibert CERTIS–ENPC 1
Exercice jouet : un algorithme randomisé stupide
Nous considérons le problème de classification binaire : l’espace des entrées est noté
X. L’espace des sorties est {0; 1}et la fonction de perte est l: (y, y0)7→ 1y6=y0. Soit ˆg
un algorithme qui pour un ensemble d’apprentissage produit une fonction de prédiction
aléatoire construite de la manière suivante : pour tout x∈ X , cette fonction de prédic-
tion renvoie un nombre tiré suivant la loi uniforme sur {0; 1}de façon indépendante des
nombres tirés pour les autres entrées et indépendante de l’ensemble d’apprentissage. Cette
fonction de prédiction est donc (hautement) aléatoire, et l’algorithme ˆgest dit randomisé
car la fonction de prédiction qu’il produit n’est pas une fonction déterministe de l’ensemble
d’apprentissage.
En termes moins mathématiques, utiliser cet algorithme revient à lancer une pièce pour
chaque entrée et à prédire 0ou 1suivant que la pièce tombe sur pile ou face.
1) Pour un ensemble d’apprentissage donné, que vaut ER(ˆg), où l’espérance est prise
par rapport à la loi de la fonction de prédiction tirée par l’algorithme randomisé ?
2) En déduire la valeur de ER(ˆg), où l’espérance est prise par rapport à toutes les sources
d’aléa.
Problème : autour du théorème de Stone
Nous considérons le problème de régression quadratique suivant. L’espace des entrées
est Rd. Celui des sorties est R. La fonction de perte est l: (y, y0)7→ (y−y0)2. On considère
les algorithmes par moyennage qui pour une entrée xprédisent la sortie
ˆη(x) =
n
X
i=1
Wi(x)Yi,
où les poids Wi(x)sont des quantités réelles dépendant de n, x, X1, . . . , Xn. Nous considé-
rons la version suivante (légèrement différente de celle du cours) du théorème de Stone.
Théorème (Stone, 1977). Supposons que pour toute probabilité sur Rdgénérant Xles
poids Wisatisfont
(i) ∃n0∈N∃c > 0∀n≥n0∀f:Rd→Rpositive et intégrable
E½Pn
i=1 |Wi(X)|f(Xi)¾≤cEf(X).
(ii) ∃D > 0tel que presque sûrement Pn
i=1 |Wi(X)| ≤ D.
(iii) ∀a > 0,lim
n→+∞
E©Pn
i=1 |Wi(X)|1kXi−Xk>aª= 0.
(iv) Pn
i=1 Wi(X)converge vers 1en probabilité
(v) lim
n→+∞
E©Pn
i=1[Wi(X)]2ª= 0.
Alors l’algorithme ˆηest consistant par rapport à toute probabilité du couple (X, Y )vérifiant
EY2<+∞.