J.-Y. Audibert CERTIS–ENPC 1
Exercice sur l’algorithme des kplus proches voisins
Nous considérons le problème de classification binaire où l’espace des entrées est X= [0; 1] et
l’espace des sorties est {0; 1}.
1. La base d’apprentissage est (X1= 0,8 ; Y1= 1),(X2= 0,4 ; Y2= 0),(X3= 0,7 ; Y3= 1).
Donner la valeur prédite pour toute nouvelle entrée x∈ X
(a) par l’algorithme des 3-p.p.v.
(b) par l’algorithme du p.p.v.
2. Dans cette question, nous supposons que la loi Pgénérant le couple entrée-sortie (X, Y )est
la suivante : Xsuit une loi uniforme sur [0; 1] et Y= 1 si X≥0.5, et Y= 0 sinon.
(a) Donner P(Y= 1|X=x)pour tout x∈ X .
(b) En déduire le prédicteur cible. Quel est son risque ?
(c) Soit (X1, Y1),...,(Xn, Yn)une base d’apprentissage. (Elle est constituée de nréalisa-
tions i.i.d. de la loi P.) Soit El’événement : "tous les Yisont de même signe". Calculer
P(E).Sur le complémentaire de E, comment se comporte l’algorithme du plus proche
voisin ? Deviner (pas de démonstration requise) l’ordre de grandeur de son risque ?
3. Dans cette question, la loi Pgénérant les données est la suivante : Xsuit une loi uniforme
sur [0; 1] et P(Y= 1|X=x) = 2/3 = 1 −P(Y= 0|X=x).
(a) Quel est le risque du prédicteur cible ?
(b) Pour tout 0≤a≤b≤1, calculer P(X∈[a;b]; Y= 1).
(c) Deviner (pas de démonstration requise ; un raisonnement heuristique suffit) la valeur
approximative du risque de l’algorithme du plus proche voisin ? Que peut-on en déduire
sur la consistance de l’algorithme du plus proche voisin ?
Exercice jouet : un algorithme randomisé stupide
Nous considérons le problème de classification binaire : l’espace des entrées est noté X. L’espace
des sorties est {0; 1}et la fonction de perte est l: (y, y0)7→ 1y6=y0. Soit ˆgun algorithme qui pour
un ensemble d’apprentissage produit une fonction de prédiction aléatoire construite de la manière
suivante : pour tout x∈ X , cette fonction de prédiction renvoie un nombre tiré suivant la loi
uniforme sur {0; 1}de façon indépendante des nombres tirés pour les autres entrées et indépendante
de l’ensemble d’apprentissage. Cette fonction de prédiction est donc (hautement) aléatoire, et
l’algorithme ˆgest dit randomisé car la fonction de prédiction qu’il produit n’est pas une fonction
déterministe de l’ensemble d’apprentissage.
En termes moins mathématiques, utiliser cet algorithme revient à lancer une pièce pour chaque
entrée et à prédire 0ou 1suivant que la pièce tombe sur pile ou face.
1) Pour un ensemble d’apprentissage donné, que vaut ER(ˆg), où l’espérance est prise par rapport
à la loi de la fonction de prédiction tirée par l’algorithme randomisé ?
2) En déduire la valeur de ER(ˆg), où l’espérance est prise par rapport à toutes les sources d’aléa.
Problème : autour du théorème de Stone
Nous considérons le problème de régression quadratique suivant. L’espace des entrées est Rd.
Celui des sorties est R. La fonction de perte est l: (y, y0)7→ (y−y0)2. On considère les algorithmes