Exercice sur l`algorithme des k plus proches voisins Exercice jouet

publicité
J.-Y. Audibert
CERTIS–ENPC
1
Exercice sur l’algorithme des k plus proches voisins
Nous considérons le problème de classification binaire où l’espace des entrées est X = [0; 1] et
l’espace des sorties est {0; 1}.
1. La base d’apprentissage est (X1 = 0, 8 ; Y1 = 1), (X2 = 0, 4 ; Y2 = 0), (X3 = 0, 7 ; Y3 = 1).
Donner la valeur prédite pour toute nouvelle entrée x ∈ X
(a) par l’algorithme des 3-p.p.v.
(b) par l’algorithme du p.p.v.
2. Dans cette question, nous supposons que la loi P générant le couple entrée-sortie (X, Y ) est
la suivante : X suit une loi uniforme sur [0; 1] et Y = 1 si X ≥ 0.5, et Y = 0 sinon.
(a) Donner P (Y = 1|X = x) pour tout x ∈ X .
(b) En déduire le prédicteur cible. Quel est son risque ?
(c) Soit (X1 , Y1 ), . . . , (Xn , Yn ) une base d’apprentissage. (Elle est constituée de n réalisations i.i.d. de la loi P .) Soit E l’événement : "tous les Yi sont de même signe". Calculer
P(E). Sur le complémentaire de E, comment se comporte l’algorithme du plus proche
voisin ? Deviner (pas de démonstration requise) l’ordre de grandeur de son risque ?
3. Dans cette question, la loi P générant les données est la suivante : X suit une loi uniforme
sur [0; 1] et P (Y = 1|X = x) = 2/3 = 1 − P (Y = 0|X = x).
(a) Quel est le risque du prédicteur cible ?
(b) Pour tout 0 ≤ a ≤ b ≤ 1, calculer P (X ∈ [a; b]; Y = 1).
(c) Deviner (pas de démonstration requise ; un raisonnement heuristique suffit) la valeur
approximative du risque de l’algorithme du plus proche voisin ? Que peut-on en déduire
sur la consistance de l’algorithme du plus proche voisin ?
Exercice jouet : un algorithme randomisé stupide
Nous considérons le problème de classification binaire : l’espace des entrées est noté X . L’espace
des sorties est {0; 1} et la fonction de perte est l : (y, y 0 ) 7→ 1y6=y0 . Soit ĝ un algorithme qui pour
un ensemble d’apprentissage produit une fonction de prédiction aléatoire construite de la manière
suivante : pour tout x ∈ X , cette fonction de prédiction renvoie un nombre tiré suivant la loi
uniforme sur {0; 1} de façon indépendante des nombres tirés pour les autres entrées et indépendante
de l’ensemble d’apprentissage. Cette fonction de prédiction est donc (hautement) aléatoire, et
l’algorithme ĝ est dit randomisé car la fonction de prédiction qu’il produit n’est pas une fonction
déterministe de l’ensemble d’apprentissage.
En termes moins mathématiques, utiliser cet algorithme revient à lancer une pièce pour chaque
entrée et à prédire 0 ou 1 suivant que la pièce tombe sur pile ou face.
1) Pour un ensemble d’apprentissage donné, que vaut ER(ĝ), où l’espérance est prise par rapport
à la loi de la fonction de prédiction tirée par l’algorithme randomisé ?
2) En déduire la valeur de ER(ĝ), où l’espérance est prise par rapport à toutes les sources d’aléa.
Problème : autour du théorème de Stone
Nous considérons le problème de régression quadratique suivant. L’espace des entrées est Rd .
Celui des sorties est R. La fonction de perte est l : (y, y 0 ) 7→ (y − y 0 )2 . On considère les algorithmes
J.-Y. Audibert
CERTIS–ENPC
2
par moyennage qui pour une entrée x prédisent la sortie
η̂(x) =
n
X
Wi (x)Yi ,
i=1
où les poids Wi (x) sont des quantités réelles dépendant de n, x, X1 , . . . , Xn . Nous considérons la
version suivante (légèrement différente de celle du cours) du théorème de Stone.
Théorème (Stone, 1977). Supposons que pour toute probabilité sur Rd générant X les poids Wi
satisfont
(i) ∃n0 ∈ N
∃c > 0
∀n ≥ n0
∀f : Rd → R positive et intégrable
½
¾
Pn
E
i=1 |Wi (X)|f (Xi ) ≤ c Ef (X).
Pn
(ii) ∃D > 0 tel que presque sûrement i=1 |Wi (X)| ≤ D.
©P n
ª
|Wi (X)|1kXi −Xk>a = 0.
(iii) ∀a > 0, lim E
i=1
n→+∞
Pn
(iv)
W
i (X) converge vers 1 en probabilité
i=1
©P n
ª
2
= 0.
(v) lim E
i=1 [Wi (X)]
n→+∞
Alors l’algorithme η̂ est consistant par rapport à toute probabilité du couple (X, Y ) vérifiant EY 2 <
+∞.
1) On rappelle que la limite supérieure d’une suite (un )n∈N est sa plus grande valeur d’adhérence. C’est également la limite de la suite décroissante (vn )n∈N définie par vn = supk≥n uk .
Montrer que si
∃c > 0
∀f : Rd → R positive et intégrable
¾
½
Pn
lim sup E
i=1 |Wi (X)|f (Xi ) ≤ c Ef (X),
n→+∞
alors la condition (i) est vérifiée. On pourra raisonner par contradiction en supposant que (i)
n’est pas vérifiée, et construire une suite de fonctions (fk ) d’espérance (2−k ) et considérer la
P
fonction f = k fk .
Le but de cet exercice est de montrer que lorsque les poids Wi sont positifs, les conditions (i)
et (v) du théorème de Stone précédent sont des conditions nécessaires pour avoir la consistance
universelle. Nous supposons donc dans la suite que les poids Wi sont positifs et tels que la conclusion
du théorème Stone est vérifiée.
2) Montrer qu’alors (i) est nécessairement vraie. On pourra
a) considérer les probabilités sur (X, Y ) où Y est une fonction déterministe de X, i.e. les
probabilités telles que les lois de Y sachant X sont des mesures de Dirac
b) se servir de l’expression simplifiée de l’excès de risque dans le cas de la régression quadratique
c) montrer pour toute fonction f positive intégrable
µ ½
¾
¶2
Pn
E
|W
(X)|f
(X
)
−
Ef
(X)
−→
i
i
i=1
n→+∞
d) utiliser la question 1).
3) a) Montrer que (v) est nécessairement vraie.
b) Que peut-on en conclure sur l’algorithme du plus proche voisin.
0
Téléchargement