3 Un th´eor`eme no free lunch en classification
R´ef´erence : Chapitre 7 de [DGL96].
Th´eor`eme 1. On consid`ere la perte 0−1`(f; (x, y)) = f(x)6=yen classification binaire supervis´ee,
et l’on suppose que Xest infini. Alors, pour tout n∈Net toute r`egle d’apprentissage de classification
b
f: (X × Y)n7→ F,
sup
PnEDn∼P⊗nhRb
f(Dn)− R (f?)io>1
2>0,(2)
le sup ´etant pris sur l’ensembles des mesures de probabilit´e sur X × Y. En particulier, aucun algorithme
d’apprentissage de classification ne peut ˆetre uniform´ement universellement consistant lorsque Xest
infini.
D´emonstration. Soit n, K ∈N,b
f: (X × Y)n7→ F un algorithme de classification. L’espace X´etant
infini, `a bijection pr`es, on peut supposer que N⊂ X .
Pour tout r∈ { 0,1}K, notons Prla distribution de probabilit´e sur X × Y d´efinie par P(X,Y )∼Pr(X=
jet Y=rj) = K−1pour tout j∈ {1, . . . , K }. Autrement dit, Xest choisi uniform´ement parmi
{1, . . . , K }, et Y=rXest une fonction d´eterministe de X. En particulier, pour tout r,RPr(f?) = 0.
Pour tout r∈ { 0,1}K(d´eterministe), on pose
F(r) = EDn∼P⊗n
rhRPrb
f(Dn)i .
La remarque cl´e est que pour toute distribution de probabilit´e Rsur {0,1}K,
sup
r∈{ 0,1}K
{F(r)}>Er∼R[F(r)] .
Notons Rla distribution uniforme sur {0,1}K, de telle sorte que r∼Rsignifie que r1, . . . , rKsont
ind´ependantes et de mˆeme distribution Bernoulli B(1/2). Alors,
Er∼R[F(r)] = Pb
f(X;Dn)6=Y
=Pb
f(X;Dn)6=rX
=EhP(rj)j /∈{ X1,...,Xn}b
f(X;Dn)6=rXX, X1, . . . , Xn, rX1, . . . , rXni
>EhE(rj)j /∈{ X1,...,Xn}b
f(X;Dn)6=rXX /∈{ X1,...,Xn}X, X1, . . . , Xn, rX1, . . . , rXni
=EX,X1,...,Xn,rX1,...,rXnX /∈{ X1,...,Xn}
2
=1
21−1
Kn
.
Pour tout n∈Nfix´e, cette borne inf´erieure tend vers 1/2 lorsque Ktend vers ∞1, d’o`u le r´esultat.
Un d´efaut du Th´eor`eme 1est que la distribution Pfaisant ´echouer un algorithme de classification
arbitraire b
fchange pour chaque taille d’´echantillon. On pourrait donc imaginer qu’il est tout de mˆeme
possible d’avoir une majoration de l’exc`es de risque de b
fde la forme c(P)unpour une suite (un)n>1
tendant vers 0 et une constante c(P) fonction de la loi des observations. Le r´esultat suivant montre que
ce n’est pas le cas, mˆeme avec une suite (un)n>1tendant tr`es lentement vers z´ero.
Th´eor`eme 2 (Th´eor`eme 7.2 [DGL96]).On consid`ere la perte 0−1`(f; (x, y)) = f(x)6=yen classification
binaire supervis´ee (Y={0,1}), et l’on suppose que Xest infini. Soit (an)n>1une suite de r´eels positifs,
d´ecroissante, convergeant vers z´ero, et telle que a161/16. Alors, pour toute r`egle de classification
b
f:Sn>1(X × Y)n7→ F, il existe une distribution Psur X × Y telle que pour tout n>1,
EDn∼P⊗nhRb
f(Dn)− R (f?)i>an.(3)
1. On ne peut faire tendre Kvers l’infini que si Xest infini, d’o`u le besoin de cette condition. Pour Xfini, il y a un
d´ejeuner (trivial) gratuit (voir la section 2.1) !
4