r´egression β∗∈Rpet un niveau de bruit σ∗>0 les variables al´eatoires yi−β∗
1(x1)i−
. . . −β∗
p(xp)isont i.i.d. gaussiennes de moyenne 0 et de variance σ∗2. En d’autres termes,
y=Xβ∗+ξ,ξ∼σ∗Nn(0,In),(1)
o`u y:= (y1, . . . , yn)>∈Rnest le vecteur r´eponse, X:= (x1,...,xp)∈Rn×pest la
matrice de design d´eterministe (sans perte de g´en´eralit´e, on suppose que kxjk2
2≤npour
tout j∈ {1, . . . , p}), ξ∈Rnest le vecteur de bruit, et Inest la matrice identit´e de taille
n×n.
Rappelons que le Lasso (cf. Tibshirani (1996)) est d´efini comme solution du probl`eme
d’optimisation convexe
ˆ
βLasso
λ∈arg min
βn1
2nky−Xβk2
2+λkβk1o.(2)
Dans le document pr´esent, nous allons r´epondre aux questions suivantes.
Question 1. Dans le cadre de l’estimation parcimonieuse, il existe des m´ethodes (Dalalyan
et Tsybakov (2007), Rigollet et Tsybakov (2011), etc.) dont le risque de pr´ediction d´ecroˆıt
vers z´ero `a la vitesse s∗/n (s∗=kβ∗k0), dite vitesse rapide, sans aucune condition sur
les corr´elations entre les variables explicatives. En revanche les vitesses rapides pour le
Lasso sont obtenues sous des contraintes relativement fortes sur les corr´elations. Ces con-
traintes sont exprim´ees en terme de la condition d’isom´etrie restreinte, les valeurs propres
restreintes, la coh´erence mutuelle ou encore la condition d’incompatibilit´e (cf. van de Geer
and Buhlmann (2009)). Par cons´equent, nous ne savons pas si les vitesses rapides sont
valables pour le Lasso quelle que soit les corr´elations entre les variables. Cette question
reste ouverte mˆeme si l’on autorise λd´ependre du bruit ξet du vrai vecteur de r´egression
β∗.
Question 2. Pour des vecteurs parcimonieux β∗ayant pour support J∗={j∈ {1, . . . , p}:
β∗
j6= 0}et pour des variables fortement corr´el´ees dans le sense o`u toutes les variables non-
pertinentes {xj:j6∈ J∗}sont proches du sous-espace lin´eaire engendr´e par les variables
pertinentes {xj:j∈J∗}, les r´esultats empiriques sugg`erent que la perte de pr´ediction
minimale est obtenue pour les valeurs de λconsid´erablement plus petites que la valeur
universelle. Est-il possible de d’incorporer dans λla g´eom´etrie des variables explicatives
par le biais d’un indicateur simple, qui permettrait d’obtenir les vitesses rapides pour les
variables tr`es corr´el´ees?
Dans toute la suite, on notera `n(β,β0) := 1
nkX(β−β0)k2
2la perte de pr´ediction. Pour
tout T⊂[p], on note Tcet |T|l’ensemble compl´ementaire [p]\Tet le cardinal de T,
respectivement. Pour toute matrice A∈Rp×qet pour tout T⊂[q], ATd´esigne la matrice
obtenue de Aen supprimant les colonnes appartenant `a Tc. Pour un vecteur u∈Rpet
un ensemble T⊂[p], uTest le vecteur obtenu de uen supprimant les coordonn´ees appar-
tenant `a Tc. Pour deux vecteurs uet u0, l’op´eration binaire d´esigne le produit ´el´ement-
par-´el´ement, uu0= (u1u0
1, . . . , upu0
p)>. On ´ecrit 1p(resp. 0p) pour le vecteur de Rpdont
2