Estimateur classique Point de Lebesgue et ρ-régularité Indice de régularité Simulations Conclusion Condition nécessaire et suffisante de convergence en loi de l’estimateur des plus proches voisins Rémi Servien Laboratoire Jean Kuntzmann INP Grenoble Neuvième Colloque Jeunes Probabilistes et Statisticiens Mai 2010 Le Mont Dore Condition nécessaire et suffisante de convergence en loi de l’estimateur des plus proches voisins 1 / 19 Estimateur classique Point de Lebesgue et ρ-régularité Indice de régularité Simulations Conclusion Plan de la présentation 1 Estimateur classique des kn plus proches voisins 2 Point de Lebesgue et ρ-régularité 3 Indice de régularité 4 Simulations 5 Conclusion Condition nécessaire et suffisante de convergence en loi de l’estimateur des plus proches voisins 2 / 19 Estimateur classique Point de Lebesgue et ρ-régularité Indice de régularité Simulations Conclusion Estimateur classique des kn plus proches voisins Sn = {X1 , ..., Xn } de v.a. iid sur Rd tiré à partir d’une mesure de probabilité µ Estimateur de la densité des kn -plus proches voisins : fkn (x) = kn nλ(Bkn (x)) où Bkn (x) est la plus petite boule de centre x contenant kn points de l’échantillon. Estimateur convergent Condition nécessaire et suffisante de convergence en loi de l’estimateur des plus proches voisins 3 / 19 Estimateur classique Point de Lebesgue et ρ-régularité Indice de régularité Simulations Conclusion Théorème (Moore et Yackel, 1977) Si f est continue et à dérivées bornées dans un voisinage de x avec f (x) > 0 et sous les conditions de convergence de fkn lim kn = ∞ et lim n→∞ n→∞ kn =0 n et sous la condition supplémentaire kn =0 n→∞ n2/3 lim alors la variable aléatoire Tn (x) = p fk (x) − f (x) kn n f (x) converge vers une loi N (0, 1). Condition nécessaire et suffisante de convergence en loi de l’estimateur des plus proches voisins 4 / 19 Estimateur classique Point de Lebesgue et ρ-régularité Indice de régularité Simulations Conclusion Définitions x est un point de Lebesgue de la mesure µ si lim δ→0+ µ(Bδ (x)) = f (x) existe. λ(Bδ (x)) x est un point ρ-régulier de la mesure µ si µ(Bδ (x)) λ(Bδ (x)) − f (x) ≤ ρ(δ), (1) où ρ est une fonction mesurable telle que limδ→0+ ρ(δ) = 0 (Berlinet et Levallois, 2000). Condition nécessaire et suffisante de convergence en loi de l’estimateur des plus proches voisins 5 / 19 Estimateur classique Point de Lebesgue et ρ-régularité Indice de régularité Simulations Conclusion Exemple 0.2 0.3 f1(x) 0.4 0.5 0.6 On définit, pour x ∈ [−1, 1] et x 6= 0, la densité p |x| + 2 − cos(1/x) + 2x sin(1/x) f1 (x) = c −1.0 −0.5 0.0 0.5 1.0 x Condition nécessaire et suffisante de convergence en loi de l’estimateur des plus proches voisins 6 / 19 Estimateur classique Point de Lebesgue et ρ-régularité Indice de régularité Simulations Conclusion Exemple Discontinuité du 2nd ordre en 0. Mais µ1 (Bh (0)) 2 2 1/2 = + h + o(h1/2 ) 2h c 3c 0 est un point de Lebesgue de la mesure µ1 de densité f1 Condition nécessaire et suffisante de convergence en loi de l’estimateur des plus proches voisins 7 / 19 Estimateur classique Point de Lebesgue et ρ-régularité Indice de régularité Simulations Conclusion Théorème (Berlinet et Levallois, 2000) Sous les conditions de convergence de fkn , si x est un point ρ-régulier de la mesure µ avec f (x) > 0, alors la condition p P kn ρ(Rn (x)) → 0 lorsque n tend vers l’infini implique la convergence en distribution de la variable aléatoire Tn (x) = p fk (x) − f (x) kn n f (x) vers une loi N (0, 1). Condition nécessaire et suffisante de convergence en loi de l’estimateur des plus proches voisins 8 / 19 Estimateur classique Point de Lebesgue et ρ-régularité Indice de régularité Simulations Conclusion Indice de régularité Si en x, point de Lebesgue de la mesure µ, nous avons µ(Bδ (x)) = f (x) + Cx δ αx + o(δ αx ) quand δ → 0+ , λ(Bδ (x)) (2) où Cx 6= 0 et αx > 0. L’indice αx est appelé indice de régularité de la mesure µ au point x. Condition nécessaire et suffisante de convergence en loi de l’estimateur des plus proches voisins 9 / 19 Estimateur classique Point de Lebesgue et ρ-régularité Indice de régularité Simulations Conclusion Exemple 1 p f1 (x) = |x| + 2 − cos(1/x) + 2x sin(1/x) c µ1 (Bh (0)) 2 2 1/2 = + h + o(h1/2 ) 2h c 3c 0 est un point de Lebesgue de la mesure µ1 de densité f1 avec un indice de régularité α0 = 1/2. Condition nécessaire et suffisante de convergence en loi de l’estimateur des plus proches voisins 10 / 19 Estimateur classique Point de Lebesgue et ρ-régularité Indice de régularité Simulations Conclusion Exemple 2 √ 2/3 + p |x| si x ∈ [−0.5, 0.5] 0.9 Pour µ2 (x) on a : αx = 1 si x 6= 0 0.8 f2(x) 1.0 1.1 1.2 f2 (x) = 1 − 0.6 0.7 αx = 0.5 si x = 0 −0.4 −0.2 0.0 0.2 0.4 x Caractère très fortement local de l’indice de régularité Condition nécessaire et suffisante de convergence en loi de l’estimateur des plus proches voisins 11 / 19 Estimateur classique Point de Lebesgue et ρ-régularité Indice de régularité Simulations Conclusion Exemple 3 1 + 1 − a si x ∈ [−0.5, 0.5]\0 log |x| = 1−a si x = 0 1.6 f3 (x) = 0.6 0.8 1.0 On a ρ-régularité avec ρ(δ) = −1/ log δ Il n’y a pas d’indice de régularité en 0. 0.4 f3(x) 1.2 1.4 0 est un point de Lebesgue de la mesure µ3 −0.4 −0.2 0.0 0.2 0.4 x Condition nécessaire et suffisante de convergence en loi de l’estimateur des plus proches voisins 12 / 19 Estimateur classique Point de Lebesgue et ρ-régularité Indice de régularité Simulations Conclusion Théorème Si x est un point de Lebesgue où (2) est vérifié avec f (x) > 0, et sous les conditions de convergence de fkn , la variable aléatoire p fk (x) − f (x) Tn (x) = kn n f (x) converge en loi si et seulement si la suite ! 1+1/2αx kn n a une limite finie κ. Lorsque cette condition est vérifiée, la loi asymptotique de Tn (x) est ! Cx καx 1 αx +1 N ,1 . 2αx f (x) Condition nécessaire et suffisante de convergence en loi de l’estimateur des plus proches voisins 13 / 19 Estimateur classique Point de Lebesgue et ρ-régularité Indice de régularité Simulations Conclusion Exemple f2 (x) = 1 − √ 2/3 + p |x| si x ∈ [−0.5, 0.5] Pour µ2 (x) on a : αx = 1 si x 6= 0 αx = 0.5 si x = 0 Sans√ prendre en compte la spécificité de f2 en 0, on choisit kn = n pour n = 10000. Condition nécessaire et suffisante de convergence en loi de l’estimateur des plus proches voisins 14 / 19 Estimateur classique Point de Lebesgue et ρ-régularité Indice de régularité Simulations Conclusion Exemple 0.0 0.1 0.2 0.3 0.4 x=−0.25 x=−0.125 x=0 x=0.125 x=0.25 −2 0 2 4 6 Condition nécessaire et suffisante de convergence en loi de l’estimateur des plus proches voisins 15 / 19 Estimateur classique Point de Lebesgue et ρ-régularité f2 (x) = 1 − Simulations Conclusion Simulations √ 2 3 Indice de régularité + p |x|, x ∈ [−0.5, 0.5] Hypothèses du théorème : en 0 : kn << n0.5 et kn << n2/3 sinon. x= kn = n1/3 kn = n2/5 kn = n0.6 f2 (x) −0.25 [0.74 ;1.25] [0.90 ;1.32] [1.02 ;1.05] 1.03 −0.125 [0.72 ;1.22] [0.66 ;0.96] [0.85 ;0.87] 0.88 0 [0.34 ;0.55] [0.37 ;0.53] [0.55 ;0.56] 0.53 0.125 [0.63,1.06] [0.65,0.94] [0.85 ;0.88] 0.88 TABLEAU: Estimations de f2 en différents points x pour n = 500000 points Condition nécessaire et suffisante de convergence en loi de l’estimateur des plus proches voisins 16 / 19 Estimateur classique Point de Lebesgue et ρ-régularité Indice de régularité Simulations Conclusion Autre utilisation de l’indice de régularité Estimateur de la densité des kn -plus proches voisins : fkn (x) = kn . nλ(Bkn (x)) Estimateur récursif (Beirlant, Berlinet et Biau (2008)) : (r ) fkn (x) = fkn (x) − a(d, kn , αx ). Condition nécessaire et suffisante de convergence en loi de l’estimateur des plus proches voisins 17 / 19 Estimateur classique Point de Lebesgue et ρ-régularité Indice de régularité Simulations Conclusion 0.6 0.8 1.0 Estimation de f4 (x) = 0.5 exp(|x|) en x = 0 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.4 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.2 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.0 ● 0 200 400 600 800 1000 kn Condition nécessaire et suffisante de convergence en loi de l’estimateur des plus proches voisins 18 / 19 Estimateur classique Point de Lebesgue et ρ-régularité Indice de régularité Simulations Conclusion Conclusion Condition nécessaire et suffisante pour la convergence en loi de fkn Problèmes : Pas d’indice de régularité exact pour certaines fonctions ρ-régulières Indice de régularité difficile à calculer Définition inutilisable pour un rapport de mesures d’ensembles non centrés au point d’estimation x et n’étant pas forcément des boules → Nouvelle définition de l’indice de régularité Condition nécessaire et suffisante de convergence en loi de l’estimateur des plus proches voisins 19 / 19 Nouvelle définition On définit l’ensemble Ex par n Ex = α ≥ 0 tel que ∃C > 0, ∃λ0 > 0, tels que ∀I ∈ Ix vérifiant λ(I) < λ0 o α − f (x) on ait µ(I) ≤ Cλ(I) λ(I) où Ix est l’ensemble des intervalles contenant x. S’il existe un réel αx vérifiant αx = sup Ex (1) alors αx sera l’indice de régularité de la mesure µ au point x. Si sup Ex = +∞ alors nous aurons αx = +∞. Estimation de régularité locale 1/6 Exemple 0.4 0.3 0.2 f4(x) 0.5 0.6 sin(1/x) f4 (x) = 2−cos(1/x)+2x définie sur R pour x ∈ [−1, 1]\0 c avec c = 4 + 2 sin 1 et µ1 sa mesure de probabilité associée. −1.0 −0.5 0.0 x 0.5 1.0 Estimation de régularité locale 2/6 En 0 : Point de Lebesgue ρ-régularité avec ρ(δ) = δ/c Pas d’indice de régularité exact car 1 µ4 ([−h, h]) − f4 (0) = h sin 2h c 1 h → Utilisation de la nouvelle définition : α0 = 1 Estimation de régularité locale 3/6 Théorème Si x est un point de Lebesgue où (1) est vérifié avec f (x) > 0 et αx ∈ Ex , et sous les conditions de convergence de fkn , la condition supplémentaire 1+1/2αx lim n→∞ kn n =0 implique la convergence asymptotique de la variable aléatoire Tn (x) = p fk (x) − f (x) kn n f (x) vers une loi N (0, 1). Estimation de régularité locale 4/6 Application à l’histogramme L’histogramme s’écrit fh (x) = νnq nhn avec x ∈ Πnq , νnq étant le nombre de points dans la qème cellule, q ∈ Z et hn un nombre réel positif dépendant de n. Si lim hn = 0 et lim nhn = +∞. n→∞ alors n→∞ (2) L2 fh (x) → f (x). Estimation de régularité locale 5/6 Théorème Si x est un point de Lebesgue où (1) est vérifié avec f (x) > 0 et αx ∈ Ex , et sous les conditions (2), la condition supplémentaire lim nhn2αx +1 = 0 n→∞ implique la convergence asymptotique de la variable aléatoire Hn (x) = p fh (x) − f (x) nhn p f (x) vers une loi N (0, 1). Estimation de régularité locale 6/6