Université Paris-Dauphine U.F.R. Mathématiques de la décision L3 - Statistique Mathématique Année 2008-2009 Examen Durée 2h00. Le barême est donné à titre indicatif. Exercice 1 : (5 points) Soit (X1 , . . . , Xn ) un échantillon de va iid de même loi que X, où X admet pour densité de probabilité f (x, θ) par rapport à la mesure Lebesgue, définie par : θ −(p+1) f (x, θ) = kx exp − 1x>0 , x avec θ ∈]0, +∞[ un paramètre réel inconnu et p > 0 un nombre connu. 1 1. On pose U = . Montrer que U ∼ Gamma(p, θ) et en déduire la constante k, EU et X Var U. On applique la méthode du changement de variable. Soit g une fonction continue bornée alors par changement de variable y = 1/x, on a Z ∞ Z ∞ −(p+1) E(g(U)) = k g(1/x)x exp (−θ/x) dx = k g(y)y p−1 exp (−θy) dy. 0 0 On reconnaît la densité d’une Gamma(p, θ) à la constante k = θp /Γ(p) près. On en déduit EU = p/θ et Var U = p/θ2 . 2. Déterminer une statistique exhaustive complète pour θ. On est dans le cadre du modèle exponentiel à un paramètre avec θp , Γ(p) h(x) = x−(p+1) 1x>0 , α1 (θ) = θ, 1 T1 (x) = − . x c(θ) = Etant donné que α1 (Θ) = α1 (]0; +∞[) =]0; +∞[, ouvert de dimension 1 et que T1 est affinement indépendante, on en déduit que n − 1X 1 n i=1 Xi est une statistique exhaustive complète pour θ. 1 3. Déterminer θbn l’estimateur du maximum de vraisemblance de θ. On est dans le cadre d’un modèle régulier exponentiel où β(θ) = p ln(θ) (notation de la page 79 du polycopié). Or β es deux fois continûment dérivable de dérivée seconde −p/θ2 < 0 donc l’EMV vérifie n np 1X 1 ⇔ θbn = Pn 1 β (θbn ) = n i=1 Xi i=1 Xi ′ n X 1 4. A l’aide de la question 1, déterminer la loi de Z = et montrer que : Xi i=1 Eθbn = npθ , np − 1 Var θbn = (npθ)2 . (np − 1)2 (np − 2) D’après la question 1, 1/Xi est une suite iid de va suivant la loi Gamma(p, θ) donc Z ∼ Gamma(np, θ). On en déduit que Z ∞ Z ∞ npθ 1 θnp np−1 1 b = np z exp(−θz)dz = unp−1−1 exp(−u)du E(θn ) = npE Z z Γ(np) Γ(np) 0 0 en effectuant le changement de variable u = θz. On reconnaît la quantité Γ(np − 1) et la relation Γ(np) = (np − 1)Γ(np − 1) permet de conclure pour le calcul de l’espérance. Reste à calculer E(1/Z 2 ). Avec le même changement de variable que précédemment, on obtient E(1/Z 2 ) = θ2 Γ(np − 2)/Γ(np) d’où (npθ)2 1 1 2 2 2 b Var θn = (np) E(1/Z ) − = (npθ) − (np − 1)2 (np − 1)(np − 2) (np − 1)2 et le résultat souhaité suit facilement. 5. L’estimateur θbn est-il sans biais ? convergeant ? efficace ? L’estimateur θbn est biaisé d’après la question précédente. Il ne peut donc pas être efficace. Il est toutefois convergeant car asymptotiquement sans biais et de variance tendat vers 0. Exercice 2 :(5 points) Soit (X1 , · · · , Xn ) un échantillon de va iid de densité par rapport à la mesure de Lebesgue sur R+ : f (x, θ) = e−(x−θ) 1x≥θ , où θ ∈ R est inconnu. 1. Calculer l’EMV de θ noté θbn . On écrit la vraisemblance Ln (θ) = enθ− Pn i=1 Xi 1min(X1 ,...,Xn )≥θ qui est maximale lorsque θbn = min(X1 , . . . , Xn ). 2. Déterminer la forme de la zone de rejet d’un test des hypothèses H0 : θ ≤ θ0 contre H1 : θ > θ0 utilisant l’EMV θbn . La zone de rejet sera de la forme W = {θbn > k} où k est un seuil à calculer en fonction du seuil souhaité. 2 3. Déterminer la statistique Tb du test du rapport de vraisemblance pour les mêmes hypothèses H0 et H1 . Qu’en déduire pour le test de la question 2 ? La vraisemblance Ln (θ) vérifie le critère de factorisation pour l’EMV θbn avec h(x) = e− Pn i=1 xi et g(θ, θbn ) = enθ 1θbn ≥θ . Donc l’EMV est une statistique exhaustive. De plus, pour tout θ0 < θ1 on a Vθ0 ,θ1 = eθ0 −θ1 1θbn ≥θ1 qui est une fonction croissante en θbn . On est donc dans un modèle à RVM pour Tb = θbn et le test de la question 2 est UPP parmi tous les tests de niveau ≤ Pθ0 (W ) (Karlin-Rubin). 4. Déterminer la fonction de répartition de Tb. On a n Y Pθ (Xi > x), Pθ (Tb ≤ x) = 1 − Pθ (Tbn > x) = 1 − i=1 par indépendance des Xi . Mais pour x > θ on a Z ∞ Pθ (Xi > x) = e−(u−θ) du = exp(−(x − θ)) x pour tout i donc Pθ (Tb ≤ x) = 1 − (exp(−(x − θ)))n = 1 − exp(−n(x − θ)) pour x > θ et Pθ (Tb ≤ x) = 0 autrement. 5. Expliciter la zone de rejet du test du rapport de vraisemblance pour les mêmes hypothèses H0 contre H1 de niveau α fixé et déterminer sa fonction puissance. La suite de tests associée est-elle consistante ? Etant donné que W = {Tb > k} on cherche k > θ0 tel que et on trouve α = Pθ0 (Tb > k) = exp(−n(k − θ0 )) 1 k = θ0 + ln n La fonction puissance vaut β(θ) = Pθ (W ) = Pθ (Tb > k) = Z 1 . α ∞ −(u−θ) e θ∨k du n = 1 ∧ exp(n(θ − k)) = 1 ∧ α exp (n (θ − θ0 )) en remplaçant k par sa valeur pour tout θ > θ0 . Quand n → ∞ et comme θ − θ0 > 0 alors exp(n(θ − θ0 )) → ∞ donc β(θ) → 1. La suite de test est bien consistante. Problème (10 points) Soit (X1 , . . . , Xn ) un échantillon de va iid de fonction de répartition F supposée continue et strictement croissante. On note Fn la fonction de répartition empirique n 1X Fn (x) = 1X ≤x n j=1 j 3 R La statistique de Cramer & Von Mises est définie par Tbn = R (Fn (x) − F (x))2 dF (x). La présence de l’intégrale dans le terme précédent rend son utilisation ardue. En pratique, on l’approche par la statistique Tbn∗ = Z n 1X (Fn (Xi ) − F (Xi ))2 . (Fn (x) − F (x)) dFn (x) = n R i=1 2 Le but de ce problème est de quantifier l’erreur d’approximation alors commise. 1 1. Montrez que F (Xi ) est une variable aléatoire uniforme et en déduire que EF (Xi ) = 2 1 et Var F (Xi ) = . 12 Une fonction continue et strictement croissante est inversible. Soit F −1 son inverse allant de [0; 1] dans R. Pour tout x ∈ [0, 1] on a P (F (Xi) ≥ x) = P(Xi ≥ F −1 (x)) = F (F −1(x)) = x. Donc F (Xi ) suit une loi uniforme sur [0, 1] et on en déduit la valeur de son espérance et de sa variance. 2. Montrez que nFn (x) ∼ B(n, F (x)) et en déduire l’espérance et la variance de nFn (x). On a 1Xj ≤x Pnqui suit une loi de Bernoulli de paramètre F (x) = P(1Xj ≤x = 1) donc nFn (x) = i=1 1Xj ≤x ∼ B(n, F (x)) par indépendance des Xi d’où E(nFn (x)) = nF (x) et Var (nFn (x)) = nF (x)(1 − F (x)). 1 3. En déduire que ETbn = . 6n En appliquant Fubini, on obtient Z Z 1 2 b F (x)(1 − F (x)) dF (x) ETn = E(Fn (x) − F (x)) dF (x) = n R R Z 1 1 1 = t(1 − t) dt = n 0 6n 2 i 4. Montrez que − F (X(i) ) . n On remarque que l’expression de Tbn⋆ est indépendante de l’ordre dans lesquels les Xi sont sommés. Donc 2 n n 1X i 1X 2 ∗ b (Fn (X(i) ) − F (X(i) )) = − F (X(i) ) . Tn = n i=1 n i=1 n n Tbn⋆ 1X = n i=1 5. En admettant que montrer que 2 X 2k − 1 1 + − F (X(k) ) 12n k=1 2n n nTbn = n 1 1 1 X ⋆ b b Tn − Tn = − − + F (Xi ). 2n 6n2 n2 i=1 4 On calcule n Tbn − Tbn⋆ 1X 1 + = − 12n2 n i=1 2 2i − 1 − F (X(i) ) − 2n n 1 1 X 4i − 1 = − + − 2F (X(i) ) 12n2 2n2 i=1 2n = − i − F (X(i) ) n 2 ! n n 1 1 X 4i − 1 1 X F (X(i) ) + − 12n2 2n2 i=1 2n n2 i=1 n n 1 1 X 4i − 1 1 X = − + − 2 F (Xi ) 12n2 2n2 i=1 2n n i=1 n 1 1 X 1 F (Xi ) + − = 2n 6n2 n2 i=1 1 . 12n3 Le fait qu’une variable uniforme comme F (Xi ) ait pour moyenne 1/2 et pour variance 1/12 implique que 6. En déduire que limn→∞ n3/2 E(Tbn⋆ − Tbn ) = 0 et que Var (Tbn⋆ − Tbn ) = d’où n 1 1 X ⋆ b b (F (Xi ) − EF (Xi )) − 2 Tn − Tn = 2 n i=1 6n 1 1 1 1 b⋆ − Tbn ) = 1 Var F (X1 ) = 1 + 2− = et Var ( T n 2n 6n 2n 6n2 n3 12n3 1 . Conclure. 7. Montrer aussi que n3/2 (Tbn⋆ − Tbn ) → N 0, 12 L’identité précédente E(Tbn⋆ − Tbn ) = n 1 X 1 ⋆ b b Tn − Tn = 2 (F (Xi ) − EF (Xi )) − 2 n i=1 6n et le théorème de limite centrale implique le résultat. On en déduit que l’erreur d’approximation est de l’ordre de n−3/2 . 8. (Facultatif) Montrer que 2 X 2k − 1 1 + − F (X(k) ) . 12n k=1 2n n nTbn = 5