Examen

publicité
Université Paris-Dauphine
U.F.R. Mathématiques de la décision
L3 - Statistique Mathématique
Année 2008-2009
Examen
Durée 2h00. Le barême est donné à titre indicatif.
Exercice 1 : (5 points) Soit (X1 , . . . , Xn ) un échantillon de va iid de même loi que X, où X
admet pour densité de probabilité f (x, θ) par rapport à la mesure Lebesgue, définie par :
θ
−(p+1)
f (x, θ) = kx
exp −
1x>0 ,
x
avec θ ∈]0, +∞[ un paramètre réel inconnu et p > 0 un nombre connu.
1
1. On pose U = . Montrer que U ∼ Gamma(p, θ) et en déduire la constante k, EU et
X
Var U.
On applique la méthode du changement de variable. Soit g une fonction continue bornée
alors par changement de variable y = 1/x, on a
Z ∞
Z ∞
−(p+1)
E(g(U)) = k
g(1/x)x
exp (−θ/x) dx = k
g(y)y p−1 exp (−θy) dy.
0
0
On reconnaît la densité d’une Gamma(p, θ) à la constante k = θp /Γ(p) près. On en
déduit EU = p/θ et Var U = p/θ2 .
2. Déterminer une statistique exhaustive complète pour θ.
On est dans le cadre du modèle exponentiel à un paramètre avec
θp
,
Γ(p)
h(x) = x−(p+1) 1x>0 ,
α1 (θ) = θ,
1
T1 (x) = − .
x
c(θ) =
Etant donné que α1 (Θ) = α1 (]0; +∞[) =]0; +∞[, ouvert de dimension 1 et que T1 est
affinement indépendante, on en déduit que
n
−
1X 1
n i=1 Xi
est une statistique exhaustive complète pour θ.
1
3. Déterminer θbn l’estimateur du maximum de vraisemblance de θ.
On est dans le cadre d’un modèle régulier exponentiel où β(θ) = p ln(θ) (notation de
la page 79 du polycopié). Or β es deux fois continûment dérivable de dérivée seconde
−p/θ2 < 0 donc l’EMV vérifie
n
np
1X 1
⇔ θbn = Pn 1
β (θbn ) =
n i=1 Xi
i=1 Xi
′
n
X
1
4. A l’aide de la question 1, déterminer la loi de Z =
et montrer que :
Xi
i=1
Eθbn =
npθ
,
np − 1
Var θbn =
(npθ)2
.
(np − 1)2 (np − 2)
D’après la question 1, 1/Xi est une suite iid de va suivant la loi Gamma(p, θ) donc
Z ∼ Gamma(np, θ). On en déduit que
Z ∞
Z ∞
npθ
1 θnp np−1
1
b
= np
z
exp(−θz)dz =
unp−1−1 exp(−u)du
E(θn ) = npE
Z
z
Γ(np)
Γ(np)
0
0
en effectuant le changement de variable u = θz. On reconnaît la quantité Γ(np − 1) et
la relation Γ(np) = (np − 1)Γ(np − 1) permet de conclure pour le calcul de l’espérance.
Reste à calculer E(1/Z 2 ). Avec le même changement de variable que précédemment, on
obtient E(1/Z 2 ) = θ2 Γ(np − 2)/Γ(np) d’où
(npθ)2
1
1
2
2
2
b
Var θn = (np) E(1/Z ) −
= (npθ)
−
(np − 1)2
(np − 1)(np − 2) (np − 1)2
et le résultat souhaité suit facilement.
5. L’estimateur θbn est-il sans biais ? convergeant ? efficace ?
L’estimateur θbn est biaisé d’après la question précédente. Il ne peut donc pas être efficace.
Il est toutefois convergeant car asymptotiquement sans biais et de variance tendat vers
0.
Exercice 2 :(5 points) Soit (X1 , · · · , Xn ) un échantillon de va iid de densité par rapport à la
mesure de Lebesgue sur R+ :
f (x, θ) = e−(x−θ) 1x≥θ ,
où θ ∈ R est inconnu.
1. Calculer l’EMV de θ noté θbn .
On écrit la vraisemblance
Ln (θ) = enθ−
Pn
i=1
Xi
1min(X1 ,...,Xn )≥θ
qui est maximale lorsque θbn = min(X1 , . . . , Xn ).
2. Déterminer la forme de la zone de rejet d’un test des hypothèses H0 : θ ≤ θ0 contre
H1 : θ > θ0 utilisant l’EMV θbn .
La zone de rejet sera de la forme
W = {θbn > k}
où k est un seuil à calculer en fonction du seuil souhaité.
2
3. Déterminer la statistique Tb du test du rapport de vraisemblance pour les mêmes hypothèses H0 et H1 . Qu’en déduire pour le test de la question 2 ?
La vraisemblance Ln (θ) vérifie le critère de factorisation pour l’EMV θbn avec
h(x) = e−
Pn
i=1
xi
et g(θ, θbn ) = enθ 1θbn ≥θ .
Donc l’EMV est une statistique exhaustive. De plus, pour tout θ0 < θ1 on a
Vθ0 ,θ1 = eθ0 −θ1 1θbn ≥θ1
qui est une fonction croissante en θbn . On est donc dans un modèle à RVM pour Tb = θbn et
le test de la question 2 est UPP parmi tous les tests de niveau ≤ Pθ0 (W ) (Karlin-Rubin).
4. Déterminer la fonction de répartition de Tb.
On a
n
Y
Pθ (Xi > x),
Pθ (Tb ≤ x) = 1 − Pθ (Tbn > x) = 1 −
i=1
par indépendance des Xi . Mais pour x > θ on a
Z ∞
Pθ (Xi > x) =
e−(u−θ) du = exp(−(x − θ))
x
pour tout i donc
Pθ (Tb ≤ x) = 1 − (exp(−(x − θ)))n = 1 − exp(−n(x − θ))
pour x > θ et Pθ (Tb ≤ x) = 0 autrement.
5. Expliciter la zone de rejet du test du rapport de vraisemblance pour les mêmes hypothèses
H0 contre H1 de niveau α fixé et déterminer sa fonction puissance. La suite de tests
associée est-elle consistante ?
Etant donné que W = {Tb > k} on cherche k > θ0 tel que
et on trouve
α = Pθ0 (Tb > k) = exp(−n(k − θ0 ))
1
k = θ0 + ln
n
La fonction puissance vaut
β(θ) = Pθ (W ) = Pθ (Tb > k) =
Z
1
.
α
∞
−(u−θ)
e
θ∨k
du
n
= 1 ∧ exp(n(θ − k))
= 1 ∧ α exp (n (θ − θ0 ))
en remplaçant k par sa valeur pour tout θ > θ0 .
Quand n → ∞ et comme θ − θ0 > 0 alors exp(n(θ − θ0 )) → ∞ donc β(θ) → 1. La suite
de test est bien consistante.
Problème (10 points) Soit (X1 , . . . , Xn ) un échantillon de va iid de fonction de répartition F
supposée continue et strictement croissante. On note Fn la fonction de répartition empirique
n
1X
Fn (x) =
1X ≤x
n j=1 j
3
R
La statistique de Cramer & Von Mises est définie par Tbn = R (Fn (x) − F (x))2 dF (x). La
présence de l’intégrale dans le terme précédent rend son utilisation ardue. En pratique, on
l’approche par la statistique
Tbn∗ =
Z
n
1X
(Fn (Xi ) − F (Xi ))2 .
(Fn (x) − F (x)) dFn (x) =
n
R
i=1
2
Le but de ce problème est de quantifier l’erreur d’approximation alors commise.
1
1. Montrez que F (Xi ) est une variable aléatoire uniforme et en déduire que EF (Xi ) =
2
1
et Var F (Xi ) = .
12
Une fonction continue et strictement croissante est inversible. Soit F −1 son inverse allant
de [0; 1] dans R. Pour tout x ∈ [0, 1] on a
P (F (Xi) ≥ x) = P(Xi ≥ F −1 (x)) = F (F −1(x)) = x.
Donc F (Xi ) suit une loi uniforme sur [0, 1] et on en déduit la valeur de son espérance et
de sa variance.
2. Montrez que nFn (x) ∼ B(n, F (x)) et en déduire l’espérance et la variance de nFn (x).
On a 1Xj ≤x
Pnqui suit une loi de Bernoulli de paramètre F (x) = P(1Xj ≤x = 1) donc
nFn (x) = i=1 1Xj ≤x ∼ B(n, F (x)) par indépendance des Xi d’où E(nFn (x)) = nF (x)
et Var (nFn (x)) = nF (x)(1 − F (x)).
1
3. En déduire que ETbn =
.
6n
En appliquant Fubini, on obtient
Z
Z
1
2
b
F (x)(1 − F (x)) dF (x)
ETn =
E(Fn (x) − F (x)) dF (x) =
n R
R
Z
1 1
1
=
t(1 − t) dt =
n 0
6n
2
i
4. Montrez que
− F (X(i) ) .
n
On remarque que l’expression de Tbn⋆ est indépendante de l’ordre dans lesquels les Xi sont
sommés. Donc
2
n
n 1X i
1X
2
∗
b
(Fn (X(i) ) − F (X(i) )) =
− F (X(i) ) .
Tn =
n i=1
n i=1 n
n
Tbn⋆
1X
=
n i=1
5. En admettant que
montrer que
2
X 2k − 1
1
+
− F (X(k) )
12n k=1
2n
n
nTbn =
n
1
1
1 X
⋆
b
b
Tn − Tn = −
−
+
F (Xi ).
2n 6n2 n2 i=1
4
On calcule
n
Tbn − Tbn⋆
1X
1
+
= −
12n2 n i=1
2
2i − 1
− F (X(i) )
−
2n
n 1
1 X 4i − 1
= −
+
− 2F (X(i) )
12n2 2n2 i=1
2n
= −
i
− F (X(i) )
n
2 !
n
n
1
1 X 4i − 1
1 X
F (X(i) )
+
−
12n2 2n2 i=1 2n
n2 i=1
n
n
1
1 X 4i − 1
1 X
= −
+
− 2
F (Xi )
12n2 2n2 i=1 2n
n i=1
n
1
1 X
1
F (Xi )
+
−
=
2n 6n2 n2 i=1
1
.
12n3
Le fait qu’une variable uniforme comme F (Xi ) ait pour moyenne 1/2 et pour variance
1/12 implique que
6. En déduire que limn→∞ n3/2 E(Tbn⋆ − Tbn ) = 0 et que Var (Tbn⋆ − Tbn ) =
d’où
n
1
1 X
⋆
b
b
(F (Xi ) − EF (Xi )) − 2
Tn − Tn = 2
n i=1
6n
1
1
1
1
b⋆ − Tbn ) = 1 Var F (X1 ) = 1
+ 2−
=
et
Var
(
T
n
2n 6n
2n
6n2
n3
12n3
1
. Conclure.
7. Montrer aussi que n3/2 (Tbn⋆ − Tbn ) → N 0,
12
L’identité précédente
E(Tbn⋆ − Tbn ) =
n
1 X
1
⋆
b
b
Tn − Tn = 2
(F (Xi ) − EF (Xi )) − 2
n i=1
6n
et le théorème de limite centrale implique le résultat. On en déduit que l’erreur d’approximation est de l’ordre de n−3/2 .
8. (Facultatif) Montrer que
2
X 2k − 1
1
+
− F (X(k) ) .
12n k=1
2n
n
nTbn =
5
Téléchargement