Exercices de statistiques mathématiques

publicité
Exercices de statistiques mathématiques
Guillaume Lecué
15 septembre 2016
Table des matières
1 Rappels de probabilités
1
2 Vraisemblance, EMV, IC, Information de Fisher
15
3 Tests
22
4 Modèle de régression
26
5 Examen du lundi 26 octobre 2015
32
6 Rattrapage 2015-2016
36
1
Rappels de probabilités
**********************
Exercice 1.1 (Théorème de la limite centrale)
Soit (Xn )n une suite de variables aléatoires i.i.d. centrées de variance σ 2 > 1. Soit
n
1 X
Zn = √
Xj .
σ n
j=1
Par le théorème de la limite centrale, cette variable converge en loi vers la loi normale
t2
centrée réduite, c’est-à-dire, pour tout t ∈ R, on a limn→+∞ E[eitZn ] = e− 2 . L’objet de cet
exercice est de montrer que la suite Zn ne peut pas converger en probabilité.
1. Calculer la fonction caractéristique de Z2n − Zn et montrer que cette différence
converge en loi.
2. En étudiant P(|Z2n − Zn | ≥ ), montrer que Zn ne converge pas en probabilité.
**********************
Correction de l’exercice 1.1 L’objectif de cet exercice est de manipuler les différents types de
convergence. On commence donc par rappeler les différentes convergences en probabilités. Soit (Xn )
une suite de variables aléatoires et X une autre variable aléatoire. On dit que :
1
ENSAE
Statistiques mathématiques
— (Xn ) converge presque surement vers X quand {ω ∈ Ω : lim Xn (ω) = X(ω)} est de mesure 1 (on
vérifiera que cet ensemble est bien mesurable).
— (Xn ) converge en probabilité vers X quand pour tout > 0, P |Xn − X| ≥ → 0 quand n tend
vers +∞.
— (Xn ) converge en loi vers X quand pour toute fonction continue bornée f on a Ef (Xn ) → Ef (X).
— si p ≥ 1, on dit que (Xn ) converge dans Lp vers X quand E|Xn − X|p → 0 quand n tend vers
+∞.
On a les implications suivantes :
[cv presque sure]
(1)
[cv en proba]
=⇒
(2)
[cv en loi]
=⇒
(3) ⇑
[cv dans Lp ]
Démo et contre-exemple de “(1) ” : Soit > 0. On a {Xn → X} ⊂ liminf n {|Xn − X| ≤ }. En
=⇒
passant, au complémentaire, on a :
0 ≤ limsupn P |Xn − X| > ≤ P[limsupn {|Xn − X| > }]
c = P liminf n {|Xn − X| ≤ }
≤ 0.
Il n’y a pas équivalence dans “(1) ⇒”. Voici une exemple d’une suite qui converge en probabilité
mais pas presque surement : (Xn ) des v.a. indépendantes telles que
P[Xn = 1] =
1
1
et P[Xn = 0] = 1 − .
n
n
La suite (Xn ) converge en probabilité vers 0 car pour tout n, on P[|Xn | > ] = P[Xn = 1] = 1/n. Mais
P
elle ne converge pas presque surement vers car on a n P({Xn = 1}) = ∞ donc d’après le “second
lemme de Borel-Cantelli” (les événements ({Xn = 1}) sont indépendants), on a P[limsupn {Xn = 1}] =
1. Notamment, (Xn ) ne converge pas presque surement vers 0.
Démo et contre-exemple de “(2) ” : Soit f une fonction continue bornée. Soit > 0 et N ∈ N
=⇒
tel que P |f (Xn ) − f (X)| ≥ ≤ (on rappel que si f est continue et (Xn ) converge en probabilité
vers X alors (f (Xn )) converge en probabilité vers f (X)). On a donc
Ef (Xn ) − Ef (X) ≤ E(f (Xn ) − f (X))I(|f (Xn ) − f (X)| ≥ )
+ E(f (Xn ) − f (X))I(|f (Xn ) − f (X)| < )
≤ 2 kf k∞ P |f (Xn ) − f (X)| ≥ + ≤ 2 kf k∞ + 1 .
La réciproque est trivialement fausse. Il suffit de prendre la suite stationnaire (Xn ) où pour tout n,
Xn = g où g est une gaussienne. Comme g est symmétrique, −g est aussi distribuée comme g. Donc
(Xn ) converge en loi vers g et donc aussi vers −g. Par contre |Xn − (−g)| = 2|g| ne converge pas en
probabilité vers 0. Donc (Xn ) ne converge par vers −g en probabilité.
Démo et contre-exemple de “(3) ⇑” : D’après l’inégalité de Markov, P |Xn − X ≥ | ≤
−p E|Xn − X|p . Pour le contre-exemple, on prend Xn de loi (n−1 δn2 + (1 − n−1 )δ0 ). On a P[|Xn | ≥
1 RAPPELS DE PROBABILITÉS
2
ENSAE
Statistiques mathématiques
] ≤ n−1 donc (Xn ) converge en probabilité mais E|Xn | = n donc (Xn ) ne converge pas dans L1 vers
0.
Correction de l’exercice
1. Pour tout t ∈ R, on a par indépendance
E exp(it(Z2n − Zn )) = E exp
n
2n
it 1
it
X
X
√ √ −1
Zj E exp √
Zj .
σ n
2
σ 2n
j=1
j=n+1
En appliquant le TCL sur chacun des membres du produit, quand n tend vers l’infini, on obtient
√
que (Z2n − Zn )n tend vers une loi dont la fonction
est t 7→ exp − t2 (2 − 2)/2 ,
p caractéristique
√
c’est donc une Gaussienne centrée de variance 2 − 2.
2. Supposons que (Zn ) converge en probabilité. Alors il existe une variable aléatoire Z telle que
pour tout > 0, on a P[|Zn − Z| > ] → 0. Soit > 0, on a
{|Z2n − Zn | ≥ 2} ⊂ {|Zn − Z| ≥ } ∪ {|Z2n − Z| ≥ }.
Alors, par une borne de l’union :
P |Z2n − Zn | ≥ 2 ≤ P |Zn − Z| ≥ + P |Z2n − Z| ≥ et donc en passant à la limite, on obtient P |Z2n − Zn | ≥ 2 → 0. Donc (Z2n − Zn )n converge en
probabilité vers 0. En particulier, cette suite converge en loi vers 0. Ce qui est en contradiction
avec 1..
**********************
Exercice 1.2 (Lemme de Slutsky)
loi
loi
1. Donner un exemple de suites (Xn ) et (Yn ) telles que Xn → X et Yn → Y , mais Xn + Yn
ne converge pas en loi vers X + Y .
2. Soient (Xn ), (Yn ) deux suites de variables aléatoires réelles, X et Y des variables
aléatoires réelles, telles que
loi
P
(i) Xn → X et Yn → Y ,
(ii) Y est indépendante de (Xn ) et X.
Montrer que le couple (Xn , Yn ) converge en loi vers (X, Y ).
3. En déduire que si (Xn ) et (Yn ) sont deux suites de variables aléatoires réelles telles
que (Xn ) converge en loi vers une limite X et (Yn ) converge en probabilité vers une
constante c, alors (Xn + Yn ) converge en loi vers X + c et (Xn Yn ) converge en loi vers
c X.
**********************
Correction de l’exercice 1.2
1 RAPPELS DE PROBABILITÉS
3
ENSAE
Statistiques mathématiques
1. Soit (δn ) une suite de v.a. i.i.d. de Bernoulli de moyenne 1/2 (càd P[δn = 0] = P[δn = 1] =
1/2, ∀n). D’après le TCL, on sait que
n
2 X
δi − 1/2
Xn := √
n
N (0, 1).
i=1
On le démontre facilement, en utilisant le Théorème de Levy et en voyant que quand n tend vers
l’infini, pour tout t ∈ R,
n
2it X
−it it n
1 E exp √
δi − 1/2
=
exp √
+ exp √
2
n
n
n
i=1
−t2 t3 n
t2
−→ exp
= 1−
+ O 3/2
.
2n
2
n
Soit g une variable Gaussienne standard. Comme g est symmétrique, −g est aussi une Gaussienne
Standard. On a donc, (Xn ) converge en loi vers g et aussi (Xn ) converge en loi vers −g. Mais
(Xn + Xn ) converge en loi vers 2g 6= g + (−g) = 0. Cet exercice souligne le fait que la convergence
en loi est une convergence des lois de distribution et non des variables aléatoires elles mêmes.
2. On note par Cb (R) l’ensemble des fonctions continues bornées sur R. Pour montrer que (Xn , Yn )
converge en loi vers (X, Y ), il suffit de prouver que pour tout f, g ∈ Cb (R), on a Ef (Xn )g(Yn ) →
Ef (X)g(Y ) quand n tend vers l’infini. Par ailleurs, on sait que si (Yn ) converge en probablité
vers Y et si g est continue alors (g(Yn )) converge en probabilité vers g(Y ).
Soit f, g ∈ Cb (R) et > 0. Soit N ∈ N tel que pour tout n ≥ N ,
P |g(Yn ) − g(Y )| ≥ ≤ and Ef (Xn ) − Ef (X) ≤ .
On a pour tout n ≥ N , par indépendance de g(Y ) avec f (Xn ) et f (X),
Ef (Xn )g(Yn ) − Ef (X)g(Y ) ≤ Ef (Xn )(g(Yn ) − g(Y ))I(|g(Yn ) − g(Y )| ≥ )
+ Ef (Xn )(g(Yn ) − g(Y ))I(|g(Yn ) − g(Y )| < ) + Eg(Y )(f (Xn ) − f (X))
≤ 2 kf k∞ kgk∞ P |g(Yn ) − g(Y )| ≥ + kf k∞ + Eg(Y )Ef (Xn ) − Ef (X)
≤ 2 kf k∞ kgk∞ + kf k∞ + kgk∞ .
3. Comme (Yn ) converge en probabilité vers Y = c p.p. qui est indépendante de toutes variables
aléatoires, on peut appliquer la question 2. : (Xn , Yn ) converge en probabilité vers (X, c).
Notamment, comme les applications somme et produit sont des fonctions continues de R2 dans
R, on voit que (Xn + Yn ) converge en loi vers X + c ainsi que (Xn Yn ) converge en loi vers cX.
**********************
Exercice 1.3 (Convergence dans Lp )
Soit (Xn ) une suite de variables aléatoires réelles bornées par une même constante.
Montrer que si (Xn ) converge en probabilité, alors Xn converge dans Lp pour tout p ≥ 1.
**********************
1 RAPPELS DE PROBABILITÉS
4
ENSAE
Statistiques mathématiques
Correction de l’exercice 1.3 Pour cet exercice, on va démontrer un résultat plus fort. On rappel
qu’une suite (Xn ) est équi-intégrable quand
lim sup E |Xn |I(|Xn | > a) = 0.
a→+∞ n∈N
Soit p ≥ 1 et (Xn ) une suite d’éléments de Lp . On montre que les deux assertions suivantes sont
équivalentes :
1. la suite (Xn ) converge dans Lp .
2. la suite (Xn ) converge en probabilité et la suite (|Xn |p ) est équi-intégrable.
b) implique a) : On montre d’abord que si (Yn ) est équi-intégrable alors elle est équi-continue :
càd pour tout > 0, il existe η > 0 tel que si P(A) ≤ η alors supn∈N E |Yn |1A ≤ . Soit > 0 et
a0 > 0 tel que pour tout a ≥ a0 et tout n ∈ N, E |Xn |I(|Xn | > a) ≤ . On a pour tout ensemble
mesurable A, tout n ∈ N et tout a ≥ a0 ,
E |Xn |1A = E |Xn |I(A ∩ {|Xn | ≤ a}) + E |Xn |I(A ∩ {|Xn | > a})
≤ aP(A) + E |Xn |I(|Xn | > a) ≤ aP(A) + .
On en déduit que (Yn ) est bien équi-continue.
Soit > 0. Pour tout q, r ∈ N, on a
E|Xr − Xq |p ≤ E |Xr − Xq |p I(|Xr − Xq |p ≤ ) + 2p−1 E |Xr |p + |Xq |p I(|Xr − Xq |p > )
≤ + 2p−1 E |Xr |p + |Xq |p I(|Xr − Xq |p > ) .
Comme (|Xn |p ) est équi-continue, il existe η > 0 tel que pour tout A tel que P[A] ≤ η, on a
sup E |Xr |p 1A + sup E |Xq |p 1A ≤ /2p−1 .
r∈N
q∈N
Comme (Xn ) converge en probabilité, il existe un N tel que pour tout r, q ≥ N , P |Xr − Xq | ≥
1/p ≤ η. On en déduit, que limsupr,q E|Xr − Xq |p ≤ 2 pour tout r, q ≥ N . Alors (Xn ) est une suite
de Cauchy dans Lp , qui est complet, donc elle est convergente dans Lp .
a) implique b) : Par Markov, on a pour tout > 0,
P |Xn − X| ≥ ≤ −p E|Xn − X|p .
Soit N ∈ N tel que pour tout n ≥ N , E|Xn − X|p ≤ /2p−1 . L’inégalité de Markov donne
P |Xn |p > a ≤ a−1 E|Xn |p ≤ Ba−1 ≤ .
où B majore uniformément la suite (E|Xn |p ) (qui est bien bornée vue que c’est une suite convergente).
Soit a0 > 0 tel que supn∈N P[|Xn |p > a0 ] ≤ η où η est tel que E |X|p 1A ≤ /2p−1 pour tout A tel que
P(A) ≤ η (par définition X ∈ Lp ). On a donc pour n ≥ N et tout a ≥ a0 ,
E |Xn |p I(|Xn |p > a) ≤ 2p−1 E |Xn − X|p I(|Xn |p > a) + 2p−1 E |X|p I(|Xn |p > a) ≤ .
De plus, il est facile de voir que toute famille finie de variables aléatoires est équi-intégrable. C’est le
cas pour (Xn : 1 ≤ n ≤ N ).
1 RAPPELS DE PROBABILITÉS
5
ENSAE
Statistiques mathématiques
**********************
Exercice 1.4 (Loi conditionnelle)
Soit X une variable aléatoire qui suit une loi Gamma (2, λ) de densité
f (x) = λ2 xe−λx 1[0,+∞) (x)
et soit Y une variable aléatoire dont la loi conditionnelle à X = x est uniforme sur [0, x] .
1. Donner la loi jointe de (X, Y ).
2. Donner la loi marginale de Y et montrer que Y est indépendant de X − Y .
**********************
Correction de l’exercice 1.4
1. Soit f une fonction continue bornée sur R2 . On a
Z Z
Ef (X, Y ) =
f (x, y)dPY |X=x (y) dPX (x)
R
Z
Z ∞Z x R
dy 2 −λx
λ xe
dx =
f (x, y)1[0,x] (y)1R+ (x)λ2 e−λx dxdy.
=
f (x, y)
x
2
R
0
0
Donc la loi jointe du couple (X, Y ) a une densité donnée pour tout x, y ∈ R par
f (X,Y ) (x, y) = 1[0,x] (y)1R+ (x)λ2 e−λx
2. La loi marginale de Y a pour densité : pour tout y ∈ R,
Z
Z ∞
f Y (y) =
f (X,Y ) (x, y)dx = 1y≥0
λ2 e−λx dx = λe−λy 1y≥0 .
y
R
Soit f et g deux fonctions continues bornée. Un changement de variable x − y → t donne
Z
Ef (Y )g(X − Y ) =
f (y)g(x − y)1[0,x] (y)1R+ (x)λ2 e−λx dxdy
2
R
Z
Z
Z ∞
Z ∞
2 −λx
=
f (y)1y≥0
g(x − y)λ e
dx dy =
f (y)1y≥0
g(t)λ2 e−λ(t+y) dt dy
R
y
R
0
Z
Z
=
f (y)1y≥0 λe−λy dy
g(t)1t≥0 λe−λt dt = Ef (Y )Eg(X − Y )
R
R
(pour avoir la loi de X − Y , il suffit de prendre f ≡ 1 dans le calcul précédent). Donc Y et X − Y
sont bien indépendants.
**********************
Exercice 1.5 (Estimateur de la variance)
Soient X1 , . . . , Xn des variables aléatoires i.i.d., Xi ∼ f (· − θ), où f est une densité de
R
probabilité sur R symétrique dont on note µk = R xk f (x) dx les moments d’ordre k = 2 et
P
P
k = 4. On note X̄n = n1 ni=1 Xi . Montrer que l’estimateur n1 ni=1 (Xi − X̄n )2 de la variance
des Xi vérifie un théorème central limite.
Indication : on montrera d’abord que l’on peut se ramener au cas où θ = 0, puis on
P
exprimera l’estimateur comme une transformation de Sn = n1 ni=1 Xi2 et de X̄n .
1 RAPPELS DE PROBABILITÉS
6
ENSAE
Statistiques mathématiques
**********************
Correction de l’exercice 1.5 On commence par quelques remarques préliminaires :
P
a) Comme n−1 ni=1 (Xi − X̄n )2 est invariant par translation des Xi et que si X ∼ f (·−θ) et Y ∼ f (·)
alors X ∼ Y + θ, on peut donc supposer que θ = 0. Notamment comme f est symmétrique, on
a EXi = 0, ∀i.
P
b) On note σ̂n2 := n−1 ni=1 (Xi − X̄n )2 . On a :
σ̂n2 =
n
n
i=1
i=1
1 X 2 1 X 2
Xi −
Xi = X 2 n − X n .
n
n
2
(On écrit σ̂n2 = EI XI − EI XI .)
c) On remarque d’abord que σ̂n2 n’est pas un estimateur sans biais de la variance :
n
1 X
2
1 X
EXi Xj
Eσ̂n2 = EX 2 − E
Xi = EX 2 − 2
n
n
i,j
i=1
2 n − 1
1
var(X).
= 1−
EX 2 − EX
=
n
n
Par la LFGN, la suite (σ̂n2 ) converge presque surement vers σ 2 .
On considère la décomposition suivante :
√
√
√
2
n σ̂n2 − σ 2 = n X 2 n − EX 2 − n X̄n .
Par le TCL, on a :
√
n X 2 n − EX 2
N 0, E X 2 − EX 2
2 et E X 2 − EX 2
2
= µ4 − µ22 .
√
Par ailleurs,
nX̄n converge en loi vers une Gaussienne et (X̄n ) converge en probabilité vers 0. Alors
2 √
n X̄n
converge en loi vers 0, elle converge donc aussi en probabilité vers 0. On
d’après Slutsky,
2 √
applique une seconde fois Slutsky :
n X 2 n − EX 2 converge en loi vers N 0, E X 2 − EX 2
et
2 √
n X̄n
converge en probabilité vers 0. On en déduit que
√
n σ̂n2 − σ 2
N 0, E X 2 − EX 2
2 .
**********************
Exercice 1.6 (Stabilisation de la variance)
On dispose d’un échantillon X1 , . . . , Xn i.i.d. de loi de Bernoulli de paramètre 0 < θ < 1.
1. On note X̄n la moyenne empirique des Xi . Appliquer la loi forte des grands nombres
et le TCL dans ce modèle.
√
2. Cherchez une fonction g telle que n(g(X̄n )−g(θ)) converge en loi vers Z de loi N (0, 1).
3. On note zα le quantile d’ordre 1 − α/2 de la loi normale standard. En déduire un
intervalle de confiance Iˆn,α fonction de zα , n, X̄n tel que limn→∞ P(θ ∈ Iˆn,α ) = 1 − α.
1 RAPPELS DE PROBABILITÉS
7
ENSAE
Statistiques mathématiques
**********************
Correction de l’exercice 1.6
√
1. La LFGN dit que X̄n converge presque surement vers EX1 = θ. Le TCL dit que ( n/σ) X̄n −
p
EX converge en loi vers une Gaussienne centrée réduite où σ = θ(1 − θ).
2. D’après le TCL :
√
n X̄n − θ
σg.
On dit que X̄n est asymptotiquement normale de moyenne θ et de variance asymptotique σ 2 .
On peut alors appliquer la Proposition 1.10 (Méthode delta) du cours (en fait, on applique une
version plus faible de ce résultat qu’on peut trouver page 26 au théorème 3.1 de [van der Vaart,
asymptotic Statistics]) : si (ζn ) est asymptotiquement normale de moyenne asymptotique θ et de
variance asymptotique σ 2 et si g : D ⊂ R 7→ R est une fonction différentiable en θ, alors (g(ζn ))
est aussi asymptotiquement normale et on a :
√
n g(ζn ) − g(θ)
2
N (0, σ 2 g 0 (θ) ).
(1)
Dans notre cas, on cherche à trouver g tel que (g(X̄n )) est asymptotiquement normal de moyenne
2
asymptotique 0 et de variance asymptotique θ(1 − θ) g 0 (θ) = 1. On est donc amener à résoudre
l’équation :
1
∀θ ∈ (0, 1), g 0 (θ) = p
.
θ(1 − θ)
L’ensemble des solutions de cette équation est donnée, à une constante absolue additive près,
√
par g : θ ∈ [0, 1] 7→ 2arcsin( x) (on rappel que (arcsinx)0 = (1 − x2 )−1/2 , ∀x ∈ [−1, 1]). Cette
fonction est continûment différentiable en tout θ ∈ (0, 1), alors d’après Proposition 1.10 (voir
(1)), on a
√
n g(X̄n ) − g(θ)
N (0, 1).
2
(On rappelle que g a été choisit tel que θ(1 − θ) g 0 (θ) = 1 pour tout θ ∈ (0, 1)).
3. Pour tout α[0, 2], le quantile d’ordre 1 − α/2 de la gaussienne est l’unique réel tel que P[g ∈
(−∞, qα ] = 1 − α/2. On a
i
h√
P θ ∈ Iˆn,α = P n g(X̄n ) − g(θ) ≤ zα −→ P[g ∈ [−zα , zα ]] = 1 − α
pour
h
zα zα i
Iˆn,α = sin2 g(X̄n ) − √ , sin2 g(X̄n ) + √
n
n
**********************
Exercice 1.7 (Les statistiques d’ordre)
Soient X1 , . . . , Xn des variables aléatoires i.i.d. de fonction de répartition F . On suppose
que F admet une densité f par rapport à la mesure de Lebesgue. On note X(1) ≤ X(2) ≤
. . . ≤ X(n) les variables aléatoires X1 , . . . , Xn réordonnées par ordre croissant.
1. Donner l’expression de la loi de la statistique d’ordre (X(1) , . . . , X(n) ) en fonction de
f.
1 RAPPELS DE PROBABILITÉS
8
ENSAE
Statistiques mathématiques
2. Déterminer la fonction de répartition Fk (x) puis la densité fk (x) de X(k) .
3. Sans utiliser les résultats des questions précédentes, calculer les fonctions de répartition de X(1) , X(n) , du couple (X(1) , X(n) ) et la loi de la statistique W = X(n) − X(1) (on
appelle W étendue). Les variables X(1) et X(n) sont–elles indépendantes ?
**********************
Correction de l’exercice 1.7
1. Comme les Xi ont des densités par rapport à Lebesgues, on a Xi 6= Xj λ−p.p.. Alors p.p.
X
f (Xσ(1) , . . . , Xσ(n) )I(Xσ(1) < · · · < Xσ(n) ).
f (X(1) , . . . , X(n) ) =
σ∈P(n)
Soit σ ∈ P(n). Comme les Xi sont i.i.d., on voit que (Xσ(1) , . . . , Xσ(n) )> ∼ (X1 , . . . , Xn )> . Alors,
pour tout f ∈ Cb (Rn ),
Ef (Xσ(1) , . . . , Xσ(n) )I(Xσ(1) < · · · < Xσ(n) ) = Ef (X1 , . . . , Xn )I(X1 < · · · < Xn )
Z
=
f (x1 , . . . , xn ) Πni=1 f (xi ) I(x1 < · · · < xn )dx1 · · · dxn .
Rn
On en déduit que la loi de (X(1) , . . . , X(n) ) admet une densité par rapport à Lebesgue donnée
par
f (x1 , . . . , xn ) = n! Πni=1 f (xi ) I(x1 < · · · < xn ).
2. On calcul la fonction de répartition de X(k) . Soit t ∈ R,
P[X(k) ≤ t] = P ∃I ⊂ {1, . . . , n} : |I| ≥ k, ∀i ∈ I, Xi ≤ t = P[M ≥ k]
où M =
Pn
i=1 I(Xi
≤ t) est une multinomiale de paramétre n et P[X1 ≤ t] = F (t). On a donc
!
n
X
n
F (t)j (1 − F (t))n−j .
P[X(k) ≤ t] =
j
j=k
Comme F est absoluement continue la cdf de X(k) l’est aussi. Donc X(k) admet une densité par
rapport à Lebesgues donnée par :
!
n
X
n
f (t) =
jf (t)F (t)j−1 (1 − F (t))n−j + (n − j)F (t)j (−f (t))(1 − F (t))n−j−1
j
j=k
=
n!
F (t)k−1 (1 − F (t))n−k .
(k − 1)!(n − k)!
3. La fonction de répartition de X(1) vérifie :
n
n
1 − FX(1) (t) = P[X(1) > t] = P[X1 > t, . . . , Xn > t] = P[X1 > t] = 1 − F (t) .
La fonction de répartition de X(n) est donnée par :
n
n
FX(n) (t) = P[X(n) ≤ t] = P[X1 ≤ t, . . . , Xn ≤ t] = P[X1 ≤ t] = F (t) .
1 RAPPELS DE PROBABILITÉS
9
ENSAE
Statistiques mathématiques
Pour la fonction de répartition du couple (X(1) , X(n) ), on calcul la répartition du couple (X(1) , X(n) )
dans le quadrant inférieur droit. On a pour tout x, y réels :
P[X(1) > x, X(n) ≤ y] = P[x < X1 ≤ y, . . . , x < Xn ≤ y]
n
n
= P[x < X1 ≤ y] = I(x ≤ y) F (y) − F (x) .
On a :
P[X(1) > x, X(n) ≤ y] + P[X(1) ≤ x, X(n) ≤ y] = P[X(n) ≤ y] = F (y)n .
Alors,
n
F (x, y) = P[X(1) ≤ x, X(n) ≤ y] = F (y)n − I(x ≤ y) F (y) − F (x) .
La densité de (X(1) , X(n) ) est donnée par
f (x, y) =
n−2
∂2F
(x, y) = n(n − 1)I(x ≤ y)f (x)f (y) F (y) − F (x)
.
∂x∂y
La loi de la statistique W = X(n) − X(1) est donnée par ce qui suit. Soit f ∈ Cb (R), on a
Z
Ef (W ) =
f (y − x)dP(X(1) ,X(n) ) (x, y)
2
R
Z
n−2
= n(n − 1)
f (y − x)I(x ≤ y) F (y) − F (x)
dxdy
R2
Z ∞
Z
n−2 =
f (u) n(n − 1)
F (u + x) − F (x)
dx du.
R
0
Alors W a pour densité
Z
u 7→ I(u ≥ 0)n(n − 1)
F (u + x) − F (x)
n−2
dx.
R
Les variables X(1) et X(n) sont indépendantes si et seulement si pour tout x et y, on a
n
F (y)n − I(x ≤ y) F (y) − F (x) = P[X(1) ≤ x, X(n) ≤ y]
= P[X(1) ≤ x]P[X(n) ≤ y] = 1 − (1 − F (x))n F (y)n .
Il faut donc I(x ≤ y) F (y) − F (x)
en générale.
n
n
= F (y) − F (y)F (x) pour tout x, y. Ce qui n’est pas vrai
**********************
Exercice 1.8 (Durée de vie)
Un système fonctionne en utilisant deux machines de types différents. Les durées de vie
X1 et X2 des deux machines suivent des lois exponentielles de paramètres λ1 et λ2 . Les
variables aléatoires X1 et X2 sont supposées indépendantes.
1. Montrer que
Loi
X = E(λ) ⇔ ∀x > 0, P(X > x) = exp(−λx).
1 RAPPELS DE PROBABILITÉS
10
ENSAE
Statistiques mathématiques
2. Calculer la probabilité pour que le système ne tombe pas en panne avant la date t.
En déduire la loi de la durée de vie Z du système. Calculer la probabilité pour que
la panne du système soit due à une défaillance de la machine 1.
3. Soit I = 1 si la panne du système est due à une défaillance de la machine 1, I = 0
sinon. Calculer P(Z > t; I = δ), pour tout t ≥ 0 et δ ∈ {0, 1}. En déduire que Z et I
sont indépendantes.
4. On dispose de n systèmes identiques et fonctionnant indépendamment les uns des
autres dont on observe les durées de vie Z1 , . . . , Zn .
(a) Écrire le modèle statistique correspondant. A-t-on suffisamment d’information
pour estimer λ1 et λ2 ?
(b) Si on observe à la fois les durées de vie des systèmes et la cause de la défaillance
(machine 1 ou 2), a-t-on alors suffisamment d’information pour estimer λ1 et λ2 ?
5. On considère maintenant un seul système utilisant une machine de type 1 et une
machine de type 2, mais on suppose que l’on dispose d’un stock de n1 machines
de type 1, de durées de vie X11 , . . . , X1n1 et d’un stock de n2 machines de type 2, de
durées de vie X21 , . . . , X2n2 . Quand une machine tombe en panne, on la remplace par
une machine du même type, tant que le stock de machines de ce type n’est pas
épuisé. Quand cela arrive, on dit que le système lui-même est en panne. On note
toujours Z la durée de vie du système. Le cas n1 = n2 = 1 correspond donc aux trois
premières questions.
(a) Montrer que la densité de la somme U de k variables indépendantes qui suivent
une loi exponentielle de même paramètre λ s’écrit, pour x ≥ 0 :
fU (x) =
λk
xk−1 exp(−λx).
(k − 1)!
(b) Écrire Z en fonction des Xij et en déduire P(Z ≥ t) en fonction n1 , n2 , λ1 , λ2 et t.
**********************
Correction de l’exercice 1.8
1. Par définition, une v.a.r. suit une loi exponentielle E(λ) quand elle admet une densité de la form
fλ : x ∈ R 7→ λ exp(−λx)I(x > 0). Si X ∼ E(λ) alors, pour tout x > 0,
Z ∞
P[X > x] =
λ exp(−λx)dx = exp(−λx).
x
Réciproquement, si X est une v.a.r. telle que pour tout x > 0 ,1−FX (x) = P[X > x] = exp(−λx).
Alors X est portée sur R+ et comme FX est dérivable, X admet une densité donnée par FX0 càd
x 7→ λ exp(−λx)I(x > 0). C’est donc une variable exponentielle.
2. On note par Z la durée de vie du systéme. On a donc Z > t ssi X1 > t et X2 > t et donc par
indépendance
P[Z > t] = P[{X1 > t} ∩ {X2 > t}] = P[X1 > t]P[X2 > t] = exp − (λ1 + λ2 )t .
1 RAPPELS DE PROBABILITÉS
11
ENSAE
Statistiques mathématiques
Donc Z ∼ E(λ1 + λ2 ). Par ailleurs, la machine sera en panne due à l’élément 1 quand X1 < X2 .
On calcul P[X1 < X2 ] :
Z
P[X1 < X2 ] = EI(X1 < X2 ) =
I(x1 < x2 )fλ1 (x1 )fλ2 (x2 )dx1 dx2
R2+
Z
=
Z
∞
fλ1 (x1 )
=
Z
∞
fλ1 (x1 ) exp(−λ2 x1 )dx1
fλ2 (x2 )dx2 dx1 =
0
x1
0
Z
∞
∞
λ1 exp − (λ1 + λ2 )x1 dx1 =
0
λ1
.
λ1 + λ2
3. [I = 1 ssi X1 < X2 ] et [I = 0 ssi X1 > X2 ]. On a
P[{Z > t} ∩ {I = 1}] = P[{X1 ∧ X2 > t} ∩ {X1 < X2 }] = P[t < X1 < X2 ]
Z ∞
λ1
λ1 exp − (λ1 + λ2 )x1 dx1 =
=
exp(−(λ1 + λ2 )t) = P[Z > t]P[I = 1]
λ
1 + λ2
t
Par symmétrie,
P[Z > t|I = 0] = P[X1 ∧ X2 > t|X1 > X2 ] = P[X1 > X2 > t]
λ2
=
exp − (λ1 + λ2 )t = P[I = 0]P[Z > t].
λ2 + λ1
On en déduit que Z et I sont indépendantes.
4. a) Le modéle statistique est {E(λ1 + λ2 )⊗n : λ1 , λ2 > 0}. Ce modèle n’est pas identifiable en le
paramétre (λ1 , λ2 ).
4. b) On observe (X1i ∧ X2i , Ii ) ou Ii = 1 si X1i < X2i et Ii = 0 sinon. On peut estimer la moyenne de
P
P
Z par n−1 ni=1 Zi et on peut estimer la moyenne de I par n−1 ni=1 Ii . On peut donc estimer
λ1 + λ2 et λ1 /(λ1 + λ2 ). On peut donc estimer λ1 et λ2 .
**********************
Exercice 1.9 (Lemme de Fatou)
si (fn ) est une suite de fonctions measurables alors
Z
Z
liminf n fn ≤ liminf n fn .
En déduire que si (An ) est une suite d’événements alors
limsupn P(An ) ≤ P(limsupn An ),
où on rappelle que limsupn An = ∩N ∪n≥N An .
**********************
Correction de l’exercice 1.9
1. Pour tout n ∈ N, on note gn = inf p≥n fp . La suite (gn ) est monotone et converge presque surement
vers liminf n fn . Le théorème de convergence monotone donne :
Z
Z
Z
lim gn = lim gn = liminf n fn .
n
n
1 RAPPELS DE PROBABILITÉS
12
ENSAE
Statistiques mathématiques
Par ailleurs, on a pour tout n ∈ N,
Z
Z
Z
gn =
inf fp ≤ inf
inf fp .
p≥n
p≥n
p≥n
Par convergence des deux membres, on peut passer à la limite et obtenir le résultat.
2. On utilise le lemme de Fatou pour fn = 1 −
c
liminf n Acn = limsupn An donc
1An = 1Acn . On a liminf n fn = 1liminf n Acn et
1 − P[limsupn An ] = P[liminf n Acn ] ≤ liminf n P[Acn ].
**********************
Exercice 1.10 (la loi du 0 − 1 de Kolmogorov)
Soit (σn ) une suite de tribus indépendantes. La tribu asymptotique est σ∞ = ∩n σ ∪p≥n σp .
La loi du 0 − 1 de Kolmogorov dit que pour tout A ∈ σ∞ , P[A] ∈ {0, 1}.
**********************
Correction de l’exercice 1.10 On note αn = σ ∪p≥n σp et βn = σ ∪p<n σp . Les deux tribus αn
et βn sont indépendantes. Comme σ∞ ⊂ αn alors
σ∞ est
indépendantes
de βn pour tout n. Notamment,
σ∞ est indépendante de ∪n∈N βn et donc de σ ∪n βn = σ ∪n σn = α0 . Or σ∞ ⊂ α0 donc σ∞ est
indépendante d’elle même. En particulier, si A ∈ σ∞ alors P[A] = P[A]P[A] donc P[A] ∈ {0, 1}.
**********************
Exercice 1.11 (convergence en loi vers une constante)
La convergence en loi vers une constante implique la convergence en proba : On suppose
Xn
c alors (Xn ) converge en probabilité vers c.
**********************
Correction de l’exercice 1.11 On peut démontrer que (Yn ) converge en loi vers Y si et seulement
si pour tout Borélien A PY -continue (càd P[∂A] = 0), on a PYn [A] → PY [A].
Soit > 0. On a δc B(c, ) = 0. Alors PXn B(c, ) → δc (B(c, )) = 1. Donc P[|Xn − c| ≤ ] → 1.
C’est donc une convergence en probabilité vers c.
**********************
Exercice 1.12 (lemmes de Borel-Cantelli)
1. Le premier lemme de Borel-Cantelli dit que si (An ) est une suite d’événements telle
P
que n P[An ] < ∞ alors P[limsupn An ] = 0.
2. Le deuxième lemme de Borel-Cantelli dit que si (An ) est une suite d’événements
P
indépendants tels que n P[An ] = ∞ alors P[limsupn An ] = 1.
**********************
1 RAPPELS DE PROBABILITÉS
13
ENSAE
Statistiques mathématiques
Correction de l’exercice 1.12
P
1. On note Bn = ∪p≥n Ap . On a P[Bn ] ≤ p≥n P[Ap ]. Alors par hypothèse, P[Bn ] tend vers 0 en
décroissant. Par convergence monotone, limn P[Bn ] = P[limn Bn ] = P[inf n Bn ] = P[liminf n An ].
Donc P[liminf An ] = 0.
c
2. Comme limsupn An = liminf n Acn , il suffit de montrer que P[liminf n Acn ] = 0. On note Bn =
∩p≥n Ap . La suite (Bn ) est croissante et converge presque surement vers liminf n Acn . Alors, par
convergence monotone, P[Bn ] converge vers P[liminf n Acn ]. Par ailleurs, comme log(1 − x) ≤ −x
pour x ∈ [0, 1),
P[Bn ] = P[∩p≥n Acp ] = Πp≥n P[Acp ] = Πp≥n 1 − P[Ap ]
X
X
P[Ap ] = 0.
log 1 − P[Ap ] ≤ exp −
= exp
p≥n
p≥n
On en déduit le résultat.
**********************
Exercice 1.13 (L’asymptotique normalité implique la converge en probabilité)
Soit (rn ) une suite de réels positifs tendant vers +∞. Soit (ζn ) une suite de v.a.r. telle
que rn (ζn − µ)
ζ. Alors (ζn ) converge en probabilité vers µ.
**********************
Correction de l’exercice 1.13 On dit qu’une suite de v.a.r. (ζn ) est tendue quand pour tout > 0,
il existe M > 0 tel que pour tout n, P[|ζn | ≥ M ] ≤ . Si une suite converge en probabilité alors elle
est tendue. (Car on peut approcher la fonction I(· ∈ [−M , M ]) par une suite croissante de fonctions
continues bornées). Alors (rn (ζn − µ)) est tendue. Soit > 0 et M > 0 tels que supn∈N P[|ζn − µ| ≥
M /rn ] ≤ . Ce qui implique la convergence en probabilité car (rn ) tend vers +∞.
**********************
Exercice 1.14 (quartile)
Soit la loi de probabilité de densité f (x) = 2xI{0 ≤ x ≤ 1}.
1. Trouver les quartiles (y compris la médiane) de cette loi.
2. Considérons un échantillon i.i.d. (X1 , . . . , Xn ) de cette loi. Soit Fbn la fonction de
√
répartition empirique associée. Donner la loi limite de n(Fbn (1/2)−1/4)/Fbn (3/4) quand
n → ∞., où Fbn est la fonction de répartition empirique.
**********************
Correction de l’exercice 1.14
√
√
1. q1/4 = 1/2, q1/2 = 1/ 2 et q3/4 = 3/2
2. Le tCL donne :
√
n Fbn (1/2) − F (1/2)
N (0, F (1/2)(1 − F (1/2)))
1 RAPPELS DE PROBABILITÉS
14
ENSAE
Statistiques mathématiques
p.s.
et la LFGN : Fbn (3/4) −→ F (3/4). Comme F (1/2) = 1/4 et F (3/4) = 9/16, on obtient
√ b
n Fn (1/2) − F (1/2)
16 N 0,
27
Fbn (3/4)
2
Vraisemblance, EMV, IC, Information de Fisher
**********************
Exercice 2.1 (Modèle probit)
Nous disposons d’une information relative au comportement de remboursement ou de
non-remboursement d’emprunteurs :
(
1
si l’emprunteur i rembourse,
Yi =
0 si l’emprunteur i est défaillant.
Afin de modéliser ce phénomène, on suppose l’existence d’une variable aléatoire Yi∗ normale, d’espérance m et de variance σ 2 , que l’on appellera « capacité de remboursement
de l’individu i », telle que :
(
1 si Yi∗ > 0,
Yi =
0 si Yi∗ ≤ 0.
On note Φ la fonction de répartition de la loi normale N (0, 1).
1. Exprimer la loi de Yi en fonction de Φ.
2. Les paramètres m et σ 2 sont-ils identifiables ?
**********************
Correction de l’exercice 2.1
1. On calcul la loi de Y tel que Y = 1 quand Y ∗ ≥ 0 et Y = 0 quand Y ∗ < 0 où Y ∗ ∼ N (m, σ 2 ).
La loi de Y est donnée par P[Y ∗ ≥ 0]δ1 + P[Y ∗ < 0]δ0 . On note par ϕ la densité d’une gaussienne
Rx
N (0, 1), en particulier, on a Φ(x) = −∞ ϕ(t)dt. Le changement de variable (x − m)/σ → t donne
P[Y ∗ < 0] =
Z
0
ϕ
−∞
x − m dx
σ
σ
Z
−m/σ
=
−∞
−m ϕ(t)dt = Φ
.
σ
La loi de Y est donc (1 − Φ(−m/σ 2 ))δ1 + Φ(−m/σ 2 )δ0 .
2. Les paramétres m et σ 2 ne sont pas identifiable vu que n’importe quels couples (m1 , σ12 ) et
(m2 , σ22 ) tels que m1 /σ12 = m2 /σ22 donne la même loi pour Y .
**********************
Exercice 2.2 (Répartition de génotypes dans une population)
Quand les fréquences de gènes sont en équilibre, les génotypes AA, Aa et aa se manifestent dans une population avec probabilités (1 − θ)2 , 2θ(1 − θ) et θ2 respectivement, où θ
est un paramètre inconnu. Plato et al. (1964) ont publié les données suivantes sur le type
de haptoglobine dans un échantillon de 190 personnes :
2 VRAISEMBLANCE, EMV, IC, INFORMATION DE FISHER
15
ENSAE
Statistiques mathématiques
Type de haptoglobine
Hp-AA
Hp-Aa
Hp-aa
effectifs
10
68
112
1. Comment interpréter le paramètre θ ? Proposez un modèle statistique pour ce problème.
2. Calculez l’estimateur du maximum de vraisemblance θ̂n de θ.
√
3. Donnez la loi asymptotique de n(θ̂n − θ).
4. Proposez un intervalle de confiance de niveau asymptotique 95% pour θ.
**********************
Correction de l’exercice 2.2
1. On propose deux modèlisations pour ces données. Seule la deuxième sera utilisée pour le traitement mathématique du problème.
(1)
(2)
(1)
(2)
Modèle 1 : On modèlise ce problème par une famille de n couples (δ1 , δ1 ), . . . , (δn , δn ) où
(j)
(j)
les δi , i = 1, . . . , n, j = 1, 2 sont i.i.d. Bernoulli sur {A, a} de paramétre θ. On dit que δi = a
quand l’alléle a est présent chez l’individu i au gène numéro 2. On a donc bien le probabilités
du génotype AA qui est (1 − θ)2 , Aa qui est de probabilité 2θ(1 − θ) et aa qui est θ2 . Dans ce
modèle θ est la probabilité d’avoir l’alléle a pour chacun des deux gènes.
Modèle 2 : On peut modèliser ce problème par une famille de n variables aléatoires X1 , . . . , Xn
i.i.d. à valeurs dans {AA, Aa, aa} telles que P[X = AA] = (1 − θ)2 , P[X = Aa] = 2θ(1 − θ) et
P[X = aa] = θ2 . On choisit ce modèle pour la suite. On peut voir que X = {δ (1) , δ (2) }. Donc θ
s’interprète comme étant la probabilité d’avoir l’alléle a pour chacun des deux gènes.
2. Dans le modèle 2, la loi de X est Pθ = (1 − θ)2 δAA + 2θ(1 − θ)δAa + θ2 δaa , elle admet une
densité fθ par rapport à la mesure δAA + δAa + δaa qui est définie sur {AA, Aa, aa} donnée par
fθ (AA) = (1 − θ)2 , fθ (Aa) = 2θ(1 − θ) et fθ (aa) = θ2 . La Log-vraisemblance est donnée par
L :θ ∈ (0, 1) 7−→
n
X
log fθ (Xi )
i=1
= Nn (AA) log[(1 − θ)2 ] + Nn (Aa) log[2θ(1 − θ)] + Nn (aa) log[θ2 ]
où Nn () est le nombre de génotypes dans l’échantillon {X1 , . . . , Xn }. On a pour tout θ ∈ (0, 1),
L0 (θ) =
1
2n
−
2Nn (AA) + Nn (Aa) .
θ
θ(1 − θ)
Alors l’estimateur du maximum de vraisemblance est donné par
θ̂n = 1 −
1 2Nn (AA) + Nn (Aa) .
2n
Ici, on a θ̂n = 1 − 22/95 ≈ 0.77.
3. On peut appliquere le TCL ou la méthode générale du cours sur la normalité asymptpotique des
EMV. Pour le TCL, on a directement que
n
√ 1 X
√ n θ − θ̂n = n
I(Xi = AA) + (1/2)I(Xi = Aa) − (1 − θ)
n
i=1
2 VRAISEMBLANCE, EMV, IC, INFORMATION DE FISHER
θ − θ2 N 0,
2
16
ENSAE
Statistiques mathématiques
car
E I(X = AA) + (1/2)I(Z = Aa) = (1 − θ)2 + θ(1 − θ) = 1 − θ
et
2
3θ θ2
+
E I(X = AA) + (1/2)I(Z = Aa) = 1 −
2
2
alors
var(I(X = AA) + (1/2)I(Z = Aa)) =
θ − θ2
.
2
4. On applique la méthode Delta. On chercher une fonction g telle que pour tout θ ∈ (0, 1), on a :
g 0 (θ)2
θ − θ2
=1
2
√
√
√
alors g(θ) = 2 2arcsin( θ). On applique la méthode Delta : ( n(g(θ̂n ) − g(θ))) converge en loi
vers N (0, 1). Alors si P[|G| ≤ zα ] = 1 − α, où G est Gaussienne Standard, on aura, quand n tend
vers ∞,
h
√
√ i
→ 1 − α.
P θ̂n ∈ g −1 g(θ) − zα / n, g(θ) + zα / n
**********************
Exercice 2.3 (Modèle d’autorégression)
On considère les observations X1 , . . . , Xn , où les Xi sont issus du modèle d’autorégression
d’ordred 1 :
Xi = θXi−1 + ξi , i = 1, . . . , n,
X0 = 0,
(2)
où ξi i.i.d. de loi normale N (0, σ 2 ) et θ ∈ R.
1. Explicitez l’expérience statistique associèe à la donnée (X1 , . . . , Xn ).
2. Calculez l’estimateur du maximum de vraisemblance θ̂n de θ pour ce modèle.
**********************
Correction de l’exercice 2.3
1. Une expérience statistiques est un triplet de la forme :
E = Z, Z, {Pθ : θ ∈ Θ}
où Z est l’espace des observations, Z est la tribu sur l’espace des observations et {Pθ : θ ∈ Θ} est
le modèle : c’est l’ensemble des mesures de probabilités dont on suppose a priori que les données
sont issues.
Ici, on a Z = Rn qui est muni de sa tribu des Boréliens Z. Le modèle est donné par l’équation
d’autorégression : Xi = θXi−1 +ζi où ζi sont i.i.d. N (0, σ 2 ). Pour le modèle, on suppose connu σ 2 .
Ainsi le modèle est seulement paramétré par θ (sinon, il serait paramétré par (θ, σ 2 )). La loi Pθ est
X |X
,...,X1
donc la loi de (X1 , X2 , . . . , Xn ) sous l’hypothèse "AR(1)" de l’équation 2. On a Pθ i i−1
=
Xi |Xi−1
2
Pθ
∼ N (θXi , σ ). On montre par récurrence que
(X1 ,...,Xn )
Pθ = Pθ
= fθ .λ
2 VRAISEMBLANCE, EMV, IC, INFORMATION DE FISHER
17
ENSAE
Statistiques mathématiques
où λ est la mesure de Lebesgues sur Rn et fθ est une fonction de densité définie sur Rn pour tout
(x1 , . . . , xn ) ∈ Rn par :
fθ (x1 , . . . , xn ) = f (x1 )f (x2 − θx1 )f (x3 − θx2 ) · · · f (xn − θxn−1 )
où f est la densité d’une Gaussienne de moyenne nulle et de variance σ 2 . Pour la recurrence, on
utilise l’identité P(X,Y ) = PX ⊗ PY |X .
2. La fonction de Log-vraisemblance est donnée par :
(
R →
R
L:
P
θ 7→ log fθ (X1 , . . . , Xn ) = log f (X1 ) + n−1
i=1 log f (Xi+1 − θXi ).
√
où f (x) = (σ 2π)−1/2 exp − x2 /(2σ 2 ) . Alors pour tout θ,
√ n−1
−n log σ 2π
X12 X (Xi+1 − θXi )2
L(θ) =
− 2+
2
2σ
2σ 2
i=1
et aussi
0
L (θ) =
n−1
X
i=1
n−1
n−1
i=1
i=1
X
X
−Xi (Xi+1 − θXi )
−2
2
=
σ
θ
X
−
X
X
.
i
i−1
i
σ2
Alors l’EMV est donné par :
θ̂n =
n−1
X
n−1
X
Xi Xi−1 /
Xi2 .
i=1
i=1
**********************
Exercice 2.4 (Durées de connection)
On peut modéliser la durée d’une connection sur le site www.Cpascher.com par une loi
gamma(2, 1/θ) de densité
θ−2 xe−x/θ 1[0,+∞[ (x).
Pour fixer vos tarifs publicitaires, vous voulez estimer le paramètre θ à partir d’un échantillon X1 , . . . , Xn de n durées de connexion. On vous donne Eθ (Xi ) = 2θ et varθ (Xi ) = 2θ2 .
1. Calculez l’estimateur du maximum de vraisemblance θ̂n de θ.
2. Que vaut E(θ̂n ) ? Quelle est la variance de θ̂n ?
**********************
Correction de l’exercice 2.4
1. On note par fθ la densité donnée pour tout x ∈ R, par fθ (x) = θ−2 xe−x/θ I(x ≥ 0). La logP
vraisemblance du modèle est la fonction L : θ ∈ R∗+ 7−→ ni=1 log fθ (Xi ). On a pour tout θ > 0,
L(θ) = −2n log θ +
n
X
i=1
où X̄n = n
P
−1
i Xi .
log Xi −
n
X̄n ,
θ
Alors L0 (θ) = −2nθ−1 +nθ−2 X̄n et donc θ̂n ∈ argmaxθ>0 L(θ) = {(1/2)X̄n }.
2 VRAISEMBLANCE, EMV, IC, INFORMATION DE FISHER
18
ENSAE
Statistiques mathématiques
2. Eθ̂n = θ. Pour la variance, on a
var(θ̂n ) =
1
EX 2 − (EX)2
2θ2
var(X1 ) =
=
.
4n
4n
4n
**********************
Exercice 2.5 (Taux de défaillance)
Une chaîne de production doit garantir une qualité minimale de ses produits. En particulier, elle doit garantir que la proportion θ des produits défaillants reste inférieure à un
taux fixé par le client. Un échantillon de n produits est prélevé et analysé. On note θ̂n la
proportion de produits défectueux dans l’échantillon.
1. Proposer un modèle statistique pour ce problème. Quelle est la loi de nθ̂n ?
2. Quelle information donne la loi des grand nombres et le théorème centrale limite sur
le comportement asymptotique de θ̂n ?
3. On donne P(N > 1.64) = 5% pour N ∼ N (0, 1). En déduire n (dépendant de n et θ)
n→∞
tel que P(θ ≥ θ̂n + n ) → 5%.
4. La valeur n précédente dépend de θ. A l’aide du lemme de Slutsky, donner 0n ne
n→∞
dépendant que de n et θ̂n tel que P(θ ≥ θ̂n + 0n ) → 5%.
**********************
Correction de l’exercice 2.5
1. On modélise ce problème par une famille de n variables de Bernoulli δ1 , . . . , δn i.i.d. telle que
P[δi = 1] = θ = 1 − P[δi = 0]. Où δi = 1 signifie que le i-iéme produit prélevé est défaillant et
P
P
δi = 0 signifie qu’il n’est pas défaillant. On a donc θ̂n = n1 ni=1 δi . En particulier, nθ̂ = ni=1 δi
donc pour tout 0 ≤ k ≤ n,
!
n
P nθ̂n = k =
θk (1 − θ)n−k .
k
On reconnaît la loi d’une multinomiale de paramétre n, θ.
2. La loi des grands nombres assure que (θ̂n ) converge presque surement vers Eδ = θ. Comme
√
var(δ) = Eδ 2 − (Eδ)2 = θ − θ2 , le TCL dit que n(θ̂n − θ)
N (0, (θ − θ2 )).
3. Le TCL dit que, quand n tend vers l’infini,
r
h
hr n
i
θ − θ2 i
P θ ≥ θ̂n + =P
(θ
−
θ̂
)
≥
−→ P[g ≥ ].
n
n
θ − θ2
p
Si on choisit > 0 tel que P[g ≥ ] = 5%, on obtient le résultat pour εn = (θ − θ2 )/n.
p
4. La fonction x 7→ 1/(x − x2 ) est continue sur (0, 1) alors si θ ∈ (0, 1), comme θ̂n converge presque
surement vers θ, il existe un N ∈ N tel que pour tout n ≥ N , θ̂n ∈ (0, 1) p.s. et donc (f (θ̂n ))n≥N
√
est p.s. définie et elle converge vers f (θ) presque surement. Comme n(θ − θ̂n ) converge en loi
vers N (0, θ − θ2 ) et (f (θ̂n ))n≥N converge presque surement vers f (θ), on en déduit par le lemme
2 VRAISEMBLANCE, EMV, IC, INFORMATION DE FISHER
19
ENSAE
Statistiques mathématiques
√
de Slutsky que f (θ̂n ) n(θ − θ̂n ) n≥N converge en loi vers f (θ)N (0, θ − θ2 ) = N (0, 1). On définit
la suite de v.a. (ε0n ) par
s
θ̂n − θ̂n2
ε0n =
.
n
On a alors :
h
P θ ≥ θ̂n +
0n
i
h
i
√
= P f (θ̂n ) n(θ − θ̂n ) ≥ −→ P[g ≥ ] = 5%.
**********************
Exercice 2.6 (Cas des défaillances rares)
La chaîne produit des composants électroniques utilisés dans le secteur aéronautique. Le
taux de défaillance doit donc être très bas. En particulier, comme la taille de l’échantillon
ne peut être très grosse (question de coût), il est attendu que θ soir du même ordre
de grandeur que 1/n. On supposera donc par la suite que la proportion de composants
défectueux est θn = λ/n pour un certain λ > 0 et on cherche à estimer λ par λ̂n = nθ̂n . La
valeur λ est supposée indépendante de n (le cas intéressant est quand λ est petit).
1. Quelle est la limite de P(λ̂n = k) lorsque n → +∞ ? En déduire que λ̂n converge en loi
vers une variable de Poisson de paramètre λ.
2. On suppose qu’il y a une proportion θn = 3/n de composants défectueux. Sachant
que P(Z = 0) ≈ 5% pour Z de loi de Poisson de paramètre 3, montrer que P(θn >
θ̂n + 2/n) ≈ 5% pour n grand.
**********************
Correction de l’exercice 2.6
1. On rappel qu’une variable de Poisson Z de paramétre λ est portée par N telle que pour tout
k ∈ N, P[Z = k] = (λk /k!)e−λ . On note par δ1 , . . . , δn des Bernoulli de paramétre θ = λ/n. Pour
tout 0 ≤ k ≤ n, on a
!
!
n
hX
i
λ k n
n
λ n−k
1−
P[λ̂n = k] = P
δi = k =
θk (1 − θ)n−k =
n
n
k
k
i=1
−k
n!
λ n n
λk λ n n!
=
1−
−1
=
1−
(n − λ)−k .
k!(n − k)!
n
λ
k!
n (n − k)!
Comme (1 − λ/n)n tend vers e−λ , il suffit de prouver que
− λ)−k tend vers 1 quand n
n
√
tend vers +∞. La formule de Stirling est : quand n tend vers +∞, n! ∼ 2πn ne . Alors, on a
n!
(n−k)! (n
n!
k n −k n − λ k
(n − λ)−k ∼ 1 +
e
(n − k)!
n−k
n−k
qui converge bien vers 1. Donc λ̂n converge en loi vers une variable de Poisson de paramétre λ.
2. Comme λ̂n converge en loi vers une Poisson de paramétre 3. On a en particulier, quand n tend
vers l’infini,
P[θn > θ̂n + 2/n] = P[1 > λ̂n ] −→ P[Z = 0] ≈ 5%.
2 VRAISEMBLANCE, EMV, IC, INFORMATION DE FISHER
20
ENSAE
Statistiques mathématiques
**********************
Exercice 2.7 (Information de Fisher : entraînement)
Dans les modèles suivants, calculer l’information de Fisher associée aux n observations (si
elle est bien définie), l’estimateur du maximum de vraisemblance et sa loi asymptotique :
i.i.d
1. X1 , . . . , Xn ∼ B(θ).
i.i.d
2. X1 , . . . , Xn ∼ N (m, v).
i.i.d
3. X1 , . . . , Xn ∼ U[0, θ].
**********************
Correction de l’exercice 2.7 On rappelle les formules du cours pour le calcul de l’information de
Fisher :
In (θ) = nI1 (θ) = nEθ ∇θ log f (θ, X)∇ log f (θ, X)> = −nEθ ∇2θ log f (θ, X) = −n∇2a D(a, θ)|a=θ
où D(a, θ) = Eθ [log f (a, X)]. En utilisant une des trois formules précédentes, on obtient dans les
différents modèles :
1. modèle de Bernoulli :
n
.
θ(1 − θ)
L’EMV est ici la moyenne empirique et on vérifie bien qu’il est asymptotiquement normal de
variance asymptotique l’inverse de l’information de Fisher (grâce au TCL).
In (θ) =
2. modèle Gaussien (moyenne et variance inconnues) :
In (m, v) =
n
v
0
0
n
2v 2
!
.
P
P
L’EMV est ici (X n , σ̂n2 ) où X n = n1 i Xi et σ̂n2 = n1 i (Xi −X n )2 . L’EMV est asymptotiquement
normal (soit parce que le modèle est régulier, soit en appliquant le TCL, méthode Delta et Slutsky
en dimension 2) de variance asymptotique l’inverse de l’info de Fisher.
3. modèle uniforme : ce modèle n’est pas régulier – en particulier l’info de Fisher n’est pas définie (de manière classique). On peut néanmoins calculer, l’EMV qui est θbnmv = maxi Xi et son
comportement asymptotique en étudiant sa fonction de répartition :


si x < 0
 1 n
i
h
i 
h n(θ − θb mv )
n(θ
−
X
)
i
n
x
Pθ
> x = Pθ ∀i = 1, . . . , n :
>x =
1− n
quand 0 < x < n

θ
θ


0
sinon
car pour tout i, sous Pθ , (θ − Xi )/θ ∼ U([0, 1]). Alors quand n → ∞, on obtient :
(
h n(θ − θb mv )
i
1
si x < 0
n
>x =
lim Pθ
n→+∞
θ
exp(−x) quand x > 0
donc
n(θ − θbnmv )
θ
où E(1) est une loi exponentielle de paramètre 1.
E(1)
2 VRAISEMBLANCE, EMV, IC, INFORMATION DE FISHER
21
ENSAE
3
Statistiques mathématiques
Tests
**********************
Exercice 3.1 (Test de Neyman-Pearson)
Chercher la région de rejet du test de Neyman-Pearson dans les cas suivants.
1. Loi exponentielle E(θ). Test de θ = θ0 contre θ = θ1 avec θ1 > θ0 .
2. Loi de Bernoulli B(θ). Test de θ = θ0 contre θ = θ1 pour θ1 > θ0 . Quel problème
rencontre-t-on dans ce cas ?
**********************
Correction de l’exercice 3.1
1. La vraisemblance en θ du modèle est
L(θ, (Xi )i ) =
n
Y
n
θ exp(−θXi ) = θ exp − θ
i=1
X
Xi .
i
Le rapport de vraisemblance est
X L(θ0 , (Xi )i )
= exp − (θ0 − θ1 )
Xi .
L(θ1 , (Xi )i )
i
Le rapport de vraisemblance est donc une fonction croissante de X n (on a ici θ1 > θ0 ). Alors, le
test de Neyman-Pearson de niveau α est de la forme :
(
H0 quand X n ≥ tα
ϕα ((Xi )i ) =
H1
sinon
où tα est un seuil à choisir tel que
Pθ0 [X n < tα ] = α.
On sait qu’une telle solution existe car X n est une v.a.r. admettant une densité par rapport à la
mesure de Lebesgue. Néanmoins, cette quantité reste difficile à calculer, on préféra alors fixer le
seuil de manière asymptotique vue que X n est asymptotiquement Gaussien (par le TCL).
2. Comme précédemment, il suffit de calculer la vraisemblance et le rapport de vraisemblance dans
ce modèle. On a pour la vraisemblance :
L(θ, (Xi )i ) =
n
Y
θXi (1 − θ)1−Xi .
i=1
Le rapport de vraisemblance est
P
P
L(θ0 , (Xi )i ) θ0 i Xi 1 − θ0 i (1−Xi )
=
.
L(θ1 , (Xi )i )
θ1
1 − θ1
Le rapport de vraisemblance est donc une fonction décroissante de X n (on a ici θ1 > θ0 ). Alors,
le test de Neyman-Pearson de niveau α est de la forme :
(
H0 quand X n ≤ tα
ϕα ((Xi )i ) =
H1
sinon
3 TESTS
22
ENSAE
Statistiques mathématiques
où tα est un seuil à choisir tel que
Pθ0 [X n > tα ] = α.
Ici, cette équation n’admet pas nécessairement de solution car X n est une variable discrète. Dans
ce cas, on peut avoir recours à des tests “randomizés” (hors programme), mais on préférera fixer
le seuil tα de manière asymptotique vue que X n est asymptotiquement Gaussien.
**********************
Exercice 3.2 (Test de Wald)
Lors des essais d’un type d’appareils ménagers, une association de consommateurs envisage les 3 issues suivantes : fonctionnement normal, mauvais fonctionnement et défaillance.
Les probabilités de fonctionnement normal et de défaillance sont égales à p2 et à (1 − p)2
respectivement, où p ∈]0, 1[ est un paramètre inconnu. Pour un échantillon de n = 200
appareils, on a observé que 112 appareils fonctionnent normalement, 12 sont défaillants
et 76 fonctionnent mal. A partir de ces données, on cherche à inférer le paramètre p.
1. Proposer un modèle statistique pour ce problème.
2. Chercher l’estimateur du maximum de vraisemblance p̂n de p. Montrer qu’il est
√
consistant et donner la loi limite de n(p̂n − p) quand n → ∞.
3. À l’aide du test de Wald, tester l’hypothèse que p = 1/2 contre l’alternative p 6= 1/2
(on donnera la forme de la région critique et la p-value du test). On suppose connues
les valeurs de la fonction de répartition de la loi normale standard.
**********************
Correction de l’exercice 3.2
1. C’est le modèle d’échantillonnage {P⊗n
p : 0 < p < 1} où
Pp = p2 δN + 2p(1 − p)δM F + (1 − p)2 δD
où N signifie normal, MF signifie mauvais fonctionnement et D signifie défaillant.
2. On note par #N, #MF, #D le nombre d’appareils dans chacune des trois catégories. On a #M F =
n − #N − #D.
La vraisemblance en p du modèle est
L(p, (Xi )i ) =
n h
i
Y
p2 I(Xi = N ) + 2p(1 − p)I(Xi = M F ) + (1 − p)2 I(Xi = D)
i=1
2 #N
= (p )
[2p(1 − p)]#M F [(1 − p)2 ]#D .
et la log-vraisemblance est
`n (p, (Xi )i ) = log
p [#N − #D] + (#D − #N ) log 2 + n log[2p(1 − p)].
1−p
En étudiant la fonction de log-vraisemblance, on voit que la vraisemblance est maximale en
1 #N − #D
p̂n =
+1 ,
2
n
3 TESTS
23
ENSAE
Statistiques mathématiques
qui est donc l’estimateur du maximum de vraisemblance. Par la loi forte des grands nombres, on
a:
#N
#D
−→ p2 , et
−→ (1 − p)2
n→+∞
n
n n→+∞
et donc p̂n −→ p, càd p̂n est consistant. L’étude du comportement asymptotique de p̂n se
n→+∞
déduit du TCL :
n
n
i=1
i=1
1X
1X
#N − #D
=
I(Xi = N ) − I(Xi = D) :=
Zi
n
n
n
et
√
n Z̄n − EZ1
N (0, Var Z1 ). On obtient alors :
√
√
n p̂n − p =
n
Z̄n − EZ1
2
p(1 − p) N 0,
2
3. On considère le problème de test
H0 : p =
1
1
contre H1 : p 6= .
2
2
La forme du test de Wald pour ce problème de test est
(
H0 quand Tn ≤ tα
ϕα ((Xi )i ) =
H1
sinon
où tα est un seuil à choisir tel que le niveau asymptotique du test est α et la statistique du test
Tn est donnée ici par :
√
Tn = 8n|p̂n − 1/2|.
Sous H0 , on a Tn
N (0,1)
N (0, 1). On prend alors tα = q1−α/2 .
Sous H1 , on a Tn −→
n→+∞
+∞ donc le test est consistant.
(rem. : le test de Wald utilise Tn2 pour statistique du test (ce qui fait intervenir une χ2 (1) en loi
limite). Mais, en dimension d = 1, on peut utiliser directement Tn , les deux tests sont identiques :
χ2 (1)
N (0,1)
dans le premier cas la zone de rejet est Tn2 > q1−α et dans le deuxième cas elle vaut Tn > q1−α/2 .
Ces deux zones sont identiques.
√
Numériquement, on obtient p̂n = 0.5 ∗ ((112 − 12)/200 + 1) = 0.75 et Tn = 200 ∗ 8|0.75 − 1/2| =
10. La p-value est P[|g| > 10] qui est très petite ; on va donc rejeter avec confiance.
**********************
Exercice 3.3 (Test de support)
Soient X1 , . . . , Xn de loi U[0, θ] et M = max(Xi ), 1 ≤ i ≤ n. On cherche à tester H0 : θ = 1
contre H1 : θ > 1.
1. Pourquoi ne peut-on pas utiliser ici le test de Neyman-Pearson ?
2. On propose le test suivant : on rejette H0 lorsque M > c (c constante donnée).
Calculer la fonction de puissance.
3 TESTS
24
ENSAE
Statistiques mathématiques
3. Quelle valeur prendre pour c pour obtenir un niveau de 5% ?
4. Si n = 20 et que la valeur observée de M est 0.96, que vaut la p-value ? quelle conclusion tirer sur H0 ? Même question pour M obs = 1.04.
**********************
Correction de l’exercice 3.3
1. Les densités n’ont pas même support. Le rapport de vraisemblance n’est donc pas défini.
2. La puissance d’un test est l’application qui mesure "le rejet à raison" : θ ∈ Θ1 → Pθ [rejet]. Etant
donné la zone de rejet considérée ici, la fonction puissance est donnée pour tout θ > 1 par


0
si c ≥ θ


1
si c ≤ 0
Pθ [max Xi > c] =


c
n
 1− )
sinon.
θ
3. Pour avoir un niveau α ∈ (0, 1), il suffit de choisir c tel que Pθ=1 [maxi Xi > c] = α càd c =
(1 − α)1/n . Pour α = 0.05, on prend c = (0.95)1/n .
4. Pour n = 20 et M = 0.96 la p-value vaut P1 [maxi Xi > 0.96] ≈ 0.56 : on va accepter H0 . Pour
M = 1.04, la p-value vaut P1 [maxi Xi > 1.04] = 0 on rejete donc avec un très haut niveau de
confiance (c’est normal de rejeter vu qu’au moins un des Xi est plus grand que 1).
**********************
Exercice 3.4 (Peut-on retarder sa mort ?)
On prétend couramment que les mourants peuvent retarder leur décès jusqu’à certains
événements importants. Pour tester cette théorie, Philips et King (1988, article paru
dans The Lancet, prestigieux journal médical) ont collecté des données de décès aux
environs d’une fête religieuse juive. Sur 1919 décès, 922 (resp. 997) ont eu lieu la semaine
précédente (resp. suivante). Comment utiliser de telles données pour tester cette théorie
grâce à un test asymptotique ?
**********************
Correction de l’exercice 3.4
i.i.d.
1. On modèlise ce problème par le modèle d’échantillonnage X1 , . . . , Xn ∼ B(p) où
(
1 si décés avant la fête
Xi =
0
sinon
p est donc la probabilité de décéder avant la fête.
2. Pour la construction du test, le choix des hypothèses est très important. L’idèe est de choisir les
hypothèses telles que quand on rejette alors on obtient une information qui a de l’intérêt. Ici,
on choisit les hypothèses telles que si on rejette alors on pourra dire que “les mourants peuvent
3 TESTS
25
ENSAE
Statistiques mathématiques
retarder leur décés jusqu’à un certain événement important”. On choisit alors le problème de
test :
1
1
H0 : p = contre H1 : p <
2
2
3. La famille de Bernoulli est une famille à rapport de vraisemblance monotone : le rapport de
vraisemblance dépend de manière monotone de la moyenne empirique X n . On va donc utiliser la
moyenne empirique pour construire la statistique de test. On considère le test
(
H0 quand Tn ≥ tα
ϕα ((Xi )i ) =
H1
sinon
où Tn =
√
n(X n −1/2).
— Sous H1 : pour tout p < 1/2, sous Pp , Tn tend p.s. vers −∞ (c’est pour ça qu’on a choisit
cette forme de test).
— Pour le calcul du seuil tα , on veut :
limsup P1/2 [Tn < tα ] = α.
n→+∞
N (0,1)
N (0, 1/4), on prend alors tα = qα
/2.
√
4. numériquement, on obtient 2Tn = 2 1919 922/1919 − 1/2 ≈ −1.712. La p-value du test est
P[g < −1.712] = 0.04 où g ∼ N (0, 1). On rejette donc l’hypothèse avec confiance. On en déduit
que les gens “peuvent retarder leur mort”.
Sous p = 1/2 : Tn
4
Modèle de régression
**********************
Exercice 4.1 (Modèle de régression multiple)
On considère le modèle de regression multiple
y = θ0 e + Xθ + ξ,
où E[ξ] = 0, E[ξξ T ] = σ 2 In , e = (1, 1, . . . , 1)T
avec X une matrice n × k de rang k et y, ξ des vecteurs de Rn . Les paramètres θ0 ∈ R et
θ ∈ Rk sont inconnus. On note θ̂0 et θ̂ les estimateurs des moindres carrés de θ0 et θ.
¯ est la moyenne des yi (resp.
1. On note ŷ = θ̂0 e + X θ̂. Montrer que ŷ¯ = ȳ, où ȳ (resp. ŷ)
des ŷi ). En déduire que ȳ = θ̂0 + X̄ θ̂ où X̄ = n1 eT X = X̄1 , . . . , X̄k .
2. Montrer l’équation d’analyse de la variance :
ky − ȳek2 = ky − ŷk2 + kŷ − ȳek2 .
En déduire que le coefficient de détermination
Pn
(ŷi − ȳ)2
2
R = Pi=1
n
2
i=1 (yi − ȳ)
est toujours inférieur à 1.
4 MODÈLE DE RÉGRESSION
26
ENSAE
Statistiques mathématiques
3. Supposons que Z = [e, X] est de rang k + 1. Calculez en fonction de Z la matrice de
covariance de (θ̂0 , θ̂). Comment accède-t-on à Var(θ̂j ), pour j = 0, . . . , p ?
4. On suppose dorénavant que θ0 = 0 et donc
E[ξ] = 0, E[ξξ T ] = σ 2 In .
y = Xθ + ξ,
L’estimateur des moindres carrés θ̃ dans ce modèle est-il égal à θ̂ ?
5. A-t-on la relation ŷ¯ = ȳ ? Que dire du R2 dans ce modèle ?
**********************
Correction de l’exercice 4.1
1. Par définition, l’estimateur des moindres carrés est donné par :
(θ̂0 , θ̂)> ∈ argmin(θ00 ,θ0 )> ∈R×Rk y − θ00 e − Xθ0 2 .
Alors ŷ = θ̂0 e+X θ̂ est la projection orthogonale de y sur vect(e, X (1) , · · · , X (k) ) où X (1) , · · · , X (k)
sont les vecteurs colonnes de X. En particulier, pour tout θ00 ∈ R, θ0 ∈ Rk , on a
y − ŷ, θ00 e + Xθ0 = 0.
En particulier, pour θ00 = 1, θ0 = 0, on a y − ŷ, e = 0 et comme ȳ = n−1 y, e (de même
¯ De plus,
ŷ¯ = n−1 ŷ, e ), on a bien ȳ = ŷ.
ŷ¯ = n−1 ŷ, e = n−1 θ̂0 e + X θ̂, e = θ̂0 + X̄ θ̂
où X̄ = X̄ (1) , · · · , X̄ (k) .
2. ȳe est un élément de vect(e, X (1) , · · · , X (k) ). Comme ŷ est le projeté orthogonal de y sur cet
espace, on voit que y − ŷ est orthogonal à ȳe − ŷ. par Pythagore, on a
ky − ȳek22 = ky − ŷk22 + kŷ − ȳek22 .
On a donc
R2 =
kŷ − ȳek22
ky − ȳek22
≤ 1.
1. R2 = 1 signifie que y est dans vect(e, X (1) , · · · , X (k) ) (modèle sans bruit).
2. R2 = 0 signifie que ŷ = ȳe. Donc y est orthogonal à vect(X (1) , · · · , X (k) ). Alors X (1) , · · · , X (k)
sont des mauvaises variables pour expliquer ou prédire y.
>
3. Soit Proj l’opérateur de projection sur vect(e, X (1) , · · · , X (k) ). On a Z θ̂0 , θ̂ = Proj(y). On a
>
> pour tout θ00 ∈ R, θ0 ∈ Rk , y − Z θ̂0 , θ̂ , Z θ00 , θ0
= 0. Par ailleurs,
y − Z θ̂0 , θ̂
>
, Z θ00 , θ0
> >
> = Z > y − Z > Z θ̂0 , θ̂ , θ00 , θ0
.
>
Donc Z > y = Z > Z θ̂0 , θ̂ . Comme la matrice carrée Z > Z de taille k + 1 est de rang k + 1, elle
−1 >
>
est de rang plein donc inversible. Alors Z > Z
Z y = θ̂0 , θ̂ .
4 MODÈLE DE RÉGRESSION
27
ENSAE
Statistiques mathématiques
On peux aussi voir que
(θ̂0 , θ̂)> ∈ argminθ00 ∈R,θ0 Rk y − θ00 e − Xθ0 2 .
Alors, (θ̂0 , θ̂)> minimise la fonction convexe F (u) = ky − Zuk22 sur Rk+1 . Alors (θ̂0 , θ̂)> est
−1 >
>
solution de F 0 (u) = 0 càd Z > (y − Zu) = 0. Donc Z > Z
Z y = θ̂0 , θ̂ .
La matrice de covariance de Θ̂ := (θ̂0 , θ̂)> est donnée par
> Σ = E Θ̂ − EΘ̂ Θ̂ − EΘ̂
.
L’espérance de Θ̂ est donnée par
EΘ̂ = E Z > Z
−1
Z >y = Z >Z
−1
Z > Z θ0 , θ
>
= θ0 , θ
>
.
On en déduit que (étant donné que Eζζ > = σ 2 In )
Σ = E Z >Z
−1
Zζζ > Z Z > Z
−1
= σ2 Z >Z
−1
.
Pour tout j = 0, . . . , k,
> −1
−1
>
var(θ̂j ) = var ej , θ̂0 , θ̂
= σ 2 e>
ej = σ 2 Z > Z jj .
j Z Z
−1 >
4. On a θ̃ = X > X
X y càd, θ̃ est le projeté de y sur vect(X (1) , . . . , X (k) ). En général θ̃ 6= θ̂
sauf quand e est orthogonal à vect(X (1) , . . . , X (k) ).
¯ Dans ce modèle R2 n’a
5. Si e ∈
/ vect(X (1) , . . . , X (k) ) alors on n’a pas e, y − ŷ = 0 donc ȳ 6= ŷ.
pas de sens.
**********************
Exercice 4.2 (Régression Ridge)
On considère le modèle de regression
Y = X
(n,1)
θ + ξ .
(n,k)(k,1)
(n,1)
On suppose que X est une matrice déterministe, E[ξ] = 0, E[ξξ T ] = σ 2 In ,
1. On suppose que k > n. Que dire de l’estimation par moindres carrés ?
2. On appelle estimateur Ridge regression de paramètre de régularisation λ > 0 l’estimateur
θ̂λ = arg min kY − Xθk2 + λkθk2 .
θ∈Rk
Exprimez θ̂λ en fonction de X, Y et λ. Cet estimateur est-il défini pour k > n ?
3. Calculez la moyenne et la matrice de covariance de l’estimateur Ridge. Est-il sans
biais ?
4. On suppose maintenant que k = 1, ce qui correspond au modèle de régression simple.
Montrer qu’il existe une valeur de λ telle que le risque de l’estimateur Ridge de
paramètre λ est inférieur au risque de l’estimateur des MC.
4 MODÈLE DE RÉGRESSION
28
ENSAE
Statistiques mathématiques
**********************
Correction de l’exercice 4.2 On peut voir la régression Ridge, comme une relaxation de la méthode MC dans le cas où les variables explicatives sont colinéaires (càd quand il y a de la redondance
d’information dans les variables explicatives). Pour définir l’EMC de manière unique, on a besoin que
−1 >
X > X soit inversible. Dans ce cas θM C = X > X
X Y . Comme ker(X > X) = kerX, on a voit que
X > X est inversible si et seulement si les colonnes de X ne sont pas colinéaires. D’un point de vue statistiques, des colonnes de X linéairement dépendantes signifie qu’il y a de la redondance d’information
parmi les variables explicatives. Par ailleurs, quand X > X est inversible mais que son conditionement
(ratio plus grande valeur singulière sur plus petite valeur singulière) est grand alors un calcul effectif
de l’EMC est difficile. On va donc considérer, un estimateur qui “régularise” l’EMC ou “conditionne”
la matrice de Gram X > X. Pour cela, on va inverser X > X + λIk et ainsi considérer l’estimateur Ridge
θ̂λ = X > X + λIk
−1
X > Y.
Cet estimateur n’est plus sans biais mais il peut améliorer le risque quadratique de l’EMC. On peut
voir ça comme un compromis biais variance : on perd un peu sur l’espérance mais on gagne sur la
variance dans l’égalité
2
2
E θ̂λ = Eθ̂λ − Eθ + var(θ̂λ ).
On doit aussi faire en sorte de bien choisir λ > 0. Ceci introduit le problème de la sélection de
paramétre en statistique (et notamment la méthode de validation croisée).
1. Quand k > n, la matrice X : Rk 7→ Rn a un noyau et comme ker(X > X) = kerX, la matrice X > X
n’est plus inversible. On sait que l’EMC est défini comme solution de l’équation X > X θ̂ = X > Y
qui admet une infinité de solution (un espace affine dirigé par ker(X > X)). L’EMC n’est donc
pas uniquement défini. On peut alors choisir parmi cet ensemble infini de solutions, une ayant
certaines propriétés supplémentaires. On va chercher celle ayant une petite norme 2.
2. On introduit la fonction
F (θ) = kY − Xθk22 + λ kθk22 ,
∀θ ∈ Rk .
Cette fonction est strictement convexe et tend vers l’infini quand kθk2 tend vers l’infini donc elle
admet un unique minimum θ̂λ qui est solution de l’équation ∆F (θ̂λ ) = 0 càd −2X > (Y − X θ̂λ ) +
2λθ = 0. On a donc
−1 >
θ̂λ = X > X + λIk
X Y.
3. Le biais de l’ER est donné par :
Eθ̂λ = X > X + λIk
−1
X >θ
qui est différent de θ en général. Alors l’ER est en général un estimateur biaisé. La matrice de
covariance est donnée par :
−1
X > Eζζ > X(X > X + λk
−1 >
−1
X X(X > X + λk
.
= σ 2 (X > X + λk
var(θ̂λ ) = (X > X + λk
−1
4 MODÈLE DE RÉGRESSION
29
ENSAE
Statistiques mathématiques
4. Pour k = 1, on écrit Y = Xθ + ζ où X est un vecteur de Rn . Dans ce cas X > X = kXk22 alors
l’EMC et l’ER sont donnés par :
X, Y
X, Y
MC
ER
θ̂ = θ̂
=
et θ̂λ = θ̂
=
.
kXk22
kXk22 + λ
Le risque quadratique de l’EMC est
2
2
2
E(θ̂ − θ) = var(θ̂) = Eθ̂ − (Eθ̂) =
=
E X, Xθ + ζ
kXk22
− θ2 =
2
E X, Y
kXk42
− θ2
σ2
.
kXk22
La décomposition biais-variance du risque quadratique de l’ER donne :
E θ̂λ − θ
2
= Eθ̂λ − Eθ
2
+ var(θ̂λ ) =
kXk2 θ
2
kXk22 + λ
−θ
2
+
σ 2 kXk22
2 .
kXk22 + λ
En posant µ = λ/ kXk22 , on est amené à chercher µ > 0 tel que
1
2
σ 2 / kXk22
2
2
2
−1 θ +
2 < σ / kXk2
1+µ
1+µ
càd µ θ2 − σ 2 / kXk22
(3)
< 2 σ 2 / kXk22 . Si θ2 kXk22 > σ 2 alors pour tout λ tel que
λ<
2σ 2 kXk22
θ2 kXk22 − σ 2
,
le risque quadratique de l’ER est moindre que celui de l’EMC. Quand θ2 kXk22 < σ 2 alors pour
tout λ > 0, le risque quadratique de l’ER est moindre que celui de l’EMC.
Le ratio θ2 /σ 2 (et en général pour tout k, kθk22 /σ 2 ) est appelé le “signal sur bruit”. Quand il
est grand (θ2 /σ 2 > kXk−2
2 ), il faut choisir λ assez petit et quand il est petit, l’ER est toujours
meilleur (en terme de risque quadratique) que l’EMC pour n’importe quel λ.
**********************
Exercice 4.3 (Théorème de Gauss-Markov)
On considère le modèle de regression
Y = X
(n,1)
θ + ξ .
(n,k)(k,1)
(n,1)
On suppose que X est une matrice déterministe, E[ξ] = 0, E[ξξ T ] = σ 2 In , Rang(X) = k. On
note θ̂ l’estimateur des MC de θ.
1. Montrer que θ̂ est sans biais et expliciter sa matrice de covariance.
2. Soit θ̃ un estimateur de θ linÈaire en Y , i.e., θ̃ = LY pour une matrice L ∈ Rk×n
déterministe. Donner une condition nÈcessaire et suffisante sur L pour que θ̃ soit
sans biais. On supposera maintenant cette hypothËse vÈrifiÈe.
4 MODÈLE DE RÉGRESSION
30
ENSAE
Statistiques mathématiques
3. Calculer la matrice de covariance de θ̃. En posant ∆ = L − (X T X)−1 X T montrer que
∆X = 0 et cov(θ̃) = cov(θ̂) + σ 2 ∆∆T . En déduire que
E[(θ̃ − θ)(θ̃ − θ)T ] ≥ E[(θ̂ − θ)(θ̂ − θ)T ]
(inégalité au sens matriciel).
4. En passant au risques quadratiques E kθ̃ − θk2 et E kθ̂ − θk2 , en déduire que l’estimateur des MC est optimal dans la classe de tous les estimateurs linéaires sans
biais.
**********************
Correction de l’exercice 4.3
>
1. Par définition, θ̂ minimise F (u) = ky − Xuk22 donc θ̂ = X > X X > y. On remarque que
rang(X) = k donc n ≥ k et X est injective (donc X > X esy inversible : en effet, X > X est symmétrique donc diagonalisable et si λ est une valeur propre de vecteur propre u alors kXuk22 = λ kuk22 ,
donc λ 6= 0 donc X > X est inversible).
−1 >
−1 >
On a donc Eθ̂ = X > X
X Ey = X > X
X Xθ = θ. Donc θ̂ est bien un estimateur sans
biais. La matrice de covariance de θ̂ est donnée par
>
−1 >
>
−1
Σ := E θ̂ − Eθ̂ θ̂ − Eθ̂ = X > X
X Eζζ > X X > X = σ 2 X > X
2. On a ELY = LXθ. Pour que θ̃ = LY soit sans biais, il faut et il suffit que LXθ = θ. Ceci étant
vrai pour tout θ, on doit avoir LX = Ik .
3. Σ = E (θ̃ − θ)(θ̃ − θ)> = Lvar(Y )L> = σ 2 LL> . Comme LX = Ik , on a :
∆X = LX − X > X
−1
X > X = Ik − Ik = 0
et la covariance de θ̃ est donnée par :
var(θ̃) = var(∆Y + θ̂) = var(∆Y ) + var(θ̂) + cov(θ̂, ∆Y ) + cov(∆Y, θ̂)
σ 2 ∆∆> + var(θ̂) + cov(θ̂, ∆Y ) + cov(∆Y, θ̂).
Par ailleurs, comme ∆X = 0, on a E∆Y = 0 et
cov(∆Y, θ̂) = E ∆Y θ̂> = ∆E (Xθ + ζ)ζ > X(X > X)−1 = 0
car Eζζ > = σ 2 In . De même cov(θ̂, ∆Y ) = 0. On en déduit que
var(θ̃) = var(θ̂) + σ 2 ∆∆> var(θ̂).
4. On a
k
k
2 X
X
2
>
(θ̃j − θj ) =
e>
θ̃ − θ =
j (θ̃ − θ)(θ̃ − θ) ej
2
alors
j=1
j=1
k
2 X
ej var(θ̃)ej
E θ̃ − θ =
2
j=1
4 MODÈLE DE RÉGRESSION
31
ENSAE
Statistiques mathématiques
2 P
de même E θ̂ − θ = kj=1 ej var(θ̂)ej . Mais d’après 3., on a var(θ̃) var(θ̂). Notamment, pour
2
>
tout j, e>
j var(θ̃)ej ej var(θ̂)ej . On a donc
2
2
E θ̃ − θ ≥ E θ̂ − θ .
2
5
2
Examen du lundi 26 octobre 2015
**********************
Exercice 5.1 (Estimation de la variance et borne de Cramer-Rao)
i.i.d.
On considère le modèle d’échantillonnage X1 , . . . , Xn ∼ N (0, θ) où θ > 0 (la variance)
est le paramètre inconnu à estimer.
1. Calculer l’information de Fisher en θ > 0 contenue dans ce n-échantillon.
2. Déterminer l’estimateur du maximum de vraisemblance θbnmv de θ.
3. Calculer le biais b(θ) = Eθ θbnmv −θ et le risque quadratique Rθ (θbnmv ) = Eθ (θbnmv −θ)2 de θbnmv .
4. Rappeler la borne de Cramer-Rao pour ce problème. En déduire, que θbnmv atteint la
borne de Cramer-Rao parmi tous les estimateurs sans biais.
Rappel : si g ∼ N (0, 1) alors Eg 4 = 3.
**********************
Correction de l’exercice 5.1
1. Soit θ > 0. L’information de Fisher contenue dans un n-échantillon vaut n fois celle contenue
dans une seule donnée : In (θ) = nI1 (θ). L’information de Fisher dans une donnée est :
h −1 X 2 2 i Var X 2
2 1
+ 2
=
= 2.
I1 (θ) = Eθ ∂θ log f (θ, X)
= Eθ
4
2θ
2θ
4θ
2θ
2. La fonction de vraisemblance en θ > 0 est
n
−1 X
1 n/2
L θ, (Xi )i =
exp −
Xi2
2πθ
2θ
i=1
et donc la log-vraisemblance est
`n θ, (Xi )i
n
1 X 2
n
Xi .
= − log(2πθ) −
2
2θ
i=1
En étudiant la fonction `n , on voit que l’EMV est θbnmv =
1
n
Pn
2
i=1 Xi .
3. la biais de θbnmv est b(θ) = Eθ θbnmv −θ = Eθ X12 − θ = 0 (car EX1 = 0 donc Var X1 = EX12 ). Son
risque quadratique est
n
1 X
2 Var X 2
2θ2
mv
mv
2
1
b
b
Rθ (θn ) = Eθ (θn −θ) = Eθ
=
.
Xi2 − θ =
n
n
n
i=1
5 EXAMEN DU LUNDI 26 OCTOBRE 2015
32
ENSAE
Statistiques mathématiques
4. La borne de Cramer-Rao dit que si θ̂ est un estimateur de θ et si b(θ) = Eθ θ̂ − θ est le biais de
cet estimateur alors :
2
2
1 + b0 (θ)
+ b(θ)2 .
Eθ θ̂ − θ ≥
In (θ)
En particulier, si θ̂ est sans biais alors b(θ) = 0 et Rθ (θ̂) ≥ In (θ)−1 = 2θ2 /n. Or le risque
quadratique de θbnmv est égal à 2θ2 /n donc θbnmv atteint la borne de Cramer-Rao parmi tous les
estimateurs sans biais.
**********************
Exercice 5.2 (Estimateur on-line de la moyenne)
Dans le modèle d’échantillonnage X1 , . . . , Xn où E|X1 | < ∞, on note EX1 = θ ; construire :
1. un estimatuer batch de la moyenne θ
2. un estimateur on-line de la moyenne θ
**********************
Correction de l’exercice 5.2
1. Un estimateur batch est donné par la moyenne empirique X n
2. Un estimateur on-line est donné par l’algorithme de Robbins-Monro pour les fonctions
f (x, X) = x − X et F (x) = Ef (x, X) = x − EX.
Comme x = EX est l’unique zéro de F , on est naturellement amené à considérer une méthode
de Newton stochastique :
xk+1 = xk − ηn (xk − Xk+1 ).
xn est donc un estimateur on-line de la moyenne.
**********************
Exercice 5.3 (Deux échantillons gaussiens)
i.i.d.
i.i.d.
On observe X1 , . . . , Xm ∼ N (µ1 , v) et Y1 , . . . , Yn ∼ N (µ2 , v) deux échantillons Gaussiens ayant même variance v mais des moyennes différentes. On suppose que les deux
échantillons sont indépendants entre eux.
1. Calculer la vraisemblance en (µ1 , µ2 , v) de l’observation (X1 , . . . , Xm , Y1 , . . . , Yn ).
2. En déduire l’estimateur du maximum de vraisemblance de (µ1 , µ2 , v).
3. On suppose dorénavant dans toutes les questions qui suivent que m = n. Calculer l’information de Fisher en (µ1 , µ2 , v) contenue dans le n-échantillon (X1 , Y1 ), . . . , (Xn , Yn ).
4. On suppose que le modèle est régulier ; donner le comportement asymptotique de
l’estimateur du maximum de vraisemblance.
5. Donner un test de niveau α consistant pour le problème de test
H0 : µ1 = 0 contre H1 : µ1 6= 0
5 EXAMEN DU LUNDI 26 OCTOBRE 2015
33
ENSAE
Statistiques mathématiques
**********************
Correction de l’exercice 5.3
1. La vraisemblance est
m
n
1 X
1 X
L (µ1 , µ2 , v), (Xi )i , (Yj )j = (2πv)−m/2 exp −
(Xi −µ1 )2 ×(2πv)−n/2 exp −
(Yj −µ2 )2
2v
2v
i=1
j=1
2. On voit que le gradient de la log-vraisemblance admet un seul et unique zéro donné par X m


Xm
m
n
m
n
i
X
1 X
1X
1 hX


2
Xi , Y n =
Yj et v̂ =
(Xi − X m ) +
(Yj − Y n )2 .
 Y n  où X m =
m
n
n+m
i=1
j=1
i=1
j=1
v̂
De plus la Hessienne de la log-vraisemblance en ce point est telle
 −m
0
0
v

2
−n
∇ `n (X m , Y n , v̂) =  0
0
v
−(m+n)
0
0
v2
que


≺0
Donc le point (X m , Y n , v̂) est un maximum local. Par ailleurs, il n’y a qu’un seul maximum local,
c’est donc un maximum global. C’est donc l’EMV.
3. La densité (par rapport à la mesure de Lebesgue sur R2 ) du couple (X, Y ) est
−(x − µ )2 1
−(y − µ )2 1
1
2
√
f (µ1 , µ2 , v), (x, y) = √
exp
exp
2v
2v
2πv
2πv
−1
1
exp
(x − µ1 )2 + (y − µ2 )2 .
=
2πv
2v
La matrice d’information de Fisher en (µ1 , µ2 , v) pour une observation (X1 , Y1 ) est donnée par
> I1 (µ1 , µ2 , v) = E(µ1 ,µ2 ,v) ∇ log f (µ1 , µ2 , v), (X, Y ) ∇ log f (µ1 , µ2 , v), (X, Y )
= −E(µ1 ,µ2 ,v) ∇2 log f (µ1 , µ2 , v), (X, Y )
 1

0 0
v


=  0 v1 0 
0 0 v12
4. Le modèle étant régulier, l’EMV est asymptotiquement normal de matrice
totique égale à l’inverse de la matrice d’information de Fisher :

 

 
Xm
µ1
√ 
 

 
n  Y n  −  µ2 
N3 0, I1 (µ1 , µ2 , v)−1 = N3 0, 
v
v̂
5. On a
√
n X m −µ1
de covariance asymp-

v 0 0

0 v 0 
0 0 v2
p.s.
N (0, v) et v̂ −→ v alors par le lemme de Slutsky,
√
n X m −µ1
√
N (0, 1).
v̂
5 EXAMEN DU LUNDI 26 OCTOBRE 2015
34
ENSAE
Statistiques mathématiques
On considère le test
(
ϕα =
si Tn ≤ tα
sinon
H0
H1
N (0,1)
où tα = q1−α/2 et
√
Tn =
n| X m |
√
.
v̂
Le test est de niveau asymptotique α car sous H0 , Tn converge en loi vers |g| où g ∼ N (0, 1) et,
il est consistant, car sous H1 , Tn tends vers +∞ p.s..
**********************
Exercice 5.4 (Ceinture de sécurité)
Une enquête sur l’influence de la ceinture de sécurité a donné les résultats suivants : sur
10.779 conducteurs ayant subit un accident l’enquête rapporte les effectifs dans le tableau
qui suit selon la gravité et le port au non de la ceinture de sécurité :
nature des blessures
port de la ceinture
pas de ceinture
graves ou fatales
blessures sérieuses
peu ou pas de blessures
5
25
1229
141
330
9049
On souhaite répondre à la question : la ceinture de sécurité a-t’elle une influence sur
la gravité des blessures lors d’un accident ?
1. Modéliser ces données.
2. Définir un problème de test permettant de répondre à la question.
3. Construire un test de niveau asymptotique α = 0.05, consistant pour ce problème.
4. Comparer la p-value de ce test à 0, 001. Répondre à la question d’origine et donner
un niveau de confiance sur votre décision.
On rappel les quantiles d’ordre 1 − α d’une χ2 (2) :
α
0,999
0,995
0,99
0,98
0,95
0,9
0,8
0,2
0,1
χ2 (2)
q1−α
0,0020
0,0100
0,0201
0,0404
0,1026
0,2107
0,4463
3,2189
4,6052
α
0,05
0,02
0,01
0,005
0,001
χ2 (2)
q1−α
5,9915
7,8240
9,2103
10,5966
13,8155
**********************
Correction de l’exercice 5.4
1. On modélise ces données par le modèle d’échantillonnage de n couples (X1 , Y1 ), . . . , (Xn , Yn ) où
pour tout 1 ≤ i ≤ n, Xi correspond à la gravité du ième accident et Yi au port ou non de la
ceinture :
a) Xi ∈ { graves ou fatales, blessures sérieuses, peu ou pas de blessures}
5 EXAMEN DU LUNDI 26 OCTOBRE 2015
35
ENSAE
Statistiques mathématiques
b) Yi ∈ { port de la ceinture, pas de ceinture}
2. On veut tester si le port de la ceinture est indépendant de la gravité des blessures de l’accident.
On va donc faire un test d’indépendance entre X et Y . On considère le problème de test suivant :
H0 : ‘X et Y sont indépendantes‘ contre H1 : ‘X et Y ne sont pas indépendantes‘
3. On considère le test d’indépendance du χ2 de niveau asymptotique α :
(
H0 si Tn ≤ tα
ϕα ((Xi , Yi )i ) =
H1
sinon
χ2 (2)
(n)
(n)
(n)
où tα = q1−α (la degrés vient de (2 − 1)(3 − 1) = 2) et Tn = nχ2 ((p̂`,`0 )`,`0 , (p̂`,• × p̂•,`0 )`,`0 )) où
n
(n)
p̂`,`0 =
1X
I((Xi , Yi ) = (`, `0 )),
n
i=1
(n)
p̂`,• =
n
n
i=1
i=1
1X
1X
(n)
I(Xi = `) et p̂•,`0 =
I(Yi = `0 )
n
n
pour tout ` ∈ { graves ou fatales, blessures sérieuses, peu ou pas de blessures}
et `0 ∈ { port de la ceinture, pas de ceinture}. On sait que ce test est consistant (d’après le
χ2 (2)
cours). Par ailleurs, pour α = 0, 05, on a d’après la table q1−α = 5, 99.
4. On a
Tn =
(9049 − 9077, 52)2
(5 − 17, 05)2
+ ··· +
= 17, 81.
17, 05
9077, 52
Alors la p-value du test est plus petite que 0, 001, on a va donc rejeter et on a un très haut niveau
de confiance en cette décision. On peut alors affirmer que le port de la ceinture de sécurité et la
nature des blessures sont dépendants.
6
Rattrapage 2015-2016
**********************
Exercice 6.1 (Modèle d’uniforme perturbées)
i.i.d.
Soit le modèle d’échantillonnage X1 , . . . , Xn ∼ Pθ pour θ ∈] − 1, 1[ où Pθ est une loi
admettant une densité par rapport à la mesure de Lebesgue donnée par
f (θ, x) =
dPθ
(x) = (1 − θ)I(−1/2 < x < 0) + (1 + θ)I(0 < x < 1/2).
dλ
On pose
Yn = card{i : Xi > 0} =
n
X
I(Xi > 0).
i=1
a) Préliminaires
1. Donner l’expérience statistique associée à ces données.
2. Calculer Pθ ([0, 1/2]), la moyenne Eθ X1 et la variance Var(X1 ).
3. Donner la loi de Yn , sa moyenne et sa variance.
6 RATTRAPAGE 2015-2016
36
ENSAE
Statistiques mathématiques
4. Vérifier que
f (θ, x) = (1 − θ)1−I(0<x<1/2) (1 + θ)I(0<x<1/2) .
En déduire l’expression de la vraisemblance de l’échantillon en θ en fonction de
Yn .
5. Calculer l’information de Fisher sur θ contenue dans un n-échantillon de ce
modèle.
b) Estimation de θ
1. Proposer un estimateur des moments de θ en fonction de Yn .
2. Montrer que l’estimateur du maximum de vraisemblance vaut θbnmv = n2 Yn − 1.
3. Etudier les propriétés de θbnmv : biais, variance, consistance.
4. Comparer le risque quadratique de θbnmv et la borne de Cramer-Rao. En déduire
que θbnmv atteint la borne de Cramer-Rao parmi tous les estimateurs sans biais.
√
5. Montrer que sous Pθ , n θbnmv −θ converge en loi vers N (0, 1 − θ2 ).
6. Etudier le comportement asymptotique de
√ b mv n θ −θ
q n
.
2
mv
b
1 − θn
7. Construire un intervalle de confiance pour θ de niveau asymptotique α = 0.95
centré en θbnmv et de longueur proportionnelle à n−1/2 .
c) Tests
1. On considère le problème de test :
H0 : θ = 0 contre H1 : θ = 1/2
Sous quelles condition existe-t’il un test de Neyman-Pearson de niveau α (on ne
considère ici que les tests non randomizés). Dans ce cas, existe-t’il un test de
même niveau plus puissant ?
2. Pour le même problème de test, construire un test de niveau asymptotique α.
Etudier sa puissance.
3. On considère le problème de test :
H0 : θ = 0 contre H1 : θ 6= 0
Construire un test de niveau asymptotique α. Etudier sa consistance.
d) Application
i.i.d.
On considère un n-échantillon U1 , . . . , Un ∼ U([−1/2, 1/2]). Un phénomène aléatoire
perturbe les observations des Ui : pour chaque i = 1, . . . , n, la quantité |Ui | est observée
avec probabilité θ ∈ [0, 1) sinon c’est Ui qui est observée. Ces perturbations sont
indépendantes entres elles et indépendantes des Ui . On note X1 , . . . , Xn l’échantillon
finalement observé après perturbation.
6 RATTRAPAGE 2015-2016
37
ENSAE
Statistiques mathématiques
1. Déterminer la loi de X1 .
2. Proposer une méthode d’estimation de θ.
3. Construire un test de niveau asymptotique α consistant permettant de décider
si un tel phénomène de perturbation s’est produit.
4. La loi des Ui n’étant plus uniforme, que suffit-il de connaître sur elle pour que
ce test reste valable ?
**********************
Correction de l’exercice 6.1
a)
1. L’expérience statistique associée aux données est celle d’un n-échantillon dans un modèle
dominé par la mesure de Lebesgue :
⊗n
R, B(R), {Pθ : θ ∈ Θ}
.
2.
1+θ
, Eθ X1 = (1−θ)
Pθ ([0, 1/2]) =
2
Z
0
Z
1/2
xdx+(1+θ)
−1/2
xdx =
0
θ
1 θ2
et Varθ (X1 ) =
−
4
12 16
3. Yn est le nombre de succès dans une expérience de n réalisation d’une binomiale de moyenne
P[X1 > 0] = (1 + θ)/2. C’est donc une multinomiale de paramètre M(n, (1 + θ)/2) càd pour
tout 0 ≤ k ≤ n, on a
n 1 + θ k 1 − θ n−k
P[Yn = k] =
k
2
2
On au aussi Eθ Yn = n(1 + θ)/2 et Varθ Yn = n(1 − θ2 )/4.
4. On vérifie directement l’égalité en regardant les cas −1/2 < x < 0 et 0 < x < 1/2. La
vraisemblance s’obtient alors comme suit :
n
1 + θ Yn
Y
L(θ, (Xi )i ) =
(1 − θ)1−I(0<Xi <1/2) (1 + θ)I(0<Xi <1/2) = (1 − θ)n
.
1−θ
i=1
5. L’information de Fisher d’un n-échantillon est In (θ) = nI1 (θ) et celle contenue dans une
seule donnée est
I1 (θ) = Eθ (∂θ log f (θ, X))2
où log f (θ, x) = log(1 − θ)I(−1/2 < x < 0) + log(1 + θ)I(0 < x < 1/2). Alors
∂θ log f (θ, x) =
1
−1
I(−1/2 < x < 0) +
I(0 < x < 1/2).
1−θ
1+θ
Donc
i
1
1
I(−1/2
<
X
<
0)
+
I(0
<
X
<
1/2)
(1 − θ)2
(1 + θ)2
1
1
=
P(−1/2 < X < 0) +
P(0 < X < 1/2)
2
(1 − θ)
(1 + θ)2
1
1−θ
1
1+θ
1
1
1
=
+
=
+
=
.
2
2
(1 − θ)
2
(1 + θ)
2
2(1 − θ) 2(1 + θ)
1 − θ2
I1 (θ) = Eθ
h
On a donc In (θ) = n/(1 − θ2 ).
6 RATTRAPAGE 2015-2016
38
ENSAE
b)
Statistiques mathématiques
1. On a Pθ [X1 > 0] = (1 + θ)/2. L’estimateur des moments d’ordre 1 est θ̂ tel que Yn /n =
(1 + θ̂)/2 càd
Yn
θ̂ = 2
− 1.
n
2. D’après la question 4 de la partie précédente, la log-vraisemblance est
1 + θ
,
θ ∈] − 1, 1[7→ n log(1 − θ) + Yn log
1−θ
elle est maximale en θbnmv = 2(Yn /n) − 1.
3. Eθ θbnmv = 2P[X > 0] − 1 = θ ; donc θbnmv est sans biais. La variance de l’estimateur est ici
égale à son risque quadratique et on a :
Varθ (θbnmv ) = (4/n) Varθ (I(X > 0)) = (4/n)Pθ [X > 0]Pθ [X < 0] = (1 − θ2 )/n.
p.s.
p.s.
De plus, la loi forte des grands nombres dit que Yn −→ Pθ [X > 0] donc θbnmv −→ θ. Donc
θbnmv est un estimateur fortement consistant.
4. Si θ̂ est un estimateur sans bias de θ alors la borne de Cramer-Rao dit que son risque
quadratique vérifie Rθ (θ̂) ≥ In (θ)−1 = (1 − θ2 )/n. Par ailleurs, le risque quadratique de θbnmv
vaut aussi (1 − θ2 )/n (et θbnmv est sans biais), donc θbnmv atteint bien la borne de Cramer-Rao
parmi tous les estimateurs sans biais.
P
5. On écrit θbnmv comme une moyenne empirique : θbnmv = n1 ni=1 (2I(Xi > 0) − 1). On applique
le TCL :
√
n θbnmv −θ
N (0, Varθ (2I(X > 0) − 1)) = N (0, 1 − θ2 )
car Varθ (2I(X > 0) − 1) = 4 Varθ (I(X > 0)) = 4Pθ [X > 0]Pθ [X < 0] = 1 − θ2 .
6. En utilisant le résultat de convergence de la question précédente, la consistance de θbnmv et
le lemme de Slutsky, on obtient que
√ b mv n θ −θ
q n
N (0, 1).
2
mv
b
1 − θn
7. On déduit de la question précédente un intervalle de confiance de niveau asymptotique α :
Pθ [θ ∈ In,α ] → 1 − α où
s
2
h
1 − θbnmv i
N (0,1)
In,α = θbnmv ±q1−α/2
n
c)
1. Le rapport de vraisemblance pour 0 = θ0 < θ1 = 1/2 est :
L θ0 , (Xi )i
1 − θ0 n (1 + θ0 )(1 − θ1 ) Yn
=
.
1 − θ1
(1 − θ0 )(1 + θ1 )
L θ1 , (Xi )i
Comme θ0 < θ1 , le rapport de vraisemblance est une fonction croissante de Yn , le test de
Neyman-Pearson de niveau α est donc de la forme
(
H0 si Yn /n ≤ tα
ϕα =
H1
sinon
6 RATTRAPAGE 2015-2016
39
ENSAE
Statistiques mathématiques
Ce test sera exactement de niveau α s’il existe tα tel que
Pθ0 [Yn /n > tα ] = α.
Cette condition n’est pas toujours satisfaite car Yn est une variable aléatoire discrète.
√
2. D’après le TCL, sous H0 , n Yn /n − 1/2
N (0, 1/4). Il suffit alors de fixer le seuil dans
√
N (0,1)
le test précédent tel que 2 n tα − 1/2 = q1−α pour avoir un test de niveau asymptotique
p.s.
α. Sous H1 , Yn /n −→ 3/4, on en déduit que la puissance du test tends vers 1. Donc le test
est consistant.
3. On considère
(
ϕα =
H0
H1
si
√
n| θbnmv | ≤ tα
sinon
√
√
p.s.
N (0,1)
|g| où g ∼ N (0, 1) et sous H1 , n| θbnmv | −→ +∞.
où tα = q1−α/2 . Sous H0 , n| θbnmv |
Donc le test est de niveau asymptotique α et il est consistant.
d)
1. On note δi la variable aléatoire indiquant la présence de perturbation dans l’observation i,
càd δi = 1 avec probabilité θ et 0 sinon. Par hypothèse les δi sont i.i.d. B(θ) et indépendantes
de Ui . La loi de X1 est donnée par : si f est une fonction continue à support compact sur R
alors
Z 1/2
Ef (X1 ) = Ef (|Ui |)δi + f (Ui )(1 − δi ) = Ef (|Ui |)θ + f (Ui )(1 − θ) =
f (|u|)θ + f (u)(1 − θ) du
−1/2
Z
= 2θ
1/2
Z
1/2
0
f (u)(1 − θ)du = (1 − θ)
f (u)du +
0
Z
−1/2
Z
f (u)du + (1 + θ)
−1/2
1/2
f (u)du.
0
Donc X1 est une variable admettant f (θ, ·) pour densité.
2. On va alors estimer θ par θbnmv = 2Yn /n − 1
3. On va considérer le problème de test de la question 3 de la partie c). On décide donc qu’il
√
N (0,1)
y aura perturbation si n| θbnmv | > q1−α/2 .
4. Le test ne dépend que de P[X > 0]. Donc pour toute loi telle que Pθ [X > 0] = (1 + θ)/2,
on aura les mêmes résultats.
6 RATTRAPAGE 2015-2016
40
Téléchargement