Introduction à la Statistique et à l`Économétrie 2013

publicité
Introduction à la Statistique et à l’Économétrie
2013
Exercices
Série 1
Exercice 1
On transmet un signal périodique f (t), t ∈ [0, T ] échantillonné à une certaine fréquence N .
Chaque donnée f (k/N ), k = 1, . . . , N T , est corrompue lors de la transmission par une erreur ek ,
de sorte que l’on capte
Yk = f (k/N ) + ek , k = 1, . . . , N T.
On a n = N T observations. On postule que les erreurs sont indépendantes les unes des autres,
identiquement distribuées, nulles en moyenne, et de variance finie. On suppose pour simplifier
que la loi des ek admet une densité b connue par rapport à la mesure de Lebesgue. Le paramètre
inconnu est le signal f pris dans un ensemble de signaux F.
1. Décrire le modèle statistique engendré par cette observation.
2. Montrer que le modèle statistique engendré par cette observation est dominé et exhiber sa
vraisemblance.
Exercice 2
On cherche – en laboratoire – à tester la fiabilité d’un appareil industriel. On fait fonctionner en
parallèle n appareils jusqu’à ce qu’ils tombent tous en panne. On note
X1 , . . . , Xn
les instants de panne observés. On dispose donc de n observations. On suppose que les temps de
panne suivent une loi exponentielle de paramètre λ > 0.
1. Décrire l’observation associée à cette expérience et le modèle statistique engendré par cette
observation.
2. Montrer que le modèle statistique engendré par cette observation est identifiable, dominé
et exhiber sa vraisemblance.
3. Si les appareils sont fiables, ce qui est réaliste en pratique, la quantité maxi=1,...,n Xi sera
souvent hors d’atteinte pour le statisticien. On stoppe l’expérience après un temps terminal
T et on observe plutôt
Xi? = min{Xi , T }, i = 1, . . . n.
Reprendre les deux questions précédentes dans ce contexte.
Exercice 3 (Modèle probit et contre-exemple à l’identifiabilité)
Nous disposons d’une information relative au comportement de remboursement ou de nonremboursement d’emprunteurs :
1
si l’emprunteur rembourse
Y =
0 si l’emprunteur est défaillant
Afin de modéliser ce phénomène, on suppose l’existence d’une variable aléatoire Y ? gaussienne,
d’espérance m et de variance σ 2 , que l’on appellera « capacité de remboursement de l’individu »
de sorte que :
1 si Y ? > 0
Y =
0 si Y ? ≤ 0
1
On note Φ la fonction de répartition de la normale centrée réduite N (0, 1).
1. Exprimer la loi de Y en fonction de Φ.
2. On observe un n-échantillon (Y1 , . . . , Yn ) de même loi que Y . Ecrire le modèle statistique
engendré par l’observation (Y1 , . . . , Yn ). Est-il identifiable ?
Exercice 4
Soit ε1 , . . . , ε4 quatre variables aléatoires indépendantes de loi N (0, 1). On suppose que l’on
observe
Y1 = µ1 + σε1 ,
Y3 = µ2 + σε3 ,
σ
Y2 = µ2 + √ ε2 ,
3
σ
Y4 = µ3 + √ ε4 ,
2
oùσ > 0 est connu. Ecrire la représentation linéaire du modèle, c’est-à-dire écrire l’observation
sous la forme Xθ + σε, oùε ∼ N (0, IR4 ) et X est une matrice – la matrice explicative – que l’on
déterminera.
1. Etudier l’estimateur µ̂2 := 21 (Y2 + Y3 ).
2. Comparer µ̂2 à la famille d’estimateurs
(α)
µ̂2
:= αY2 + (1 − α)Y3 , 0 ≤ α ≤ 1.
Exercice 5 (Loi normale et estimation de la variance)
Soient X1 , . . . , Xn des échantillons i.i.d. de loi N (µ, σ 2 ) avec µ ∈ R et σ 2 ∈ R+
1. Déterminer la fonction de vraisemblance associée à cette expérience.
c2 ) du maximum de vraisemblance de (µ, σ 2 ).
2. Calculer l’estimateur (b
µ, σ
c2 ? En déduitre qu’il existe γn indépendant de µ et σ 2 tel que
3. Quelle est le biais de σ
f
c
2
2
σ = γn σ soit sans biais.
4. Comparer ces deux estimateurs en terme de risque quadratique.
Exercice 6 (Théorème de Slutsky)
Soient (Xn ), (Yn ) deux suites de variables aléatoires vectorielles, X et Y des variables aléatoires
vectorielles, telles que
1. (Xn ) converge en loi vers X
2. (Yn ) converge en probabilité vers Y
3. Y est indépendante de (Xn ) et X.
Montrer que le couple (Xn , Yn ) converge en loi vers (X, Y ).
2
Introduction à la Statistique et à l’Économétrie
2013
Exercices
Série 2
Exercice 7 (Maximum de vraisemblance et loi uniforme)
On observe X1 , · · · , Xn indépendantes et de même loi uniforme sur [0, b] où b > 0 est le paramètre
d’intérêt. On note µ l’espérance commune des Xi .
1. Ecrire le modèle statistique associé et calculer sa vraisemblance L(b, X1 , . . . , Xn ).
2. Déterminer l’estimateur bb1 du maximum de vraisemblance de b (c’est-à-dire la quantité
bb1 = bb1 (X1 , . . . , Xn ) qui maximise la fonction b
L(b, X1 , . . . , Xn ).
3. Déterminer bb2 l’estimateur par méthode des moments de b, en se basant que le premier
moment.
4. On opère un changement de paramètre : désormais, le paramètre d’intérêt est µ. Déterminer
µ
b1 , l’estimateur du maximum de vraisemblance pour le paramètre µ. (On écrira au préalable
la vraisemblance du n-échantillon pour le paramètre µ).
5. Exprimer µ
b2 , l’estimateur plug-in de µ, obtenu par méthode de moment.
6. Calculer le risque quadratique de µ
b2 .
7. Etudier le risque quadratique de µ
b1 .
8. Comparer les estimateurs µ
b1 et µ
b2 : lequel est préférable ?
Exercice 8 (Marqueur d’une infection)
N agents infectieux agressent simultanément un organisme, lequel est muni de Q agents de
défense. La réponse immunitaire est modélisée de la façon suivante : chaque agent de défense
choisit au hasard un agent infectieux (et un seul) parmi les N agresseurs, indépendamment des
autres défenseurs. Un agent de défense a une probabilité ϑ ∈ (0, 1) d’annihiler l’agent infectieux
choisi pour cible
Pour que l’organisme soit infecté, il suffit qu’un seul agent infectieux ait échappé au système
de défense de l’organisme.
1. Montrer que la probabilité qu’un agent infectieux donné contamine l’organisme est
ϑ Q
pQ,N (ϑ) = 1 −
.
N
On répète en laboratoire n scénarios indépendants d’aggression de l’organisme. Dans chaque
expérience, on marque un agent infectieux donné. Pour l’expérience i, on note Xi = 1 si l’agent
infectieux a contaminé l’organisme et 0 sinon.
2. On considère l’observation de (X1 , . . . , Xn ), où ϑ est le paramètre inconnu et Q et N sont
connus. Montrer que la vraisemblance s’écrit
Pn
n−Pn Xi
Xi
i=1
i=1
ϑ
pQ,N (ϑ)
1 − pQ,N (ϑ)
.
3. Montrer que l’estimateur du maximum de vraisemblance de ϑ est bien défini, qu’il est
asymptotiquement normal et calculer sa variance limite. (On pourra commencer par montrer que c’est le cas pour l’estimateur de pQ,N (ϑ).)
3
4. En déduire un intervalle de confiance asymptotiquement de niveau α ∈ (0, 1) pour ϑ.
On suppose désormais les paramètres N et Q inconnus, et on se place dans la limite N ≈ +∞
en supposant Q = QN ∼ κN pour un κ > 0 (donc inconnu).
5. En passant à la limite en N dans le modèle précédent, montrer que l’observation de
(X1 , . . . , Xn ) permet d’estimer le paramètre ϑe = κϑ et calculer l’estimateur du maximum
e
de vraisemblance de ϑ.
Exercice 9 (Régression (introduction))
Une quantité aléatoire Y est en relation avec une quantité fixée x selon le modèle
Y = a + bx + ξ
où a et b sont deux nombre réels inconnus et ξ est une variable aléatoire réelle, centrée de variance
σ 2 (inconnue).
On observe n fois de manière indépendante et dans les mêmes conditions expérimentales
(c’est-à-dire supposées non-évolutives selon l’indice i) des réalisation du même phénomène
(Yi = a + bxi + ξi , xi ) pour i = 1, · · · , n
pour des conditions xi fixées.
1. Décrire le modèle statistique, de manière matricielle, en précisant lorsque c’est possible les
espérances et les matrices de covariance de chacun des vecteurs aléatoires ainsi exprimés.
Préciser si le modèle est paramétrique, semi-paramétrique ou non-paramétrique.
2. On supposera dans la suite que les ξi sont gaussiennes (donc centrées et de varaince σ 2 ).
3. Déterminer la vraisemblance de l’échantillon pour le paramètre ϑ = (a, b, σ 2 ).
c2 du maximum de vraisemblance du modèle.
4. Calculer les estimateurs b
a, bb, σ
5. Ces estimateurs sont-ils sans biais ?
6. Ces estimateurs sont-ils consistants ?
Exercice 10 (Mélange 1)
On observe les variables aléatoires Y1 , . . . , Yn avec :
(1)
Yi = δi Zi
(2)
+ (1 − δi )Zi
(1)
où les δi sont connus, fixes et appartiennent à {0, 1}, les Zij sont tous indépendants et on a :
(1)
Zi
(2)
∼ N (µ1 , 1)
Zi
∼ N (µ2 , 1)
1. Calculer l’espérance et la variance de Yi . Quelle est sa loi ?
2. Ecrire le modèle sous la forme d’un modèle linéaire, dans lequel on précisera la matrice M ,
les paramètres β et σ 2 .
3. Sous quelles conditions ce modèle est-il identifiable ? En déduire dans ce cas une estimation
de β.
4. Proposer un intervalle de confiance de niveau α ∈]0, 1[ pour la quantité δ(θ) = µ1 − µ2 .
4
Introduction à la Statistique et à l’Économétrie
2013
Exercices
Série 3
Exercice 11
Soit X un vecteur gaussien sur Rd centré, de matrice de covariance inversible K. Quelle est la
loi de
d
X
(K −1 )ij Xi Xj ?
i,j=1
(Indication : on pourra traiter d’abord le cas où K est diagonale.)
Exercice 12
On considère le modèle de régression linéaire
Yi = b0 + b1 xi + εi , i = 1, . . . , n
où les εi sont des variables aléatoires indépendantes N (0, σ 2 ). b0 , b1 et σ 2 sont inconnus.
1. Quels sont les estimateurs des moindres carrés ordinaires b̂0 , b̂1 et σ̂ 2 de ces paramètres ?
Quelle est la loi du couple ((b̂0 , b̂1 ), σ̂ 2 ) ?
2. On dispose d’une observation y0 sur une unité statistique pour laquelle la valeur de x0 de
la variable explicative est inconnue et on cherche un intervalle de confiance pour x0 . On
suppose que y0 est l’observation d’une variable Y0 s’écrivant
Y0 = b0 + b1 x0 + η,
où η est une variable al’eatoire N (0, σ 2 ) indépendante du vecteur (ε1 , . . . , εn ).
(a) Quelle est la loi de Y0 − b̂0 − b̂1 x0 ?
(b) En utilisant l’estimateur σ̂ de σ, déterminer un intervalle de confiance I1 de niveau α
pour x0 .
3. On dispose maintenant de m observations y01 , . . . , y0m correspondant à la valeur x0 inconnue ; ce sont des observations de m variables aléatoires telles que
Y0j = b0 + b1 x0 + ηj ,
où (η1 , . . . , ηm ) et (ε1 , . . . , εn ) sont indépendantes, et ηj suit la loi N (0, σ 2 ).
(a) Montrer que
σ̃ 2 =
où Y¯0 =
1
m
Pm
j=1
(n − 2)σ̂ 2 +
Pm
j=1 (Y0j
n+m−3
− Y¯0 )2
,
Y0j , est un autre estimateur sans biais de σ 2 . Quelle est sa loi ?
(b) Quelle est la loi de Y¯0 − b̂0 − b̂1 x0 ?
(c) A l’aide de σ̃ 2 et de Y¯0 donner un intervalle de confiance I2 pour x0 de niveau α.
(d) Aurait-on pu construire un intervalle de confiance I3 pour x0 à l’aide de σ̂ 2 et de Y¯0 ?
5
Exercice 13 (Test d’appartenance à un sous-espace linéaire.)
On traitera ce problème sur un exemple. On considère le modèle linéaire gaussien
Yi = β0 + β1 Xi + σi , i = 1, . . . , n
avec les notations habituelles. Le paramètre inconnu est β = (β0 , β1 ). Vectoriellement, le modèle
s’ écrit Y = Xβ + σ, avec des notations évidentes. On veut tester l’hypothèse β1 = 0, ce qui
s’écrit
β ∈ V1 = {Xβ, Cβ = 0}
où C = (0 1) . Alors, si V = vect{Xt, t ∈ R2 }, en définissant W1 par la relation
V = V1 ⊕ W1 ,
sous l’hypothèse, la statistique
Tn =
kPW1 Y k2
l
kPQ Y k2
n−p
est distribuée selon une loi de Fisher à (l, n − p) degrés de liberté ; Q := I − PV et PZ désigne la
projection orthogonale sur Z lorsque cela a un sens. Ici, l’indice p − l désigne la dimension de V1
qui est aussi la dimension du noyau de C et l le rang de la matrice C.
1. Calculer β̂ par la méthode des moindres carrés. En utilisant le fait que PW1 = (PV −PV1 )Y =
X β̂ − PV1 Y , calculer la statistique Tn .
2. Construire un test de l’hypothèse β1 = 0 dont l’erreur de première espèce soit inférieure à
un niveau de risque α donné.
Exercice 14 (Modèle de régression et variance inhomogène)
On observe la variable aléatoire Z = (X, Y ) définie par
X
Y
=
µ1
µ2
+σ
1
2
,
où (1 , 2 ) est un vecteur gaussien centré de matrice de covariance K =
2
1
1
2
. Le paramètre
inconnu est µ = (µ1 , µ2 ) et σ > 0 est connu.
1. Décrire le modèle statistique associé à l’observation Z. Est-il identifiable, dominé ? Si oui,
préciser.
2
2
2. Montrer qu’il existe une transformation
linéaire A de R dans R telle que AZ soit un
µ1
vecteur gaussien de moyenne A
et de matrice de covariance l’identité sur R2 . Ecrire
µ2
le modèle linéaire correspondant à l’observation de AZ.
3. Calculer l’estimateur des moindres carrés pour µ.
Exercice 15 (Student ?)
Une usine produit des paquets de 500g de farine. Elle utilise pour cela une machine précise à 10g
près. La direction des fraudes suspecte le fabricant de systématiquement sous remplir les paquets
de quelques grammes. Elle teste son hypothèse en pesant 100 paquets : le résultat est un poids
moyen de 497g.
1. Que penser de l’approche ?
6
2. Comment modéliser ce problème ?
3. On suppose que la machine est “gaussienne” : elle remplit les paquets selon une loi gaussien
de moyenne spécifiée et d’écart type connu. Comment choisir cet écart type pour qu’il
corresponde à celui du cas “uniforme” ? Qu’en conclure ?
4. Que devient cette réponse si l’on suppose la machine “uniforme” ? On pourra utiliser le
théorèmePde Berry-Essen qui dit que si X1 , . . . , Xn sont iid de moyenne µ, de variance σ 2
n
et Sn = i=1 Xi , alors
Sn − nµ
C E{|X1 − µ|3 }
√
,
sup P
≤ x − Φ(x) ≤ √
σ3
σ n
n
x
Rx
2
et C est une constante absolue, inférieure à 0.8.
où Φ(x) = −∞ e−u /2 √du
2π
Exercice 16 (Tests gaussiens)
On observe un n-échantillon de variables aléatoires gaussiennes, de moyenne inconnue m et de
variance connue σ 2 .
1. Soient m0 , m1 ∈ R tels que m0 6= m1 . Construire un test d’hypothèse T = Tn (α) de niveau
de confiance 1 − α ∈ (0, 1) de l’hypothèse :
H0 : “m = m0 ” contre l’alternative H1 : “m = m1 .”
2. Calculer l’erreur de seconde espèce de ce test. Quelle est l’erreur (de seconde espèce) minimale parmi les tests de niveau 1 − α ?
3. Soit β ∈]0, 1[. Déterminer c0 > 0 de sorte que l’on puisse construire un test d’hypothèse
T = Tn (α, β) de niveau de confiance 1 − α ∈ (0, 1) de l’hypothèse
H0 : “m = m0 ” contre l’alternative H1 : “|m − m0 | ≥ c0 ”,
dont l’erreur de seconde espèce soit inférieure ou égale à β.
On autorise désormais c0 à dépendre de n, de α et de β. On appelle vitesse de la famille de
tests {Tn (α, β), α, β ∈ (0, 1)} toute suite c0 = c0 (n) → 0 quand n → ∞ telle que pour tout
α, β ∈ (0, 1) :
n
lim sup Pm
{Tn (α, β) = 1} ≤ α,
0
n→∞
lim sup
sup
n→∞ m : |m−m0 |≥c0 (n)
n
Pm
{Tn (α, β) = 0} ≤ β.
4. Quelle vitesse maximale (i.e. qui tend le plus vite vers 0) pouvez-vous obtenir dans ce
problème ? Le résultat est-il surprenant ?
5. Reprendre les questions ci-dessus lorsque σ est inconnu.
Exercice 17 (Test d’appartenance à un sous-espace affine)
On considère le modèle linéaire gaussien
X = M β + σE
avec les notations habituelles. Les paramètres inconnus sont β ∈ Rp et σ 2 > 0. M est une matrice
n × p de rang p et on suppose aussi que p < n. On notera β̂ et σ̂ 2 les estimateurs des moindres
carrés.
On se donne β0 ∈ Rp et un sous-espace vectoriel F de Rp tel que 0 < dim F < p. On veut faire
le test de l’hypothèse nulle H0 : β ∈ β0 + F contre H1 : β ∈
/ β0 + F .
7
1. En notant projG la projection orthogonale sur un sous-espace affine G, on définit la statistique
2 (p − dim F )
M β̂ − projM (β0 +F ) (X)
T =
.
σ̂ 2
Montrer que sous H0 la statistique T suit une loi de Fisher de paramètre (p − dim F, n − p).
En déduire la construction d’un test de niveau α.
2. Dans le cas où F est un hyperplan montrer que si u 6= 0 et est orthogonal à F on a
T =
2
u∗ (β̂ − β0 )
σ̂ 2 u∗ (M ∗ M )−1 u
.
3. On considère deux échantillons gaussiens indépendants (X1 , . . . , xn ) et (Y1 , . . . , Ym ) tels
que Xi ∼ N (µ1 , σ 2 ) et Yi ∼ N (µ2 , σ 2 ). Mettre en place le test de µ1 = µ2 .
4. Mettre en place le test de l’égalité des moyennes de trois échantillons gaussiens indépendants
et de même variance.
Exercice 18 (Analyse de la variance) (ANOVA)
On souhaite tester, pour une chaîne de magasins, les politiques de publicité suivantes :
A
B
C
aucune publicité
tracts distribués dans le voisinage
tracts distribués et annonces dans les journaux
On sélectionne 18 magasins divisés au hasard en 3 groupes de 6, et chaque groupe applique
l’une des politiques de publicité. On enregistre ensuite les ventes cumulées sur un mois pour
chaque magasin, et l’on obtient les moyennes et écart-types empiriques suivants (en milliers
d’euros) :
X̄
S
A
130.17
8.57
B
139.5
14.71
C
169.17
18.23
où, par exemple, pour le groupe A d’effectif nA ,
nA
nA
X
2
1 X
1
X̄A =
XA,j et SA =
XA,j − X̄A
nA j=1
nA − 1 j=1
On suppose que les observations pour chaque groupe sont gaussiennes, de moyennes mA , mB
et mC , et de même variance σ 2 .
1. Quelle est l’estimateur naturel de σ 2 ?
2. Proposer un test de niveau 5% pour l’hypothèse nulle
H0 = {il n’existe aucune différence entre les politiques de publicité}
3. Tester l’hypothèse {mA = mC } contre {mA < mC } au niveau 5%. Quelle est la p-valeur
du test ?
8
Introduction à la Statistique et à l’Économétrie
2013
TP
Série 1
Exercice 1 (Modèle de Bernoulli)
Soit (X1 , ..., Xn ) un n-échantillon de loi de Bernouilli de paramètre ϑ.
1. Analyse théorique :
(a) Calculer l’estimateur du maximum de vraisemblance ϑbn .
(b) Montrer qu’il s’agit d’un estimateur non biaisé qui converge vers ϑ. On précisera bein
en quels sens.
(c) Montrer que
√
n(ϑbn − ϑ) −→ N 0, ϑ(1 − ϑ)
en loi lorsque n → ∞
(d) En déduire que
√
n
q
(ϑbn − ϑ) −→ N (0, 1)
b − ϑ)
b
ϑ(1
(e) Proposer des intervalles de confiance asymptotiques basés sur le TCL et non asymptotiques basés sur l’inégalité de Chernof pour ϑ.
2. Illustration numérique de la convergence :
(a) Implémenter un algorithme permettant de simuler un n-échantillon de variables de
Bernoulli de paramètre ϑ.
(b) Implémenter l’estimateur du maximum de vraisemblance pour un n-échnatillon.
(c) Tracer un histogrammes des estimées obtenues en répétant N fois l’expérience (on
pourra choisir N = 500).
(d) Comparer ces histogrammes à leurs lois limites pour différentes valeurs de n et ϑ (On
pourra prendre n = 10, 100, 1000 et ϑ = .5, .1, .001) Qu’observe-t-on ?
(e) Comment illustrer la convergence quadratique et la convergence en probabilité ?
(f) Simuler un n0 -échantillon avec n0 grand (par exemple n0 = 105 ) et calculer toutes les
estimées ϑbn pour les n-échantillons correspondant aux n premières réalisations pour
n <= n0 . Comment évolue ϑbn en fonction de n ? Quelle convergence observe-t-on ?
3. Intervalle de confiance numérique :
(a) Implémenter un algorithme donnant les intervalles de confiances asymptotiques et non
asymptotiques pour un niveau 1 − α donné (on pourra prendre α = .05)
(b) On souhaite estimer le niveau réel de nos intervalles de confiances. Pour cela, on
répète N fois l’expérience et on estime la probabilité que ϑ soit dans l’intervalle par
sa proportion empirique. Justifier cette approche et évaluer numériquement le niveau
pour différentes valeurs de n et ϑ. Qu’observe-t-on ?
Exercice 2 (Loi uniforme)
Soit (X1 , . . . , Xn ) un n-échantillon de loi uniforme sur [0, θ] avec θ > 0.
9
1. Analyse théorique :
(a) Déterminer l’estimateur θbn du maximum de vraisemblance de θ.
(b) Montrer que

0
n
o 
b
P θn < t ≤ (t/θ)n


1
si t < 0
si 0 ≤ t ≤ θ
si t > θ
(c) En déduire que
n
o
P n(θ − θbn ) > λθ → e−λ
(d) Comment interprétez ce résultat en terme de convergence en loi ?
(e) Déterminer un intervalle de confiance asymptotique à l’aide de cette convergence en
loi et proposer éventuellement un intervalle non asymptotique.
2. Illustration numérique :
(a) Simulez un n-échantillon de loi uniforme sur [0, θ] et calculer l’estimateur de maximum
de vraisemblance correspondant.
(b) En répétant N fois l’expérience, déterminer le comportement empirique de l’estimateur
pour différentes valeurs de n.
(c) Comment illustrer la convergence en loi obtenue dans l’analyse théorique.
(d) Vérifier la validité des intervalles de confiance proposés dans l’analyse théorique.
10
Téléchargement