Travaux Dirigés de Statistique SY02

publicité
Travaux Dirigés de Statistique
SY02
G. Govaert et T. Denœux
Printemps 2014
Table des matières
1 Enoncés
1.1 Statistiques descriptives . . . . . . . . . . . . .
1.2 Probabilités . . . . . . . . . . . . . . . . . . . .
1.3 Échantillonnage. Théorème de la limite centrale
1.4 Estimation, méthode des moments . . . . . . .
1.5 Méthode du maximum de vraisemblance . . . .
1.6 Estimation par intervalle de confiance . . . . .
1.7 Estimation optimale . . . . . . . . . . . . . . .
1.8 Principe des tests d’hypothèses (1) . . . . . . .
1.9 Principe des tests d’hypothèses (2) . . . . . . .
1.10 Tests de conformité . . . . . . . . . . . . . . . .
1.11 Tests de comparaison . . . . . . . . . . . . . . .
1.12 Tests d’adéquation . . . . . . . . . . . . . . . .
1.13 Analyse de la variance . . . . . . . . . . . . . .
1.14 Régression linéaire . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2
2
4
6
8
10
11
13
15
16
18
19
20
21
22
2 Éléments de correction
2.1 Statistiques descriptives . . . . . . . . . . . . .
2.2 Probabilités . . . . . . . . . . . . . . . . . . . .
2.3 Échantillonnage. Théorème de la limite centrale
2.4 Estimation, méthode des moments . . . . . . .
2.5 Méthode du maximum de vraisemblance . . . .
2.6 Estimation par intervalle de confiance . . . . .
2.7 Estimation optimale . . . . . . . . . . . . . . .
2.8 Principe des tests d’hypothèses (1) . . . . . . .
2.9 Principe des tests d’hypothèses (2) . . . . . . .
2.10 Tests de conformité . . . . . . . . . . . . . . . .
2.11 Tests de comparaison . . . . . . . . . . . . . . .
2.12 Tests d’adéquation . . . . . . . . . . . . . . . .
2.13 Analyse de la variance . . . . . . . . . . . . . .
2.14 Régression Linéaire . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
23
23
23
24
24
25
26
26
27
27
28
28
29
29
29
3 Exemple de problèmes
30
3.1 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2 Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
1
Chapitre 1
Enoncés
1.1
Statistiques descriptives
1. On a reporté dans le tableau suivant les prénoms d’un groupe d’étudiants
avec une indication du nombre de livres lus dans l’année (A = peu, B =
moyen, C = beaucoup, D = exceptionnel).
Pierre
C
Paulette
B
Julie
C
Paul
C
Fanny
B
Ernest
C
Jacques
A
Laure
C
Cindy
C
Gregory
B
Kevin
D
Vanessa
D
Clara
A
Carole
B
José
C
Chloé
B
Claire
A
Aurélien
C
Henri
C
Jeanine
C
(a) Indiquer la nature de la variable ainsi mesurée.
(b) Résumer la distribution de cette variable sous forme d’un tableau de
fréquences.
(c) Représenter cette distribution à l’aide d’un diagramme en bâton.
2. Un atelier réalise le séchage de boues d’origine industrielle. Il obtient à la
fin du processus des déchets. On a observé les poids suivants mesurés en
kg de déchets après le traitement de 100 kg de boues :
4.7
4.3
4.5
4.9
4.2
4.7
4.0
4.2
5.0
3.9
4.6
4.6.
(a) Tracer le diagramme par tige et feuilles de cet échantillon.
(b) Tracer la fonction de répartition empirique.
(c) Calculer la moyenne empirique, la variance empirique corrigée, l’écarttype empirique corrigé, la médiane, les quartiles, l’étendue et l’étendue interquartiles.
(d) Tracer le diagramme en boîte.
(e) Supposons que la 9e valeur soit 50 et non 5.0 (à cause d’une erreur
d’unité dans la saisie des données). Que deviennent alors les résumés
numériques et le diagramme en boîte de la nouvelle distribution ?
2
CHAPITRE 1. ENONCÉS
3
3. Une enquête menée auprès de 1500 ménages d’une certaine région géographique rurale s’est intéressée à la variable correspondant à la taille
du ménage, c’est-à-dire au nombre de personnes constituant le ménage.
Les données recueillies ont permis de dessiner la fonction de répartition
suivante.
Calculer la moyenne empirique et l’écart-type empirique de cet échantillon.
4. Une enquête menée auprès d’un échantillon de 40 habitants d’une certaine
commune afin d’étudier leurs habitudes de lecture du journal trimestriel
de la commune fournit le tableau suivant (la variable N correspond au
nombre de personnes vivant dans le foyer, Fl les habitudes de lecture et S
le sexe).
Age
17
12
15
87
32
33
45
46
29
38
76
65
59
12
14
15
66
38
40
42
N
4
2
3
1
1
2
4
1
2
3
2
2
6
2
4
2
2
2
4
5
Fl
régulièrement
rarement
rarement
toujours
jamais
régulièrement
jamais
rarement
régulièrement
rarement
toujours
toujours
régulièrement
jamais
régulièrement
rarement
rarement
rarement
régulièrement
régulièrement
S
F
H
F
F
F
H
H
H
H
F
H
F
F
H
H
H
F
F
F
H
Age
10
40
54
25
53
27
57
59
13
53
67
16
55
49
58
21
95
28
65
89
N
3
5
5
3
4
3
4
2
5
3
3
5
4
6
2
2
2
3
2
1
Fl
jamais
régulièrement
rarement
régulièrement
rarement
rarement
régulièrement
régulièrement
rarement
régulièrement
toujours
rarement
rarement
régulièrement
jamais
jamais
rarement
régulièrement
régulièrement
toujours
S
H
F
F
H
F
F
H
F
F
H
F
H
H
F
F
H
F
H
F
H
(a) Indiquer la nature de chacune des variables du tableau.
(b) Tracer les diagrammes en bâton des variables discrètes ou qualitatives
et les histogrammes des variables continues.
CHAPITRE 1. ENONCÉS
1.2
4
Probabilités
1. On suppose que la v.a. X suit une loi de probabilité de densité :

 1 − θ si x ∈] − 1/2, 0],
1 + θ si x ∈]0, +1/2],
f (x; θ) =
(1.2.1)

0
sinon,
où θ est un paramètre réel inconnu tel que |θ| =
6 1.
(a) Quelles conditions doit vérifier θ ?
(b) Calculer l’espérance mathématique et la variance de X.
(c) Calculer la fonction de répartition de X. La tracer pour θ = 0.5.
(d) Donner l’expression de p = P(X ≤ 0) en fonction de θ.
(e) On considère n variables aléatoires indépendantes X1 , . . . , Xn qui
suivent toutes la distribution de X. Soit Y la v.a. définie comme le
nombre de valeurs Xi négatives :
Y =
n
X
1]−∞,0] (Xi ).
i=1
i. Quelle est la loi de probabilité de Y ?
ii. Calculer l’espérance et la variance de Y .
2. Soit X une v.a. discrète à valeurs dans VX = {0, 1, 2}, dont la loi de
probabilité est définie en fonction d’un paramètre θ ∈ [0, 1] de la façon
suivante :
P (X = 0)
=
1/2
P (X = 1)
= θ/2
P (X = 2)
=
(1 − θ)/2.
(a) Calculer en fonction de θ l’espérance et la variance de X.
(b) On considère n variables aléatoires indépendantes X1 , . . . , Xn qui
suivent toutes la distribution de X. On note
Nk = card{i ∈ {1, . . . , n}|Xi = k}.
Donner la loi de N0 , N1 et N2 .
(c) Calculer l’espérance et la variance de N1 et N2 .
3. Une coopérative laitière est approvisionnée en lait tous les jours par les
fermiers avoisinant. Le lait stocké dans une grande citerne est vendu par la
coopérative aux consommateurs de la région. Le volume journalier collecté
en milliers de litres est représenté par une variable aléatoire V continue
de fonction de densité :
2(1 − v) si 0 ≤ v ≤ 1
f (v) =
0
sinon.
(a) Montrer que la fonction f est bien une fonction de densité.
CHAPITRE 1. ENONCÉS
5
(b) Calculer l’espérance mathématique de V .
(c) Soit F (v) la fonction de répartition associée à la variable aléatoire V .
Que signifie F (0.5)
(d) Déterminez l’expression mathématique de cette fonction de répartition F (v).
(e) Quelle doit être la contenance de la citerne laitière afin que la coopérative ait 99 chances sur 100 de satisfaire la demande journalière ?
4. On considère n variables aléatoires X1 , . . . , Xn indépendantes de même
distribution caractérisée par une fonction de densité f et une fonction de
répartition F .
(a) Déterminer la fonctions de répartition G de la variable aléatoire Y =
X(n) en fonction de la fonction de répartition F .
(b) En déduire la fonction de densité g de la variable aléatoire Y en
fonction de la fonction de densité f .
(c) On suppose maintenant que la distribution de X est la loi uniforme
U[0,θ] . Calculer l’espérance et la variance de la variable aléatoire Y .
5. On a constaté que la répartition du taux de cholestérol dans une population de grande taille est la suivante :
– taux inférieur à 165 cg : 58 % ;
– taux compris entre 165 et 180 cg : 38 % ;
– taux supérieur à 180 cg : 4 %.
(a) Sachant que le taux de cholestérol est distribué selon une loi normale,
calculer la valeur moyenne et l’écart-type du taux de cholestérol dans
la population.
(b) On admet que les personnes dont le taux est supérieur à 183 cg
doivent subir un traitement. Quel est le nombre de personnes à soigner dans une population d’un million de personnes ?
CHAPITRE 1. ENONCÉS
1.3
6
Échantillonnage. Théorème de la limite centrale
1. On lance un dé équilibré 100 fois, de façons indépendante. Quelle est la
probabilité que la somme totale des points obtenus soit comprise entre 300
et 400 ?
2. On suppose que le nombre de clients entrant dans un magasin un jour
donné est une variable de Poisson de paramètre λ = 12. Quelle est la
probabilité de ne pas tomber en dessous de 250 entrées de clients durant
un mois de 22 jours ouvrables ? On fera les hypothèses d’indépendance qui
s’imposent.
3. A Lille, des enregistrements climatiques indiquent qu’en moyenne 17 des 31
jours du mois d’octobre sont pluvieux. On considère les épisodes de pluie
journaliers comme des épreuves indépendantes. On note N le nombre de
jours pluvieux au cours du mois d’octobre.
(a) Quelle est la loi de N ?
(b) En utilisant l’approximation normale, quelle est la probabilité d’avoir
entre 15 et 20 jours pluvieux au mois d’octobre ?
4. On considère n variable aléatoires X1 , . . . , Xn indépendantes de même
distribution P(λ) avec λ = 1.
Pn
(a) Quelle est la distribution de la variable aléatoire Yn = i=1 Xi .
(b) Déterminer la quantité P (Yn ≤ n) pour n = 20 en utilisant les tables
statistiques. En utilisant un ordinateur, on peut retrouver que pour
n = 50, 100 et 200, on obtient respectivement les valeurs 0.5375,
0.5266 et 0.5188.
(c) Déterminer ces mêmes quantités de manière approximative en vous
appuyant sur le théorème de la limite centrale.
(d) Enfin, déterminer toujours de manière approximative ces mêmes quantités mais en introduisant le terme de correction (voir les tables statistiques, p.10).
(e) Que peut-on en conclure ?
5. 120 personnes se font rembourser par une compagnie d’assurance. La
somme versée à chacun est en moyenne 50 euros, avec un écart-type de 30
euros. On suppose que ces sommes sont des v.a. indépendantes de même
distribution. Déterminer la probabilité pour que 6500 euros suffisent à
effectuer tous les remboursements.
6. Un local doit être éclairé en permanence au moyen d’une ampoule ; lorsque
l’ampoule tombe en panne, elle est immédiatement remplacée par une
nouvelle ampoule. Il y a deux qualités d’ampoules : les ampoules de qualité
A ont une durée de vie (en heures) qui est distribuée exponentiellement
avec le paramètre θ = 0.01, les ampoules de qualité B ont une durée
de vie (en heures) qui est distribuée exponentiellement avec le paramètre
θ = 0.02. On a stocké 40 ampoules de qualités A et 60 ampoules de
qualité B. Quelle est la probabilité pour que cette réserve d’ampoules soit
suffisante pour un éclairage de 6500 heures du local ?
CHAPITRE 1. ENONCÉS
7
7. On arrondit 50 nombres à l’entier le plus proche et on effectue leur somme.
Si les erreurs d’arrondi individuelles sont distribuées uniformément sur
l’intervalle [−0.5, 0.5], quelle est la probabilité pour que la somme obtenue
ait un écart de plus de 3 par rapport à la somme exacte ?
8. Soit X1 , X2 , . . . une suite de v.a. indépendantes et identiquement distribuées suivant chacune une loi continue uniforme sur [0, 1]. On considère
la moyenne géométrique
Gn = (X1 X2 . . . Xn )1/n .
P
Montrer que Gn → c pour une constante c que l’on précisera. [On utilisera
le résultat suivant : si pour une suite (Zn ) de v.a. et une constante a on a
P
P
Zn → a, alors pour toute fonction continue ϕ on a ϕ(Zn ) → ϕ(a)].
CHAPITRE 1. ENONCÉS
1.4
8
Estimation, méthode des moments
1. (a) Montrer que pour toute variable aléatoire Y de variance non nulle,
on a
2
(E(Y )) < E(Y 2 ).
(b) On considère un échantillon iid X1 , . . . , Xn de variable aléatoire parente X où Var(X) > 0. Déduire de l’inégalité précédente que la
statistique S ∗ est un estimateur biaisé de l’écart-type de X.
2. On dispose d’un échantillon X1 , . . . , Xn de n variables aléatoires indépendantes issues d’une loi continue uniforme définie sur l’intervalle [0, θ] et on
se propose d’estimer le paramètre θ.
(a) Déterminer l’estimateur θb1 de θ obtenu par la méthode des moments
en utilisant le moment non centré d’ordre 1.
(b) Montrer que θb1 est un estimateur sans biais et convergent de θ.
(c) En utilisant les résultats de l’exercice 4 de la série 2, calculer l’espérance et la variance de l’estimateur θb2 = X(n) et montrer que c’est
un estimateur asymptotiquement sans biais et convergent
(d) En déduire un estimateur θb3 sans biais et convergent.
3. On considère un échantillon X1 , . . . , Xn iid dont la variable aléatoire parente X suit une loi dépendant de deux paramètres p1 6= 0 et p2 6= 0
de la manière suivante : P (X = 0) = 1 − p1 − p2 , P (X = 1) = p1 ,
P (X = 2) = p2 .
(a) Calculer E(X), E(X 2 ) et Var(X).
P
P
(b) En utilisant les statistiques X = n1 i Xi et m
b 2 = n1 i Xi2 , déterminer les estimateurs pb1 et pb2 de p1 et p2 par la méthode des moments.
(c) Montrer que ces estimateurs sont sans biais et convergents en probabilité.
4. Soit (X1 , . . . , Xn ) un échantillon iid de taille n dont la loi parente est la
loi de Bernoulli de paramètre p. On considère l’estimateur T = X(1 − X)
pour le paramètre θ = p(1 − p).
(a) Montrer que T est un estimateur biaisé de θ.
(b) Proposer un estimateur sans biais de θ.
5. Soit X1 , . . . , Xn un échantillon i.i.d. dont la v.a. parente X est une v.a.
continue de loi de probabilité
θ
si x ≥ 1
xθ+1
f (x) =
0
sinon,
où θ est un P
paramètre réel strictement supérieur à 1. On notera T la
statistique n1
ln(Xi ).
(a) Calculer l’espérance de X et en déduire un estimateur θ̂1 de θ en
utilisant la méthode des moments.
(b) Déterminer la fonction de répartition F de X. En déduire la fonction de répartition G de Y = ln(X) et montrer que Y suit une loi
exponentielle. En déduire par la méthode des moments un second
estimateur θ̂2 .
CHAPITRE 1. ENONCÉS
9
6. Soit X une v.a. suivant une loi continue uniforme sur l’intervalle [−θ, θ],
θ ∈ R∗+ étant un paramètre inconnu, et X1 , . . . , Xn un échantillon i.i.d. de
variable parente X.
(a) Déterminer un estimateur θb1 de θ par la méthode des moments.
(b) On considère maintenant la variable aléatoire Y = |X| et l’échantillon associé (Y1 , . . . , Yn ) où Yi = |Xi |. Montrer que E(Y ) = θ/2 et
Var(Y ) = θ2 /12.
(c) Déterminer un estimateur θb2 de θ par la méthode des moments à
partir de E(Y ).
7. Soit X1 , . . . , Xn un échantillon i.i.d.
babilité :

 1−θ
1+θ
f (x; θ) =

0
de v.a. parente X de densité de prosi x ∈] − 1/2, 0],
si x ∈]0, +1/2],
sinon,
(1.4.2)
où θ est un paramètre réel inconnu tel que |θ| =
6 1.
(a) Quelles conditions doit vérifier θ ?
(b) Calculer l’espérance mathématique et la variance de X.
(c) Trouver un estimateur θbm de θ par la méthode des moments (on
utilisera les moments théorique et empirique d’ordre 1).
(d) Calculer l’espérance et la variance de θbm . Cet estimateur est-il sans
biais ? Est-il convergent ?
CHAPITRE 1. ENONCÉS
1.5
10
Méthode du maximum de vraisemblance
1. Soit X1 , . . . , Xn un échantillon iid issu d’une population de densité
θ+1
θ
si
−1 < x < 1
2 (1 − |x|)
f (x) =
0
sinon,
où θ > −1.
(a) Déterminer θbM V l’estimateur du maximum de vraisemblance de θ ;
(b) Déterminer l’information de Fisher apportée sur le paramètre θ par
l’échantillon ;
(c) En déduire la loi asymptotique de θbM V .
2. Soit X une v.a. discrète à valeurs dans VX = {0, 1, 2}, dont la loi de
probabilité est définie en fonction d’un paramètre θ ∈]0, 1[ de la façon
suivante :
P (X = 0)
=
P (X = 1)
= θ/2
1/2
P (X = 2)
=
(1 − θ)/2.
(a) Calculer en fonction de θ l’espérance et la variance de X.
(b) Soit X1 , . . . , Xn un échantillon i.i.d. de v.a. parente X. On note Nk le
nombre d’observations de l’échantillon égales à k (k = 0, 1, 2), c’està-dire le cardinal de {i ∈ {1, . . . , n}|Xi = k}. Donner la loi de N0 ,
N1 et N2 .
(c) Calculer l’espérance et la variance de N1 et N2 .
(d) Calculer l’expression de la fonction de log-vraisemblance, en fonction
de n0 , n1 et n2 .
(e) Calculer l’estimateur du maximum de vraisemblance θb de θ.
(f) Calculer l’information de Fisher associée au paramètre θ.
(g) En déduire la loi approchée de cet estimateur quand n est grand.
3. Soit (X1 , . . . , Xn ) un échantillon extrait de la loi uniforme sur [θ, θ + 1]
avec θ > 0. On pose
Sn
=
In
=
max Xi
1≤i≤n
min Xi .
1≤i≤n
(a) Montrer que tous les estimateurs de la forme
θbn (α) = α(Sn − 1) + (1 − α)In
avec α ∈ [0, 1] sont des estimateurs du maximum de vraisemblance
de θ.
(b) Calculer la fonction de répartition, puis la fonction de densité des v.
a. Sn et In .
(c) Calculer les espérances de Sn et In .
(d) Quelle est l’unique valeur α∗ telle que θbn = θbn (α∗ ) soit un estimateur
sans biais de θ ?
CHAPITRE 1. ENONCÉS
1.6
11
Estimation par intervalle de confiance
1. Dans une usine de production mécanique, une machine produit en série
des tiges métalliques dont la longueur X, par suite de l’imperfection du
procédé, peut être considérée comme une v.a. suivant une loi normale
d’espérance µ et de variance σ 2 . Un client reçoit un lot de 10000 tiges.
Il se propose d’estimer la valeur de µ à partir d’un échantillon de n tiges
prélevées aléatoirement dans ce lot. On note X1 , . . . , Xn les longueurs
correspondantes.
(a) Donner sans démonstration l’expression d’estimateurs sans biais de
µ et de σ 2 .
(b) En supposant connue la valeur de σ 2 , donner l’expression d’un intervalle de confiance bilatéral au niveau 1 − α pour µ.
(c) Même question que précédemment en supposant σ 2 inconnu.
(d) Donner un intervalle de confiance unilatéral pour σ 2 de la forme
[T, ∞[ , au niveau 1 − α.
(e) A. N. : On a obtenu pour un échantillon de n = 10 pièces les résultats
P10
P10
suivants : i=1 xi = 229, 9 et i=1 x2i = 5285, 6. En déduire une
estimation de µ et de σ 2 , puis calculer numériquement les intervalles
des questions c et d, avec 1 − α = 0, 95.
(f) En supposant que σ = 0, 1, quelle valeur faudrait-il donner à n pour
que la longueur de l’intervalle de confiance bilatéral sur µ au niveau
0,95 n’excède pas 0,05 ?
2. Soit X le nombre d’appels reçus en une journée par un standard téléphonique, et X1 , . . . , Xn un échantillon i.i.d. de X. On s’intéresse à l’estimation du paramètre θx = P (X > x) pour une certaine valeur x ∈ R.
(a) Soit Yi la v.a. définie par
Yi =
1
0
si Xi > x
sinon.
Quelle est la loi de Yi ? Donner son espérance et sa variance.
Pn
(b) Soit N = i=1 Yi . Quelle est la loi de N ? Donner son espérance et
sa variance.
(c) Soit Y = N/n. Montrer que Y est un estimateur sans biais et convergent
de θx .
(d) En utilisant l’estimateur précédent, donner l’expression littérale d’un
intervalle de confiance bilatéral sur θx , de niveau approximativement
égal à 1 − α (on supposera n grand).
(e) Sur une période de 100 jours, on a reçu 90 fois un nombre d’appels
strictement supérieur à 1. En déduire une estimation ponctuelle, puis
un intervalle de confiance bilatéral à 95 % sur θ1 .
3. Soit X la teneur en sels minéraux d’un prélèvement d’eau ; on note µ
l’espérance de X, et σ 2 sa variance. Ayant effectué n prélèvements d’eau,
on cherche à estimer la teneur moyenne µ en sels minéraux.
(a) Proposer un estimateur de la teneur moyenne en sels minéraux. Cet
estimateur est-il sans biais ? Convergent ? Justifier.
CHAPITRE 1. ENONCÉS
12
(b) Proposer une fonction asymptotiquement pivotale pour µ, en supposant σ 2 connu. En déduire l’expression d’un intervalle de confiance
bilatéral sur µ au niveau 1 − α (on effectuera la démonstration).
(c) Application numérique : calculer la réalisation de l’intervalle de confiance
au niveau 1 − α = 0.95 sachant que la mesure de la teneur en sels
minéraux de 10 échantillons d’eau de source a donné les résultats suivants : 490, 482, 503, 502, 497, 549, 517, 493, 513, 486. On supposera
ici que σ 2 = 400.
(d) Proposer une fonction asymptotiquement pivotale pour µ, en supposant σ 2 inconnu. En déduire l’expression d’un intervalle de confiance
bilatéral sur µ au niveau α.
(e) Application numérique : calculer la réalisation de l’intervalle de confiance
au niveau 1 − α = 0.95 en utilisant les données de la question 3.
CHAPITRE 1. ENONCÉS
1.7
13
Estimation optimale
1. La durée de vie d’une particule est modélisée par une variable aléatoire
X, qui suit une loi géométrique de paramètre p définie par :
x−1
P(X = x) = (1 − p)
p,
x ∈ N∗ .
Ayant observé les durées de vie de n particules, on dispose d’un échantillon
i.i.d. X1 , . . . , Xn de variable parente X.
(a) Existe-t-il un estimateur efficace de p ou d’une fonction de p ?
(b) Calculer son espérance et sa variance.
(c) En déduire l’espérance et la variance de la variable aléatoire X.
(d) Calculer l’information de Fisher apportée par l’échantillon sur le paramètre p.
2. Soit X la variable aléatoire mesurant le nombre d’essais nécessaires à r
réalisations d’un même événement de probabilité p. La loi de X (loi de
Pascal) est donnée par :
r−1 r
P (X = x) = Cx−1
p (1 − p)x−r
x = r, r + 1, ..., ∞.
Soit X1 , X2 , ..., Xn un échantillon de n variables indépendantes issues de
cette loi. Dans tout cet exercice, le paramètre r est supposé connu.
(a) Déterminer l’estimateur maximum de vraisemblance p̂M V de p.
r
(b) Montrer qu’il existe un estimateur efficace de . Donner son espép
rance et sa variance. En déduire l’espérance et la variance de la variable X.
(c) On suppose maintenant que la taille de l’échantillon est grande. Montrer que la borne de Cramer-Rao pour les estimateurs sans biais du
2
paramètre p est égale à p (1−p)
. En déduire la distribution asymptorn
tique de p̂M V .
(d) A l’aide de p̂M V , proposez un intervalle de confiance bilatéral symétrique
approché
pour p au niveau 1 − α. On pourra approximer
√
√
1 − p par 1 − p̂M V .
3. Soit X une v.a. normale de paramètres µ et σ 2 inconnus et X1 , . . . , Xn
un échantillon i.i.d. de variable parente X. On se propose tout d’abord
d’étudier la famille des estimateurs de σ 2 de la forme :
σ
ba2 = a
n
X
(Xi − X)2
, a ∈ R.
i=1
(a) Pour quelle valeur de a l’estimateur σ
ba2 est-il l’estimateur du maxi2
mum de vraisemblance de σ ?
(b) Calculer E(b
σa2 ) et en déduire la valeur de a pour laquelle σ
ba2 est sans
biais.
(c) Quelle est la loi de la statistique σ
ba2 /(aσ 2 ) ?
(d) En déduire l’expression de la variance de σ
ba2 .
CHAPITRE 1. ENONCÉS
14
(e) Calculer en fonction de a le risque quadratique de σ
ba2 défini par :
EQM(b
σa2 , σ 2 ) = E[(b
σa2 − σ 2 )2 ].
(f) En déduire la valeur de a pour laquelle l’estimateur σ
ba2 est le plus
précis.
4. Soit X une v.a. suivant la loi de Poisson et X1 , . . . , Xn un échantillon i.i.d.
de variable parente X.
(a) Calculer la borne de Cramer-Rao pour les estimateurs sans biais de
λ et trouver un estimateur efficace de λ.
(b) On se donne la fonction Ψ suivante :
1 si x = 0 ou x = 1
Ψ(x) =
0 sinon.
Pn
i. Calculer E (Ψ(X)). En déduire que Ψ(X) = n1 i=1 ψ(Xi ) est
un estimateur sans biais de g(λ), pour une fonction g que l’on
précisera.
ii. Calculer Var Ψ(X) .
(c) Quelle est la borne de Cramer-Rao pour les estimateurs sans biais de
g(λ) ?
(d) Soit T un estimateur efficace de g(λ).
i. Quelle condition (faisant intervenir la dérivée de la log-vraisemblance
par rapport à λ) T doit-il nécessairement vérifier ?
ii. En utilisant l’expression précédente, montrer que T doit être de
la forme
T = f (n, λ)X + h(n, λ),
où f et h sont des fonctions de n et de λ que l’on précisera.
iii. Peut-on éliminer λ dans l’expression précédente ? Que peut-on en
déduire concernant l’existence d’un estimateur efficace de g(λ) ?
CHAPITRE 1. ENONCÉS
1.8
15
Principe des tests d’hypothèses (1)
1. Une v.a. aléatoire X suit une loi N (µ, σ 2 ) d’écart-type connu σ = 2. Au
vu d’un échantillon i.i.d. X1 , . . . , Xn de v.a. parente X, on veut tester
l’hypothèse H0 : µ = 2 contre l’hypothèse alternative H1 : µ = 3.
(a) Soit L(µ; x1 , . . . , xn ) la fonction de vraisemblance. Donner l’expresL(3;x1 ,...,xn )
L1
= L(2;x
sion du rapport L
.
0
1 ,...,xn )
(b) En déduire la région critique du test de Neyman-Pearson, en fonction
du niveau de signification α∗ .
(c) Calculer la puissance de ce test dans le cas où n = 100 et α∗ = 0.05.
(d) Quelle doit être la taille minimale n0 de l’échantillon pour que la
puissance soit supérieure à 0.95, en supposant toujours α∗ = 0.05 ?
(e) On a observé x = 2.5 avec n = 36. Quel est le degré de signification
du test ? (On rappelle que le degré de signification est le plus petit
niveau α∗ pour lequel l’hypothèse H0 est rejetée.)
2. On dispose d’un échantillon de taille n=10 de v.a. parente X normale de
moyenne 0 et deP
variance σ 2 inconnue. On notera dans tout ce problème
n
T la statistique i=1 Xi2 .
On veut effectuer le test suivant :
H0 : σ 2
= σ02
(= 1)
2
σ12
(= 2).
H1 : σ
=
(a) Déterminer la région critique optimale pour α∗ = 0.05.
(b) Calculer la puissance du test.
(c) On veut maintenant effectuer le test suivant :
H0 : σ 2
H1 : σ
2
= σ02
>
(= 1)
σ02 .
i. Déterminer la région critique du test UPP pour α∗ = 0.05.
ii. Calculer la puissance du test pour les valeurs σ 2 = 1, 2, 3, 4, 5
(approximativement) et tracer la courbe de puissance.
3. Soit X une variable aléatoire discrète obéissant à la loi géométrique :
P (X = x) = p(1 − p)x−1
pour x = 1, 2, . . . , ∞ et p ∈]0, 1[. On considère un échantillon iid X1 , . . . , Xn
de variable aléatoire parente X.
(a) Montrer que X est un estimateur efficace de p ou d’une fonction de
p.
(b) En utilisant les propriétés de X, donner une fonction asymptotiquement pivotale pour p.
(c) On considère le problème de test
H0 : p = p0
H1 : p = p1
avec p1 > p0 . Montrer que la région critique W du test optimal au
niveau α∗ s’exprime en fonction de X. Donner une approximation de
W en supposant n grand.
CHAPITRE 1. ENONCÉS
1.9
16
Principe des tests d’hypothèses (2)
1. Soit X1 , . . . , Xn un échantillon i.i.d. de variable parente X, de densité
x
x
f (x) = 2 exp −
1[0,+∞[ (x),
θ
θ
θ étant un paramètre positif.
b
(a) Montrer qu’il existe un estimateur efficace de θ. On le notera θ.
(b) En déduire les espérances et les variances de θb et de X.
(c) Déterminer une fonction asymptotiquement pivotale pour θ que l’on
b
exprimera en fonction de θ.
(d) On considère le problème de test H0 : θ = θ0 contre H1 : θ =
θ1 avec θ1 > θ0 . Montrer que la région critique W du test le plus
b
puissant pour ce problème au niveau α∗ s’exprime en fonction de θ,
puis donner une approximation de W en supposant n grand.
(e) On considère maintenant le problème de test suivant H0 : θ = θ0
contre H1 : θ 6= θ0 . Existe-t-il un test UPP pour ce problème ?
(f) Calculer la statistique du rapport de vraisemblance λ, exprimée en
b pour le problème de test de la question (1e).
fonction de θ,
(g) En utilisant la statistique −2 ln λ et en supposant que n est grand,
proposer une région critique pour le testPde la question (1e). Quelle
décision prendra-t-on si θ0 = 2, n = 50, i xi = 115 et α∗ = 0.05.
2. Ayant lancé 1000 fois une pièce de monnaie, on a obtenu 450 fois « face ».
L’objet de cet exercice est de tester l’hypothèse selon laquelle la pièce est
équilibrée.
(a) Soit X le nombre de « faces » obtenu au cours de n lancers. On a observé une seule réalisation de X. Calculer l’estimateur du maximum
de vraisemblance de p.
(b) On considère le problème de test suivant : H0 : p = p0 contre H1 :
p 6= p0 . Calculer l’expression littérale de la statistique λ du test du
rapport de vraisemblance, en fonction de X, p0 et n.
(c) En utilisant l’approximation asymptotique −2 ln λ ∼ χ21 , donner une
expression littérale de la région critique du test du rapport de vraisemblance, au niveau α∗ .
(d) Donner le résultat du test du rapport de vraisemblance avec les données de l’exercice, p0 = 1/2, et α∗ = 5%.
3. Une entreprise alimentaire cherche à vérifier si les sacs de sucre qu’elle
utilise dans sa production ont un poids au moins égal à la valeur annoncée.
L’entreprise reçoit un lot de sacs et en pèse n. L’échantillon alors obtenu
est considéré comme un échantillon i.i.d. dont la variable aléatoire parente
X suit une loi normale d’espérance µ et de variance connue σ 2 .
(a) Première solution
i. Quelle est la région critique du test ?
H0 : µ = µ0
H1 : µ < µ 0
CHAPITRE 1. ENONCÉS
17
ii. A. N. : sachant que (x1 , . . . , xn ) =(49.56, 48.33, 50.13, 50.29,
P10
48.85, 51.19, 50.19, 49.96, 50.33, 50.17) ( i=1 xi = 499), σ 2 = 1,
µ0 = 50 et α∗ = 0.05, quelle décision prendra-t-on ?
iii. Quelle est la puissance du test pour la valeur µ = 49 ; on déterminera cette puissance par le calcul et à l’aide des abaques.
(b) Deuxième solution : on désire prendre une décision en s’appuyant
uniquement sur le nombre K de sacs de l’échantillon dont le poids
est inférieur ou égal à µ0 − 1.
i. Montrer que K est une variable aléatoire binomiale B(n, p) où p
dépend de µ0 , µ et σ.
ii. Que deviennent les hypothèses H0 et H1 de la question précédente ?
iii. En utilisant les mêmes données que dans la première partie, déterminer la région critique de ce test. (on n’utilisera aucune approximation). Quelle décision prendra-t-on ?
iv. Calculer la puissance du test pour la valeur µ = 49.
CHAPITRE 1. ENONCÉS
1.10
18
Tests de conformité
1. Chez un fabriquant de joints en caoutchouc, le département d’ingénierie de
la qualité a mis en œuvre un plan d’échantillonnage pour vérifier le poids
d’un joint d’étanchéité, poids qui est affecté par les variations d’écoulement
du caoutchouc provenant de l’extrudeuse. La valeur cible du poids du joint
est de 270 g.
On considère que le poids X est distribué normalement avec une espérance µ et un écart-type σ = 4, 5 g. Pour maîtriser le procédé, on prélève
régulièrement n = 5 pièces de caoutchouc de l’extrudeuse. Chaque pièce
est pesée et le poids moyen est calculé.
(a) Donner sans démonstration l’expression de la région critique W du
test de l’hypothèse H0 : µ = 270 g contre H1 : µ 6= 270 g au niveau
de signification de 5 %.
(b) Lors d’un récent contrôle, on a obtenu, pour un échantillon de cinq
pièces, un poids moyen de 265,5 g. Doit-on poursuivre ou arrêter la
production ?
(c) Avec ce plan de contrôle, quel est la probabilité β d’accepter l’hypothèse selon laquelle l’extrudeuse opère à 270 g alors qu’en réalité le
procédé est centré à 264 g ?
2. Un industriel affirme que sa production a moins de 10% de défectueux.
Après un contrôle de 50 pièces prises au hasard, X n’ont pas fonctionné.
On notera p la proportion de défectueux.
(a) On considère le problème de test suivant :
H0 : p = p0
H1 : p > p0
avec p0 = 0.1. Montrer qu’il existe un test UPP et donner la forme
de la région critique.
(b) En utilisant l’approximation normale de la loi binomiale, calculer le
seuil critique au niveau α∗ = 0.05.
(c) Quelle décision prend-on si il y a 9 pièces défectueuses ?
(d) Calculer le degré de signification α
b associé.
CHAPITRE 1. ENONCÉS
1.11
19
Tests de comparaison
1. On cherche à comparer la durée de vie de deux types de pneu A et B. On
dispose pour cela d’un échantillon de 41 durées de vie en milliers de km
pour le type A et de 21 durées de vie pour le type B. Les résultats sont
résumés dans le tableau suivant :
P
P 2
n
xi
xi
A 41 1840 82996
B 21
828
32752
On admettra que les 2 populations suivent les distributions normales
2
2
N (µA , σA
) et N (µB , σB
) et dans tout cet exercice, on prendra comme
niveau de signification des différents tests la valeur α∗ = 0.05.
2
2
(a) Donner les estimations sans biais de µA , µB , σA
et σB
.
(b) Montrer que l’on peut admettre l’hypothèse d’égalité des variances
des 2 populations.
(c) En déduire une estimation sans biais de la variance commune σ 2 .
(d) Tester l’égalité des moyennes µA et µB .
(e) Calculer la puissance du test pour |µA − µB | = 3.
2. Une année, le taux national de réussite au baccalauréat dans une série
donnée a été de 67 %.
(a) Dans un centre d’examens A, il y a eu 216 reçus sur 300 candidats
présentés. Les résultats de ce centre sont-ils conformes aux résultats
nationaux ?
(b) Dans un autre centre d’examen B, il y a eu 128 reçus sur 200 candidats. Les résultats des centres A et B sont-ils significativement différents ?
(Les tests seront realisés au niveau de signification α∗ = 5%).
CHAPITRE 1. ENONCÉS
1.12
20
Tests d’adéquation
1. L’examen de 320 familles
suivants :
Nb de garçons
Nb de filles
Nb de familles
ayant 5 enfants s’est traduit par les résultats
5
0
18
4
1
56
3
2
110
2
3
88
1
4
40
0
5
8
Total
320
(a) Sous l’hypothèse que la naissance d’un garçon et la naissance d’une
fille sont des événements équiprobables, calculer les probabilités de
chacun des 6 types de familles.
(b) Peut-on admettre, au niveau de signification de 5% que les données
obtenues sont compatibles avec cette hypothèse d’équiprobabilité ?
(c) Calculer le degré de signification.
2. Le tableau ci-dessous donne la répartition de la taille (en cm) de 2220 salariés français (hors salariés agricoles) et appartenant aux deux catégories
socio-professionnelles (CSP) ouvriers et cadres supérieurs (source INSEE
1970).
taille \ CSP
< 170
[170, 175[
≥ 175
total
ouvriers
813
636
451
1900
cadres sup.
73
123
124
320
total
886
759
575
2220
Peut-on considérer, au niveau de signification de 5 %, que les deux facteurs
taille et CSP sont indépendants dans la population totale de référence ?
3. On considère la réalisation suivante d’un échantillon iid de v.a. parente
X :
9.1 7.4 17.2 10.7 15.5
Peut-on admettre au niveau α∗ = 0.05 que X suit une loi normale d’espérance 10 et de variance 4 ?
CHAPITRE 1. ENONCÉS
1.13
21
Analyse de la variance
1. Quinze veaux ont été répartis au hasard en trois lots, alimentés chacun de
façon différente. Les gains de poids observés au cours d’une même période
et exprimés en kg étant les suivants :
lot 1 :
41.2
41.0
40.0
40.1
40.6
lot 2 :
39.8
39.9
42.5
41.1
39.8
lot 3 :
46.0
44.9
44.7
45.7
47.0
le but de l’étude est de mettre en évidence une relation entre l’alimentation
et la croissance des veaux. Les moyennes et les variance de ces 3 distributions sont x̄1 = 40.58, x̄2 = 40.62, x̄3 = 45.66, s∗1 2 = 0.282, s∗2 2 = 1.407
et s∗3 2 = 0.853.
(a) Tester la normalité des données correspondant au premier lot au niveau α∗ = 0.05. On supposera pour la suite que l’hypothèse de normalité peut être acceptée pour les deux autres lots.
(b) Peut-on considérer que les variances des trois échantillons sont égales,
au niveau de signification α∗ = 0.05 ?
(c) Montrer que le type d’alimentation a un effet significatif sur la croissance des veaux. On prendra α∗ = 0.05.
(d) Préciser pour quels types d’alimentation il existe des différences significatives.
2. Les données suivantes représentent le nombre de problèmes arithmétiques
simples (sur 85) résolus (de manière correcte ou non) en une heure par des
sujets ayant reçu un médicament dépresseur, un stimulant et un placebo :
– dépresseur : 55, 0, 1 , 40
– stimulant : 75, 85, 51, 63
– placebo : 61, 54, 80, 47
Au vu des ces résultats, peut-on admettre que ces trois médicaments induisent des taux de performance différents ? (faire une test de KruskalWallis avec α∗ = 0.10).
CHAPITRE 1. ENONCÉS
1.14
22
Régression linéaire
1. On a relevé dans le tableau suivant les moyennes x au baccalauréat de 10
élèves, et leurs scores Y à un test de QI :
x
Y
8.8
108
9.6
112
11.2
115
10.4
118
12.8
121
15.2
125
12.0
122
16.0
130
8.0
96
9.2
113
On suppose que les Yi sont des v.a. indépendantes avec Yi ∼ N (a+bxi , σ 2 ),
les xi étant des nombres fixés.
(a) Déterminer les estimateurs du maximum de vraisemblance des paramètres a, b et σ 2 .
(b) Construire un intervalle de confiance bilatéral sur a, puis une borne
inférieure, au niveau de confiance 95 %.
(c) Tester l’hypothèse H0 : b = 0 contre H1 : b > 0 au niveau de signification 0, 01.
(d) Construire un intervalle de confiance bilatéral sur b, puis une borne
supérieure, au niveau de confiance 95 %.
2. La différence de potentiel mesurée aux bornes d’une résistance r traversée
par un courant d’intensité xi (i = 1, . . . , n) est modélisée par une variable
aléatoire
Ui = rxi + i
où i est un bruit de mesure supposé suivre une loi normale d’espérance nulle et de variance σ 2 . On considère un échantillon indépendant
U1 , . . . , Un de n mesures réalisées pour des intensités x1 , . . . , xn .
(a) Expliciter les estimateurs du maximum de vraisemblance des parac2 .
mètres r et σ 2 , que l’on notera respectivement rb et σ
(b) Montrer que rb est sans biais. Calculer sa variance. Quelle est la loi
de rb ?
(c) En supposant que σ 2 = 1, donner l’expression d’un intervalle de
confiance de niveau 1 − α pour r.
(d) Application numérique. On a obtenu les résultats suivants :
xi
ui
0,5
1,73
1,5
2,41
3
8,18
5
9,86
8
16,11
Calculer rb ainsi qu’un intervalle de confiance de niveau 95 % pour r
(en supposant σ 2 = 1).
(e) Toujours en supposant σ 2 = 1, tester l’hypothèse H0 : r = 1, 9 contre
l’hypothèse alternative H1 : r 6= 1, 9, au niveau de signification 0, 01.
Chapitre 2
Éléments de correction
2.1
Statistiques descriptives
1.
2. (a)
(b)
(c) Moy.=4.47,Var.=0.12, E-T=0.35, q1=4.20, Med=4.5, q3=4.70, IQR=0.50
(d)
(e) Moy.=8.22,Var.=173, E-T=13.3, q1=4.20, Med=4.5, q3=4.70, IQR=0.50
3. x = 2.6 et s = 1.51.
4.
2.2
Probabilités
1. (a) θ ∈] − 1; 1[
(b) E(X) =
θ
4
et Var(X) =
4−3θ 2
48 .




0
(1 − θ)(x + 12 )
(c) F (x) =
1−θ
+ (1 + θ)x


 2
1
(d) p =
si
si
si
si
x ≤ − 12
≤x≤0
0 ≤ x ≤ 12
x ≥ 12
− 12
1−θ
2
(e) Y ∼ B(n, p), E(Y ) =
n(1−θ)
2
et Var(Y ) =
n(1−θ 2 )
.
4
2. (a) E(X) = 1 − θ/2, Var(X) = 1 − θ/2 − θ2 /4
(b) N0 ∼ B(n, 1/2) N1 ∼ B(n, θ/2) et N2 ∼ B(n, (1 − θ)/2)
(c) E(N1 ) = nθ/2, Var(N1 ) = n θ2 1 − θ2 , et E(N2 ) = n 1−θ
2 et Var(N2 ) =
2
n 1−θ
4
R +∞
3. (a) f ≥ 0 et ∞ f (v)dv = 1.
(b) E(V ) =
1
3
(c) F (0.5 = P(V < 0.5)
23
CHAPITRE 2. ÉLÉMENTS DE CORRECTION
24
(d) F (v) = 2v − v 2 pour v ∈ [0, 1], 0 avant 0 et 1 après 1
(e) 900 litres
4. (a) G(x) = F (x)n
(b) g(x) = nF (x)n−1 f (x)
(c) E(Y ) =
n
(n+1) θ
et Var =
n
2
(n+1)(n+1)2 θ ..
5. (a) µ = 163 cg, σ = 9, 7 cg. (b) Environ 20000 personnes.
2.3
Échantillonnage. Théorème de la limite centrale
1. 0.9966
2. 0.1861
3. (a) N ∼ N (31, 0.5484)
(b) 0.6253
4. (a) Yn ∼ P(n)
(b) 0.5591
(c) 0.5 pour les 4 valeurs de n
(d) 0.5445, 0.5282, 0.5199 et 0.5141
5. 0.9359
6. Si on note XAi et XBi les durées de vie des ampoules de types A et B, les
propriétes de la loi exponentielle permettent d’en déduire que E(XAi ) =
1
1
1
1
θA , Var(XAi ) = θ 2 , E(XBi ) = θB et Var(XBi ) = θ 2 .
A
B
0.7499
7. 0.1416
8. On pose Y = ln(X) ; on a alors Y = ln(Gn ) ; E(Y ) = −1 et E(Y 2 ) = 1 ;
L’espérance et la variance existent donc et la loi des grands nombres, qui
P
peut alors s’appliquer, permet d’en déduire que ln Gn = Y → E(Y ) = −1.
P
En utilisant le théorème rappelé dans l’énoncé, on peut en déduire Gn →
−1
e ≈ 0.368.
2.4
Estimation, méthode des moments
1. (a) Il suffit d’utiliser Var(Y ) = E(Y 2 ) − (E(Y ))2
(b) Application de la relation précédente à Y = S ∗2
2. (a) θb1 = 2X
2
(b) E(θb1 ) = θ et Var(θb1 ) = θ
3n
(c) E(θb2 ) =
(d) θb3 =
n
n+1 θ
n
2
et Var(θb2 ) = ( (n+2)(n+1)
2θ
n+1 b
n θ2
3. (a) E(X) = 0 × (1 − p1 − p2 ) + 1 × p1 + 2 × p2
(b) pb1 = 2X − m
b 2 et pb2 =
m
b 2 −X
2
CHAPITRE 2. ÉLÉMENTS DE CORRECTION
25
(c)
4. (a) E(T ) =
(b)
n−1
n p(1
− p)
n
n−1 T .
5. (a) E(X) =
θ
θ−1
X
X−1
et θ̂1 =
(b) g(y) = −e−yθ × −θ = θe−yθ et θ̂m = 1/Y
√
6. (a) θb1 = 3S 2
(b)
(c) θb2 = 2Y
7. (a) θ ∈] − 1; 1[
(b) E(X = θ4 , Var(X) =
4−3θ 2
48
(c) θbm = 4X
(d) E(θbm ) = θ, Var(θbm ) =
2.5
4−3θ 2
3n
Méthode du maximum de vraisemblance
1. (a) θbM V = − P
i
(b) In (θ) =
n
log(1−|Xi |)
−1
n
(θ+1)2
2
app.
(c) θbM V ∼ N θ, (θ+1)
n
2. (a) E(X) = 2 − 3θ/2, Var(X) = 1 − θ/2 − θ2 /4
(b) N0 ∼ B(n, 1/2), N1 ∼ B(n, θ/2) et N2 ∼ B(n, (1 − θ)/2)
(c) E(N1 ) = nθ/2, Var(N1 ) = n θ2 1 − θ2 , E(N2 ) = n 1−θ
2 et Var(N2 ) =
1−θ 2
n 4
(d) ln L(θ; x1 , . . . , xn ) = n0 ln 21 + n1 ln θ2 + n2 ln 1−θ
2
N1
N1 +N2
n
In (θ) = 2θ(1−θ)
(e) θb3 =
(f)
app.
(g) θb3 ∼ N θ, 2θ(1−θ)
n
3. (a) L(θ; x1 , ...xn ) = 1[In ,Sn ] (θ) : toutes les valeurs de θ comprises entre
In et Sn maximisent la vraisemblance ⇒ θbn = α(Sn − 1) + (1 −
α)In
(0 ≤ α ≤ 1).
(b) FS (x) = 0 si x ≤ θ, (x − θ)n si θ ≤ x ≤ θ + 1 et 1 sinon ; fS (x) =
n(x − θ)n−1 1[θ,θ+1] (x)
FI (x) = 0 si x ≤ θ, 1 − (1 − x + θ)n si θ ≤ x ≤ θ + 1 et 1 sinon ;
fI (x) = n(1 − x + θ)n−1 1[θ,θ+1] (x).
(c) E(In ) = θ +
1
n+1
(d) E(θbn ) = θ +
1−2α
n+1
et E(Sn ) = θ +
⇒ α∗ = 1/2.
n
n+1 .
CHAPITRE 2. ÉLÉMENTS DE CORRECTION
2.6
26
Estimation par intervalle de confiance
1. (a) µ̂ = X =
1
n
Pn
i=1
Xi et σˆ2 = S ∗2 =
(b) I1 = [X −
√σ u1− α , X
n
2
(c) I2 = [X −
S∗
√
α,X
t
n n−1,1− 2
+
1
n−1
Pn
i=1 (Xi
− X)2
√σ u1− α ]
n
2
+
S∗
√
α]
t
n n−1,1− 2
∗2
, +∞[
(d) I3 = [ χ(n−1)S
2
n−1,1−α
(e) x = 22.99 , s∗2 = 0.0221, I2 = [22.885, 23.0948] et I3 = [0.0118, +∞]
(f) n > 61.46 ou n ≥ 62
2. (a) Yi ∼ B(θx , E(Yi ) = θx , Var(Yi ) = θx (1 − θx )
(b) N ∼ B(n, θx ), E(N ) = nθx , Var(N ) = nθx (1 − θx )
(c) E(Y ) =
x)
= θx , Var(Y ) = θx (1−θ
n
q
q
Y (1−Y )
Y (1−Y )
Y − u1−α/2
< θx < Y + u1−α/2
n
n
1
n E(N )
(d) 1 − α = P
(e) y = 0.9, [0.84, 0.96].
3. (a) X. Il est convergent et sans biais
(b) Fonction pivotale
u1−α/2 √σn ]
X−µ
√
σ/ n
L
−→ N (0, 1), IC1 = [X − u1−α/2 √σn ; X +
(c) ic1 = [490, 804; 515, 596]
(d)
X−µ
√
S∗ / n
h
i
L
S∗
S∗
√
−→ N (0, 1), IC2 = X − u1−α/2 √
;
X
+
u
1−α/2
n
n
(e) ic2 = [ 491, 069 ; 515, 331 ]
2.7
Estimation optimale
1. (a) X est un estimateur efficace de 1/p
(b) E[X] = 1/p, Var(X) =
(c) E[X] = 1/p, Var(X) =
(d) In (p) =
2. (a) p̂M V =
1−p
np2
1−p
p2
n
p2 (1−p)
Pnr
Xi
(b) X̄ est un estimateur efficace de r/p,E[X] = pr , Var[X] =
app. 2
(c) p̂M V ∼ N p, p (1−p)
nr
p̂
p̂
√
√
(d) I.C. =
;
1 où u = u1−α/2
1+u
(1−p̂)/nr
1−u
r(1−p)
p2
(1−p̂)/nr
3. (a) a = 1/n
2
(b) E(σ̂a2 ) = an(E(X 2 ) − E(X )), σ
ba2 sans biais pour a = 1/(n − 1).
2
(c) (b
σ ) ∼ χ2n−1
(d) Var(σ̂a2 ) = 2(n − 1)a2 σ 4
(e) R(b
σa2 , σ 2 ) = σ 4 [a2 (n2 − 1) − 2a(n − 1) + 1]
CHAPITRE 2. ÉLÉMENTS DE CORRECTION
(f) a =
1
n+1
4. (a) BCR (λ) =
λ
n,
X estimateur efficace de λ.
(b) Variable aléatoire Ψ(X) :
i. E[Ψ(X)] = e−λ (1 + λ), g(λ) = e−λ (1 + λ)
ii. Var[Ψ(X)] =
(c) BCR (g(λ)) =
e−λ (1+λ)(1−e−λ (1+λ))
n
λ3 e−2λ
n
(d) Estimateur efficace de g(λ) :
i.
n
λ (X
− λ) = A(n, λ)(T − g(λ))
ii.
iii. Pas d’estimateur efficace de g(λ)
2.8
Principe des tests d’hypothèses (1)
1. (a)
L1
L0
= exp
n
2σ 2 (2x
− 5)
(b) W = {x > k} avec k = 2 1 +
u1−α∗
√
n
(c) π = 0.9996
(d) n0 = 44
(e) α
b(x1 , . . . , xn ) ≈ 0.067
2. (a) W = {t > σ02 χ2n,1−α∗ } A.N. t > 18, 3
(b) 1 − β = 0, 5
i. W = {t > σ02 χ2n,1−α∗ }
(c)
ii. 0.05, 0.50, 0.75, 0.90, 0.95
3. (a) X estimateur efficace de 1/p
(b)
X − 1/p L
q
−→ N (0, 1)
1−p
np2
n
(c) W = x <
2.9
1
p0
−
q
1−p0
∗
u
np20 1−α
o
Principe des tests d’hypothèses (2)
1. (a)
X
2
est l’estimateur efficace de θ.
b = θ, Var(θ)
b =
(b) E(θ)
(c)
b
θ−θ
√
θ/ 2n
θ2
2n ,
E(X) = 2θ et Var(X) = 2θ2 .
L
−→ N (0, 1) .
(d) W = {θb > k} et k ≈ θ0 1 +
(e) Pas de test UPP.
2n
b
(f) λ = θθ0
exp 2n 1 −
θb
θ0
u1−α∗
√
2n
.
.
27
CHAPITRE 2. ÉLÉMENTS DE CORRECTION
28
(g) W = {−2 ln λ ≥ χ21;0.95 = 3.84} et −2 ln λ = 25.67 : rejet de H0 .
2. (a) EM V = pb = X/n
X n(1−p0 ) n−X
0
(b) λ = np
n−X
nX h
i
o
n(1−p0 )
2
0
(c) W = −2 X ln np
>
χ
+
(n
−
X)
ln
∗
1,1−α
X
n−X
(d) −2 ln λ = 10.0167, χ21,0.95 = 3.84, rejet de H0
3. (a) Première solution
i. W : X̄ < µ0 − √σn u1−α∗
ii. On conserve H0
iii. 1 − β = 0.93
(b) Deuxième solution
i. K ∼ B(n, p) où p = P (X < µ0 − 1) = Φ( µ0 −1−µ
)
σ
−1
ii. H0 : p = p0 , H1 : p > p0 avec p0 = Φ( σ )
iii. W : K > 3, on conserve H0
iv. 1 − β = P (K > 3|p = 0.5) = 1 − P (K ≤ 3|p = 0.5) = 1 − 0.17 =
0.83
2.10
Tests de conformité
1. (a) W = {|x − 270| > 3.94}
(b) On doit donc arrêter la production
(c) β ≈ 0.15
2. (a) W = {x > A}.
p
(b) W = {x > np0 − 0.5 + u1−α∗ np0 (1 − p0 ).
(c) Rejet de H0 .
(d) α
b ≈ 0.02.
2.11
Tests de comparaison
∗2
1. (a) xA = 44.88, xB = 39.43, s∗2
A = 10.33, sB = 5.14
s∗2
(b) W = { sA
∗2 < 0.483 ou > 2.29},
B
∗2
(c) s
= 8.60
(
(d) W =
s∗2
A
s∗2
B
= 2.01
)
|xA −xB |
q
s∗ n1 + n1
A
>2 ,
B
s∗
|xA −xB |
q
1
1
n +n
A
= 6.86 : rejet de l’hypothèse
B
d’égalité.
(e) Abaques pour tests bilatéraux avec α∗ = 0.05 : λ =
|D−D0 |
q
n1 +nB ∗
s
N n
=
A B
3/0.7869 = 3.81, π ≈ 0.97
−1/2
2. (a) W = {|b
pA − p0 | (p0 (1 − p0 )/nA )
> u1−α∗ /2 } avec pbA = XA /nA .
−1/2
A.N. : |b
p − p0 | (p0 (1 − p0 )/nA )
= 1.84 et u0.975 = 1.96 : pas de
rejet de H0 .
−1/2
(b) W = {|b
pA − pbB | (b
p(1 − pb) (1/nA + 1/nB ))
> u1−α∗ /2 } avec pbA =
XA /nA , pbB = XB /nB , pb = (XA + XB )/(nA + nB ). A.N. : 1.89 <
1.96 : pas de différence significative.
CHAPITRE 2. ÉLÉMENTS DE CORRECTION
2.12
29
Tests d’adéquation
1. (a) 1/32, 5/32, 10/32, 10/32, 5/32, 1/32
(b) D2 = 11.96 > χ25;0.95 = 11.1 : rejet de l’hypothèse d’équiprobabilité.
2. W = {d2 > 5.99} et d2 = 53 : rejet de l’hypothèse d’indépendance.
3. Test de K-S : W = {dn > 0.563} et d∗n = 0.40 : pas de rejet de H0 .
2.13
Analyse de la variance
1. (a) Test de Stephens : d∗n
tion normale.
√
n+
0.85
√
n
− 0.01 = 0.565 > 0.895 : popula-
(b) Test de Bartlett : W = {b > 5.99} et b = 2.35 : égalité des variances.
(c) Test de l’analyse de la variance : W = {f > 3.885} et f = 50.20 :
espérances significativement différentes.
(d) LSD de Fisher : t1,2 = 0.07, t1,3 = 8.73 et t2,3 = 8.66 à comparer à
2.18 : différences significatives entre 1 et 3 et entre 2 et 3.
2. W = {h > χ22;0.9 }, h = 5.35 et χ22;0.9 = 4.61 : effet significatif.
2.14
Régression Linéaire
n
2
b2 = n−2
1. (a) bb = 3.22, b
a = 79.59 , σ
bM
Sres = 19.58.
V = Sres = 15.66 et σ
q
2
(b) Intervalle bilatéral : b
a ± tn−2;1−α/2 √σbn 1 + xs2 , a.n. [64.94, 94.25].
q x 2
σ
b
√
Intervalle unilatéral : a > b
a − tn−2;1−α n 1 + xs2 = 67.78.
x
(c)
√bb
σ
b/ ns2x
= 5.87 > t8;0.99 = 2.90 : H0 rejetée.
(d) Intervalle bilatéral bb ± tn−2;1−α/2 √σb 2 , a.n. [1.95, 4.48].
nsx
Intervalle unilatéral : b < bb + tn−2;1−α √σb
ns2x
2. (a) rb =
Pn
i=1 xi Ui
P
2
i=1 xi
et σ
b2 =
1
n
(b) E(b
r) = r, Var(b
r) = σ2 /
(c) rb ±
Pn
i=1 (Ui
= 4.23.
− rbxi )2 .
2
2
Pnσ
x
et
r
b
∼
N
r,
.
2
i=1 i
x
Pn
i=1
i
1−α/2
√uP
n
2
i=1 xi
(d) A.n. :
P
x2i = 100.5,
P
xi ui = 207.2, rb = 2.0617, IC = [1.8662, 2.2572].
(e) Test sur la moyenne d’une v.a. gaussienne de variance connue : W =
−r0 |
{ √ |brP
> u1−α∗ /2 }, a.n. : 1.6210 < 2.5758 : H0 acceptée.
n
2
1/
i=1
xi
Chapitre 3
Exemple de problèmes
3.1
Estimation
Comparaison d’intervalles de confiance
On considère dans ce problème une variable aléatoire X de fonction de densité
kx
kx2
fX (x) = 2 exp − 2 1[0,+∞[ (x)
σ
2σ
où k est la constante 2 − π/2. On admettra que la variance de X est égale à σ 2 .
On dispose d’un échantillon de n variables aléatoires indépendantes X1 , . . . , Xn
de même loi que X, et l’on cherche à estimer le paramètre σ.
1. Première méthode.
(a) Montrer que l’estimateur de σ 2 par la méthode du maximum de vraisemblance est :
n
k X 2
2
X
σ
bM
=
V
2n i=1 i
(b) Cet estimateur est-il efficace ? Calculer sa variance.
2
(c) En utilisant l’estimateur σ
bM
V , déterminer un intervalle de confiance
bilatéral symétrique pour σ 2 au niveau 1 − α.
(d) On a observé un échantillon de taille 200 et on obtient
200
X
xi = 771.4
et
i=1
200
X
x2i = 3793
i=1
2
Calculer numériquement les réalisations de σ
bM
V et de l’intervalle de
2
confiance bilatéral symétrique pour σ au niveau 95%.
2. Deuxième méthode.
(a) Montrer la relation
E(X 2 ) =
2σ 2
k
2
(Pour cela, on exprimera l’espérance E(b
σM
V ).)
30
CHAPITRE 3. EXEMPLE DE PROBLÈMES
31
q
(b) En déduire que l’espérance E(X) est égale à σ 2−k
k et proposer un
estimateur σ
bm de σ par la méthode des moments.
(c) Montrer que cet estimateur est sans biais et calculer sa variance.
(d) En utilisant l’estimateur σ
bm , déterminer un intervalle de confiance
bilatéral symétrique pour σ au niveau 1 − α. En déduire un intervalle de confiance bilatéral symétrique pour σ 2 au même niveau de
confiance.
(e) Avec les mêmes données numériques que dans la question 1(d), calcu2
ler numériquement les réalisations de σ
bm
et de l’intervalle de confiance
2
bilatéral symétrique pour σ au niveau 95 %.
Loi exponentielle
Soit X une variable aléatoire suivant une loi de densité
θ−x
e
si x ≥ θ
f (x) =
0
sinon
On admettra que E(X) = θ + 1 et Var(X) = 1 et on supposera disposer d’un
échantillon i.i.d de grande taille.
1. Première partie
(a) Déterminer un estimateur θb1 de θ par la méthode des moments. Montrer que cet estimateur est sans biais. Déterminer sa variance.
(b) Déterminer un intervalle de confiance bilatéral approché au niveau
de confiance 1 − α en utilisant θb1 .
(c) Application numérique : on dispose d’un échantillon
de taille
P
P 2000
dont les principales caractéristiques sont :
xi = 8019,
x2i =
34410, min(xi ) = 3.0001 et max(xi ) = 12.3751. Calculer l’intervalle
de confiance pour α = 5%.
2. Seconde partie
(a) Calculer la fonction de vraisemblance L(θ; x1 , . . . , xn ) et tracer son
graphe.
(b) En déduire l’estimateur θb2 du maximum de vraisemblance. On admettra pour la suite que E(θb2 ) = θ + 1 et Var(θb2 ) = 12 .
n
n
(c) Déterminer la fonction de répartition de θb2 .
(d) Déterminer un intervalle de confiance bilatéral au niveau de confiance
α en utilisant θb2 .
(e) En prenant les mêmes données numériques que dans la première partie, calculer l’intervalle de confiance ainsi obtenu. Le comparer à celui
obtenu avec l’estimateur θb1 .
Estimateur le plus précis
Soit X une v.a. normale de paramètres µ et σ 2 inconnus et X1 , . . . , Xn un
échantillon i.i.d. de variable parente X.
CHAPITRE 3. EXEMPLE DE PROBLÈMES
32
1. Première partie
On se propose tout d’abord d’étudier la famille des estimateurs de σ 2 de
la forme :
n
X
σ
ba2 = a
(Xi − X)2 , a ∈ R.
i=1
(a) Montrer que la méthode du maximum de vraisemblance conduit à
choisir a = 1/n.
(b) Calculer E(b
σa2 ) et en déduire la valeur de a pour laquelle σ
ba2 est sans
biais.
(c) On s’intéresse maintenant à la précision de σ
ba2 définie par la quantité :
R(b
σa2 , σ 2 ) = E[(b
σa2 − σ 2 )2 ].
i. Montrer que
R(b
σa2 , σ 2 ) = [a2 (n2 − 1) − 2a(n − 1) + 1]σ 4 .
(On rappelle que
2
σ
ba
aσ 2
∼ χ2n−1 ).
ii. En déduire la valeur de a pour laquelle l’estimateur σ
ba2 est le plus
précis.
2. Seconde partie
On considère maintenant les estimateurs de µ de la forme :
µ
bb = b
n
X
Xi ,
b∈R
i=1
(a) Calculer la valeur de b obtenue par la méthode du maximum de vraisemblance et montrer que l’estimateur correspondant est sans biais.
(b) Montrer que la précision de µ
bb est égale à :
R(b
µb , µ) = b2 n(σ 2 + nµ2 ) − 2bnµ2 + µ2
et en déduire la valeur de b minimisant R(b
µb , µ).
(c) Est-il possible en pratique de déterminer une valeur de b telle que
l’estimateur µ
bb soit le plus précis ? Pourquoi ?
Quelle approximation peut-on faire pour n grand et σ 2 petit ?
CHAPITRE 3. EXEMPLE DE PROBLÈMES
3.2
33
Tests
Loi γ(t, λ)
Soit X une v.a. suivant une loi gamma de paramètres t et λ, de densité :
1/Γ(t)λt xt−1 e−λx si x ≥ 0
f (x) =
0
sinon
On considère la réalisation suivante d’un échantillon i.i.d. de X :
1.8
6.8
0.5
1.0
6.6
4.5
4.8
2.8
1. Montrer que :
Z
Γ(t) =
+∞
xt−1 e−x dx.
0
Montrer que Γ(1) = Γ(2) = 1.
2. En admettant que t = 2, donner un estimateur efficace d’une fonction
de λ. Calculer son espérance et sa variance. En déduire l’espérance et la
variance de X.
3. Toujours en admettant que t = 2, tester l’hypothèse H0 : λ = 1/2 contre
l’hypothèse H1 : λ > 1/2 , pour un risque de première espèce α = 5%.
On précisera notamment :
(a) la forme de la région critique en la justifiant,
(b) la règle de décision (faire l’approximation normale),
(c) l’application numérique avec les données de l’exercice.
(d) le risque de seconde espèce pour λ = 1.
4. En fixant λ = 1/2, donner la forme de la région critique optimale pour les
hypothèses H0 : t = 2 contre H1 : t = 1.
5. Tester l’hypothèse H0 : l’échantillon est issu d’une loi gamma de paramètres t = 2 et λ = 1/2, contre l’hypothèse H1 : l’échantillon est issu
d’une autre loi.
Temps de fonctionnement sans panne d’un appareil
L’instant T de panne d’un appareil est une variable aléatoire obéissant à une
loi exponentielle de paramètre µ > 0 :
f (t) =
1 −t/µ
e
1]0,+∞[ (t)
µ
On réalise deux expériences.
– 1ère expérience
On met n = 225 appareils en service à la même date t0 et on note Ti
l’instant de panne de l’appareil numéro i.
1. Calculer l’espérance mathématique de T .
2. Donner l’estimateur de µ par la méthode du maximum de vraisemblance. Est-il efficace ? Si oui, donner sa variance.
CHAPITRE 3. EXEMPLE DE PROBLÈMES
34
3. On suppose que le temps moyen de fonctionnement sans panne de
ce type d’appareil est égal à 750 heures. Tester cette hypothèse avec
α∗ = 0.05. Application numérique : t = 812 heures.
4. Calculer la puissance du test si le temps moyen de bon fonctionnement est de 900 heures.
– 2ème expérience
On met n appareils en service durant un temps τ = 500 heures et on
compte le nombre d’appareils en panne à l’issue de cette période τ .
1. Calculer la probabilité p pour qu’un appareil tombe en panne entre
les instants 0 et τ .
2. Soit X, le nombre d’appareils en panne avant τ , sur les n qui avaient
été mis en service. Donner la loi de X.
3. Reformuler les hypothèses du test précédent comme des hypothèses
sur le paramètre de la loi de X et tester ces hypothèses.
4. Calculer la puissance du test sous la même hypothèse que précédemment.
5. Quelle taille devra avoir l’échantillon pour avoir la même puissance
que dans la première expérience ?
Test du rapport de vraisemblance
Soit X1 , . . . , Xn un échantillon i.i.d. de variable parente X ∼ E(θ), de densité
fX (x) = θe−θx 1[0,+∞[ (x),
θ étant un paramètre positif.
b estimateur du maximum de vraisemblance de θ.
1. Donner l’expression de θ,
2. Calculer l’information de Fisher In (θ) relative au paramètre θ. En déduire
une fonction asymptotiquement pivotale pour θ.
3. On considère le problème de test suivant
H0
: θ = θ0
H1
: θ = θ1
avec θ1 > θ0 . Montrer que la région critique W du test le plus puissant
b puis donner
pour ce problème au niveau α∗ s’exprime en fonction de θ,
une approximation de W en supposant n grand.
4. On considère maintenant le problème de test suivant
H0
: θ = θ0
H1
: θ 6= θ0
Existe-t-il un test UPP pour ce problème ?
5. Calculer la statistique du rapport de vraisemblance λ pour le problème de
test de la question précédente.
b En déduire la forme de la
6. Etudier les variations de ln(λ) en fonction de θ.
région critique W 0 du test du rapport de vraisemblance pour le problème
de la question 4, puis une approximation de W 0 en supposant n grand.
CHAPITRE 3. EXEMPLE DE PROBLÈMES
35
Test randomisé
On prélève 20 pièces dans un lot et on compte le nombre X de pièces défectueuses. On admet que X ∼ B(20, p), p étant la proportion inconnue de pièces
défectueuses dans le lot. On souhaite tester les hypothèses H0 : p = 0.5 contre
H1 : p > 0.5, au niveau de signification α∗ = 0.05.
1. Montrer qu’il existe un test UPP pour ce problème, de la forme
X > A.
Déterminer A pour que le risque de première espèce α ait la plus grande
valeur possible tout en respectant la contrainte α ≤ 0.05.
2. L’inconvénient de la procédure précédente est qu’elle a un risque de première espèce strictement inférieur à 5 %. On propose donc la procédure
plus complexe suivante :
– si X > A, on accepte H1 ;
– si X < A, on accepte H0 ;
– si X = A, on fait un tirage au sort : on accepte H1 avec une probabilité
γ, et H0 avec une probabilité 1 − γ.
Exprimer le risque de première espèce α de ce test en fonction de γ (A
ayant la valeur déterminée dans la question 1), puis déterminer γ pour
avoir α = 0.05.
3. Calculer la puissance du test défini dans la question 2, pour p = 0.8.
Téléchargement