Notes du cours de statistique L3 Maths et L3 Maths

publicité
Notes du cours de statistique
L3 Maths et L3 Maths-info
Année 2009-2010
P. Ailliot, N. Raillard
29 mars 2010
1 Introduction
La statistique est l'activité qui consiste à recueillir, traiter et interpréter des données. La
démarche statistique consiste généralement en 3 étapes :
Le recueil des données (non abordé dans ce cours). Comment recueillir les données pour
qu'elles apportent le plus d'information possible par rapport à la question posée ?
La partie exploratoire ou descriptive (non abordée dans ce cours mais quelques exemples
seront traités en exercices). L'objectif de cette étape est de synthétiser l'information contenue
dans les données an de mettre en évidence certaines propriétés et de suggérer des hypothèses.
Cela peut être réalisé en calculant des valeurs numériques (moyennes, écart types, proportions,
...), ou sous la forme de graphiques (histogrammes, camenberts...) et de tableaux.
Statistique inférentielle. Son but est de valider ou d'inrmer les hypothèses faites dans la
phase exploratoire.
Quelques exemples qui serviront à illustrer ce cours :
Exemple 1 : contrôle de qualité. Un client commande à son fournisseur un lot de 10000
thermomètres. An de tester la qualité des thermomètres, le client en choisit 20 au hasard et
les plonge dans un liquide à 20 degrés. Il obtient les résultats suivants :
20.2, 20.4, 20.1, 19.9, 19.7, 20, 20.5, 19.9, 19.9, 20.1, 20.4, 20.6, 20, 19.8, 20.3, 19.6, 19.8, 20.1,
20.3, 20
Que peut-on en déduire sur la qualité des thermomètres ? Est-ce qu'ils donnent la bonne
température en moyenne ? Avec quelle précision ?
Exemple 2 : sondage. An d'estimer les intentions de vote lors du deuxième tour d'une
election présidentielle, un institut réalise un sondage. Sur 1000 personnes interrogées au
hasard, 520 pensent voter pour le candidat A et 480 pour le candidat B. Que peut-on en
déduire sur les intentions de vote dans la population Française ? Avec quelle précision le
sondage eectué permet t'il d'estimer le pourcentage d'intention de vote en faveur du candidat
A ? Peut on déduire de ce sondage, avec une certaine conance, que à la date du sondage le
candidat A est en tête ?
Exemple 3 : ecacité d'un médicament en médecine. An d'étudier l'eet d'un
nouveau médicament en vue de réduire la tension artérielle, on a mesuré la tension (en mm de
Hg) sur 12 patients avant et après traitement. Les valeurs suivantes ont été obtenues :
Avant
200
174
198
170
179
182
193
209
185
155
169
210
Après
191
170
177
167
159
151
176
183
159
145
146
177
Peut-on conclure que ce médicament réduit la tension artérielle ?
1
Autres exemples d'application :
Peut-on prévoir le cours d'une action ?
Dans quelle mesure le fait de fumer des cigarettes augmente-t-il les risques de cancer du
poumon ?
Comment estimer les stocks de poissons dans une zone maritime donnée ?
Quelle est la probabilité d'avoir une température inférieur à 0 deg à Brest au mois de Janvier ?
Cette probabilité a t'elle évolué au cours des dernières décennies ?
Comment "cibler" de manière optimale les clients lors d'une campagne de publicité ?
2 Introduction à l'estimation ponctuelle
2.1 Introduction
On dispose de
n
observations notées
(x1 , ..., xn ) ∈ Rn
(cf exemples ci-dessus). On va supposer
tout d'abord que ces observations sont une réalisation d'une expérience aléatoire, c'est à dire qu'il
existe un espace probabilisé
espace probabilisé
(Ω, F , P)
(Ω, F , P)
et des variables aléatoires réelles
telles que
(x1 , ..., xn ) = (X1 (ω), ..., Xn (ω))
(X1 , ..., Xn ) dénies
avec ω ∈ Ω.
sur un
Ceci permet de modéliser l'aléatoire qui est généralement présente dans le recueil des données.
Par exemple, dans les exemples introduits ci-dessus :
Exemples 1,2 et 3 : dans ces 3 exemples, les individus considérés sont choisis au hasard
parmi un grand nombre d'individus. Si on recommence l'expérience, il y a de fortes chances
qu'on choisisse d'autres individus et qu'on obtienne des résultats diérents : le résultat de
l'expérience est donc bien "aléatoire" !
Exemples 1 et 3 : après avoir choisi les individus, on réalise des mesures qui peuvent être
sujettes à des erreurs expérimentales. Ceci rajoute de l'incertitude aux résultats obtenus !
On fait ensuite des hypothèses sur la loi de probabilité du n-uplet
(X1 , ..., Xn ).
Dans le cadre de
ce cours, on supposera que ce sont des variables aléatoires indépendantes et identiquement
distribuées (i.i.d). Il s'agit du cadre le plus simple, mais cette hypothèse n'est pas toujours
réaliste :
Lorsqu'on considère des phénomènes indexés par le temps (séries temporelles), l'hypothèse
d'indépendance n'est généralement pas vériée.
Exemple : Si (X1 , X2 , ..., Xn ) désigne les températures observées pendant n jours successifs,
alors l'hypothèse d'indépendance n'est pas vériée puisque la température du jour
généralement proche de celle du jour
i
est
i − 1.
La loi dépend de variables explicatives et l'hypothèse "identiquement distribuée" n'est pas
vériée.
Exemple : si (X1 , X2 , ..., Xn) désigne la taille de n individus pris au hasard, hommes et
femmes mélangés, alors la loi des variables aléatoires dépend du sexe (les hommes sont
généralement plus grands que les femmes) et on ne peut pas supposer que les observations
proviennent d'un échantillon "identiquement distribué".
Dénition On appelle n-échantillon
qui suivent le loi de probabilité
P.
P
X1 , ..., Xn ∼iid P
d'une loi de probabilité
On notera
une suite
(X1 , ..., Xn )
de v.a. i.i.d.
On suppose ensuite que la loi de probabilité commune de X1 , X2 , ..., Xn est un loi de probabilité
k
qui dépend d'un paramètre inconnu θ ∈ Θ avec Θ ⊂ R et on cherche alors à estimer le
paramètre inconnu
souvent que
θ
à partir des observations disponibles
Xi ∼iid N (m, σ 2 )
2
(x1 , ..., xn ).
Par exemple, on supposera
pour
i ∈ {1...n}.
Le paramètre inconnu est alors
θ = (m, σ) ∈ R ∗ R+∗ .
Dénition Soit (X1 , ..., Xn ) un n-échantillon d'une loi Pθ . Un estimateur
θ
est une variable aléatoire
T = g(X1 , ..., Xn )
qui s'exprime en fonction de
θ est alors la valeur numérique prise par cette statistique
(x1 , ..., xn ), c'est à dire la quantité t = g(x1 , ..., xn ).
estimation de
particulière
du paramètre inconnu
(X1 , ..., Xn ).
Une
sur une réalisation
Retour sur l'exemple 1 et dénition : on suppose que les températures observées sont une
réalisation d'un échantillon
(X1 , ..., Xn )
avec
n = 20.
Diérents paramètres inconnus peuvent être
utilisés pour mesurer la qualité des thermomètres, par exemple :
µ = E[Xi ]
qui décrit la température moyenne d'un thermomètre pris au hasard. Si les
µ ≈ 20. (NB : comme l'échantillon est i.d.,
E[Xi ] est indépendant de i)
σ 2 = var(Xi ) = E[Xi2 ] − E[Xi ]2 = E[(Xi − E[Xi ])2 ] qui décrit la dispersion des températures
mesurées par les thermomètres (si les thermomètres sont bons, on devrait avoir σ faible) .
thermomètres sont bien calibrés, on devrait avoir
Ces quantités sont inconnus, et on cherche à les estimer à partir des observations disponibles.
espérance mathématique µ est alors la moyenne empirique
L'estimateur usuel de l'
n
X̄ = X1 +...+X
n
Un estimateur usuel de la
variance mathématique σ2
S2 =
n
i=1
n
Xi2
− X̄ 2 =
est la
variance empirique
1 2
(X − X̄)2
n i=1 i
n
écart-type empirique
S est appelé
.
n
2
x +...+xn
2
n
i=1 xi
et s =
− x̄2 . x̄ = x1 +...+x
est
Les estimations correspondantes sont notées x̄ = 1 n
n
n
2
la moyenne observations et s une mesure de la dispersion des observations autour de la valeur
2
moyenne. Pour notre exemple, on obtient les valeurs numériques x̄ = 20.075 degré, s = 0.072875
2
degré
et s = 0.26995 degré.
Retour sur l'exemple 2 et dénition : Prenons l'exemple d'un sondage sur les intentions de
vote lors d'une élection avec deux candidats (notés A et B). Le paramètre inconnu est la
proportion
π
d'intentions de vote en faveur de B dans la population totale. Pour estimer cette
quantité, on sonde
n = 1000
personnes choisies au hasard, et on code les résultats de la manière
suivante :
xi = 0
xi = 1
si la ième personne sondée pense voter pour A
si la ième personne sondée pense voter pour B
(x1 , ..., xn ) est une réalisation d'un échantillon (X1 , ..., Xn ) d'une loi de Bernoulli
θ = π = P [Xi = 1] est le paramètre de cette loi de Bernoulli. Un
estimateur "naturel" de π est alors la fréquence empirique F de 1 dans la séquence
(X1 , ..., Xn ), c'est à dire :
n
Xi
card{i ∈ {1...n}|Xi = 1}
= i=1
F =
n
n
On suppose que
et le paramètre inconnu
En remarquant que
π = E[Xi ]
et
F = X̄ ,
on peut remarquer qu'on retrouve l'estimateur
précédent de l'espérance.
Supposons que lors du sondage, on trouve que 480 personnes pensent voter en faveur du candidat
B (i.e. 480 "1" dans la série
(x1 , ..., xn )).
f=
π
n
Une estimation de
card{i ∈ {1...n}|xi = 1}
=
n
3
est alors
i=1
n
xi
= 0.48
Remarque : Dans la suite du cours, les variables aléatoires (Xi , X̄ , F , S ) sont notées avec des
lettres majuscules, les observations (xi ) et les estimations (f ,
x̄, s) avec
µ, σ ).
des lettres minuscules.
Les paramètres inconnus sont notés avec des lettres grecques (π ,
2.2 La méthode du maximum de vraisemblance
La fonction de vraisemblance dénie ci-dessous joue un rôle fondamental en statistique.
Dénition On appelle fonction de vraisemblance
de l'échantillon
(X1 , ..., Xn )
la loi de
probabilité de ce n-uplet, c'est à dire la quantité :
L(θ; x1 , ..., xn ) = P (X1 = x1 , ..., Xn = xn ; θ) =
discrètes
i=1
P (Xi = xi ; θ)
lorsque les
n
Xi
i=1 f (xi ; θ) lorsque les Xi sont des v.a. continues de densité
On appelle fonction de log-vraisemblance la quantité :
L(θ; x1 , ..., xn ) =
n
sont des v.a.
f (xi , θ)
l(θ; x1 , ..., xn ) = ln(L(θ; x1 , ..., xn ))
La méthode du maximum de vraisemblance consiste alors, étant donnée une réalisation
(x1 , ..., xn )
d'une loi
Pθ ,
à prendre comme estimation
t
de
θ
une valeur de
θ
qui rend maximale (si
ce maximum existe...) la fonction de vraisemblance
θ → L(θ; x1 , ..., xn )
On notera
t = argmaxθ L(θ; x1 , ..., xn ).
Remarques :
1. Dans le cas discret,
L(θ; x1 , ..., xn ) s'interprète directement comme la probabilité ou
(x1 , ..., xn ) lorsque θ est la vraie valeur du paramètre. Une
"vraisemblance" d'observer
interprétation similaire est valable dans le cas continu par passage à la limite. L'EMV est
donc la valeur des paramètres qui rend les observations le plus vraisemblable.
2. En pratique, on travaille souvent avec la fonction de log-vraisemblance, car elle est plus
simple à étudier (transformation du produit en somme).
Exemple : Si (X1 , ..., Xn ) est un échantillon d'une loi de Bernoulli de paramètre θ = π, alors
1 − π si xi = 0
Pθ (Xi = xi ) =
π si xi = 1
avec
θ = π.
Ceci se réécrit sous la forme
Pθ (Xi = xi ) = π xi (1 − π)1−xi pour xi ∈ {0, 1}
On en déduit que si
(x1 , ..., xn ) ∈ {0, 1}n
alors la vraisemblance est donnée par
L(π; x1 , ..., xn ) =
=
=
n
i=1
n
Pθ (Xi = xi )
π xi (1 − π)1−xi
i=1
n
π
4
i=1
xi
(1 − π)n−
n
i=1
xi
On en déduit que
l(π; x1 , ..., xn ) = ln(π)
n
xi + ln(1 − π)(n −
i=1
puis que
Donc
n
i=1
xi
n
∂l(π;x1 ,...,xn )
∂π
>0
. L'EMV est donc
∂l(π; x1 , ..., xn )
∂π
n
ssi
F =
i=1
xi
n
n
i=1
>π
Xi
n
n
xi )
i=1
n
=
n
i=1 xi
−
π(1 − π) 1 − π
et la fonction de vraisemblance atteint son maximum en
. On retrouve l'estimateur introduit ci-dessus.
Exemple/exercice : On considère les données de l'exemple 1.
1. Réaliser un histogramme de ces observations.
2. On suppose dans la suite de l'exercice que ces observations sont une réalisation de n
2
variables aléatoires (X1 , ..., Xn ) i.i.d. de loi N (µ, σ ). Cette hypothèse vous semble-t-elle
réaliste ?
3. Donner la fonction de vraisemblance. Quel est l'estimateur du maximum de vraisemblance
de
4.
θ = (µ, σ) ?
Application numérique. Calculer les estimations correspondantes sur les données de
température journalière à Brest, puis représenter sur la gure de la question 1. la densité
correspondante. Commentez.
Solution partielle :
Graphique : l'hypothèse de normalité semble douteuse (cf Figure 1).
(X1 , ..., Xn ) est un échantillon d'une loi normale
Xi est donnée, pour xi ∈ R, par :
(xi − µ)2
1
exp −
fθ (xi ) = √
2σ 2
2πσ
Calcul de la fonction de vraisemblance : si
moyenne
avec
µ
et écart-type
θ = (µ, σ).
σ,
alors la densité de la v.a.
Donc, la fonction de vraisemblance est donnée pour
L(θ; x1 , ..., xn )
=
n
(x1 , ..., xn ) ∈ Rn
par
fθ (xi )
i=1
n
(xi − µ)2
1
√
exp −
2σ 2
2πσ
i=1
n
2
1
i=1 (xi − µ)
=
exp
−
2σ 2
(2π)n/2 σ n
=
L'étude des points critiques montre que cette fonction atteint son maximum pour
σ=s
Application numérique : x̄ = 15.9679 et s = 1.7846.
5
µ = x̄
et
de
1.5
1
0.5
0
19
19.5
20
20.5
21
Fig. 1 Histogramme des températures et densité de la loi normale ajustée
2.3 Propriétés des estimateurs
On peut toujours dénir une innité d'estimateurs pour un paramètre inconnu donné, et en
pratique on cherchera à utiliser le "meilleur" de ces estimateurs. Ceci nécessite de dénir ce
qu'est un bon estimateur....
2.3.1 Biais d'un estimateur
Dénition : On appelle biais de l'estimateur T la quantité
biais(T ) = E(T ) − θ
On dit que l'estimateur
T
est
sans biais lorsque biais(T ) = 0, c'est à dire lorsque E[T ] = θ. Le
biais représente "l'erreur moyenne" qui est faite lorsqu'on utilise
T
pour estimer
θ.
Proposition Soit (X1 , ..., Xn ) est un n-échantillon d'une loi de moyenne E[Xi ] = µ.
X1 +...+Xn
est un estimateur sans biais de µ. En particulier, si (X1 , ..., Xn ) est un
n
X1 +...+Xn
est un estimateur sans biais de
n-échantillon de Bernoulli de paramètre π alors F =
n
X̄ =
π.
n−1 2
2
2
Si on suppose en outre que σ < ∞ alors E[S ] =
n σ .
2
2
S est donc un estimateur biaisé de σ , et on préfère parfois utilisé l'estimateur corrigé
2
Scorr
=
qui est un estimateur sans biais de
n
1 S2 =
(Xi − X̄)2
n−1
n − 1 i=1
n
σ2 .
Preuve
Si
(X1 , ..., Xn )
est un échantillon d'une loi de moyenne
E[X̄] =
=
=
µ
alors
X1 + ... + Xn
]
n
E[X1 ] + ... + E[Xn ]
n
µ
E[
6
On suppose que
σ 2 < ∞.
Par dénition,
S2 =
et de la décomposition
S2
1
(Xi − X̄)2
n i=1
n
(Xi − X̄) = (Xi − µ) − (X̄ − µ),
on déduit que :
1
(Xi − µ)2 − 2(X̄ − µ)(Xi − µ) + (X̄ − µ)2
n i=1
n
=
=
1
1
(Xi − µ)2 − 2(X̄ − µ)
(Xi − µ) + (X̄ − µ)2
n i=1
n i=1
=
1
(Xi − µ)2 − (X̄ − µ)2
n i=1
n
n
n
Donc
E[S 2 ] =
1
(Xi − µ)2 − (X̄ − µ)2 ]
n i=1
n
E[
=
1
E[(Xi − µ)2 ] − E[(X̄ − µ)2 ]
n i=1
=
σ 2 − E[(X̄ − µ)2 ]
n
Il reste à calculer
E[(X̄ − µ)2 ] = var(X̄)
n
1
= var(
Xi )
n i=1
=
n
1
var(
Xi )
n2
i=1
=
n
1 var(Xi )
n2 i=1
=
σ2
n
Finalement,
E[S 2 ] =
n−1 2
σ
n
♦
2.3.2 Erreur quadratique d'un estimateur
On mesure généralement la précision d'un estimateur par son erreur quadratique moyenne.
Dénition
L'erreur quadratique moyenne de l'estimateur
T
dénie par
EQM (T ) = E[(T − θ)2 ]
7
L'EQM représente l'espérance du carré de l'écart entre l'estimateur et le paramètre inconnu :
plus l'EQM est faible, plus l'estimateur est précis.
Remarque
On montre facilement que
E[(T − θ)2 ] = var(T ) + E[(T − θ)]2
c'est à dire que l'erreur quadratique moyenne est égale à la variance de l'estimateur plus le biais
de l'estimateur au carré. Lorsque l'estimateur est non-biaisé, l'EQM coincide avec la variance :
parmi deux estimateurs sans biais, le plus précis est donc celui de variance minimale.
Proposition Soit (X1 , ..., Xn ) est un échantillon d'une loi de moyenne µ et variance σ2 < ∞.
2
EQM (X̄) = var(X̄) = σn . En particulier, si (X1 , ..., Xn )
p(1−p)
de paramètre π alors EQM (F ) = var(F ) =
n
On a alors
Bernoulli
Si de plus
µ4 = E[(Xi − µ)4 ] < ∞,
est un échantillon de
alors
2
2
EQM (Scorr
) = var(Scorr
)=
n−3 4
µ4
−
σ
n
n(n − 1)
Preuve partielle
Si
(X1 , ..., Xn )
est un échantillon d'une loi de moyenne
estimateur sans biais de
µ,
EQM (X̄)
Le calcul de
2
var(Scorr
)
µ
et de variance
σ<∞
alors
X̄
est un
donc (cf preuve du paragraphe précédent)
= var(X̄)
X1 + ... + Xn
)
= var(
n
var(X1 ) + ... + var(Xn )
=
n2
2
σ
=
n
est plus délicat...♦
2.3.3 Propriétés asymptotiques
On notera dans ce paragraphe
(X1 , ..., Xn ).
Tn
un estimateur de
θ
basé sur un échantillon de taille
n
Un bon estimateur doit avoir de bonnes "propriétés asymptotiques", c'est à dire des propriétés de
convergence lorsque
n → ∞.
En particulier, on préférera des estimateurs qui sont convergents (ou
consistants).
Dénition
Tn est un estimateur convergent de θ lorsque Tn
∀& > 0, P [|Tn − θ| > &] → 0 quand n → +∞.
converge en probabilité vers
θ
c'est à dire
Proposition Soit (X1 , ..., Xn ) est un échantillon d'une loi de moyenne µ et de variance σ2 < ∞.
X1 +...+Xn
est un estimateur convergent de
n
échantillon de Bernoulli de paramètre π alors Fn
X̄n =
π.
8
µ. En particulier, si (X1 , ..., Xn ) est un
n
= X1 +...+X
est un estimateur convergent
n
de
1.5
1.5
1.5
1
0.5
0
β1
2
β1
2
β1
2
1
0.5
0
1
β
0
2
1
0.5
0
1
β
2
0
0
1
β
2
Fig. 2 Plusieurs réalisations de trois estimateurs diérents. La vraie valeur du paramètre est le
centre de la cible (point de coordonnés
(1, 1)). Le premier estimateur (gure de gauche) est biaisé
(on vise systématiquement trop en bas et à gauche du centre), alors que les deuxième (gure
du milieu) et troisième estimateurs (gure de droite) sont non-biaisés. La variance du deuxième
estimateur est plus forte que celle du troisième estimateur.
2
X12 +...+Xn
4
2
Si de plus µ4 = E[(Xi − µ) ] < ∞ alors Sn =
− X̄ 2 et
n
n
n
1
2
2
2
Sn,corr = n−1 S = n−1 i=1 (Xi − X̄) sont des estimateurs convergents de
σ2 .
Preuve Application directe de la loi des grands nombres (LGN). ♦
De nombreux estimateurs vérient un TCL, c'est à dire sont tels que
√
L
n(Tn − θ) → N (0, σ 2 (θ))
lorsque n est grand. Ce type de comportement asymptotique est couramment utilisé pour
construire des intervalles de conance ou réaliser des tests (cf paragraphes suivants) et est donc
particulièrement souhaitable.
Proposition Soit (X1 , ..., Xn ) est un échantillon d'une loi de moyenne µ et de variance σ2 < ∞
alors
En particulier, si
√
L
n(X̄n − µ) → N (0, σ 2 )
(X1 , ..., Xn )
est un échantillon de Bernoulli de paramètre
alors
π
et
Fn =
X1 +...+Xn
,
n
√
L
n(Fn − π) → N (0, π(1 − π))
Preuve utilisation directe du théorème central limite (TCL). ♦
Sn = g(Tn ) avec Tn un estimateur dont les
g : R → R une fonction. On peut alors déduire
de Tn en utilisant la proposition ci-dessous.
Certains estimateurs s'écrivent sous la forme
propriétés asymptotiques sont connues et
propriétés asymptotiques de
Sn
de celles
9
les
Proposition (delta méthode) : Si Tn est un estimateur convergent de θ et g est continue en θ
alors
g(Tn )
est un estimateur convergent de
g(θ).
Si de plus
√
L
n(Tn − θ) → N (0, σ 2 )
et
g
est dérivable en
θ
alors
√
L
n(g(Tn ) − g(θ)) → N (0, (g (θ))2 σ 2 )
Preuve :
Convergence : cf cours proba
Normalité asymptotique (idée de la preuve) : comme g est dérivable en θ , on peut écrire un
développement limité de la forme g(Tn ) = g(θ) + g (θ)(Tn − θ) + Rn . On a donc
√
√
n(g(Tn ) − g(θ)) ≈ ng (θ)(Tn − θ) avec
√ L
ng (θ)(Tn − θ) → N (0, (g (θ))2 σ 2 )
Exemple d'utilisation : Soit (X1 , ..., Xn ) un n-échantillon d'une loi exponentielle de paramètre
λ > 0.
La densité de
Xi
est alors
fλ (x) = λexp(−λx)1lR+ (x)
On peut montrer que l'estimateur du maximum de vraisemblance est
Tn =
nn
Tn = X̄1n et d'après les propositions précédentes
1
X̄n est un estimateur convergent de E[Xi ] =
λ
√
L
n(X̄n − λ1 ) → N (0, σ 2 ) avec σ 2 = var(Xi ) = λ12 .
En utilisant la delta méthode avec g(x) = 1/x, on en déduit que
Tn est un estimateur convergent
√
L
n(T̄n − λ) → N (0, λ2 )
de
i=1
Xi . On a donc
λ
3 Estimation par intervalles de conance
Dans les paragraphes précédents, des méthodes permettant d'estimer la valeur d'un paramètre
inconnu
θ
à partir d'observations ont été proposées. Ces méthodes fournissent seulement une
valeur ("estimation ponctuelle"), mais ne permettent pas de quantier la précision de cette
estimation. Pour cela, on utilise généralement des intervalles de conance qui peuvent
s'interpréter comme des marges d'erreur.
3.1 Construction d'intervalles de conance pour la moyenne d'un
échantillon Gaussien lorsque la variance est connue
On suppose dans ce paragraphe que
cherche à estimer
µ,
X1 , ..., Xn
est un n-échantillon d'une loi
supposé inconnu, mais on suppose que l'écart-type
σ
N (µ, σ 2 ).
On
est connu. Ceci est
rarement le cas en pratique, et ce cas particulier a donc principalement un objectif pédagogique.
Nous reviendrons sur la construction d'intervalles de conance la moyenne d'un échantillon sous
des hypothèses plus réalistes dans la suite de ce cours.
√ X̄−µ
σ2
n σ
On peut alors montrer que X̄ ∼ N (µ, n ) puis que
P [uα/2 ≤
∼ N (0, 1)
√ X̄ − µ
≤ u1−α/2 ] = 1 − α
n
σ
10
et donc
avec
uα
le quantile d'ordre
α
de la loi
N (0, 1),
ce qui se récrit
σ
σ
P [X̄ + uα/2 √ ≤ µ ≤ X̄ + u1−α/2 √ ] = 1 − α
n
n
[X̄ + uα/2 √σn ; X̄ + u1−α/2 √σn ] est un intervalle aléatoire (puisque les bornes
dépendent des variables aléatoires X1 , ..., Xn ) qui contient la vraie valeur du paramètre µ avec
une probabilité 1 − α. Un tel intervalle est appelé intervalle de conance au niveau de conance
1 − α pour µ.
En pratique les quantiles de la loi N (0, 1) peuvent être obtenus en utilisant des tables statistiques
L'intervalle
ou des logiciels adaptés (R, Matlab, SAS, Excel...)
Dénition :
l'intervalle aléatoire
au niveau de conance
1−α
pour
[a(X1 , ..., Xn ); b(X1 , ..., Xn )] est appelé intervalle de
θ si P [a(X1 , ..., Xn ) ≤ θ ≤ b(X1 , ..., Xn )]] = 1 − α.
conance
3.2 Construction d'intervalles de conance pour un échantillon
quelconque
n est susamment grande, on peut construire des intervalles de
µ en utilisant les propriétés asymptotiques de X̄ et S 2 .
(X1 , ..., Xn ) un n-échantillon d'une loi vériant var(Xi ) = σ 2 < +∞. Pour
Lorsque la taille de l'échantillon
conance pour la moyenne
Plus précisément, soit
"n grand", d'après le TCL, on a :
√ X̄ − µ
≈ N (0, 1)
n
σ
Cette approximation est valable même si l'échantillon n'est pas gaussien et permet de faire des
σ est connu.
2
de σ , et donc
σ
intervalles de conance lorsque
Lorsque
est un estimateur convergent
pour "n grand", on a
est inconnu, on peut utiliser le fait que
S2
S≈σ
Finalement, on en déduit que pour "n grand" :
√ X̄ − µ
≈ N (0, 1)
n
S
(Une démonstration rigoureuse de ce résultat peut être obtenue en utilisant le lemne de Slutsky :
√ X̄−µ
n S converge en loi vers une
on peut montrer que, sous les conditions d'application du TCL,
loi
N (0, 1))
En pratique, on suppose généralement que cette approximation est valide dès que
n ≥ 30
( !). On
a alors :
P [uα/2 ≤
√ X̄ − µ
≤ u1−α/2 ] ≈ 1 − α
n
S
puis
S
S
P [X̄ + uα/2 √ ≤ µ ≤ X̄ + u1−α/2 √ ] ≈ 1 − α
n
n
[X̄ + uα/2 √Sn ; X̄ + u1−α/2 √Sn ]
conance 1 − α pour µ.
L'intervalle
niveau de
est appelé "intervalle de conance asymptotique" au
Exemple/exercice : Quelle est la température moyenne donnée par les thermomètres ? On
donnera un intervalle de conance à 95% et on discutera la validité des hypothèses permettant la
construction de cet intervalle.
11
3.2.1 Construction d'intervalles de conance pour une proportion
Il est également possible de construire des intervalles de conance pour une proportion lorsque n
est grand. Soit
X1 , ..., Xn
un n-échantillon d'une loi de Bernoulli de paramètre
π.
D'après le
TCL, on sait que pour n grand, on a :
√
F −π
n
≈ N (0, 1)
π(1 − π)
F est un estimateur convergent de π , pour
F (1 − F ) (lemme de Studsky), et on a alors :
Comme
par
n grand, on peut remplacer le dénominateur
√
F −π
≈ N (0, 1)
n
F (1 − F )
puis
P [uα/2 ≤
√
F −π
n
≤ u1−α/2 ] ≈ 1 − α
F (1 − F )
F (1 − F )
F (1 − F )
√
√
P [F + uα/2
≤ π ≤ F + u1−α/2
]≈1−α
n
n
√
√
F (1−F )
F (1−F )
√
√
Donc [F + uα/2
;
F
+
u
] est un intervalle de conance asymptotique au
1−α/2
n
n
niveau de conance 1 − α pour π . En pratique, on suppose généralement que cette approximation
est valable dès que nπ ≥ 5 et n(1 − π) ≥ 5. Comme π est inconnu en pratique, on vérie a
et enn
posteriori si les conditions sont vériées pour les bornes de l'intervalle de conance, c'est à dire
n(F − uα/2
√
F (1−F )
√
)
n
≥5
et
n(1 − F − u1−α/2
√
F (1−F )
√
)
n
≥5
Exemple/exercice : An d'estimer les intentions de vote lors du deuxième tour d'une élection
présidentielle, un institut réalise un sondage. Sur 1000 personnes interrogées au hasard, 520
pensent voter pour le candidat A et 480 pour le candidat B. Donner une estimation de la
proportion d'intention de vote en faveur du candidat A dans la population totale, ainsi qu'un
intervalle de conance à 95%. Combien de personne faudrait-il sonder pour être certain d'obtenir
un intervalle de conance à 95% dont la largeur est inférieur à 0.1% ?
4 Tests statistiques
4.1 Généralité sur les tests
Un test statistique permet de vérier si certaines hypothèses faites sur la valeur des paramètres
sont réalistes ou non. Plus précisément, dans le cadre de ce cours, nous nous intéresserons à tester
des hypothèses de la forme
H0 : θ ∈ Θ 0
avec
contre l'hypothèse alternative
H1 : θ ∈
/ Θ0
Θ0 ⊂ Θ.
On distingue usuellement deux types d'erreurs :
erreur de première espèce qui consiste à rejeter H0 alors que H0 est vraie. On appelle
risque de première espèce α la probabilité de choisir H1 alors que H0 est vraie.
L'erreur de deuxième espèce qui consiste à accepter H0 alors que H0 est fausse. On appelle
risque de deuxième espèce β la probabilité de choisir H0 alors que H0 est fausse.
L'
En pratique, on xe généralement
important que
H1 . 1 − β
α
(valeurs courantes : 5%, 1%) et
H0
joue donc un rôle plus
est appelé la puissance du test : pour un risque de première espèce
xé, on cherche à construire le test dont la puissance est la plus grande !
12
α
4.2 Tests basés sur la loi normale
4.2.1 Tests pour une moyenne
On dispose d'un n-échantillon
(X1 , ..., Xn )
d'une loi d'espérance inconnue
µ = E[Xi ]
et on veut
tester l'hypothèse simple
H0 : µ = µ0
avec
µ0
contre l'hypothèse alternative
H1 : µ = µ0
une valeur xée.
Premier cas : supposons que (X1 , ..., Xn ) ∼iid N (µ, σ2 ) avec σ connue (cf paragraphe sur les
intervalles de conance). On a alors :
√ X̄ − µ
∼ N (0, 1)
n
σ
Donc, si
H0
est vraie, on a
µ = µ0
et
PH0 [uα/2 ≤
On adopte alors la
√ X̄ − µ0
≤ u1−α /2] = 1 − α
n
σ
règle de décision suivante :
√
0
H0 si n X̄−µ
∈ [uα/2 , u1−α/2 ].
σ
H0 sinon.
On accepte
On refuse
Remarque : On accepte donc H0
lorsque ,
σ
σ
X̄ ∈ [µ0 + uα/2 √ , µ0 + u1−α/2 √ ]
n
n
c'est à dire lorsque
X̄
est susamment proche de
que le risque de première espèce soit bien égal à
µ0 .
La règle de décision est construite pour
α.
Deuxième cas : on ne suppose plus que l'échantillon est gaussien ni que la variance σ2
connue. Par contre, on suppose que
l'approximation
soit valable. Alors, si
H0
est vraie,
n
est susamment grand (n
≥ 30 ?)
est
pour que
√ X̄ − µ
≈ N (0, 1)
n
S
on a µ = µ0 et
PH0 [uα/2 ≤
√ X̄ − µ0
≤ u1−α/2 ] = 1 − α
n
S
On adopte alors la règle de décision suivante :
√ X̄−µ0
On accepte H0 si
n S ∈ [uα/2 , u1−α/2 ].
On refuse
H0
sinon.
Exemple/exercice : Avec les données de l'exemple 1 peut-on armer que les thermomètres
mesurent bien une température de
20o C
avec un risque de 5% ?
4.2.2 Test pour une proportion
On dispose d'un n-échantillon
(X1 , ..., Xn )
d'une loi de Bernoulli de paramètre
veut tester l'hypothèse simple
H0 : π = π0
contre l'hypothèse alternative
13
H1 : π = π0
π
inconnu, et on
On a vu que pour n "grand" (cf paragraphe sur les intervalles de conance), on a
√
F −π
n
≈ N (0, 1)
π(1 − π)
Donc, si
H0
π = π0
est vraie, on a
et
PH0 [uα/2 ≤
√
F − π0
≤ u1−α/2 ] ≈ 1 − α
n
π0 (1 − π0 )
nπ ≥ 5
On suppose généralement que cette approximation est valable lorsque
et
n(1 − π) ≥ 5.
On
adopte alors la règle de décision suivante :
√
On accepte H0 si
n √ F −π0 ∈ [uα/2 , u1−α/2 ].
π0 (1−π0 )
On refuse
H0
sinon.
Exemple/exercice : An d'estimer les intentions de vote lors du deuxième tour d'une élection
présidentielle, un institut réalise un sondage. Sur 1000 personnes interrogées au hasard, 520
pensent voter pour le candidat A et 480 pour le candidat B. Etant donnés les résultats de ce
sondage, peut-on supposer que les intentions de vote dans la population totale sont identiques en
faveur des deux candidats ?
4.3 Tests basés sur la loi du χ2
4.3.1 Rappels sur la loi du
La loi du
χ2
χ2
(khi-deux) est une loi très utile en pratique car de nombreuses statistiques suivent
cette loi ou convergent vers cette loi. Nous nous contenterons d'énoncer certaine de ses propriétés
les plus utiles pour la suite.
Denition
:
Soient U1 , . . . , Un , n variables N (0, 1) indépendantes. La loi de la variable aléatoire
n
2
2
i=1 Ui est appelée loi du khi-deux à n degrés de libertés. On note X ∼ χn
2
+
Il est relativement clair que la loi du χ est une loi de probabilité sur R , admettant une densité.
X=
Cette dernière est défnie par :
g(t) =
n
t
1
t 2 −1 e− 2 1lR+ (t)
n
2 2 Γ( n2 )
On peut montrer de plus les propriétés suivantes de cette loi :
2
2
Soient X ∼ χn et Y ∼ χm , indépendantes. On a alors :
2
X + Y ∼ χ(n+m)
Propriétés :
E(X) = n
V (X) = 2n
Exercice : Montrer les propriétés précédentes.
4.3.2 Tests sur la variance d'une loi normale
On dispose d'un n-échantillon
(X1 , ..., Xn )
d'une loi normale de paramètres
µ
et
σ.
On souhaite
alors tester l'hypothèse simple
H0 : σ = σ0
avec
σ0
et
σ1
contre l'hypothèse alternative
H1 : σ = σ1
deux valeurs xées.
avec
σ1 > σ0
Premier cas : supposons que (X1 , ..., Xn ) ∼iid N (µ, σ2 ) avec µ connu. On a alors :
n
i=1 (Xi
σ2
− µ)2
14
∼ χ2n
Donc, si
H0
est vraie, on a
σ = σ0
PH0 [
, où
kn,alpha
i=1 (Xi
σ02
est le quantile d'ordre
de décision suivante :
n
(X −µ)2
H0 si i=1 σ2 i
0
H0 sinon.
On accepte
On refuse
et
n
α
d'une
− µ)2
χ2
à
> kn,alpha ] = α
n
degrés de libertés. On adopte alors la
règle
< kn,alpha
Remarques :
On accepte donc
H0
lorsque ,
1
σ 2 kn,alpha
(Xi − µ)2 > 0
n i=1
n
n
D=
c'est à dire lorsque
D
l'estimation de la variance est susamment petite. La règle de
décision est construite pour que le risque de première espèce soit bien égal à α.
2
La loi du χ permet de construire des intervalles de conance de manière similaire à celle
développée dans la partie correspondante.
2
Deuxième
cas : supposons que (X1 , ..., Xn ) ∼iid N (µ, σ ) avec µ inconnu, mais estimé par
X̄ =
1
n
n
i=1
Donc, si
H0
Xi .
On a alors :
n
i=1 (Xi
σ2
est vraie, on a
σ = σ0
PH0 [
On adopte alors la
∼ χ2n−1
et
n
i=1 (Xi
σ02
− X̄)2
> kn−1,α ] = α
règle
de décision suivante :
n
(X −X̄)2
H0 si i=1 σ2i
0
H0 sinon.
On accepte
On refuse
− X̄)2
< kn−1,α
Remarque importante : Les deux tests présentés ici utilisant la loi du χ2 ne sont valables
que dans le cas où les observations suivent une loi normale.
Exemple/exercice : Le fabriquant de thermomètres pris dans l'exemple 1 arme que ses
thermomètres donnent la bonne température à
0.1o C
près. Au risque de 5%, pouvez-vous
conrmer ou non cette armation ?
4.3.3 Test du rapport de vraisemblance
Nous allons maintenant construire un test ne se basant pas sur un type de loi particulier, mais
valable du moment où l'on sait calculer la vraisemblance du modèle.
p
Supposons que l'on souhaite tester H0 : θ = θ0 où θ ∈ R est un paramètre, caractérisant
complètement le modèle par le biais de la vraisemblance.
Posons alors :
λn =
L(θ0 ; x1 , . . . , xn )
supL(θ; x1 , . . . , xn )
θ
Notons déjà que
Intuitivement,
θ0
λn
λn
se situe entre 0 et 1.
sera d'autant plus proche de 1 que l'hypothèse
H0
est proche de la valeur qui réalise le maximum de vraisemblance,
acceptera
H0
si
λn < k ,
avec
k
est vraisemblable car alors
θ̂.
On en déduit que l'on
une valeur à déterminer pour contrôler le risque associé au test.
Ce point est réglé grâce le théorème suivant, donc nous ferons la démonstration dans le cas où
est un paramètre scalaire.
15
θ
L
Théorème : Sous l'hypothèse H0 , −2 ln λn n→∞
→ χ2p
Preuve : La preuve sera faite en cours, nous ne donnerons ici que les idées de base. Nous nous
plaçons dans le cas où le paramètre
θ̂,
au voisinage de
θ
est scalaire. Ensuite, un développement en série de Taylor
point où la dérivé s'annule (car c'est un maximum), puis la loi des grand
nombre, nous donnent le résultat attendu.
♦
4.3.4 Test d'adéquation à une loi
Nous présenterons ici un test classique d'adéquation à une loi discrète, ou à une loi discrétisée. Ce
test est couramment utilisé en pratique, par exemple pour tester l'équilibre d'un dé sur la base
d'un échantillon de lancer obtenue avec ce dé. On voit si cet exemple que l'on se situe dans un
cadre plus général que lorsque que l'on cherche à tester l'équilibre d'une pièce.
Supposons que l'on se donne une variable aléatoire réelle X, dont la loi est discrète, c'est-à-dire
qu'elle prend
k
modalités distinctes, chacune avec une probabilité
pi ,
pour
i = 1, . . . , k .
Soit
encore un échantillon de cette variable aléatoire de taille n, c'est-à-dire que pour chaque modalité
k
on observe un eectif Ni , avec n =
i=1 Ni . On peut noter que l'on a E(Ni ) = npi .
Formons alors la statistique
D
dénie par :
D=
k
(Ni − npi )2
(4.1)
npi
i=1
Intuitivement, cette quantité représente la distance entre ce que l'on observe (les
quantité espéré,
observée de
D
npi .
On se rend alors compte que si les
(pi )
Ni )
et la
sont ceux de la vraie loi, la valeur
sur un échantillon sera faible.
D suit asymptotiquement une loi du χ2 à k-1 degrés de liberté : on
remarque en eet que k termes interviennent dans la somme, mais qu'il ne sont pas tous
k
indépendants : on a déjà noté que
i=1 Ni = n, il y sut donc de connaitre k − 1 termes.
On peut montrer que
Il est alors facile d'en déduire le test des hypothèses suivantes :
On rejettera alors
Remarque :
H0
si
D>s
avec
H0 : ∀i, pi = pi0
H1 : ∃i pi = pi0
P (χ2k−1 > s) = α.
On peut aussi étendre ce test à la comparaison de plusieurs échantillons décrits
par une variable qualitative. Cette extension sera traitée à titre d'exercice.
Exemple/exercice : On réalise plusieurs lancers succecifs d'un même dé, les résultats étant
reportés dans le tableau ci-dessous. En se xant un risque de 5%, eut-on considérer que le dé est
équilibré ?
Face
1
2
3
4
5
6
Eectifs
9
16
23
10
13
19
16
Téléchargement