Statistique mathématique pour le Master 1 Cours de l`ENS Cachan

publicité
Statistique mathématique pour le Master 1
Cours de l’ENS Cachan Bretagne
Benoît Cadre
4 juin 2010
2
Table des matières
1
2
3
Modélisation statistique
1.1 Un exemple . . . . . . . . . . . . . .
1.2 Principe fondamental de la statistique
1.3 Modèle statistique . . . . . . . . . . .
1.4 Domination dans un modèle statistique
1.5 Estimation . . . . . . . . . . . . . . .
1.6 Construction des estimateurs . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Principes de l’inférence statistique
2.1 Critères de performance en moyenne . . . . . . . . . . . . . . .
2.2 Critères de performance asymptotique . . . . . . . . . . . . . .
2.3 Intervalles de confiance . . . . . . . . . . . . . . . . . . . . . .
2.3.1 Intervalle de confiance pour une taille d’échantillon finie
2.3.2 Intervalle de confiance asymptotique . . . . . . . . . . .
Vraisemblance
3.1 Le concept de vraisemblance . . .
3.2 Consistance de l’EMV . . . . . .
3.3 Information de Fisher . . . . . . .
3.4 Normalité asymptotique de l’EMV
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5
5
7
9
11
12
14
.
.
.
.
.
17
17
21
23
24
25
.
.
.
.
29
29
31
35
39
4
Classification des statistiques
43
4.1 Estimateurs efficaces . . . . . . . . . . . . . . . . . . . . . . . . 43
4.2 Statistiques exhaustives . . . . . . . . . . . . . . . . . . . . . . . 46
4.3 Statistiques complètes . . . . . . . . . . . . . . . . . . . . . . . . 51
5
Test statistique
55
5.1 Problème de test . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3
4
TABLE DES MATIÈRES
5.2
5.3
5.4
5.5
5.6
6
Erreurs d’un test . . . . . . . . . . .
Comparaison des tests . . . . . . . .
Optimalité dans les tests simples . .
Optimalité dans les tests composites
Tests asymptotiques . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Statistique des échantillons gaussiens
6.1 Projection de vecteurs gaussiens . . . . . . . . .
6.2 Tests sur les paramètres . . . . . . . . . . . . . .
6.3 Comparaison de 2 échantillons . . . . . . . . . .
6.4 Modèle linéaire gaussien . . . . . . . . . . . . .
6.4.1 Le problème et sa formulation vectorielle
6.4.2 Statistique de test . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. 57
. 60
. 62
. 65
. 66
.
.
.
.
.
.
69
69
71
73
74
74
75
.
.
.
.
.
.
Chapitre 1
Modélisation statistique
1.1
Un exemple
Une pièce a une probabilité p0 ∈]0, 1[ de tomber sur "pile". Sur les 1000 lancers réalisés indépendamment les uns des autres, on compte 520 "pile" et 480
"face". On est donc tenté de conclure que p0 ≈ 0.52. Cependant, de la même manière qu’il est sans intérêt de donner une valeur approchée d’une intégrale sans
préciser l’erreur d’approximation, ce résultat n’a que peu de valeur, car il ne nous
renseigne pas sur l’erreur commise.
Nous allons examiner de quelle manière la construction d’un modèle permet
de combler cette lacune. On note x1 , · · · , xn les résultats des n = 1000 lancers de
pièce, avec la convention suivante : xi = 1 si le i-ème lancer a donné "pile", et 0
dans le cas contraire. Le principe de base de l’estimation statistique est de considérer que x1 , · · · , xn est une réalisation de la loi B(p0 )⊗n , si pour chaque p ∈ [0, 1],
B(p) désigne la loi de Bernouilli de paramètre p (i.e. B(p) = pδ1 + (1 − p)δ0 ,
avec δ0 et δ1 les mesures de Dirac en 0 et 1). En l’absence d’informations sur la
valeur de p0 , on ne peut en fait que supposer que x1 , · · · , xn est une réalisation de
l’une des lois {B(p)⊗n , p ∈]0, 1[}.
De cet ensemble de probabilités, appelé modèle statistique, on cherche à déduire la valeur de p qui s’ajuste le mieux aux observations x1 , · · · , xn . Une réponse
raisonnable est basée sur l’intuition suivante : compte tenu des informations dont
on dispose, la meilleure approximation de p0 que l’on puisse donner est une valeur
5
6
CHAPITRE 1. MODÉLISATION STATISTIQUE
qui maximise la fonction
n
⊗n
n
n
p 7→ B(p) ({x1 , · · · , xn }) = ∏ B(p)({xi }) = p∑i=1 xi (1 − p)n−∑i=1 xi .
i=1
C’est le principe de construction d’une valeur approchée -on parlera d’estimateurde p0 par maximisation de la vraisemblance. Selon ce principe, la valeur qui
s’ajuste le mieux aux observations est la moyenne empirique des observations :
1 n
x̄n = ∑ xi .
n i=1
On retrouve ainsi la valeur x̄n = 0.52 du début.
L’introduction d’un modèle nous permet en plus de donner une erreur dans
l’approximation. Soit p ∈]0, 1[, et X1 , · · · , Xn des v.a. i.i.d. sur l’espace probabilisé
(Ω , F , P) de loi commune B(p). On peut calculer le risque quadratique, c’està-dire le carré de la distance L2 entre la cible p et l’estimateur X̄n = (1/n) ∑ni=1 Xi
obtenu par le principe de maximisation de la vraisemblance :
1
1
2
E (X̄n − p) = EX1 (1 − EX1 ) = p(1 − p).
n
n
Comme p(1√
− p) ≤ 1/4, l’erreur quadratique moyenne commise est donc majorée par 1/(2 n) ≈ 0.016. Cependant, si le résultat donne des informations sur la
qualité de l’approximation, ce n’est qu’une évaluation en moyenne, qui ne dépend
donc pas des observations.
Bien d’autres principes peuvent être envisagés pour préciser la qualité de l’approximation. Par exemple, supposons que l’on veuille construire un intervalle dans
lequel p0 doit se trouver, avec une probabilité de 0.95 par exemple. Le principe
de construction est le suivant : pour chaque p ∈]0, 1[, on cherche dans un premier
temps un intervalle de confiance par excès I(X1 , · · · , Xn ) construit avec la suite de
v.a. X1 , · · · , Xn tel que
P (p ∈ I(X1 , · · · , Xn )) ≥ 0.95.
On peut alors conclure, avec les observations x1 , · · · , xn , que p0 ∈ I(x1 , · · · , xn ),
avec une probabilité de 95% au moins. Dans l’exemple qui nous intéresse, l’inégalité de Bienaymé-Tchebytchev nous donne, pour tout ε > 0 :
P(|X̄n − p| ≥ ε) ≤
1
var(X̄n ) var(X1 ) p(1 − p)
=
=
≤
.
ε2
nε 2
nε 2
4nε 2
1.2. PRINCIPE FONDAMENTAL DE LA STATISTIQUE
7
De ce fait, P(|X̄n − p| ≥ ε) ≤ 0.05 au moins si 1/(4nε 2 ) ≤ 0.05 soit, tous calculs
faits, si ε ≥ 0.07. Par suite,
P (p ∈ [X̄n − 0.07, X̄n + 0.07]) ≥ 0.95.
En utilisant les observations x1 , · · · , xn on a x̄n = 0.52, et donc p0 ∈ [0.45, 0.59]
avec une probabilité 0.95 au moins. Le moins que l’on dire ici est que cette information est peu satisfaisante, eu égard au grand nombre d’observations !
Comment améliorer ces résultats ? Si la question posée est "la pièce est-elle
équilibrée ?", l’intervalle ci-dessus ne permet pas de donner une réponse ; dès lors,
quelle stratégie de décision envisager ? L’objet de ce cours est de donner quelques
éléments de réponse à ces questions. Dans un premier temps, il convient de fixer
les objectifs de l’inférence statistique, ainsi que le contexte mathématique.
1.2
Principe fondamental de la statistique
Le phénomène aléatoire fournit n observations x1 , · · · , xn de l’espace topologique
H . Celles-ci sont supposées être les réalisations d’une loi Q0 sur l’espace probabilisable (H , B(H )). Le principe de base de l’inférence statistique est d’utiliser
ces n observations pour en déduire des informations sur Q0 . Cette approche estelle raisonnable ? De manière plus ambitieuse, est-il possible de reconstruire un
approximation de Q0 à partir des observations x1 , · · · , xn ? Nous allons voir que
la réponse est affirmative, au moins dans le cas où le phénomène aléatoire global
consiste en n phénomènes indépendants et régis par la même loi.
Au préalable, rappelons que la suite de probabilités (νn )n sur Rd converge
étroitement vers ν si, pour chaque fonction f : Rd → R continue bornée, on a :
Z
Rd
f dνn →
Z
Rd
f dν.
Le critère de convergence de Lévy nous affirme que (νn )n converge étroitement
vers ν si, pour chaque t ∈ Rd , la suite (ν̂n (t))n converge vers ν̂(t), où ν̂ désigne
la tranformée de Fourier de ν, i.e. la fonction
ν̂ : t 7→
et idem pour ν̂n .
Z
Rd
exp(it T x)ν(dx),
8
CHAPITRE 1. MODÉLISATION STATISTIQUE
Dans la suite, δx désigne la mesure de Dirac en x ∈ Rd .
Théorème [VARADARAJAN ] Soient X1 , X2 , · · · des v.a.i.i.d. sur (Ω , F , P) à valeurs dans Rk , de loi commune µ. On note µn la mesure empirique des n premières
v.a., i.e.
1 n
µn = ∑ δXi .
n i=1
Alors, P-p.s., la suite de mesures (µn )n converge étroitement vers µ.
Preuve Pour simplifier la preuve, on suppose que X1 est intégrable. D’après le
critére de Lévy, il suffit de montrer que
P ∀t ∈ Rd : µ̂n (t) −→ µ̂(t) = 1,
si µ̂n et µ̂ désignent les transformées de Fourier de µn et µ. Or, la loi forte des
grands nombres nous montre que pour tout t ∈ Rd , l’événement
Ω (t) = {µ̂n (t) −→ µ̂(t)}
est de probabilité. Soit T ⊂ Rd un ensemble dénombrable dense, et
(
)
\
\\ 1 n
Ω0 =
Ω (t)
∑ kX j k −→ EkX1k ,
n j=1
t∈T
où k.k désigne la norme euclidienne de Rd . Comme X1 est intégrable et T est
dénombrable, on a P(Ω0 ) = 1 d’après la loi forte des grands nombres et car
P(Ω (t)) = 1 pour tout t. Fixons t ∈ Rd et ω ∈ Ω0 . On choisit une suite (t p ) p
de T telle que t p → t, et on note pour tout s ∈ Rd , µ̂nω (s) la réalisation en ω de
µ̂n (s), i.e.
1 n
µ̂nω (s) = ∑ exp(isT X j (ω)).
n j=1
Soit p fixé. On a :
|µ̂nω (t) − µ̂(t)| ≤ |µ̂nω (t) − µ̂nω (t p )| + |µ̂nω (t p ) − µ̂(t p )| + |µ̂(t p ) − µ̂(t)|
!
1 n
≤ kt − t p k
kX j (ω)k + EkX1 k + |µ̂nω (t p ) − µ̂(t p )|
∑
n j=1
1.3. MODÈLE STATISTIQUE
9
Par suite, pour tout p :
lim sup |µ̂nω (t) − µ̂(t)| ≤ 2kt − t p kEkX1 k.
n
En faisant enfin tendre p vers l’infini, on peut en déduire que pour tout ω ∈ Ω0 et
tout t ∈ Rd , µ̂nω (t) → µ̂(t). Comme P(Ω0 ) = 1, le résultat est démontré. Reprenons le contexte où les observations (x1 , · · · , xn ) ∈ H n sont issues de n
phénomènes aléatoires indépendants et régis par la même loi Q0 sur H = Rd . Le
théorème de Varadarajan montre que si (X1 , · · · , Xn ) suit la loi Q⊗n
0 alors la mesure
empirique
1 n
∑ δXi
n i=1
est proche de la mesure Q0 , lorsque n est assez grand. Autrement dit, en multipliant les expériences, la mesure discrète
1 n
∑ δxi
n i=1
est proche de la mesure Q0 . Ce résultat donne un appui théorique à la démarche
statistique consistant à tenter de reconstruire la mesure théorique Q0 à l’aide des
observations x1 , · · · , xn . Toute démarche en statistique inférentielle asymptotique
est basée sur ce théorème, qui mérite donc son titre de "Théorème fondamental de
la statistique".
1.3
Modèle statistique
Formalisons le concept de modèle statistique vu dans la section 1.1. Dans ce cadre,
l’espace des observations était {0, 1}n .
Définitions Un modèle statistique est un couple (H n , P), où H est l’espace
-supposé topologique- de chaque observation, et P est une famille de lois de probabilités sur H n muni de sa tribu borélienne. Le modèle statistique (H n , P) est
paramétré par Θ si P = {Pθ }θ ∈Θ
L’expérience aléatoire sous-jacente fournit n observations (x1 , · · · , xn ) ∈ H n
du même phénomène aléatoire, qui est régit par la loi inconnue P0 . Le principe
10
CHAPITRE 1. MODÉLISATION STATISTIQUE
de base de la statistique est de considérer que (x1 , · · · , xn ) est régit par l’une des
lois d’un modèle P, avec P0 ∈ P. Cette étape de modélisation étant achevée, il
s’agira de chercher quelle loi de ce modèle s’ajuste le mieux aux observations.
Par exemple, lorsque les expériences ont été menées indépendamment les unes
des autres, l’observation (x1 , · · · , xn ) est régie par la loi P0 = Q⊗n
0 , et le modèle sta⊗n
n
tistique est un ensemble de probabilités sur H contenant Q0 .
A noter, donc : à l’inverse du probabiliste, le statisticien travaille plutôt sur
l’espace des observations, qui constitue un cadre d’étude plus naturel. Par ailleurs,
le statisticien ne suppose pas que la loi des observations est connue, à l’inverse du
probabiliste.
Exemple En utilisant des observations indépendantes x1 , · · · , xn de la durée de vie
de n ampoules du même type, on veut connaître la loi suivie par la durée de vie de
ce type d’ampoule. La 1ère étape consiste à définir le modèle statistique associé,
dont l’espace des observations est Rn+ . Du point de vue de la modélisation, il est
raisonnable d’affirmer qu’une v.a. X sur (Ω , F , P) qui représente la durée de vie
de l’ampoule est sans mémoire, i.e.
L (X − t|X ≥ t) = L (X), ∀t ≥ 0.
Cette propriété signifie que l’ampoule "ne se souvient pas d’avoir vieilli". Par
ailleurs, on peut aussi supposer que la loi de X est à densité par rapport à la mesure de Lebesgue. On sait alors qu’il existe λ > 0 tel que X ∼ E (λ ). Comme les
observations des durées de vie sont indépendantes, x1 , · · · , xn est une réalisation
d’une loi E (λ0 )⊗n , pour un certain λ0 > 0 qu’il s’agira de trouver. Le modèle statistique associé à cette expérience aléatoire est donc (Rn+ , {E (λ )⊗n }λ >0 ). Nous
verrons dans la suite comment trouver une valeur de λ qui s’ajuste aux observations.
Dans l’exemple de la section 1.1, comme les lancers de pièce sont indépendants, la loi dont sont issues les résultats de l’expérience est clairement l’une des
lois du modèle P = {B(p)⊗n , p ∈]0, 1[}. Remarquons aussi que l’application
p 7→ B(p)⊗n est injective : cette propriété, appelée identifiabilité, ôte tout ambiguité dans le modèle, en permettant d’associer à des observations une, et une seule
loi du modèle.
Définitions Soit P = {Pθ }θ ∈Θ un modèle statistique.
1.4. DOMINATION DANS UN MODÈLE STATISTIQUE
11
1. Il est dit identifiable si l’application θ 7→ Pθ définie sur Θ est injective.
2. Il est dit paramétrique si il existe d ∈ N tel que Θ ⊂ Rd . Sinon, il est non
paramétrique.
Le modèle statistique {N(m, σ 2 ); m ∈ R, σ > 0} est paramétrique et identifiable, mais {N(m, σ 2 ); m ∈ R, σ 6= 0}, qui est aussi paramétrique, n’est pas identifiable car N(m, σ 2 ) = N(m, (−σ )2 ). Par ailleurs, le modèle constitué de toutes
les lois à densité est non paramétrique.
On s’intéressera dans ce cours aux modèles paramétriques. Cette restriction
confère au modèle un atout majeur : en limitant l’espace des probabilités à explorer, elle permet d’obtenir de meilleurs résultats quantitatifs.
1.4
Domination dans un modèle statistique
Soit le modèle statistique paramétrique (H n , P), avec un espace d’observations
individuelles H ⊂ Rk .
Rappelons que, pour 2 mesures σ -finies µ et ν sur R p , µ est absolument continue par rapport à ν, et on note µ ν, si pour tout A ∈ B(R p ) tel que ν(A) = 0, on
a µ(A) = 0. Dans ce cas, le théorème de Radon-Nikodym nous donne l’existence
d’une fonction mesurable f et ν-p.p. positive, appelée densité de µ par rapport à
ν, telle que dµ = f dν. Si ν est la mesure de Lebesgue, on parle plus simplement
de la densité de µ. Enfin, si µ est bornée, f est ν-intégrable.
Définition Le modèle statistique (H n , P) est dit dominé si il existe une mesure
σ -finie µ telle que P µ pour chaque P ∈ P. La mesure µ est appelée mesure
dominante du modèle.
Les modèles {N(m, σ 2 ); m ∈ R, σ > 0} et {B(p)⊗n ; p ∈]0, 1[} sont dominés : une mesure dominante du premier est la mesure de Lebesgue sur R, alors
qu’une mesure dominante du second est (δ0 + δ1 )⊗n . De manière plus générale,
les exemples de modèles dominés que nous rencontrerons le seront soit par rapport à une mesure de comptage, soit par rapport à une mesure de Lebesgue.
Théorème Supposons que (H n , P) est dominé, et notons conv(P) son convexi-
12
CHAPITRE 1. MODÉLISATION STATISTIQUE
fié, i.e.
conv(P) =
∑ anPn, avec Pk ∈ P, ak ≥ 0 et ∑ an = 1
.
n
n
Alors, il existe une probabilité de conv(P) qui domine P.
Preuve Soit µ une mesure dominante. On note C l’ensemble des événements C
tels que µ(C) > 0 et tels qu’il existe PC ∈ conv(P) dont la densité fC par rapport
à µ vérifie fC > 0 µ-p.p. sur C. Choisissons (Cn )n≥1 , une suite de C , telle que :
lim µ(Cn ) = sup µ(C) ≤ +∞.
n→∞
C∈C
On note PCn la probabilité associée à chaque Cn , et fCn la densité associée. On
pose :
[
Cs =
Cn , f = ∑ 2−n fCn .
n≥1
n≥1
La probabilité Q telle que dQ = f dµ, qui est dans conv(P), admet f pour densité par rapport à µ. Comme µ(Cs ) > 0 et f > 0 µ-p.p. sur Cs , on a Cs ∈ C . Par
ailleurs, on a aussi µ(Cs ) = supC∈C µ(C).
Montrons maintenant que Q domine P. Soit P ∈ P, de densité pR par rapport
à µ, et A un événement tel que Q(A) = 0. Comme 0 = Q(A ∩Cs ) = A∩Cs f dµ et
que f > 0 µ-p.p. sur Cs , on a µ(A ∩Cs ) = 0, d’où P(A ∩Cs ) = 0 car P µ. Par
ailleurs, P(Csc ) = 0. En effet, il est clair que Cs ⊂ { f + p > 0} µ-p.p., et comme
{ f + p > 0} ∈ C , la propriété de maximalité de Cs montre que Cs = { f + p >
0} µ-p.p. Comme P µ, on a aussi
Cs = { f + p > 0} P-p.p. et donc P(Csc ) =
R
P({ f + p = 0}) ≤ P({p = 0}) = {p=0} pdµ = 0. En remarquant finalement que
A ⊂ (A ∩ Cs ) ∪ Csc , on en déduit que P(A) = 0, c’est-à-dire que P Q. Comme
Q ∈ conv(P), le théorème est démontré. 1.5
Estimation
Soit le modèle statistique paramétrique (H n , {Pθ }θ ∈Θ ), avec un espace d’observations individuelles H ⊂ Rk et un espace de paramètres Θ ⊂ Rd . Dans ce
modèle, le paramètre d’intérêt est θ . Si les n expériences du phénomène sont indépendantes, on a alors Pθ = Q⊗n
θ pour chaque θ ∈ Θ .
1.5. ESTIMATION
13
Dans un soucis de simplicité, on se limitera dans tout le cours au cas où le
paramètre d’intérêt est θ , étant entendu que les définitions et la plupart des propriétés qui suivent s’adaptent sans difficulté au cas où le paramètre d’intérêt est
une fonction borélienne de θ .
Définition Un échantillon de loi Pθ est une v.a. canonique sur (H n , Pθ ).
On rappelle qu’une v.a. canonique (X1 , · · · , Xn ) sur (H n , Pθ ) est une v.a. qui
vérifie pour chaque i = 1, · · · , n :
Xi : (x1 , · · · , xn ) ∈ H n 7→ xi ∈ H .
La taille de l’échantillon est le nombre d’expériences aléatoires. Dans l’exemple
de la section 1.1, la taille de l’échantillon est n = 1000, et une suite X1 , · · · , Xn de
v.a.i.i.d. issues de la loi B(p) constitue, après concaténation, un échantillon de la
loi B(p)⊗n . A l’aide de cette modélisation stochastique, l’enjeu est de construire
une fonction de l’échantillon, qui fournira l’information sur le paramètre inconnu,
noté p0 dans la section 1.1. Ceci nous amène à la notion d’estimateur, qui est une
quantité censé être proche du paramètre. Différentes notions de proximité seront
abordées au chapitre 2.
Définitions
1. Une statistique est une v.a. définie sur H n indépendante de θ , i.e. une
fonction borélienne définie sur H n indépendante de θ .
2. Un estimateur (de θ ) est une statistique à valeurs dans un sur-ensemble de
Θ.
Remarque Un échantillon de loi Pθ étant une v.a. canonique (X1 , · · · , Xn ), il s’ensuit qu’une statistique s’écrit aussi :
g(.) = g(X1 , · · · , Xn ).
On utilisera l’une ou l’autre de ces représentations, selon le contexte. Par exemple,
pour insister sur le fait que la statistique dépend de l’échantillon, on utilisera la
représentation g(X1 , · · · , Xn ). Pour distinguer une statistique d’un estimateur, on
notera ce dernier avec un chapeau.
Dans l’exemple de la section 1.1, si (X1 , · · · , Xn ) est un échantillon de la loi
B(p)⊗n , X1 et X̄n sont des estimateurs de p. Ces 2 estimateurs n’ont évidemment
14
CHAPITRE 1. MODÉLISATION STATISTIQUE
pas le même intérêt ; la terminologie du chapitre 2 permettra d’entreprendre une
première classification.
1.6
Construction des estimateurs
Soit le modèle statistique paramétrique (H n , {Q⊗n
θ }θ ∈Θ ), avec un espace d’obk
servations individuelles H ⊂ R et un espace de paramètres Θ ⊂ Rd .
Pour construire un estimateur raisonnable, on utilise en général l’une ou l’autre
des 2 procédures suivantes : le principe de la vraisemblance maximale, qui fera
l’objet du chapitre 3, ou une méthode ad hoc dans laquelle, par le calcul, on observe tout d’abord ce que représente le paramètre θ pour la loi Qθ , puis on en
construit une version empirique.
Examinons en détail la 2ème méthode. Dans un premier temps, on regarde ce
que ce paramètre représente pour la loi Qθ , puis on remplace
la mesure Qθ par sa
R
version empirique. Supposons par exemple que θ = H f dQθ , pour une certaine
fonction connue f ∈ L1 (Qθ ). En vertu de la loi des grands nombres, un estimateur
raisonnable sera :
1 n
θ̂ = ∑ f (Xi ).
n i=1
Un tel procédé de construction s’appelle méthode des moments, bien qu’il ne
concerne pas nécessairement les moments de la loi Qθ . Bien entendu, ce n’est
qu’un procédé de construction, et rien ne nous assure en général qu’un estimateur
construit de la sorte ait de bonnes propriétés statistiques. Néanmoins, on retrouve
des estimateurs naturels. Par exemple, si θ représente la moyenne de la loi Qθ ,
l’estimateur construit par cette méthode sera la moyenne empirique :
X̄n =
1 n
∑ Xi.
n i=1
Par ailleurs, si θ représente la variance de la loi Qθ , l’estimateur sera la variance
empirique :
1 n
2
2
σ̂ = ∑ (Xi − X̄n ) .
n i=1
D’autres procédés de construction d’estimateurs sont envisageables, en fonction
1.6. CONSTRUCTION DES ESTIMATEURS
15
du modèle statistique étudié.
Exemples
1. Dans le modèle (Rn+ , {E (λ )⊗n }λ >0 ), le paramètre λ représente l’inverse
de la moyenne de la loi E (λ ). Un estimateur naturel de λ , construit avec
l’échantillon (X1 , · · · , Xn ) de la loi E (λ )⊗n est donc
λ̂ =
1
.
X̄n
2. Dans le modèle (Rn+ , {U ([0, θ ])⊗n }θ >0 ), θ représente le maximum des
valeurs prises par une réalisation de la loi U ([0, θ ]). L’estimateur naturel
construit avec l’échantillon (X1 , · · · , Xn ) de la loi U ([0, θ ])⊗n est donc
θ̂ = max Xi .
1≤i≤n
Un autre estimateur, construit cette fois avec la mesure empirique est, par
exemple,
1
θ̂ = X̄n .
2
16
CHAPITRE 1. MODÉLISATION STATISTIQUE
Chapitre 2
Principes de l’inférence statistique
On s’intéresse ici à des critères de performance des estimateurs, posant ainsi les
bases de l’inférence statistique.
Le modèle statistique considéré est (H n , {Pθ }θ ∈Θ ), avec H ⊂ Rk et Θ ⊂ Rd .
Rappelons que, pour simplifier les écritures, on suppose que le paramètre d’intérêt, i.e. le paramètre que l’on souhaite estimer avec les observations, est θ . Dans
ce qui suit, toutes les définitions et les résultats généraux s’étendent au cas où le
paramètre d’intérêt est une fonction g(θ ) de θ .
On désignera par Eθ la moyenne sous la loi Pθ : sous la propriété d’intégrabilité adéquate,
Eθ g(.) = Eθ g(X1 , · · · , Xn ) =
Z
Hn
g(x)Pθ (dx),
pour g : H n → R et (X1 , · · · , Xn ) un échantillon de loi Pθ .
2.1
Critères de performance en moyenne
La première propriété que l’on puisse exiger d’un estimateur est qu’il se comporte en moyenne comme son paramètre cible. C’est le concept de biais, décrit
ci-dessous.
Dorénavant, on dira qu’une statistique θ̂ est d’ordre p si θ̂ ∈ L p (Pθ ) pour
chaque θ ∈ Θ .
17
18
CHAPITRE 2. PRINCIPES DE L’INFÉRENCE STATISTIQUE
Définitions Soit θ̂ un estimateur d’ordre 1.
1. Le biais de θ̂ en θ est Eθ θ̂ − θ ;
2. θ̂ est sans biais lorsque son biais est nul en chaque θ ∈ Θ .
3. θ̂ est asymptotiquement sans biais si pour chaque θ ∈ Θ , limn→∞ Eθ θ̂ = θ .
Pour revenir à l’exemple de la section 1.1, lorsque (X1 , · · · , Xn ) est un échantillon de la loi B(p)⊗n , les 2 estimateurs X1 et X̄n sont sans biais.
L2
La proximité entre l’estimateur et sa cible peut être évaluée grâce à la distance
entre les 2 quantités. Dans ce qui suit, k.k désigne la norme euclidienne de Rd .
Définitions Soit θ̂ un estimateur d’ordre 2.
1. Le risque quadratique de θ̂ sous Pθ est
R(θ ; θ̂ ) = Eθ kθ̂ − θ k2 .
2. Soit θ̂ 0 un autre estimateur d’ordre 2. On dit que θ̂ est préférable à θ̂ 0
lorsque pour chaque θ ∈ Θ , R(θ ; θ̂ ) ≤ R(θ ; θ̂ 0 ).
3. Supposons que θ̂ est sans biais. On dit que θ̂ est de variance uniformément
minimum parmi les estimateurs sans biais (VUMSB) si il est préférable à
tout autre estimateur sans biais d’ordre 2.
L’existence d’un estimateur VUMSB n’est en général pas acquise. Nous reviendrons sur ce problème dans la partie 4.3.
Dans la section 1.1, on a remarqué que lorsque (X1 , · · · , Xn ) est un échantillon
de la loi B(p)⊗n , R(p; X̄n ) = p(1 − p)/n. Ainsi, à mesure que l’on acquiert de
l’information en multipliant les expériences aléatoires, l’estimateur X̄n gagne en
précision. Ce n’est pas le cas pour l’estimateur X1 , dont le risque quadratique vaut
R(p; X1 ) = p(1 − p). Comme on pouvait s’y attendre, X̄n est donc préférable à
X1 . En fait, X̄n est VUMSB. Pour le montrer, considérons un estimateur sans biais
quelconque ϕ̂ := ϕ̂(X1 , · · · , Xn ), et notons :
L(p; X1 , · · · , Xn ) = pnX̄n (1 − p)n−nX̄n , et
K(p) = ln L(p; X1 , · · · , Xn ).
On remarque dans un premier temps que :
1
1
0
nX̄n −
(n − nX̄n ) = 0.
E p K (p) = E p
p
1− p
2.1. CRITÈRES DE PERFORMANCE EN MOYENNE
19
Par suite, si var p et cov p désignent la variance et la covariance sous la loi B(p)⊗n :
cov p (ϕ̂, K 0 (p)) = E p ϕ̂K 0 (p) =
∑
ϕ̂(i1 , · · · in )L0 (p; i1 , · · · , in )
i1 ,··· ,in ∈{0,1}
=
d
E p ϕ̂ = 1,
dp
car ϕ̂ est sans biais. Comme, d’après l’inégalité de Cauchy-Schwarz,
2
cov p (ϕ̂, K 0 (p)) ≤ var p (ϕ̂)var p (K 0 (p)),
on a donc
var p (ϕ̂) ≥
1
.
var p (K 0 (p))
Or,
0
var p (K (p)) = var p
=
1
1
n2
nX̄n +
nX̄n = 2
var p (X̄n )
p
1− p
p (1 − p)2
n
−1
= (R(p; X̄n )) .
p(1 − p)
(2.1.1)
On a donc obtenu
R(p; ϕ̂) = var p (ϕ̂) ≥ R(p; X̄n ),
c’est-à-dire que X̄n est VUMSB. Cette preuve, qui peut sembler ici miraculeuse,
sera formalisée dans les sections 3.3 et 4.1.
Exercice [C AS OÙ LE PARAMÈTRE D ’ INTÉRÊT EST UNE FONCTION DE θ ] Soit
le modèle statistique (Rn , {Q⊗n
θ }θ ∈Θ ) tel que pour chaque θ ∈ Θ , Qθ admet un
moment d’ordre 2. Pour un échantillon (X1 , · · · , Xn ) de loi Q⊗n
θ , on note :
X̄n =
1 n
1 n
2
2
X
,
et
S
=
∑ i n n − 1 ∑ (Xi − X̄n) .
n i=1
i=1
Montrer que X̄n et Sn2 sont des estimateurs sans biais de la moyenne et de la variance de la loi Qθ , respectivement.
On note dorénavant, pour deux vecteurs aléatoires X,Y de carrés intégrables
et à valeurs dans Rd :
Kθ (X,Y ) = Eθ (X − Eθ X)T (Y − Eθ Y ) = Eθ X T Y − Eθ X T Eθ Y et
Vθ (X) = Kθ (X, X) = Eθ kX − Eθ Xk2 .
20
CHAPITRE 2. PRINCIPES DE L’INFÉRENCE STATISTIQUE
Noter que Kθ (X,Y ) = Kθ (Y, X). Par ailleurs, Kθ et Vθ ne représentent pas la covariance et la variance sous la loi Pθ (respectivement notées covθ et varθ ), sauf
lorsque d = 1.
Proposition [D ÉCOMPOSITION B IAIS -VARIANCE ] Soit θ̂ un estimateur d’ordre
2. On a alors la décomposition :
R(θ ; θ̂ ) = kEθ θ̂ − θ k2 +Vθ (θ̂ ).
Pour un risque donné, abaisser le biais revient donc à augmenter la variation,
et réciproquement.
Preuve On a :
R(θ ; θ̂ ) = Eθ k(θ̂ − Eθ θ̂ ) + (Eθ θ̂ − θ )k2
= Eθ kθ̂ − Eθ θ̂ k2 + kEθ θ̂ − θ k2 + 2Eθ (θ̂ − Eθ θ̂ )T (Eθ θ̂ − θ ).
Le résultat en découle, car Eθ (θ̂ − Eθ θ̂ ) = 0 et Vθ (θ̂ ) = Eθ kθ̂ − Eθ θ̂ k2 . Proposition Soit θ̂ un estimateur d’ordre 2. Alors, θ̂ est VUMSB si, et seulement
si, pour tout estimateur ϕ̂ d’ordre 2 tel que Eθ ϕ̂ = 0 pour chaque θ ∈ Θ , on a :
Kθ (ϕ̂, θ̂ ) = 0,
∀θ ∈ Θ .
Preuve Pour toute la preuve, fixons θ ∈ Θ . Supposons que θ̂ est VUMSB. Soit ϕ̂
une statistique d’ordre 2 telle que Eθ ϕ̂ = 0. Pour tout α ∈ R, l’estimateur ϕ̂α =
θ̂ + α ϕ̂ est sans biais. Comme θ̂ est sans biais et VUMSB, on a alors :
Vθ (θ̂ ) = R(θ ; θ̂ ) ≤ R(θ ; ϕ̂α ) = Vθ (ϕ̂α ) = Vθ (θ̂ ) + 2αKθ (θ̂ , ϕ̂) + α 2Vθ (ϕ̂).
Par suite, on a pour tout α ∈ R :
2αKθ (θ̂ , ϕ̂) + α 2Vθ (ϕ̂) ≥ 0.
Ce polynôme en α ne peut garder un signe positif que si Kθ (θ̂ , ϕ̂) = 0.
2.2. CRITÈRES DE PERFORMANCE ASYMPTOTIQUE
21
Réciproquement, tout estimateur sans biais ψ̂ tel que ψ̂ ∈ L2 (Pθ ) s’écrit ψ̂ =
θ̂ − ϕ̂, où ϕ̂ = θ̂ − ψ̂ est une statistique telle que Eθ ϕ̂ = 0 et ϕ̂ ∈ L2 (Pθ ). Par
hypothèse, on a alors Kθ (θ̂ , ϕ̂) = 0 et la statistique ψ̂ vérifie donc :
R(θ ; ψ̂) = Vθ (θ̂ − ϕ̂) = Vθ (θ̂ ) +Vθ (ϕ̂) − 2Kθ (θ̂ , ϕ̂)
= Vθ (θ̂ ) +Vθ (ϕ̂) ≥ Vθ (θ̂ ) = R(θ ; θ̂ ),
ce qui montre que θ̂ est VUMSB. Théorème Soient θ̂ et θ̂ 0 des estimateurs VUMSB. Alors, pour chaque θ ∈ Θ ,
θ̂ = θ̂ 0 Pθ -p.s.
Preuve Fixons θ ∈ Θ . Comme la statistique ϕ̂ = θ̂ − θ̂ 0 vérifie les hypothèses du
théorème précédent, on a :
Vθ (θ̂ − θ̂ 0 ) = Eθ (θ̂ − θˆ0 )T (θ̂ − θˆ0 )
= Eθ (θ̂ − θˆ0 )T (θ̂ − θ ) − Eθ (θ̂ − θˆ0 )T (θˆ0 − θ )
= Kθ (θ̂ − θˆ0 , θ̂ ) − Kθ (θ̂ − θˆ0 , θˆ0 ) = 0,
ce qui montre que θ̂ = θ̂ 0 Pθ -p.s., car θ̂ et θ̂ 0 sont sans biais. 2.2
Critères de performance asymptotique
A mesure que la taille n de l’échantillon croît, l’échantillon contient de plus en
plus d’informations sur la vraie valeur du paramètre. On est alors amené à s’intéresser aux propriétés asymptotiques des estimateurs. Dans la suite, sauf mention
explicite du contraire, toute propriété de convergence sera entendue pour une taille
d’échantillon n qui tend vers l’infini.
Définition On dit que l’estimateur θ̂ est consistant lorsque pour chaque θ ∈ Θ ,
P
θ
θ̂ −→
θ.
Dans l’exemple de la section 1.1, l’estimateur X̄n construit avec un échantillon
B(p)⊗n
(X1 , · · · , Xn ) de loi B(p)⊗n est consistant, car X̄n −→ p pour chaque p ∈]0, 1[.
Remarque Un estimateur peut être asymptotiquement sans biais sans être consistant. De même, un estimateur peut être consistant sans être asymptotiquement
22
CHAPITRE 2. PRINCIPES DE L’INFÉRENCE STATISTIQUE
sans biais. Pour se convaincre du second point par exemple, considérons le modèle statistique (Rn , {N(m, 1)⊗n }m∈]0,1[ ), et l’estimateur m̂ issu de l’échantillon
(X1 , · · · , Xn ) de la loi N(m, 1)⊗n , pour m ∈]0, 1[ :
m̂ = X̄n +
1
√ 1
,
F(− n) {X̄n ≤0}
où F désigne la fonction de répartition de la loi N(0, 1). Comme m > 0, la loi
P
m
faible des grands nombres montre que m̂ −→
m, si Pm = N(m, 1)⊗n . Par ailleurs,
comme X̄n ∼ N(m, 1/n) :
1
Pm (X̄n ≤ 0) = √
2π
Z −m√n
e−t
2 /2
√
dt ≥ F(− n),
−∞
car m ≤ 1. Donc Em m̂ ≥ m + 1, et m̂ n’est pas asymptotiquement sans biais.
Exercice [C AS OÙ LE PARAMÈTRE D ’ INTÉRÊT EST UNE FONCTION DE θ ] Soit
le modèle statistique (Rn , {Q⊗n
θ }θ ∈Θ ) tel que pour chaque θ ∈ Θ , Qθ admet un
moment d’ordre 2. Pour un échantillon (X1 , · · · , Xn ) de loi Q⊗n
θ , on note :
σ̂n2
1 n
2
= ∑ (Xi − X̄n ) .
n i=1
Montrer que σ̂n2 est un estimateur biaisé de la variance de Qθ , mais qu’il est
asymptotiquement sans biais et consistant.
Cette propriété ne doit être vue que comme une propriété minimale que doit
satisfaire un estimateur raisonnablement constitué. Cependant, elle ne permet pas
de préciser l’erreur commise. C’est précisémment l’objet de la définition qui suit.
Définitions Soit (vn )n une suite de réels positifs telle que vn → ∞. On dit que
l’estimateur θ̂ est :
1. de vitesse (vn )n si, pour chaque θ ∈ Θ , il existe une loi `(θ ) telle que
L /Pθ
vn (θ̂ − θ ) −→ `(θ ).
2. asymptotiquement normal si, en outre, les lois `(θ ) sont gaussiennes.
La performance d’un estimateur est notamment évaluée sur sa vitesse car, pour
une précision donnée, plus la vitesse est rapide, moins la taille de l’échantillon
2.3. INTERVALLES DE CONFIANCE
23
doit être importante. Néanmoins, il ne faut pas oublier qu’un estimateur performant doit aussi pouvoir être calculé via un algorithme de complexité raisonnable.
Comme, en principe, ces 2 contraintes s’opposent, il est important de savoir réaliser un compromis entre ces exigences.
Remarque Un estimateur qui possède la propriété 1. de la définition ci-dessus est
consistant. En effet, fixons θ ∈ Θ . On suppose pour simplifier que (vn )n est croissante, et que `(θ ) est une loi sans atomes (sinon, il suffit de travailler sur l’ensemble des points de continuité de la fonction de répartition de la loi de k`(θ )k ; à
toutes fins utiles, rappelons que l’ensemble des points de discontinuité d’une v.a.r.
est au plus dénombrable). Pour chaque ε > 0, on a
Pθ (kθ̂ − θ k ≥ ε) ≤ Pθ (vn kθ̂ − θ k ≥ v p ε),
pour tout p ≤ n. On en déduit que pour tout p,
lim sup Pθ (kθ̂ − θ k ≥ ε) ≤ Pθ (k`(θ )k ≥ v p ε).
n→∞
P
θ
En faisant finalement tendre p vers +∞, on peut conclure que θ̂ −→
θ.
Dans l’exemple de la section 1.1, on a vu que l’estimateur X̄n construit avec un
échantillon
(X1 , · · · , Xn ) de loi B(p)⊗n est asymptotiquement normal, de vitesse
√
n, car pour chaque p ∈ [0, 1],
√
L /B(p)⊗n
n (X̄n − p) −→ N(0, p(1 − p)).
Exercice Soit le modèle statistique (Rn , {U ([θ , θ + 1])⊗n }θ ∈[0,1] ). Construire et
étudier des estimateurs du paramètre θ , en utilisant les statistiques mini≤n Xi ,
maxi≤n Xi et X̄n issues d’un échantillon (X1 , · · · , Xn ) de la loi U ([θ , θ + 1])⊗n .
2.3
Intervalles de confiance
Nous avons déjà vu, dans la section 1.1, un exemple de construction d’intervalle de
confiance. L’objectif de cette section est d’en rappeler le principe, sans toutefois
rentrer dans un formalisme excessif, qui pourrait être préjudiciable à la compréhension de la démarche.
Dans cette section, le modèle statistique est (H n , {Pθ }θ ∈Θ ), avec Θ ⊂ R.
L’observation (x1 , · · · , xn ) ∈ H n est issue d’une loi Pθ0 , avec θ0 ∈ Θ inconnu.
24
2.3.1
CHAPITRE 2. PRINCIPES DE L’INFÉRENCE STATISTIQUE
Intervalle de confiance pour une taille d’échantillon finie
On fixe α ∈]0, 1[.
Définition Soit Tn une fonction définie sur H n et à valeurs dans les intervalles de
R telle que pour chaque θ ∈ Θ :
Pθ (θ ∈ Tn (.)) = (resp. ≥) 1 − α.
Tn (x1 , · · · , xn ) s’appelle intervalle de confiance (resp. par excès) pour θ0 , au niveau de confiance 1 − α.
Ainsi, θ0 ∈ Tn (x1 , · · · , xn ) avec une Pθ0 -probabilité (resp. au moins) 1 − α. On
peut remarquer d’emblée qu’un intervalle de confiance est d’autant plus intéressant qu’il est de longueur faible, pour un niveau de confiance élevé. Comme ces 2
exigences s’opposent, il est impératif de réaliser un compromis.
Exemple Considérons le cas d’un modèle statistique {Pθ }θ ∈Θ = {Q⊗n
θ }θ ∈Θ pour
R
R
lequel H x2 Qθ (dx) ≤ 1 et θ = H xQθ (dx) pour tout θ ∈ Θ . Soit (X1 , · · · , Xn ) un
échantillon de la loi Q⊗n
θ . D’après l’inégalité de Bienaymé-Tchebytchev :
Pθ (|X̄n − θ | > t) ≤
varθ (X̄n ) varθ (X1 )
1
=
≤ 2 , ∀t > 0.
2
2
t
nt
nt
Si t vérifie (nt 2 )−1 ≤ α, on a donc
Pθ (|X̄n − θ | > t) ≤ α.
Pour un tel t, [x̄n − t, x̄n + t] est donc un intervalle de confiance par excès pour θ0 ,
au niveau de confiance 1 − α. On peut trouver des intervalles de confiance plus
précis en utilisant, au lieu de l’inégalité de Bienaymé-Tchebytchev, une inégalité
exponentielle (inégalité de Bernstein, inégalité de Hoeffding, ...), forcément plus
précise.
Souvent, l’un des ingrédients de base pour construire un intervalle de confiance
est le quantile d’une loi sur R.
Définition-Proposition Soit F la fonction de répartition d’une loi ν sur R. Le
quantile d’ordre r ∈]0, 1[ de la loi ν est défini par
qr = inf{x ∈ R : F(x) ≥ r}.
2.3. INTERVALLES DE CONFIANCE
25
Si F est continue, F(qr ) = r. Si, de plus, F est strictement croissante, alors qr est
l’unique solution de l’équation F(.) = r.
Preuve Il suffit de remarquer que, comme F est croissante et continue à droite,
−
F(q−
r ) ≤ r ≤ F(qr ), si F(qr ) est la limite à gauche de F en qr . Exemple Considérons le modèle statistique {N(m,
1)⊗n }m∈R . Pour (X1 , · · · , Xn )
√
un échantillon de la loi Pm = N(m, 1)⊗n , on a n(X̄n − m) ∼ N(0, 1). Soit t0 le
quantile d’ordre 1 − α/2 de la loi N(0, 1) : si Φ est la fonction de répartition de
la loi N(0, 1), on sait que Φ(t0 ) = 1 − α/2. Comme la loi N(0, 1) possède une
densité paire :
√
Pm n |X̄n − m| ≤ t0 = 2Φ(t0 ) − 1 = 1 − α.
√
Si √
les observations x1 , · · · , xn sont régies par la loi N(m0 , 1), [x̄n − t0 / n, x̄n +
t0 / n] est un intervalle de confiance pour m0 , au niveau 1 − α.
Si l’obtention d’une telle propriété est hors d’atteinte, ou si Tn est trop complexe pour pouvoir être utilisé, on se retranche sur une propriété asymptotique.
2.3.2
Intervalle de confiance asymptotique
Soit α ∈]0, 1[.
Définition Soit, pour chaque n, Tn une fonction définie sur H n et à valeurs dans
les intervalles de R telle que pour chaque θ ∈ Θ :
Pθ (θ ∈ Tn (.)) −→ 1 − α.
Tn (x1 , · · · xn ) s’appelle intervalle de confiance asymptotique pour θ0 au niveau de
confiance 1 − α.
Exemple Supposons par exemple que θ̂ est un estimateur asymptotiquement normal, de vitesse (vn )n : pour chaque θ ∈ Θ ,
L /Pθ
vn (θ̂ − θ ) −→ N(0, 1).
(2.3.1)
Notons q1−α/2 et qα/2 les quantiles d’ordre 1 − α/2 et α/2 de la loi N(0, 1). Par
symétrie de la loi N(0, 1), q1−α/2 = −qα/2 . Si q = q1−α/2 > 0, alors :
Pθ −q ≤ vn (θ̂ − θ ) ≤ q −→ 1 − α.
26
CHAPITRE 2. PRINCIPES DE L’INFÉRENCE STATISTIQUE
L’intervalle de confiance asymptotique au niveau 1 − α est donc :
q
q
θ̂ (x1 , · · · , xn ) − ; θ̂ (x1 , · · · , xn ) +
.
vn
vn
Pour la construction des intervalles de confiance asymptotiques, le lemme de
Slutsky (au programme du L3) est souvent utile.
Lemme [S LUTSKY ] Soient (Xn )n et (Yn )n des suites de v.a.r. sur (Ω , F , P). Si il
L /P
P
L /P
existe une v.a.r. Y et un réel a tels que Xn −→ a et Yn −→ Y , alors (Xn ,Yn ) −→
L /P
L /P
(X,Y ). En particulier, XnYn −→ aY et Xn +Yn −→ a +Y .
Exemple Supposons à nouveau que θ̂ est un estimateur asymptotiquement normal, de vitesse (vn )n : pour chaque θ ∈ Θ , il existe σθ2 > 0 tel que
L /Pθ
vn (θ̂ − θ ) −→ N(0, σθ2 ).
(2.3.2)
Soit σ̂ un estimateur consistant de σθ . On a recours au lemme de Slutsky pour en
déduire de (2.3.2) que pour chaque θ ∈ Θ :
vn
θ̂ − θ L /Pθ
−→ N(0, 1).
σ̂
Par suite, avec les notations de l’exemple précédent :
!
θ̂ − θ
≤ q −→ 1 − α,
Pθ −q ≤ vn
σ̂
ou bien, avec une écriture équivalente :
σ̂ q
σ̂ q
Pθ θ ∈ θ̂ −
; θ̂ +
−→ 1 − α.
vn
vn
Comme les quantités θ̂ et σ̂ qui interviennent dans cet intervalle peuvent être calculées pour les observations x1 , · · · , xn , cette propriété nous donne l’intervalle de
confiance asymptotique recherché.
2.3. INTERVALLES DE CONFIANCE
27
La δ -méthode est aussi souvent utilisée pour la construction d’intervalle de confiance
asymptotiques.
Lemme [δ - MÉTHODE ] Soit (Xn )n une suite de v.a.r. sur (Ω , F , P), g : R → R
une fonction continûment dérivable en x0 et (vn )n une suite de réels tendant vers
L /P
L /P
+∞. Si vn (Xn − x0 ) −→ X, alors vn (g(Xn ) − g(x0 )) −→ g0 (x0 )X.
Preuve D’après la formule de Taylor-Lagrange, il existe ξn compris entre x0 et Xn
tel que
g(Xn ) = g(x0 ) + (Xn − x0 )g0 (ξn ).
Comme g0 est continue en x0 et (Xn )n converge en probabilité vers x0 , on a donc
L /P
vn (g(Xn ) − g(x0 )) = vn (Xn − x0 )g0 (ξn ) −→ g0 (x0 )X,
d’après le lemme de Slutsky. Exemple Supposons que l’on veuille construire un intervalle de confiance asymptotique au niveau 1 − α pour le paramètre λ , dans le modèle {E (λ )⊗n }λ >0 . Soit
(X1 , · · · , Xn ) un échantillon de la loi E (λ )⊗n . D’après le théorème de la limite
centrale :
√
1 L /E (λ )⊗n
−→ N(0, 1/λ 2 ).
n X̄n −
λ
On a recours à la δ -méthode pour en déduire que
√
1
1
L /E (λ )⊗n 1
n
−λ
−→
N(0, 1/λ 2 ) = 3 N(0, 1).
2
λ
λ
X̄n
Finalement, en utilisant l’estimateur consistant 1/X̄n , le lemme de Slutsky nous
donne
1
L /E (λ )⊗n
−3 √
n
−λ
X̄n
−→ N(0, 1).
X̄n
L’intervalle de confiance asymptotique s’en déduit facilement.
28
CHAPITRE 2. PRINCIPES DE L’INFÉRENCE STATISTIQUE
Chapitre 3
Vraisemblance
La méthode de construction des estimateurs par maximisation de la vraisemblance
est sans doute la plus répandue. Le principe de la construction est intuitivement
évident : il s’agit de choisir comme estimateur le paramètre pour lequel l’observation est la plus probable, ou la plus vraisemblable ...
Dans tout le chapitre, l’espace des observations individuelles est H ⊂ Rk , et
l’espace des paramètres est Θ ⊂ Rd .
3.1
Le concept de vraisemblance
Définition On appelle vraisemblance du modèle statistique (H n , {Pθ }θ ∈Θ ) dominé par µ toute application L : H n × Θ → R+ telle que, pour chaque θ ∈ Θ ,
l’application partielle L(.; θ ) : H n → R+ soit un élément de la classe d’équivalence de la densité de Pθ par rapport à µ.
Remarque La vraisemblance, dont l’existence est acquise grâce au théorème de
Radon-Nikodym, dépend donc du choix de la mesure dominante du modèle, qui
n’est pas unique. De plus, en raison du fait que que chaque densité dPθ /dµ n’est
unique qu’à une équivalence près, une vraisemblance elle-même n’est pas unique.
Malgré cela, nous parlerons de "la" vraisemblance, sachant que, dans la pratique,
le choix d’une vraisemblance s’impose souvent par ses propriétés analytiques.
Exemples
1. Dans le modèle statistique ({0, 1}n , {B(p)⊗n } p∈]0,1[ ) de la section 1.1, qui
29
30
CHAPITRE 3. VRAISEMBLANCE
est dominé par la mesure (δ0 + δ1 )⊗n , la vraisemblance L s’exprime par :
n
n
L(x1 , · · · , xn ; p) = B(p)⊗n ({x1 , · · · , xn }) = p∑i=1 xi (1 − p)n−∑i=1 xi ,
pour p ∈]0, 1[ et x1 , · · · , xn ∈ {0, 1}.
2. Dans le modèle (Rn , {N(m, σ 2 )⊗n }m∈R,σ ∈R?+ ), qui est dominé par la mesure de Lebesgue sur Rn , la vraisemblance est :
− ∑ni=1 (xi − m)2
1
2
exp
,
L(x1 , · · · , xn ; m, σ ) = √
2σ 2
( 2πσ 2 )n
pour xi ∈ R, m ∈ R et σ ∈ R?+ .
Dans le cadre de modèles statistiques issus d’observations indépendantes, l’expression naturelle de la vraisemblance est simple, comme le montre la proposition
ci-dessous.
Proposition Soit (H , {Qθ }θ ∈Θ ) un modèle statistique dominé par la mesure µ,
et de vraisemblance L. Alors, la fonction
Ln : H n ×Θ → R
n
(x1 , · · · , xn , θ ) 7→ ∏ L(xi ; θ ),
i=1
⊗n
est la vraisemblance du modèle (H n , {Q⊗n
θ }θ ∈Θ ) pour la mesure dominante µ .
Preuve Il suffit de remarquer que, pour chaque θ ∈ Θ ,
n
∏ L(xi; θ ),
i=1
⊗n
est une version de la densité de Q⊗n
θ par rapport à µ . Reprenons l’exemple de la section 1.1. Les lancers de la pièce ont fourni
une suite d’observations x1 , · · · , xn ∈ {0, 1}. Il est naturel de considérer que la
loi B(p0 ) qui régit ces observations est la loi qui apporte la plus forte probabilité à cette réalisation. C’est ainsi que, pour donner une valeur approchée de
la vraie valeur du paramètre, on est amené à maximiser en p la vraisemblance
L(x1 , · · · , xn ; p) : l’idée sous-jacente est que la valeur de p obtenue est celle qui
3.2. CONSISTANCE DE L’EMV
31
s’ajuste le mieux aux observations. C’est cette observation qui motive le concept
de maximum de vraisemblance.
Définition Soit (H n , {Pθ }θ ∈Θ ) un modèle statistique dominé, et L la vraisemblance associée. Un estimateur du maximum de vraisemblance (EMV) est une
statistique g à valeurs dans Θ qui vérifie :
L(x; g(x)) = sup L(x; θ ), ∀x ∈ H n .
θ ∈Θ
Ainsi, si (X1 , · · · , Xn ) est un échantillon de la loi Pθ , l’EMV (de θ ) est g(X1 , · · · , Xn ).
Bien entendu, ni l’existence, ni l’unicité des EMV ne sont en général pas acquises.
Dans le modèle statistique issu d’observations indépendantes de la proposition
précédente, on préfère calculer l’EMV en maximisant la "log-vraisemblance" c’est-à-dire le logarithme de la vraisemblance- plutôt que la vraisemblance, car
celle-ci s’exprime comme :
n
ln Ln (x1 , · · · , xn ; θ ) = ∑ ln L(xi ; θ ).
i=1
L’intérêt pratique est clair, l’étape de maximisation étant en principe plus facile à
mener.
Exemple L’EMV du modèle statistique (Rn , {N(m, 1)⊗n }m∈R ) est la moyenne
empirique.
3.2
Consistance de l’EMV
L’un des outils de base pour l’étude des EMV est décrit ci-dessous :
Définition-Proposition Soit (H n , {Pθ }θ ∈Θ ) un modèle statistique identifiable
et dominé par µ, de vraisemblance L. Pour chaque α, θ ∈ Θ , on suppose que
ln L(.; α) ∈ L1 (Pθ ). On note :
K(α, θ ) = −Eθ ln
L(.; α)
L(.; θ )
32
CHAPITRE 3. VRAISEMBLANCE
l’information de Kullback entre les lois Pα et Pθ . Alors, K(α, θ ) ≥ 0 et de plus
K(α, θ ) = 0 ⇔ α = θ .
Preuve Tout d’abord, il est clair que K(θ , θ ) = 0. Soient donc α 6= θ . Comme la
fonction t 7→ − lnt définie sur R?+ est convexe, on a avec l’inégalité de Jensen :
L(.; α)
dPθ
L(.; θ )
H
Z
Z
L(.; α)
≥ − ln
dPθ = − ln
L(.; α)dµ = 0.
H n L(.; θ )
Hn
K(α, θ ) = −
Z
n
ln
Supposons que K(α, θ ) = 0. On est alors dans un cas d’égalité dans l’inégalité
de Jensen. Comme t 7→ − lnt définie sur R?+ est strictement convexe, on en déduit qu’il existe C ∈ R+ tel que L(.; α) = CL(.; θ ) Pθ -p.s. Or, Pα est absolument
continue par rapport à Pθ , de densité L(.; α)/L(.; θ ). Par suite, pour tout borélien
A ⊂ H n,
Z
Z
L(.; α)
dPθ = CPθ (A).
Pα (A) = L(.; α)dµ =
A
A L(.; θ )
On en déduit tout d’abord que C = 1 (prendre A = H n ), puis que Pθ = Pα , ce qui
contredit l’identifiabilité du modèle. Cette propriété de l’information de Kullback permet d’identifier le paramètre
inconnu θ en tant que seule solution de l’équation K(., θ ) = 0. C’est en ce sens
que l’information de Kullback donne des informations sur le modèle.
A priori, il n’y a pas de raison pour qu’un EMV soit consistant, comme en
atteste l’exemple suivant :
Exemple Soit (Rn , {C (θ )⊗n }θ >0 ) un modèle statistique, où C (θ ) désigne la loi
sur R, de densité
1
θ
, x ∈ R.
2
π θ + x2
Notons (X1 , · · · , Xn ) un échantillon de la loi C (θ )⊗n , avec θ > 0. Un simple calcul
nous montre que l’EMV θ̂ est la seule solution de l’équation ϕn (.) = 1/2, où l’on
a noté
1 n
1
ϕn (α) = ∑
, α > 0.
n i=1 1 + (Xi /α)2
3.2. CONSISTANCE DE L’EMV
33
Par ailleurs, on vérifie facilement que pour tous α1 , α2 > 0 :
|ϕn (α1 ) − ϕn (α2 )| ≤ |α12 − α22 |
1 n
1
.
∑
2
n i=1 α1 + Xi2
Par l’absurde, supposons que θ̂ est consistant. La loi des grands nombres et cette
inégalité nous montrent que
C (θ )⊗n
ϕn (θ̂ ) −→ Eθ
1
1 + (X/θ )2
pour chaque θ > 0. Par suite,
Eθ
1
1
, ∀θ > 0,
=
1 + (X/θ )2 2
ce qui est impossible car le terme de gauche tend vers 1 lorsque θ → ∞.
Il est donc nécessaire de donner des conditions suffisantes de consistance des
EMV.
Théorème Soit (H , {Qθ }θ ∈Θ ) un modèle statistique identifiable et dominé, de
vraisemblance L. On suppose que Θ est compact, et que :
(i) ∀x ∈ H , ln L(x; .) est continu sur Θ ;
(ii) ∀θ ∈ Θ , il existe H ∈ L1 (Qθ ) telle que supα∈Θ | ln L(.; α)| ≤ H.
On note θ̂ l’EMV de θ associé à la vraisemblance
n
Ln (x1 , · · · , xn ; θ ) = ∏ L(xi ; θ )
i=1
du modèle (H n , {Q⊗n
θ }θ ∈Θ ). Alors, θ̂ est consistant.
Preuve On fixe θ ∈ Θ et on note Pθ = Q⊗n
θ . Soit (X1 , · · · , Xn ) un échantillon de la
loi Pθ et, pour chaque α ∈ Θ :
1 n
1
Un (α) = − ln Ln (X1 , · · · , Xn ; α) = − ∑ ln L(Xi ; α)
n
n i=1
U(α) = −Eθ ln L(.; α).
Remarquons que Un (θ̂ ) = infΘ Un et, par hypothèse, que U est continue. D’après
P
θ
la loi des grands nombres, Un −→
U ponctuellement ; nous allons tout d’abord
34
CHAPITRE 3. VRAISEMBLANCE
montrer que cette convergence est en fait uniforme. Pour tout η > 0, on désigne
par g(., η) la fonction définie pour chaque x ∈ H n par
g(x, η) =
| ln L(x; α) − ln L(x; β )|.
sup
kα−β k≤η
On fixe maintenant ε > 0. Comme g(., η) ≤ 2H avec H ∈ L1 (Pθ ) et g(x, η) → 0 si
η → 0 pour tout x ∈ H n , on a Eθ g(., η) < ε/3 d’après le théorème de Lebesgue,
pour une certaine valeur de η que nous fixons dorénavant. On recouvre le compact
Θ par N boules fermées de Θ de rayon η :
Θ=
N
[
B(θ j , η).
j=1
On a dans un premier temps :
sup |Un −U| ≤
Θ
max
sup |Un −Un (θ j )| + max |Un (θ j ) −U(θ j )|
j=1,··· ,N B(θ ,η)
j
j=1,··· ,N
sup |U(θ j ) −U|
+ max
j=1,··· ,N B(θ ,η)
j
n
≤
1
max |Un (θ j ) −U(θ j )| + Eθ g(., η).
∑ g(Xi, η) + j=1,···
,N
n i=1
On en déduit dans un second temps que, puisque Eθ g(., η) < ε/3 :
!
1 n
Pθ sup |Un −U| ≥ ε
≤ Pθ
max |Un (θ j ) −U(θ j )| ≥ 2ε/3
∑ g(Xi, η) + j=1,···
,N
n i=1
Θ
≤ Pθ
max |Un (θ j ) −U(θ j )| ≥ ε/3
j=1,··· ,N
!
1 n
+Pθ
∑ g(Xi, η) ≥ ε/3 .
n i=1
Or, d’après la la loi des grands nombres, on a à la fois :
P
θ
max |Un (θ j ) −U(θ j )| −→
0 et
j=1,··· ,N
1 n
Pθ
g(Xi , η) −→
Eθ g(., η) < ε/3.
∑
n i=1
P
θ
Ces observations nous permettent de déduire que supΘ |Un − U| −→
0. En particulier,
Pθ
Un (θ̂ ) = inf Un −→
inf U.
(3.2.1)
Θ
Θ
3.3. INFORMATION DE FISHER
35
Comme Θ est compact et U est continue, il existe t ∈ Θ tel que U(t) = infΘ U.
Par suite :
Pθ
Un (θ̂ ) −Un (θ ) −→
U(t) −U(θ ) = K(t, θ ).
De plus,
Un (θ̂ ) −Un (θ ) = inf Un −Un (θ ) ≤ 0.
Θ
On a donc K(t, θ ) ≤ 0, ce qui montre que K(t, θ ) = 0 d’où t = θ . D’après (3.2.1),
P
θ
Un (θ̂ ) −→
U(θ ) et, puisque Un converge uniformément vers U en probabilité, on
en déduit que
P
θ
K(θ̂ , θ ) = U(θ̂ ) −U(θ ) −→
0.
Soit ε > 0. Il existe γ > 0 tel que si α ∈ Θ vérifie kα − θ k ≥ ε, alors K(α, θ ) ≥ γ.
Par conséquent,
Pθ kθ̂ − θ k ≥ ε ≤ Pθ K(θ̂ , θ ) ≥ γ −→ 0,
donc θ̂ tend vers θ en probabilité. 3.3
Information de Fisher
Dans le cadre d’un modèle statistique (H n , {Pθ }θ ∈Θ ) de vraisemblance L telle
que pour chaque x ∈ H n , ln L(x; .) ∈ C 1 , la fonction score au point θ définie par
x 7→ ∇ ln L(x; θ ),
et dans laquelle ∇ désigne le gradient par rapport à θ , évalue la variabilité du modèle. C’est une notion intrinsèque au modèle, en ce sens qu’elle ne dépend ni de
la mesure dominante, ni de la vraisemblance. C’est ce qui justifie la définition qui
suit.
Par convention, dès que l’on parle de gradient (resp. hessienne), il est sousentendu que la fonction est de classe C 1 (resp. C 2 ).
Définition Soit (H n , {Pθ }θ ∈Θ ) un modèle statistique dominé de vraisemblance
L. On suppose que Θ est ouvert, et que pour chaque θ ∈ Θ : ∇ ln L(.; θ ) ∈ L2 (Pθ ).
36
CHAPITRE 3. VRAISEMBLANCE
On appelle information de Fisher la fonction
∂
∂
.
I : θ 7→ varθ (∇ ln L(.; θ )) = covθ
ln L(.; θ ),
ln L(.; θ )
∂ θi
∂θj
i, j=1,··· ,d
Lorsque nous parlerons d’information de Fisher, il sera sous-entendu que les
hypothèses imposées dans cette définition seront satisfaites.
L’information de Fisher est donc une fonction à valeurs dans l’ensemble des
matrices semi-définies positives qui évalue le pouvoir de discrimination du modèle entre 2 valeurs proches du paramètre d’intérêt. En effet, on voit directement
dans le cas d = 1 que I(θ ) grand traduit une grande variation de la nature des
probabilités du modèle au voisinage de Pθ , d’où une discrimination de la vraie
valeur du paramètre inconnu facilitée. A l’inverse, si I(θ ) est petit, la loi est très
piquée : c’est mauvais, car on est amené à rechercher le maximum de la vraisemblance dans une région très vaste. Ce sont ces propriétés de I(θ ) qui fournissent
une information sur le modèle.
Pour illustrer ces affirmations, reprenons le modèle de la section 1.1, pour
lequel la vraisemblance vaut, si p ∈]0, 1[ et x1 , · · · , xn ∈ {0, 1} :
n
n
L(x1 , · · · , xn ; p) = p∑i=1 xi (1 − p)n−∑i=1 xi .
On a déjà vu dans la relation (2.1.1) que :
I(p) = var p (∇ ln L(.; p)) =
n
.
p(1 − p)
Dans ce modèle, l’incertitude est faible pour p proche de 0 et 1 alors qu’elle est
grande pour p = 1/2. Ceci se traduit bien par une information I(p) maximale pour
p proche de 0 et 1, et minimale pour p = 1/2.
Dans une situation d’échantillonage i.i.d., l’information de Fisher est proportionnelle à la taille de l’échantillon. Cette propriété, que nous montrons cidessous, légitime encore plus ce concept en tant que mesure d’une quantité d’information.
Proposition Soit (H , {Qθ }θ ∈Θ ) un modèle statistique dominé d’information de
Fisher I. Alors, l’information de Fisher In du modèle (H n , {Q⊗n
θ }θ ∈Θ ) vaut In (θ ) =
3.3. INFORMATION DE FISHER
37
nI(θ ) pour chaque θ ∈ Θ .
Preuve Si L désigne la vraisemblance du modèle (H , {Qθ }θ ∈Θ ), la vraisemblance Ln du modèle (H n , {Q⊗n
θ }θ ∈Θ ) est :
n
Ln (x1 , · · · , xn ; θ ) = ∏ L(xi ; θ ).
i=1
Le score de ce dernier modèle est donc :
n
∇ ln Ln (x1 , · · · , xn ; θ ) = ∑ ∇ ln L(xi ; θ ).
i=1
Si (X1 , · · · , Xn ) est un échantillon de la loi Pθ = Q⊗n
θ , on a alors par indépendance :
!
n
In (θ ) = varθ
∑ ∇ ln L(Xi; θ )
i=1
n
= ∑ varθ (∇ ln L(Xi ; θ )) = nI(θ ).
i=1
Du point de vue des calculs, on se réfèrera souvent à la proposition qui suit,
dont l’objectif principal est de donner une forme simplifiée pour la matrice d’information de Fisher. Dans la suite, ∇2 g(θ ) désigne la matrice Hessienne de g :
Θ → R évaluée en θ ∈ Θ .
Proposition Soit (H n , {Pθ }θ ∈Θ ) un modèle statistique dominé par µ, de vraisemblance L et d’information de Fisher I. Soit θ ∈ Θ . On suppose qu’il existe un
voisinage V ⊂ Θ de θ tel que supα∈V k∇L(.; α)k ∈ L1 (µ). Alors :
(i) Eθ ∇ ln L(.; θ ) = 0.
(ii) si, en outre, supα∈V k∇2 L(.; α)k ∈ L1 (µ), on a I(θ ) = −Eθ ∇2 ln L(.; θ ).
Les conditions de cette proposition ne sont pas aussi restrictives qu’elle peuvent
le sembler, car elle sont satisfaites par bon nombre de modèles statistiques. Comme
nous allons le voir, il s’agit essentiellement de donner des conditions pour faire
passer l’opération de dérivation sous une intégrale.
Preuve On commence par remarquer que, sous la condition supα∈V k∇L(.; α)k ∈
L1 (µ), on a d’après le théorème de Lebesgue :
Z
Hn
Z
∇L(x; θ )µ(dx) = ∇
Hn
L(x; θ )µ(dx) = 0.
38
CHAPITRE 3. VRAISEMBLANCE
Par suite,
Z
Eθ ∇ ln L(.; θ ) =
Hn
Z
(∇ ln L(x; θ )) L(x; θ )µ(dx) =
Hn
∇L(x; θ )µ(dx) = 0,
d’où (i). Pour montrer (ii), on remarque dans un premier temps que d’après (i),
∂
∂
I(θ ) =
covθ
ln L(.; θ ),
ln L(.; θ )
∂ θi
∂θj
i, j=1,··· ,d
∂
∂
.
(3.3.1)
=
Eθ
ln L(.; θ )
ln L(.; θ )
∂ θi
∂θj
i, j=1,··· ,d
Soit alors i, j = 1, · · · , d. Pour x ∈ H n , on a
2
∂
∂
∂
2
L(x;
θ
)
L(x;
θ
)
L(x;
θ
)
∂
∂ θi ∂ θ j
∂ θi
∂θj
ln L(x; θ ) =
−
.
∂ θi ∂ θ j
L(x; θ )
L2 (x; θ )
Il est bon de remarquer que chacune des expressions qui interviennent dans le
membre de droite est une fonction de x qui est dans L1 (Pθ ) : c’est clair pour le 1er
terme car ∇2 L(.; θ ) ∈ L1 (µ) ; c’est vrai aussi pour le 2nd membre sous la condition
d’existence de l’information de Fisher, i.e. ∇ ln L(.; θ ) ∈ L2 (Pθ ). Le théorème de
Lebesgue montre que sous l’hypothèse supα∈V k∇2 L(.; α)k ∈ L1 (µ), on a :
∂2
∂2
L(x; θ )µ(dx) =
∂ θi ∂ θ j
H n ∂ θi ∂ θ j
Z
Z
Hn
L(x; θ )µ(dx) = 0.
Par suite,
∂2
Eθ
ln L(.; θ ) =
∂ θi ∂ θ j
∂2
ln L(x; θ ) L(x; θ )µ(dx)
H n ∂ θi ∂ θ j
Z
∂
1
∂
L(x; θ )
L(x; θ )
µ(dx)
= −
∂θj
L(x; θ )
H n ∂ θi
∂
∂
= −Eθ
ln L(.; θ )
ln L(.; θ ).
∂ θi
∂θj
Z
D’après (3.3.1), cette dernière quantité coincide avec −I(θ )i j , d’où (ii). Cette proposition légitime la définition qui suit.
Définition On dit que le modèle statistique dominé (H n , {Pθ }θ ∈Θ ) dominé et de
vraisemblance L est régulier si pour chaque θ ∈ Θ :
3.4. NORMALITÉ ASYMPTOTIQUE DE L’EMV
39
(i) son information de Fisher en θ existe et est inversible ;
(ii) Eθ ∇ ln L(.; θ ) = 0 et I(θ ) = −Eθ ∇2 ln L(.; θ ).
La proposition précédente nous donne donc des conditions suffisantes de régularité d’un modèle. A nouveau, il est entendu dans cette définition que les
conditions d’existence de l’information de Fisher sont satisfaites. De même, on
n’évoque l’espérance d’une v.a. que lorsque celle-ci existe.
3.4
Normalité asymptotique de l’EMV
Théorème Soit (H , {Qθ }θ ∈Θ ) un modèle dominé régulier, de vraisemblance L
et d’information de Fisher I tel que, pour chaque θ ∈ Θ , il existe un voisinage
V ⊂ Θ de θ avec supα∈V k∇2 ln L(.; α)k ∈ L1 (Pθ ). On note θ̂ l’EMV de θ associé
à la vraisemblance
n
Ln (x1 , · · · , xn ; θ ) = ∏ L(xi ; θ )
i=1
n , {Q⊗n }
).
√θ θ ∈Θ
du modèle (H
normal, de vitesse
Si θ̂ est consistant, alors il est asymptotiquement
n et de variance asymptotique I(θ )−1 :
L /Q⊗n
√
n θ̂ − θ −→θ N(0, I(θ )−1 ), ∀θ ∈ Θ .
Remarque Si les conditions de régularité du modèle ne sont certainement pas
optimales pour garantir un tel résultat, il n’en reste pas moins qu’il est nécessaire d’imposer une certaine régularité. Considérons en effet le cas du modèle
(Rn+ , {U ([0, θ ])⊗n }θ >0 ). Sa vraisemblance Ln s’écrit pour θ > 0 :
−n
θ
si 0 ≤ x1 , · · · , xn ≤ θ ;
Ln (x1 , · · · , xn ; θ ) =
0
sinon.
L’EMV calculé à partir d’un échantillon (X1 , · · · , Xn ) de loi U ([0, θ ])⊗n est donc
θ̂ = max1≤i≤n Xi . Calculons maintenant sa vitesse de convergence. En adoptant la
notation Pθ = U ([0, θ ])⊗n , on a pour chaque 0 < t < nθ :
t
Pθ n θ − θ̂ ≤ t = 1 − Pθ max Xi < θ −
1≤i≤n
n
t n
= 1− 1−
.
nθ
40
CHAPITRE 3. VRAISEMBLANCE
Comme la limite est 1 − exp(−t/θ ) dès que t > 0, on a donc montré que
L /Pθ
n θ − θ̂ −→ E (1/θ ).
Ainsi, dans cet exemple de modèle non régulier, ni la vitesse de l’EMV, ni la loi
limite, ne correspondent à celles du théorème.
Preuve On fixe θ ∈ Θ et on pose Pθ = Q⊗n
θ . Dans la suite, (X1 , · · · , Xn ) est un
échantillon de loi Pθ . Pour chaque α ∈ Θ , on note :
n
Ln (α) = ln Ln (X1 , · · · , Xn ; α) = ∑ ln L(Xi ; α).
i=1
Comme θ̂ maximise Ln , un développement de Taylor avec reste intégral nous
donne :
Z 1
2
0 = ∇Ln (θ̂ ) = ∇Ln (θ ) +
∇ Ln θ + t(θ̂ − θ ) dt (θ̂ − θ ).
(3.4.1)
0
Nous examinons séparément chacun des termes qui interviennent dans cette relation. Rappelons que, puisque le modèle est régulier,
Eθ ∇ ln L(.; θ ) = 0.
Par ailleurs, varθ (∇ ln L(.; θ )) = I(θ ). Donc, d’après le théorème de la limite centrale :
1
1 n
L /P
√ ∇Ln (θ ) = √ ∑ ∇ ln L(Xi ; θ ) −→θ N(0, I(θ )).
(3.4.2)
n
n i=1
Montrons maintenant que :
1
n
Z 1
0
Pθ
∇2 Ln θ + t(θ̂ − θ ) dt −→
−I(θ )
Notons, pour chaque x ∈ H n et r > 0 :
σ (x, r) =
sup
k∇2 ln L(x; α) − ∇2 ln L(x; θ )k.
kα−θ k≤r
Or, σ (., r) ∈ L1 (Pθ ) pour r assez petit et de plus, ln L(x; .) ∈ C 2 pour chaque
x ∈ H n . Fixons ε > 0. D’après le théorème de Lebesgue, il existe r > 0 tel que
Eθ σ (., r) < ε/2. Par ailleurs, comme
1
n
Z 1
0
Z
1 n 1 2
∇ Ln θ + t(θ̂ − θ ) dt = ∑
∇ ln L Xi ; θ + t(θ̂ − θ ) dt,
n i=1 0
2
3.4. NORMALITÉ ASYMPTOTIQUE DE L’EMV
41
on obtient :
Z 1
1
2
Pθ ∇ Ln θ + t(θ̂ − θ ) dt + I(θ ) ≥ ε
n 0
!
ε
1 n Z 1 ∇2 ln L Xi ; θ + t(θ̂ − θ ) − ∇2 ln L(Xi ; θ ) dt ≥
≤ Pθ ∑
2
n i=1 0
!
ε
1 n
+Pθ ∑ ∇2 ln L(Xi ; θ ) + I(θ ) ≥
2
n i=1
!
1 n
ε
≤ Pθ
σ (Xi , r) ≥
+ Pθ kθ̂ − θ k ≥ r
∑
n i=1
2
!
1 n
ε
+Pθ ∑ ∇2 ln L(Xi ; θ ) + I(θ ) ≥
.
n i=1
2
Le passage à la dernière inégalité a été obtenu par une intersection avec l’événement {kθ̂ − θ k < r}. Or, Eθ σ (., r) < ε/2 et Eθ ∇2 ln L(.; θ ) = −I(θ ) car le
modèle est régulier. Comme θ̂ est consistant, on a donc, d’après la loi des grands
nombres :
Z
1 1 2
Pθ
∇ Ln θ + t(θ̂ − θ ) dt −→
−I(θ ).
n 0
En particulier, I(θ ) étant inversible,
Z1
1
2
Pθ
∇ Ln θ + t(θ̂ − θ ) dt inversible −→ 1.
n 0
Or, sur ce dernier événement, d’après (3.4.1) :
√
1
n(θ̂ − θ ) = − √
n
Z1
−1
1
2
∇ Ln θ + t(θ̂ − θ ) dt
∇Ln (θ ).
n 0
En réunissant toutes les pièces, on en déduit de (3.4.2) que
L /Pθ
√
n θ̂ − θ −→ I(θ )−1 N(0, I(θ )) = N(0, I(θ )−1 ),
d’où le théorème. 42
CHAPITRE 3. VRAISEMBLANCE
Chapitre 4
Classification des statistiques
Comme dans tout domaine des mathématiques, classer les objets en fonction de
propriétés communes est un moyen efficace pour entreprendre leurs études.
4.1
Estimateurs efficaces
On suppose dans cette section que l’espace des paramètres Θ ⊂ R est un ouvert,
que H ⊂ Rk et que (H n , {Pθ }θ ∈Θ ) est un modèle statistique régulier dominé par
µ, de vraisemblance L et d’information de Fisher I.
Dans la section 2.1, nous nous sommes intéressés à des bornes du risque quadratique, et donc de la variance, dans la famille des estimateurs sans biais. Nous
poursuivons ici dans cette étude. Avant tout, nous aurons besoin de la définition
suivante qui prendra tout son sens avec l’inégalité de Cramer-Rao.
Définition On dit que θ̂ est un estimateur régulier si il est d’ordre 2 et
Z
∇
Z
Hn
θ̂ (.)L(.; θ )dµ =
Hn
θ̂ (.)∇L(.; θ )dµ.
L’intérêt de cette définition réside dans la remarque suivante : sous les notations de cette définition, si l’estimateur régulier θ̂ est sans biais, alors
Z
Hn
θ̂ (.)∇L(.; θ )dµ = ∇Eθ θ̂ (.) = 1.
Comme le montre le résultat qui suit, le risque quadratique est uniformément
minoré dans la famille des estimateurs réguliers et sans biais, nous donnant ainsi
43
44
CHAPITRE 4. CLASSIFICATION DES STATISTIQUES
une vitesse seuil qu’il serait illusoire de vouloir améliorer.
Théorème [C RAMER -R AO ] Pour tout estimateur θ̂ régulier et sans biais, on a :
R(θ , θ̂ ) ≥ I(θ )−1 , ∀θ ∈ Θ .
Le terme I(θ )−1 s’appelle borne de Cramer-Rao.
Preuve Soit θ ∈ Θ . L’inégalité de Cauchy-Schwarz nous donne :
2
covθ θ̂ , ∇ ln L(.; θ )
R(θ , θ̂ ) = varθ (θ̂ ) ≥
.
varθ (∇ ln L(.; θ ))
(4.1.1)
Par définition de I(θ ), il suffit donc de montrer que covθ θ̂ , ∇ ln L(.; θ ) = 1.
Comme θ̂ est régulier et sans biais, on a
Z
Hn
θ̂ (x)∇L(x; θ )µ(dx) = 1.
Par ailleurs, Eθ ∇ ln L(.; θ ) = 0 car le modèle est régulier. En conséquence :
Z
covθ θ̂ , ∇ ln L(.; θ ) =
Hn
θ̂ (x)
∇L(x; θ )
Pθ (dx)
L(x; θ )
Z
=
Hn
θ̂ (x)∇L(x; θ )µ(dx)
= 1,
d’où le théorème. Reprenons l’exemple du modèle statistique ({0, 1}n , {B(p)⊗n } p∈]0,1[ ) de la
section 1.1. Nous avons montré dans la section 2.1 que l’estimateur X̄n construit
à partir d’un échantillon (X1 , · · · , Xn ) de la loi B(p)⊗n est VUMSB, ce qui s’exprime par la propriété :
var p (θ̂ ) = R(p; θ̂ ) ≥ R(p; X̄n ) = var p (X̄n ) =
p(1 − p)
,
n
pour tout autre estimateur sans biais θ̂ . Un simple calcul nous montre aussi que
l’information de Fisher de ce modèle est précisément
I(p) =
n
.
p(1 − p)
4.1. ESTIMATEURS EFFICACES
45
Ainsi, la borne de l’inégalité de Cramer-Rao, communément appelée borne de
Cramer-Rao, est atteinte. Cette remarque donne tout son sens à la définition qui
suit :
Définition Un estimateur sans biais d’ordre 2 est dit uniformément efficace si il
atteint la borne de Cramer-Rao du modèle.
Si tout estimateur uniformément efficace est VUMSB, la réciproque n’est pas
vraie, et ces 2 notions ne sont donc pas les mêmes. La proposition suivante nous
montre qu’il est possible de décrire les estimateurs uniformément efficaces.
Proposition Soit θ̂ un estimateur régulier et sans biais. Alors, θ̂ est uniformément
efficace si, et seulement si, il existe une fonction ψ : Θ → R telle que
∀θ ∈ Θ , θ̂ = θ + ψ(θ )∇ ln L(.; θ ) Pθ − p.s.
Preuve Soit θ ∈ Θ . D’après (4.1.1), θ̂ est uniformément efficace si et seulement
si
2
varθ (θ̂ )varθ (∇ ln L(.; θ )) = covθ (θ̂ , ∇ ln L(.; θ ) .
On est donc dans un cas d’égalité dans l’inégalité de Cauchy-Schwarz, ce qui
signifie qu’il existe ψ(θ ) tel que
θ̂ − Eθ θ̂ = ψ(θ ) (∇ ln L(.; θ ) − Eθ ∇ ln L(.; θ ))
Pθ − p.s.
Comme θ̂ est sans biais et ∇ ln L(.; θ ) est Pθ -centrée, la proposition est prouvée. Bien sûr, cette proposition est un "miroir aux alouettes", dans la mesure où
l’estimateur uniformément efficace est alors décrit via le paramètre inconnu θ . En
fait, l’intérêt d’une telle représentation réside dans le fait que l’on peut quelquefois en déduire qu’un estimateur est uniformément efficace. On peut ainsi facilement retrouver le fait que la moyenne empirique est l’estimateur VUMSB dans le
modèle statistique ({0, 1}n , {B(p)⊗n } p∈]0,1[ ). Pour changer d’exemple, considérons plutôt le modèle statistique (Rn , {N(m, σ 2 )⊗n }σ >0 ), avec m ∈ R connu. Si
(X1 , · · · , Xn ) est un échantillon de la loi N(m, σ 2 )⊗n , l’estimateur
1 n
σˆ2 = ∑ (Xi − m)2
n i=1
46
CHAPITRE 4. CLASSIFICATION DES STATISTIQUES
est sans biais -car m est connu- et régulier. Par ailleurs, la vraisemblance L s’écrit,
pour σ > 0 et x1 , · · · , xn ∈ R :
!
n
1
1
exp − 2 ∑ (xi − m)2 .
L(x1 , · · · , xn ; σ 2 ) =
n/2
2
2σ i=1
(2πσ )
Par suite, sa log-vraisemblance vérifie :
−n
1 n
∂
2
ln L(x1 , · · · , xn ; σ ) =
+ 4 ∑ (xi − m)2
2
2
∂σ
2σ
2σ i=1
n
=
2σ 4
!
1 n
∑ (xi − m)2 − σ 2 .
n i=1
On en déduit de la proposition précédente que σˆ2 est uniformément efficace.
4.2
Statistiques exhaustives
Dans cette partie, le modèle statistique étudié est (H n , {Pθ }θ ∈Θ ), avec H ⊂ Rk
et Θ ⊂ Rd .
Le principe d’exhaustivité d’une statistique est un principe de réduction des données, qui est basé sur la notion de loi conditionnelle. Dans la suite, LPθ (Z1 |Z2 )
désigne la loi conditionnelle, sous Pθ , de Z1 sachant Z2 .
Définition La statistique g est dite exhaustive si, pour chaque θ ∈ Θ ,
LPθ (X1 , · · · , Xn |g(X1 , · · · , Xn ))
ne dépend pas de θ , où (X1 , · · · , Xn ) est un échantillon de loi Pθ .
En clair, l’échantillon n’apporte pas plus d’information sur la valeur du paramètre inconnu qu’une statistique exhaustive. Autrement dit, une statistique exhaustive élimine toute l’information superflue dans l’échantillon, en ne retenant
que la partie informative sur le paramètre inconnu.
Reprenons le cas du modèle ({0, 1}n , {B(p)⊗n } p∈]0,1[ ) introduit dans la section 1.1. L’ordre dans lequel sont observés les tirages de "pile" ou "face" n’apporte aucune information supplémentaire sur le paramètre inconnu. Du coup, on
4.2. STATISTIQUES EXHAUSTIVES
47
peut résumer la suite des observations x1 , · · · , xn par leur somme x1 + · · · + xn ,
ce qui indique que l’estimateur X̄n issu de l’échantillon (X1 , · · · , Xn ) de la loi
B(p)⊗n est exhaustif. Faisons le calcul pour étayer cette intuition. Pour chaque
y1 , · · · , yn ∈ {0, 1} et z ∈ {0, · · · , n} tels que y1 + · · · + yn = z :
⊗n
B(p)
X1 = y1 , · · · , Xn = yn
B(p)⊗n X1 = y1 , · · · , Xn = yn nX̄n = z =
B(p)⊗n (nX̄n = z)
1
pz (1 − p)n−z
= z.
=
z z
n−z
Cn p (1 − p)
Cn
Sous B(p)⊗n , la loi de (X1 , · · · , Xn ) sachant nX̄n est donc la loi uniforme sur l’ensemble {y ∈ {0, 1}n : y1 + · · · + yn = nX̄n }. Cette loi ne dépend pas du paramètre
p, donc X̄n est une statistique exhaustive : toute l’information sur p contenue dans
l’échantillon (X1 , · · · , Xn ) est en fait contenue dans X̄n .
Le théorème ci-dessous nous donne une caractérisation simple de l’exhaustivité.
Théorème [N EYMAN -F ISHER ] Supposons que le modèle (H n , {Pθ }θ ∈Θ ) est dominé par µ. Une statistique g à valeurs dans Rq est exhaustive si, et seulement si,
il existe 2 applications boréliennes ψ : Rq ×Θ → R+ et γ : H n → R+ telles que
la vraisemblance L pour µ s’écrit :
L(x; θ ) = ψ(g(x), θ )γ(x), ∀(x, θ ) ∈ H n ×Θ .
Il est alors très facile de montrer avec ce théorème qu’une statistique est exhaustive. Par exemple, la moyenne empirique est une statistique exhaustive dans le
modèle (Rn , {N(m, 1)⊗n }m∈R ), car la vraisemblance pour la mesure de Lebesgue
sur Rn vaut
!)
(
n
1
1
1
,
L(x; m) = exp − n(x̄n − m)2
exp − ∑ (xi − x̄n )2
2
2 i=1
(2π)n/2
pour tout x = (x1 , · · · , xn )T ∈ Rn et m ∈ R.
Preuve On a vu en dans la section 1.4 qu’il existe, dans le convexifié de {Pθ }θ ∈Θ ,
une probabilité qui domine le modèle statistique. Pour simplifier la preuve, on va
48
CHAPITRE 4. CLASSIFICATION DES STATISTIQUES
supposer que la mesure dominante µ est cette mesure, i.e.
µ = ∑ an Pθn ,
n
avec (θn )n ⊂ Θ et (an )n ⊂ [0, 1] tel que ∑n an = 1. Dans ce cadre, nous allons
montrer que g est exhaustive si, et seulement si
L(x; θ ) = ψ(g(x), θ ) ∀(x, θ ) ∈ H n ×Θ ,
(4.2.1)
pour une fonction mesurable ψ : Rq × Θ → R+ . Au préalable, remarquons que
la loi Pθ ◦ g−1 de g est absolument continue par rapport à µ ◦ g−1 , et de densité
ϕ(., θ ) = Eµ [L(.; θ ) | g = .], si Eµ désigne l’espérance sous µ. En effet, on a pour
tout A ∈ B(Rq ) :
−1
Pθ ◦ g (A) = Pθ (g ∈ A) =
Z
=
A
Z
Z
g−1 (A)
L(.; θ )dµ =
g−1 (A)
Eµ [L(.; θ ) | g] dµ
Eµ [L(.; θ ) | g = x]µ ◦ g−1 (dx).
d’après le théorème de transfert et par définition de l’espérance conditionnelle.
On suppose tout d’abord que L se factorise comme dans (4.2.1). Soit θ ∈ Θ .
Comme Pθ ◦ g−1 est la loi de g, il faut montrer que pour tout A ∈ B(Rq ) et tout
B ∈ B(H n ) :
Z
Pθ ({g ∈ A} ∩ B) =
A
K(x, B)Pθ ◦ g−1 (dx),
avec K un noyau indépendant de θ . Pour tout A ∈ B(Rq ) et B ∈ B(H n ) :
Pθ ({g ∈ A} ∩ B) =
=
=
=
Z
ZH
n
ZH
n
ZH
n
Rq
1B 1A ◦ g(.) ψ(g(.), θ ) dµ
Eµ [1B 1A ◦ g(.) ψ(g(.), θ ) |g] dµ
µ(B |g) 1A ◦ g(.) ψ(g(.), θ ) dµ
µ(B | g = x) 1A (x) ψ(x, θ ) µ ◦ g−1 (dx),
où on a noté µ(B | g) = Eµ [1B | g]. Pour la dernière chaîne d’égalités, on a utilisé
successivement la définition de l’espérance conditionnelle et l’une de ses propriétés fondamentales (Eµ [XY |G ] = XEµ [Y |G ] si X est G -mesurable, dès que XY et
4.2. STATISTIQUES EXHAUSTIVES
49
Y sont dans L1 (µ)), puis le théorème de transfert. Comme Eµ [L(.; θ ) | g = .] =
ψ(., θ ) est la densité de Pθ ◦ g−1 par rapport à µ ◦ g−1 , on a donc obtenu :
Pθ ({g ∈ A} ∩ B) =
Z
ZA
=
A
µ(B |g = x) ψ(x, θ )µ ◦ g−1 (dx)
µ(B |g = x) Pθ ◦ g−1 (dx)
Le noyau de transition K(x, B) = µ(B | g = x) associé à la loi conditionnelle sous
Pθ de l’échantillon sachant g est indépendant de θ , c’est-à-dire que g est une statistique exhaustive.
Supposons maintenant que g est exhaustive. Soit θ ∈ Θ . Comme g est exhaustive, la loi conditionnelle Pθ (. | g = .) est indépendante de θ ; notons-là P(. | g = .).
Alors, pour tout B ∈ B(H n ) et x ∈ Rq :
µ(B | g = x) = ∑ an Pθn (B | g = x) = P(B | g = x),
n
i.e. les lois conditionnelles P(. | g = .) et µ(. | g = .) sont les mêmes µ ◦ g−1 -p.s.
Par suite, pour tous A ∈ B(Rq ) et B ∈ B(H n ) :
Pθ ({g ∈ A} ∩ B) =
Z
ZA
=
P(B | g = x)Pθ ◦ g−1 (dx)
µ(B | g = x)ϕ(x, θ )µ ◦ g−1 (dx),
A
car ϕ(., θ ) = Eµ [L(.; θ ) | g = .] est la densité de Pθ ◦ g−1 par rapport à µ ◦ g−1 . Par
ailleurs, on a aussi par définition de l’espérance conditionnelle :
Pθ ({g ∈ A} ∩ B) =
Z
g−1 (A)
Z
1B L(.; θ )dµ =
A
Eµ [1B L(.; θ ) | g = x]µ ◦ g−1 (dx).
Ces égalités étant vraies pour tout A ∈ B(Rq ), on en déduit que µ ◦ g−1 -p.s. :
Eµ [1B ϕ(g(.), θ ) | g = .] = µ(B | g = .)ϕ(., θ ) = Eµ [1B L(.; θ ) | g = .].
Par suite, on a µ-p.s. :
i
h
Eµ 1B (ϕ(g(.), θ ) − L(.; θ )) g = 0,
50
CHAPITRE 4. CLASSIFICATION DES STATISTIQUES
et donc, en particulier, pour tout B ∈ B(H n ) :
Eµ [1B (ϕ(g(.), θ ) − L(.; θ ))] = 0.
Ceci étant vrai pour tout B ∈ B(H n ), on a bien L(.; θ ) = ϕ(g(.), θ ) µ-p.s., d’où
la factorisation (4.2.1) Une fois caractérisé par des moyens simples, on remarque -comme on pouvait
s’y attendre- que le concept d’exhaustivité permet d’améliorer un estimateur, en
terme de risque. C’est l’objet du théorème ci-dessous.
Théorème [R AO -B LACKWELL ] Soit g une statistique, et θ̂ un estimateur d’ordre
2. Si g est exhaustive, alors la statistique Eθ [θ̂ |g] est un estimateur préférable à
θ̂ , et de même biais que θ̂ .
Preuve On fixe θ ∈ Θ . Comme g est exhaustive, Eθ [θ̂ |g], qui ne dépend pas de
θ , est donc un estimateur. Notons-le η̂. Comme
Eθ η̂ = Eθ Eθ [θ̂ |g] = Eθ θ̂ ,
les 2 estimateurs ont même biais. Par ailleurs,
2
Vθ (θ̂ ) = Eθ (θ̂ − η̂) + (η̂ − Eθ θ̂ )
= Eθ kθ̂ − η̂k2 +Vθ (η̂) + 2Eθ θ̂ − η̂
T
(η̂ − Eθ η̂) ,
où l’on a utilisé le fait que θ̂ et η̂ ont même biais. Or,
i
h
T
T
Eθ θ̂ − η̂ (η̂ − Eθ η̂) g = Eθ θ̂ − η̂|g (η̂ − Eθ η̂)
= (η̂ − η̂)T (η̂ − Eθ η̂)
= 0,
ce qui montre que
Eθ θ̂ − η̂
T
(η̂ − Eθ η̂) = Eθ Eθ
h
θ̂ − η̂
T
i
(η̂ − Eθ η̂) g = 0.
Donc, Vθ (θ̂ ) ≥ Vθ (η̂) d’où, d’après la décomposition Biais-Variance :
R(θ , η̂) = kEθ η̂ − θ k2 +Vθ (η̂) ≤ kEθ θ̂ − θ k2 +Vθ (θ̂ ) = R(θ , θ̂ ),
4.3. STATISTIQUES COMPLÈTES
51
ce qui nous donne le résultat. Reprenons le cas du modèle ({0, 1}n , {B(p)⊗n } p∈]0,1[ ) introduit dans la section 1.1. Lorsque (X1 , · · · , Xn ) est un échantillon de la loi Pp = B(p)⊗n , on sait que
X1 est un estimateur sans biais, et que X̄n lui est préférable. Nous allons retrouver
ce résultat en utilisant le théorème de Rao-Blackwell. On a déjà montré que X̄n
est une statistique exhaustive. D’après le théorème de Rao-Blackwell, E p [X1 |X̄n ]
est donc un estimateur préférable à X1 . Or, comme X1 , · · · , Xn sont i.i.d., on a pour
tout j ∈ {1, · · · , n} et A ∈ B(R) :
Z
{X̄n ∈A}
E p [X1 |X̄n ]dPp =
Z
{X̄n ∈A}
Z
=
{X̄n ∈A}
Z
X1 dPp =
{X̄n ∈A}
X j dPp
E p [X j |X̄n ]dPp .
Ceci étant vrai pour chaque A ∈ B(R), on en déduit de l’unicité de l’espérance
conditionnelle que E p [X1 |X̄n ] = E p [X j |X̄n ] Pp -p.s. Par suite :
E p [X1 |X̄n ] =
1
n
n
∑ E p[X j |X̄n] = E p[X̄n|X̄n] = X̄n, Pp − p.s.
j=1
L’estimateur préférable construit avec le théorème de Rao-Blackwell n’est autre
que l’inévitable moyenne empirique !
4.3
Statistiques complètes
Dans cette partie, le modèle statistique étudié est (H n , {Pθ }θ ∈Θ ), avec H ⊂ Rk
et Θ ⊂ Rd . Dans la suite, on note aussi :
L = f : H n → R : f ∈ L1 (Pθ ) ∀θ ∈ Θ
Définition On dit qu’une statistique g à valeurs dans Rq est complète si, pour
toute fonction ξ : Rq → R telle que ξ ◦ g ∈ L :
Eθ ξ ◦ g(.) = 0, ∀θ ∈ Θ =⇒ ξ ◦ g = 0 Pθ − p.s., ∀θ ∈ Θ .
De plus, lorsque g = Id, le modèle statistique est dit complet.
52
CHAPITRE 4. CLASSIFICATION DES STATISTIQUES
Exemple Le modèle binomial ({0, · · · , `}, {B(`, θ )}θ ∈]0,1[ ) est complet. En effet,
soit ξ une fonction numérique d’intégrale nulle sous Pθ = B(`, θ ), et ceci pour
chaque θ ∈]0, 1[. Alors,
`
0=
∑
ξ (k)C`k θ k (1 − θ )`−k
k=0
`
= (1 − θ )
`
∑
ξ (k)C`k
k=0
θ
1−θ
k
.
Comme cette égalité est valable pour tout θ ∈]0, 1[, il en résulte que ξ = 0 sur
{0, · · · , `}, donc ξ = 0 Pθ -p.s., i.e. le modèle binomial est complet.
Le concept prend tout son sens grâce au résultat suivant :
Théorème [L EHMANN -S CHEFFÉ ] Soit θ̂ un estimateur sans biais d’ordre 2. Si
g est une statistique exhaustive complète, alors la statistique Eθ [θ̂ |g] est l’unique
estimateur VUMSB.
Preuve Soit θ̂ 0 un autre estimateur sans biais et tel que θ̂ 0 ∈ L2 (Pθ ) pour chaque
θ ∈ Θ . On fixe θ ∈ Θ , et on note
η = Eθ [θ̂ |g] et η 0 = Eθ [θ̂ 0 |g].
Par exhaustivité de g, η et η 0 sont des estimateurs. En outre, ils sont sans biais et
dans L2 (Pθ ). D’après le lemme de Doob, il existe une fonction borélienne ξ telle
que η − η 0 = ξ ◦ g. Donc, comme η et η 0 sont sans biais :
0 = Eθ (η − η 0 ) = Eθ ξ ◦ g,
ce qui montre que η − η 0 = ξ ◦ g = 0 Pθ -p.s. car g est une statistique complète.
Pour finir, on remarque que d’après l’inégalité de Jensen pour les espérances
conditionnelles (appliquée à la fonction convexe x 7→ kxk2 ) :
R(θ ; η) = R(θ ; η 0 ) = Vθ (η 0 ) = Eθ kEθ [θ̂ 0 |g] − θ k2
≤ Eθ Eθ [kθ̂ 0 − θ k2 |g] = Vθ (θ̂ 0 ) = R(θ ; θ̂ 0 ),
ce qui entraîne que η est VUMSB. Ainsi, dès que l’on dispose d’une statistique complète, tout estimateur sans
biais, même déraisonnable, suffit pour déterminer l’estimateur VUMSB. Pour
illustrer cette affirmation, reprenons le modèle ({0, 1}n , {B(p)⊗n } p∈]0,1[ ) de la
4.3. STATISTIQUES COMPLÈTES
53
section 1.1. Nous allons à nouveau montrer, cette fois à l’aide du théorème de
Lehmann-Scheffé, que l’estimateur X̄n construit avec l’échantillon (X1 , · · · , Xn )
de la loi Pp = B(p)⊗n est VUMSB. Comme X1 est un estimateur sans biais, que
X̄n est une statistique exhaustive et que E p [X1 |X̄n ] = X̄n , il reste à prouver que X̄n
est une statistique complète. Sous Pp , la loi de nX̄n est B(n, p). Donc, pour chaque
fonction ξ à valeurs réelles,
n
k
E p ξ (X̄n ) = ∑ ξ
Cnk pk (1 − p)n−k .
n
k=0
Si E p ξ (X̄n ) = 0 pour chaque p ∈]0, 1[, on a alors ξ (k/n) = 0 pour chaque k ∈
{0, · · · , n} et donc ξ (X̄n ) = 0 Pp -p.s. Par suite, X̄n est une statistique complète.
54
CHAPITRE 4. CLASSIFICATION DES STATISTIQUES
Chapitre 5
Test statistique
Reprenons la problématique de la section 1.1. Au niveau de confiance 95%, l’intervalle de confiance obtenu pour la valeur de p0 (la probabilité que la pièce tombe
sur pile) est [0.45, 0.59]. On n’est donc pas en mesure de préciser si la pièce est
ou non équilibrée : un intervalle de confiance ne fournit pas, en général, une procédure de décision.
L’objet de ce chapitre est de construire une procédure de décision, le test statistique. Il faut avoir à l’esprit que, outre le fait que cette procédure doit rendre
une décision, elle doit aussi garder un contrôle sur ses propres erreurs.
On considère dans ce chapitre un modèle statistique (H n , {Pθ }θ ∈Θ ). Il faut
noter que ni H , ni Θ n’est spécifié.
5.1
Problème de test
Pour une raison ou une autre, on est amené à penser que la vraie valeur du paramètre θ , i.e. celle qui est issue de l’observation x1 , · · · , xn , se trouve dans un sousensemble Θ0 de Θ . On formule alors une hypothèse, appelée hypothèse nulle, et
notée H0 : θ ∈ Θ0 . Cependant, cette hypothèse peut malgré tout être fausse, et
on est amené à introduire l’hypothèse alternative H1 : θ ∈ Θ1 , avec Θ1 ⊂ Θ0c . Un
problème de test est la confrontation de l’hypothèse nulle H0 contre l’hypothèse
alternative H1 .
A ce niveau, il convient de formuler 2 observations :
55
56
CHAPITRE 5. TEST STATISTIQUE
. Θ1 n’est pas nécessairement égal à Θ0c : ceci illustre le fait que, dans un
problème de test, il faut choisir une hypothèse alternative qui, en cas de
rejet de H0 , présente plus de pertinence que H0 ;
. dissymétrie entre H0 et H1 , car le test est construit à partir de la présomption que H0 est vraie. De même que dans un procès aux assises, il y a présomption d’innocence, dans un problème de test, il y a présomption de H0 .
Comme dans un procès où il faut alors prouver avec certitude que le détenu
est coupable pour le condamner, le corollaire de ce principe est qu’il faut
montrer que H0 est peu probable pour la rejeter. De ce point de vue, la décision la plus convaincante est donc de rejeter H0 !
A l’instar des estimateurs, toute procédure de décision sur un problème de test
est élaborée à partir d’une observation (x1 , · · · , xn ) ∈ H n . Un test peut alors être
représenté par une fonction de l’observation, qui vaut 0 lorsque celle-ci conduit à
accepter H0 et qui vaut 1 dans le cas contraire.
Définition Un test pur est une statistique T à valeurs dans {0, 1} : pour l’observation x ∈ H n , si T (x) = 0 alors H0 est acceptée ; si T (x) = 1 alors H0 est rejetée.
La zone de rejet (resp. d’acceptation) du test est T −1 ({1}) (resp. T −1 ({0}).
Un test pur correspond donc à une décision binaire, qui ne correspond généralement pas à la complexité des situations envisagées. Considérons en effet le cas
d’un problème de test H0 : θ = 0 contre H1 : θ 6= 0 (i.e. Θ0 = {0} et Θ1 = R? ).
Pour une observation menant à une valeur estimée de θ non nulle, mais proche
de 0, doit-on pour autant considérer que H1 est vraie ? Pour assouplir la nature
du test, on est amené à utiliser une statistique de test T prenant ses valeurs dans
l’intervalle [0, 1].
Définition Un test stochastique est une statistique T à valeurs dans [0, 1] : pour
l’observation x ∈ H n , T (x) est la probabilité de rejeter H0 . La zone de rejet (resp.
d’acceptation) du test est T −1 ({1}) (resp. T −1 ({0}). La zone d’hésitation du test
est T −1 (]0, 1[).
Par défaut, un test est considéré comme étant stochastique, et sa décision est
rendue par un lancer de pièce ! Plus précisémment, examinons de quelle manière
rendre une décision dans le cadre d’un tel test :
5.2. ERREURS D’UN TEST
57
P ROCÉDURE DE DÉCISION D ’ UN TEST. Soit T un test stochastique. Pour l’observation x, T (x) est la probabilité de rejeter H0 . On réalise alors un tirage aléatoire
dans {0, 1} selon une loi B(T (x)) : si le résultat du tirage est 0, on décide que H0
est acceptée ; sinon, H0 est rejetée.
5.2
Erreurs d’un test
Un test doit être construit à partir d’une erreur fixée au préalable. Le 1er type d’erreur que l’on peut dégager est la probabilité de rejeter H0 à tort :
Définition Soit T un test stochastique. Son risque (ou erreur) de 1ère espèce est
l’application qui, à chaque θ ∈ Θ0 , donne la probabilité de rendre la mauvaise
décision :
Θ0 → [0, 1]
θ 7→ Eθ T.
On dit que le test est de niveau (resp. de seuil) α si la probabilité maximale de
rejeter H0 à tort, i.e. l’erreur de 1ère espèce maximale supθ ∈Θ0 Eθ T , est égale
(resp. inférieure) à α.
Si le niveau du test est suffisamment proche de 0 (en pratique inférieur à 5%),
la décision de rejeter H0 est donc convaincante.
Exemple Considérons le modèle statistique (Rn , {N(θ , 1)⊗n }θ ∈R ). Pour un paramètre θ0 ∈ R fixé, on veut construire un test pur de niveau α pour le problème de
test H0 : θ ≤ θ0 contre H1 : θ > θ0 . Soit θ ∈ R fixé, et (X
√ 1 , · · · , Xn ) un échantillon
⊗n
de loi Pθ = N(θ , 1) . On utilise la statistique de test n (X̄n − θ ) dont la loi est
N(0, 1). Notons z(α) le quantile d’ordre 1 − α de la loi N(0, 1), et
√
R = (y1 , · · · , yn ) ∈ Rn : n(ȳn − θ0 ) ≥ z(α) .
Alors, pour chaque θ ≤ θ0 :
√
√
Pθ (R) = Pθ
n(X̄n − θ ) + n(θ − θ0 ) ≥ z(α)
√
≤ Pθ
n(X̄n − θ ) ≥ z(α) = α,
avec égalité lorsque θ = θ0 . Par suite, le test T = 1R est de niveau α.
58
CHAPITRE 5. TEST STATISTIQUE
Pour un test de niveau suffisamment proche de 0, la décision d’accepter H0
peut être sujette à caution : le test nul, i.e. T ≡ 0, pour lequel H0 est toujours choisie, possède un niveau nul. Un tel test n’est pas informatif, car il conclut toujours
à accepter H0 , ceci même si elle n’est pas vraie. Cette observation nous amène à
distinguer un autre type d’erreur, la probabilité d’accepter H0 à tort :
Définition Soit T un test stochastique. Son risque (ou erreur) de 2ème espèce est
l’application qui, à chaque θ ∈ Θ1 , donne la probabilité de rendre la mauvaise
décision :
Θ1 → [0, 1]
θ 7→ 1 − Eθ T.
Comme l’erreur de 1ère espèce, l’erreur de 2ème espèce se doit d’être faible.
Un autre concept équivalent est fréquemment utilisé, la probabilité d’accepter H1
à raison.
Définition Soit T un test stochastique. Sa puissance est l’application qui, à chaque
θ ∈ Θ1 , donne la probabilité de rendre la bonne décision :
Θ1 → [0, 1]
θ 7→ Eθ T.
Le test nul, qui possède un niveau nul, a en revanche un risque de 2ème espèce
maximal (il vaut 1) et une puissance nulle. En général, diminuer l’erreur de 1ère
espèce se fait au détriment de l’erreur de 2ème espèce, qui a alors tendance à augmenter. Il est donc important de s’orienter vers un compromis entre ces 2 types
d’erreurs. De même que dans un procès aux assises, où le principe de présomption
d’innocence du prévenu conduit l’avocat général à devoir étayer ses accusations
de manière (quasi) irréfutable, le principe de présomption sur H0 conduit à minimiser en priorité le niveau du test en imposant qu’il ne dépasse pas une valeur
fixée. Puis, le test est construit de telle sorte que son erreur de 2ème espèce soit
minimale. Cette démarche en deux temps porte le nom de principe de Neyman.
Exemple Reprenons le modèle statistique (Rn , {N(θ , 1)⊗n }θ ∈R ). Pour θ0 ∈ R
fixé, on a construit un test pur de niveau α pour le problème de test H0 : θ ≤ θ0
5.2. ERREURS D’UN TEST
59
contre H1 : θ > θ0 . Celui-ci est associé à la région de rejet
√
R = (y1 , · · · , yn ) ∈ Rn : n(ȳn − θ0 ) ≥ z(α) ,
avec z(α) le quantile d’ordre 1−α de la loi N(0, 1). Soit θ ∈ R fixé, et (X1 , · · · , Xn )
⊗n
un échantillon de loi Pθ = N(θ
√ , 1) . Si N est une variable aléatoire sur (Ω , F , P)
de loi N(0, 1), X̄n et θ + N/ n ont même loi. Par suite,
√
√
1
Pθ (R) = Pθ
n(X̄n − θ0 ) ≥ z(α) = P
n θ + √ N − θ0 ≥ z(α)
n
√
= P n(θ − θ0 ) + N ≥ z(α) .
Si T = 1R est le test pur, la fonction puissance θ 7→ Eθ T = Pθ (R) définie sur
]θ0 , ∞[ est donc croissante, minorée par α et tend vers 1 lorsque θ tend vers l’infini.
Exemple Reprenons le modèle statistique ({0, 1}n , {B(p)⊗n } p∈]0,1[ ) de la section
1.1. Supposons que l’on veuille décider si oui ou non la pièce est équilibrée, en
s’appuyant sur les observations x1 , · · · , xn telles que x̄n = 0.52. Ces observations,
qui sont régies par la loi B(p0 ) nous indiquent que, si la pièce n’est pas équilibrée,
l’alternative raisonnable est que p0 > 1/2. On envisage donc de construire un test
pur de H0 : p = 1/2 contre H1 : p > 1/2 au seuil 5%. Soit t ∈ R et une région de
rejet du type :
R = {(z1 , · · · , zn ) ∈ {0, 1}n : z̄n > t}.
Le test pur qui est associé à cette région de rejet est T = 1R . Pour un échantillon
(X1 , · · · , Xn ) de la loi P1/2 = B(1/2)⊗n :
E1/2 T = P1/2 (X̄n > t)
√
√
= P1/2 2 n (X̄n − 1/2) > 2 n (t − 1/2)
√
= 1 − F 2 n(t − 1/2) + O(n−1/2 ),
si F est la fonction de répartition de la loi N(0, 1), en vertu de l’inégalité de BerryEssèen. Les valeurs de la fonction de répartition√de la loi N(0, 1) sont tabulées :
on trouve alors, pour les valeurs de t telles que 2 n(t − 1/2) ≥ 1.64 i.e. t ≥ 0.53
car n = 1000, que
√
1 − F 2 n(t − 1/2) ≤ 5%.
En négligeant le terme en O(n−1/2 ), on obtient E1/2 T ≤ 5%. Autrement dit, pour
les régions de rejet :
R = {(z1 , · · · , zn ) ∈ {0, 1}n : z̄n > t},
60
CHAPITRE 5. TEST STATISTIQUE
avec t ≥ 0.53, le test T = 1R est de seuil 5%. Par ailleurs, la valeur t = 0.53 donne
le test de puissance maximale. En conclusion, le test T = 1R avec
R = {(z1 , · · · , zn ) ∈ {0, 1}n : z̄n > t},
est de seuil 5% et de puissance maximale. Avec la valeur de x̄n = 0.52, l’observation (x1 , · · · , xn ) ∈
/ R c’est-à-dire qu’on est amené à accepter H0 au niveau 5% :
il est donc envisageable, au vu des observations, de considérer que la pièce est
équilibrée.
5.3
Comparaison des tests
Pour un test T , une puissance trop faible signifie que l’on peut trouver dans Θ1 un
point θ pour lequel Eθ T est faible. Lorsque cette dernière valeur est plus petite
que le niveau du test, on se retrouve dans la situation paradoxale où la probabilité
d’accepter H1 à raison est plus petite que la probabilité d’accepter H1 à tort ! Dans
un tel contexte, le test ne sépare pas bien les hypothèses H0 et H1 . La notion de
test sans biais formalise cet écueil qu’il convient d’éviter.
Définition Un test stochastique T de seuil α est dit sans biais si pour tout θ ∈ Θ1 ,
on a α ≤ Eθ T .
Rien ne nous certifie, en général, qu’un test sans biais existe. Nous reviendrons
sur ce problème crucial de la théorie des tests dans la section suivante.
Exemple Pour chaque θ ∈ R, on note Qθ la loi de densité
exp (−(x − θ )) 1[θ ,∞[ (x).
On souhaite tester H0 : θ ≤ 0 contre H1 : θ > 0 au niveau α ∈]0, 1[, dans le
modèle statistique (Rn , {Q⊗n
θ }θ ∈R ). Le test T = 1R associé à la région de rejet
ln α
n
R = (x1 , · · · , xn ) ∈ R : min xi ≥ −
i=1,··· ,n
n
est un test pur pour H0 contre H1 , de niveau α et sans biais. Pour θ ∈ R, notons
5.3. COMPARAISON DES TESTS
61
Pθ = Q⊗n
θ et (X1 , · · · , Xn ) un échantillon de loi Pθ . Si θ ≤ 0 :
ln α
ln α n
Eθ T = Pθ
min Xi ≥ −
= Pθ X1 ≥ −
i=1,··· ,n
n
n
Z ∞
n
e−(t−θ ) dt = α enθ ≤ α,
=
− ln α/n
avec égalité si θ = 0, i.e. le test T est de niveau α. De plus, si θ > 0, on a :
Z ∞
n
ln α n
−(t−θ )
=
e
dt .
Eθ T = Pθ X1 ≥ −
n
max(θ ,− ln α/n)
Selon que θ est plus grand ou plus petit que − ln α/n, Eθ T vaut 1 ou αenθ .
Comme θ > 0, Eθ T > α, et T est donc un test sans biais.
Définition Soit α ∈ [0, 1]. On dit qu’un test T de seuil α est uniformément plus
puissant parmis tous les tests de seuil α (UPPα) si, pour tout autre test T 0 de seuil
α, on a Eθ T ≥ Eθ T 0 pour chaque θ ∈ Θ1 .
La notion d’optimalité envisagée est claire, un test UPP étant de puissance
maximale pour un niveau fixé. En revanche, la question plus délicate de la caractérisation des tests UPP fera l’objet de la section suivante. Examinons d’emblée
quelques propriétés évidentes des tests UPP.
Proposition Soit α ∈ [0, 1]. Un test T de seuil α et UPPα est sans biais.
Preuve Soit T 0 le test tel que T 0 ≡ α. Comme T est UPPα, pour tout θ ∈ Θ1 , on
a Eθ T ≥ Eθ T 0 = α. Donc T est sans biais. Proposition Soient α ∈ [0, 1], T un test et ζ une statistique exhaustive. Alors
Eθ [T |ζ ] est un test de même puissance et niveau que T . En particulier, Eθ [T |ζ ]
est UPPα si T est UPPα.
Preuve Il suffit de remarquer que, pour chaque θ ∈ Θ , Eθ [T |ζ ] est une statistique
indépendante de θ par exhaustivité de ζ et que Eθ T = Eθ Eθ [T |ζ ]. 62
CHAPITRE 5. TEST STATISTIQUE
5.4
Optimalité dans les tests simples
Dans toute la section, on suppose que le modèle statistique (H n , {Pθ }θ ∈Θ ) est
dominé par µ, et de vraisemblance L. On fixe aussi 2 paramètres θ0 6= θ1 ∈ Θ , et
on s’intéresse au problème de test simple suivant :
H0 : θ = θ0 contre H1 : θ = θ1 .
Nous allons étudier, pour ce problème de test simple, des conditions nécessaires et
suffisantes pour qu’un test soit UPP. Du fait de leur caractère fondateur dans toute
la théorie des tests, et afin de faire mention de leurs auteurs, ces résultats sont regroupés sous la dénomination de "lemme fondamental de Neyman-Pearson".
On considère la famille des tests T suivante : T ∈ T si il existe k ∈ R+ et
γ : H n → [0, 1] mesurable tels que pour chaque x ∈ H n :

si L(x; θ1 ) > kL(x; θ0 );
 1
γ(x) si L(x; θ1 ) = kL(x; θ0 );
T (x) =

0
si L(x; θ1 ) < kL(x; θ0 ),
L’ensemble T s’appelle famille des tests de Neyman-Pearson. L’ensemble Tc
est le sous-ensemble de T constitué des tests pour lesquels la fonctions γ est
constante. Il convient de remarquer qu’un test de Neyman-Pearson associé à une
fonction γ ≡ 0 est un test pur.
Il est essentiel de remarquer l’aspect constructif des résultats qui suivent, tous
les tests considérés faisant partie de la famille T .
Le 1er résultat est relatif à l’existence d’un test UPP. Il nous montre qu’il existe
toujours un test de Tc de niveau donné.
Théorème Soit α ∈]0, 1[.
1. Il existe un test de Tc de niveau α ;
2. Si un test de Tc est de niveau α, alors il est UPPα.
Preuve
1. Un test T ∈ Tc associé aux paramètres k et γ est de niveau α si
α = Eθ0 T = Pθ0 (L(.; θ1 ) > kL(.; θ0 )) + γPθ0 (L(.; θ1 ) = kL(.; θ0 )) .
5.4. OPTIMALITÉ DANS LES TESTS SIMPLES
63
Il suffit donc de trouver (k, γ) ∈ R+ × [0, 1] vérifiant l’égalité précédente. Comme
Pθ0 (L(.; θ0 ) 6= 0) = 1, on peut écrire :
L(.; θ1 )
L(.; θ1 )
Pθ0
> k + γPθ0
= k = α.
(5.4.1)
L(.; θ0 )
L(.; θ0 )
Notons k0 un réel qui vérifie
L(.; θ1 )
L(.; θ1 )
Pθ0
> k0 ≤ α ≤ Pθ0
≥ k0 .
L(.; θ0 )
L(.; θ0 )
Un tel réel existe car t 7→ Pθ0 (L(.; θ1 )/L(.; θ0 ) > t) est décroissante. Dans le cas
où Pθ0 (L(.; θ1 )/L(.; θ0 ) = k0 ) = 0, tout couple (k0 , γ) vérifie (5.4.1). Dans le cas
contraire, le couple (k0 , γ0 ) avec
1)
α − Pθ0 L(.;θ
>
k
0
L(.;θ0 )
,
γ0 =
1)
Pθ0 L(.;θ
L(.;θ ) = k0
0
vérifie (5.4.1). Ainsi, il existe T ∈ Tc de niveau α.
2. Soit T ? ∈ Tc un test de niveau α. On note (k, γ) les paramètres associés à T ?
et, pour simplifier, on suppose que γ ∈]0, 1[. Soit T un test de seuil α. On a alors
les inclusions :
{T ? − T > 0} ⊂ {T ? > 0} ⊂ {L(.; θ1 ) ≥ kL(.; θ0 )} car γ > 0;
{T ? − T < 0} ⊂ {T ? < 1} ⊂ {L(.; θ1 ) ≤ kL(.; θ0 )} car γ < 1.
Par suite, pour tout x ∈ H n , (T ? (x) − T (x))(L(x; θ1 ) − kL(x; θ0 )) ≥ 0, et donc
(T ? (x) − T (x))L(x; θ1 ) ≥ k(T ? (x) − T (x))L(x; θ0 ).
(5.4.2)
On en déduit alors que
?
?
Eθ1 T − Eθ1 T = Eθ1 (T − T ) =
≥ k
Z
Hn
Z
H
n
(T ? − T )L(.; θ1 )dµ
?
(T − T )L(.; θ0 )dµ = k Eθ0 T ? − Eθ0 T .
Or, comme T ? est de niveau α et T de seuil α, Eθ0 T ? = α ≥ Eθ0 T d’où Eθ1 T ? ≥
Eθ1 T , i.e. T ? est UPPα. 64
CHAPITRE 5. TEST STATISTIQUE
Le 2nd résultat, en nous montrant que la famille des tests de Neyman-Pearson
est suffisamment riche, nous donne des conditions nécessaires pour qu’un test soit
UPP.
Théorème Soient α ∈]0, 1[ et T un test UPPα. Il existe T 0 ∈ T tel que T = T 0
µ-p.p.
Preuve Soit T ? ∈ Tc un test de niveau α et UPPα. On note (k, γ) ∈ R+ × [0, 1]
les paramètres associés au test T ? ∈ Tc . Pour simplifier, on suppose que γ ∈]0, 1[ ;
dans ce cas, on a vu dans la preuve du théorème précédent (cf inégalité 5.4.2) que
R := (T ? − T )(L(.; θ1 ) − kL(.; θ0 )) ≥ 0.
Par l’absurde, supposons que µ(R > 0) > 0. Alors,
Z
Hn
Z
Rdµ =
Rdµ > 0
{R>0}
et, par suite :
Z
?
Hn
(T − T )L(.; θ1 )dµ > k
Z
Hn
(T ? − T )L(.; θ0 )dµ.
Comme T ? est de niveau α et T est de seuil α,
Z
H
n
(T ? − T )L(.; θ0 )dµ = Eθ0 T ? − Eθ0 T ≥ 0,
ce qui montre que
Eθ1 T ? − Eθ1 T =
Z
H
n
(T ? − T )L(.; θ1 )dµ > 0.
Or, puisque T et T ? sont UPPα, Eθ1 T ? = Eθ1 T d’où la contradiction. Il s’ensuit
que µ(R > 0) = 0 soit, comme R ≥ 0 : R = 0 µ-p.p. Ainsi,
T = T ? µ−p.p. sur {L(.; θ1 ) 6= kL(.; θ0 )}.
Définissons maintenant le test T 0 tel que pour x ∈ H n :
?
T (x) si L(x; θ1 ) 6= kL(x; θ0 );
0
T (x) =
T (x) si L(x; θ1 ) = kL(x; θ0 ),
Alors, T 0 ∈ T et T = T 0 µ-p.p., d’où le théorème. 5.5. OPTIMALITÉ DANS LES TESTS COMPOSITES
5.5
65
Optimalité dans les tests composites
Le contexte de la section précédente, en ne traitant que le cas d’un problème de
test simple, est très restrictif. Néanmoins, il est possible de l’étendre au cas d’hypothèses dites composites. Soient Θ0 ,Θ1 ⊂ Θ avec Θ0 ∩Θ1 = 0.
/ Le problème de
test que nous allons étudier est :
H0 : θ ∈ Θ0 contre H1 : θ ∈ Θ1 .
Puisque nous allons faire appel à des résultats du type Neyman-Pearson, nous
supposons aussi que le modèle statistique (H n , {Pθ }θ ∈Θ ) est dominé par µ, et de
vraisemblance L.
Théorème Soit T un test de niveau α ∈]0, 1[ tel qu’il existe θ0 ∈ Θ0 vérifiant
Eθ0 T = α. Si, pour tout θ1 ∈ Θ1 , il existe un test Tθ1 ∈ Tc de H00 : θ = θ0 contre
H10 : θ = θ1 vérifiant T = Tθ1 , alors T est UPPα.
Preuve Fixons θ1 ∈ Θ1 . Comme Eθ0 T = α, pour le problème de test simple
H00 : θ = θ0 contre H10 : θ = θ1 ,
le test T est de niveau α. Comme T = Tθ1 ∈ Tc , T est UPPα dans le problème de
test de H00 contre H10 .
Soit maintenant T ? un test de H0 contre H1 de seuil α. Alors, T ? est de seuil
α pour le problème de test de H00 contre H10 car
Eθ0 T ? ≤ sup Eθ T ? ≤ α.
θ ∈Θ0
Or, T est UPPα dans le problème de test de H00 contre H10 , donc Eθ1 T ≥ Eθ1 T ? .
Comme θ1 a été choisi arbitrairement dans Θ1 , on en déduit que T est UPPα dans
le problème de test de H0 contre H1 . Exemple Reprenons le modèle statistique (Rn , {N(θ , 1)⊗n }θ ∈R ). On a vu que,
dans le problème de test de H0 : θ ≤ θ0 contre H1 : θ > θ0 , le test T = 1R de
région de rejet
√
R = (x1 , · · · , xn ) ∈ Rn : n(x̄n − θ0 ) > z(α) ,
66
CHAPITRE 5. TEST STATISTIQUE
où z(α) est le quantile d’ordre 1 − α de la loi N(0, 1), est un test de niveau α.
Nous allons montrer que ce test est UPPα en utilisant le théorème précédent.
On remarque tout d’abord que Eθ0 T = Pθ0 (R) = α. Fixons maintenant θ1 > θ0 .
Pour tout θ ∈ R et x = (x1 , · · · , xn )T ∈ Rn , on a l’écriture
(
!)
n
n
o
1
1 n
2
2
L(x; θ ) = exp − (x̄n − θ )
exp − ∑ (xi − x̄n )
.
2
2 i=1
(2π)n/2
On en déduit la forme suivante pour le rapport des vraisemblances :
h n
i
L(x; θ1 )
= exp − (x̄n − θ1 )2 − (x̄n − θ0 )2
L(x; θ0 )
2
√
√
√
n
= exp n(θ1 − θ0 )
n(x̄n − θ0 ) −
(θ1 − θ0 ) .
2
Par suite, pour tout k > 0 :
L(x; θ1 )
>k
L(x; θ0 )
√
√
ln k
n
⇐⇒ n(x̄n − θ0 ) > √
+
(θ1 − θ0 ).
n(θ1 − θ0 )
2
Choisissons maintenant k0 > 0 tel que
√
ln k0
n
z(α) = √
+
(θ1 − θ0 ),
n(θ1 − θ0 )
2
et notons Tθ1 le test de Tc associé aux paramètres (k0 , 0), i.e.
Tθ1 = 1{L(.;θ1 )>k0 L(.;θ0 )} .
On a alors T = Tθ1 . D’après le théorème précédent, T est donc UPPα.
5.6
Tests asymptotiques
Comme les lois à distance finie ne sont pas toujours évidentes à obtenir, on est
amené, à l’instar des intervalles de confiance asymptotiques, à définir la notion de
test asymptotique.
On considère le problème de test de H0 : θ ∈ Θ0 contre H1 : θ ∈ Θ1 , avec
Θ0 ,Θ1 ⊂ Θ et Θ0 ∩Θ1 = 0.
/ Le modèle statistique (H n , {Pθ }θ ∈Θ ) dépend de n :
5.6. TESTS ASYMPTOTIQUES
67
dans le cadre des tests asymptotiques, on fait donc apparaître la taille n de l’échantillon dans la notation du test.
Définition Un test asymptotique de seuil α ∈]0, 1[ est la donnée d’une suite de
tests (Tn )n tels que
sup lim sup Eθ Tn ≤ α.
θ ∈Θ0
n
La procédure de décision est alors calquée sur celle des tests à taille d’échantillon finie. La seule différence notable est qu’un test asymptotique est construit
pour contrôler l’erreur de 1ère espèce, mais seulement asymptotiquement.
Définition Un test asymptotique (Tn )n est dit convergent si
∀θ ∈ Θ1
:
lim Eθ Tn = 1.
n
68
CHAPITRE 5. TEST STATISTIQUE
Chapitre 6
Statistique des échantillons
gaussiens
L’étude statistique des échantillons gaussiens est basée sur 2 résultats fondamentaux portant sur la nature particulière de la projection vecteurs gaussiens. Dans
tout ce chapitre, Nd (m, Σ ) désigne une loi gaussienne sur Rd , de moyenne m ∈ Rd
et de matrice de variance Σ ∈ Md (R).
6.1
Projection de vecteurs gaussiens
Toutes les variables aléatoires de cette section sont implicitement définies sur un
espace probabilisé (Ω , F , P).
Le théorème ci-dessous est essentiel dans toute la théorie des modèles gaussiens. On rappelle que la loi de Chi 2 à d degrés de liberté, notée χd2 , est la loi
de la somme des carrés de d v.a.r.i.i.d. de lois N1 (0, 1). Par ailleurs, k.k désigne
toujours la norme euclidienne.
Théorème [C OCHRAN ] Soit X ∼ Nn (0, σ 2 Id) avec σ > 0, et L1 ⊕ · · · ⊕ L p une
décomposition de Rn en sous-espaces orthogonaux de dimensions r1 , · · · , r p . Les
projections orthogonales π1 , · · · , π p de X sur L1 , · · · , L p sont des vecteurs gaussiens indépendants, et pour chaque i = 1, · · · , p :
1
kπi k2 ∼ χr2i .
σ2
69
70
CHAPITRE 6. STATISTIQUE DES ÉCHANTILLONS GAUSSIENS
Preuve Soit (eij )i, j une base orthonormée de Rn telle que pour chaque i = 1, · · · , p,
(eij ) j=1,··· ,ri est une base orthonormée de Li . Pour chaque i = 1, · · · , p, on a :
ri
πi =
∑ (X T eij )eij .
j=1
Les vecteurs (eij )i, j étant orthogonaux, pour tout i 6= k, la matrice de covariance
entre πi et πk , i.e.
cov(πi , πk ) = E (πi − Eπi ) (πk − Eπk )T = Eπi πkT = 0.
Comme (π1 · · · π p )T est un vecteur gaussien (toute combinaison linéaire des v.a.r.
(X T eij )i, j est gaussienne), π1 , · · · , π p sont donc des vecteurs gaussiens indépendants, d’où le premier point.
Fixons i = 1, · · · , p, et calculons tout d’abord, pour tout j = 1, · · · , ri , la loi de
la v.a.r. X T eij . Il est clair que X T eij est une v.a.r. gaussienne centrée, comme combinaison linéaire des composantes d’un vecteur gaussien centré. De plus, comme
les composantes du vecteur X = (X1 · · · Xn )T sont i.i.d. de loi N1 (0, σ 2 ),
n
var(X T eij ) =
∑ var(Xk )(eij (k))2 = σ 2keij k2 = σ 2,
k=1
où l’on a noté eij = (eij (1) · · · eij (n))T . Par suite, X T eij ∼ N1 (0, σ 2 ). D’autre part,
comme le vecteur aléatoire (X T ei1 · · · X T eiri )T est gaussien (car toute combinaison
linéaire de ses composantes est une v.a.r. gaussienne), il suffit de montrer que
pour tout j 6= j0 , cov(X T eij , X T eij0 ) = 0 pour en déduire que X T ei1 , · · · , X T eiri sont
indépendantes. Or, si j 6= j0 :
n
cov(X T eij , X T eij0 ) = E(X T eij )(X T eij0 ) =
∑0
E(Xk Xk0 )eij (k)eij0 (k0 )
k,k =1
n
=
∑ E(Xk2)eij (k)eij (k) = σ 2(eij )T eij0 = 0.
k=1
Nous avons donc montré que les v.a.r. (X T eij /σ 2 ) j sont i.i.d., de même loi N1 (0, 1).
Par suite,
ri X T ei 2
1
j
2
kπi k = ∑
∼ χr2i ,
2
σ
σ
j=1
6.2. TESTS SUR LES PARAMÈTRES
71
d’où le théorème. La loi de Student à n degrés de liberté, notée Tn , est la loi du quotient
où X ⊥
⊥ Y , X ∼ N1 (0, 1) et Y ∼ χn2 .
√
√
nX/ Y ,
Théorème [F ISHER ] Soient X = (X1 , · · · , Xn )T ∼ Nn (m̄, σ 2 Id) et m̄ = (m, · · · , m)T
avec σ > 0 et m ∈ R. On note
X̄n =
1 n
1 n
2
X
et
S
=
∑ i n n − 1 ∑ (Xi − X̄n)2.
n i=1
i=1
Alors,
(i) X̄n ⊥
⊥ Sn ;
2
2
2
(ii) (n
√− 1)Sn /σ ∼ χn−1 ;
(iii) n(X̄n − m)/Sn ∼ Tn−1 .
Remarques
(a) Le résultat en (iii) est à comparer au résultat classique :
N1 (0, 1).
√
n(X̄n − m)/σ ∼
(b) D’après la loi forte des grands nombres, Sn → σ p.s. Par suite, l’assertion (iii),
le théorème de la limite centrale unidimensionnel et le lemme de Slutsky montrent
que Tn converge en loi vers la loi N1 (0, 1).
Preuve Pour simplifier, on considère le cas m = 0 et σ = 1. Soit L le s.e.v. de
Rn engendré par e = (1, · · · , 1)T . Le projecteur orthogonal P sur L est la matrice
n × n dont tous les coefficients valent 1/n. On a alors PX = X̄n e et (Id − P)X =
(X1 − X̄n , · · · , Xn − X̄n )T . Comme (Id − P)X est la projection orthogonale de X sur
l’orthogonal de L, on déduit du théorème de Cochran que PX ⊥
⊥ (Id − P)X, et
2
en particulier que X̄n ⊥
⊥ Sn2 , d’où (i). De plus, (n − 1)Sn2 = k(Id − P)Xk2 ∼ χn−1
d’après
le théorème de Cochran, d’où (ii). Enfin, (iii) est conséquence du fait que
√
n(X̄n − m)/σ et (n − 1)Sn2 /σ 2 sont indépendantes, et de lois respectives N1 (0, 1)
2 .
et χn−1
6.2
Tests sur les paramètres
On se donne dans cette partie un modèle statistique (Rn , {N1 (m, σ 2 )⊗n }m∈R,σ >0 ).
Le but est de construire des tests ou des intervalles de confiance sur la valeur des
paramètres m0 et σ02 d’un échantillon x1 , · · · , xn issu de la loi N1 (m0 , σ02 ). Comme
72
CHAPITRE 6. STATISTIQUE DES ÉCHANTILLONS GAUSSIENS
on l’a vu dans les chapitres précédents, il faut alors construire une statistique dont
la loi ne dépend pas des paramètres inconnus du modèle.
Notons (X1 , · · · , Xn ) un échantillon de loi Pm,σ = N1 (m, σ 2 )⊗n . On sait alors
que
√ X̄n − m
n
∼ N1 (0, 1).
σ2
Cependant, cette statistique, en faisant intervenir simultanément les 2 paramètres
inconnus m et σ , n’est pas utilisable. On se tourne alors vers le théorème de Fisher,
qui nous donne les égalités en loi :
(n − 1)
√ X̄n − m
Sn2
2
∼ Tn−1 .
∼ χn−1
et n
2
σ
Sn
L’utilisation de ces statistiques permet de construire facilement des intervalles de
confiance pour les valeurs de m0 et σ0 , à partir des valeurs observées x1 , · · · , xn .
Considérons par exemple le problème de test H0 : m ≥ m1 contre H1 : m < m1
au niveau α, avec m1 un réel fixé. Si tn−1 (α) est le quantile d’ordre α de la loi
Tn−1 , on a sous H0 :
Sn
Sn
≥ Pm,σ X̄n < m + tn−1 (α) √
Pm,σ X̄n < m1 + tn−1 (α) √
n
n
√ X̄n − m
= Pm,σ
n
< tn−1 (α) = α.
Sn
Notons pour chaque y = (y1 , · · · , yn ) ∈ Rn ,
1 n
ȳn = ∑ yi
n i=1
et
s2n (y) =
1 n
(yi − ȳn )2 .
∑
n − 1 i=1
Le test de Student est le test pur de région de rejet
sn (y)
n
Rmoy = y = (y1 , · · · , yn ) ∈ R : ȳn < m1 + tn−1 (α) √
.
n
Ce test est de niveau α, et la procédure de décision est définie ainsi : on accepte
H0 au niveau α si (x1 · · · xn )T ∈
/ Rmoy .
6.3. COMPARAISON DE 2 ÉCHANTILLONS
73
Etudions maintenant le problème de test de H0 : σ ≥ σ1 contre H1 : σ < σ1
2 ,
au niveau α, avec σ1 > 0 fixé. Si χn−1 (α) est le quantile d’ordre α de la loi χn−1
on a sous H0 :
χn−1 (α) 2
χn−1 (α) 2
2
2
Pm,σ Sn <
≥ Pm,σ Sn <
σ
σ
n−1 1
n−1
Sn2
= Pm,σ (n − 1) 2 < χn−1 (α) = 1 − α.
σ
Le test de Fisher est le test pur de région de rejet
χn−1 (α) 2
n
2
Rvar = y = (y1 , · · · , yn ) ∈ R : sn (y) <
σ .
n−1 1
Ce test est de niveau α, et la procédure de décision est définie ainsi : on accepte
H0 au niveau α si (x1 · · · xn )T ∈
/ Rvar .
6.3
Comparaison de 2 échantillons
On suppose dans cette partie que l’on a 2 suites indépendantes d’observations indépendantes x = (x1 , · · · , xn ) et y = (y1 , · · · , y p ), chacune issue de l’une des lois
des modèles statistiques {N1 (m, σ 2 )⊗n }m∈R,σ >0 et {N1 (m, σ 2 )⊗p }m∈R,σ >0 . On
suppose que ces suites d’observations ont même variance (c’est l’hypothèse dite
d’homoscédasticité), et on veut construire un test pur portant sur l’égalité des
moyennes des suites x et y.
Si m1 et m2 représentent les moyennes de chaqun des 2 échantillons, le problème de test s’exprime donc H0 : m1 = m2 contre H1 : m1 6= m2 , dont nous allons
construire un test pur au niveau α. Notons X un échantillon (X1 , · · · , Xn ) de la loi
N1 (m1 , σ 2 )⊗n et Y un échantillon (Y1 , · · · ,Yp ) de la loi N1 (m1 , σ 2 )⊗p . Compte tenu
des hypothèses expérimentales, on peut supposer que X et Y sont indépendantes.
De plus, Sn2 (X) et S2p (Y ) désignent les variances empiriques sans biais de X et Y .
Introduisons la statistique
Q=
(X̄n − Ȳp ) − (m1 − m2 )
q
.
1
1
n+p
74
CHAPITRE 6. STATISTIQUE DES ÉCHANTILLONS GAUSSIENS
Puisque X T et Y T sont 2 vecteurs gaussiens indépendants, Q est une v.a.r. gaussienne, comme combinaison linéaire d’un vecteur gaussien. Il est clair que Q est
centrée, et on montre facilement que la variance de Q est σ 2 . En conséquence,
Q ∼ N1 (0, σ 2 ). Cependant, σ est en général un paramètre inconnu, donc la statistique Q n’est pas utilisable directement pour construire un test statistique.
Notons alors
W 2 = (n − 1)Sn2 (X) + (p − 1)S2p (Y ).
2 et (p−1)S2 (Y ) ∼ σ 2 χ 2 .
D’après le théorème de Fisher, (n−1)Sn2 (X) ∼ σ 2 χn−1
p
p−1
2
2
2
2
2
⊥Q
Comme, par ailleurs, Sn (X) ⊥
⊥ S p (Y ), on a donc W ∼ σ χn+p−2 . De plus, W ⊥
d’après le théorème de Fisher. Par définition de la loi de Student, on a donc
p
Q
M = n + p − 2 ∼ Tn+p−2 .
W
Comme la loi de M est libre, i.e. elle ne dépend pas de paramètres inconnus, la
statistique de test à utiliser est M. Désignons par tn+p−2 (α) le quantile d’ordre
1 − α/2 de la loi Tn+p−2 . En utilisant le fait que la loi de Student est symétrique,
on vérifie comme dans la section précédente que, avec des notations évidentes,
l’ensemble


s
1
1


+
|x̄n − ȳ p |
n
p
(x y)T ∈ Rn+p : q
tn+p−2 (α)
≥


n+ p−2
(n − 1)s2 (x) + (p − 1)s2 (y)
n
p
est une région de rejet pour tester H0 contre H1 , au niveau α.
Supposons maintenant que l’on veuille tester l’égalité des moyennes dans 3
échantillons gaussiens indépendants. On peut bien sûr reprendre la méthodologie
précédente, et réaliser 2 tests d’égalité de moyenne. Mais alors, le niveau du test
global ainsi construit est de l’ordre de la somme des niveaux des 2 tests. Pour
éviter cette perte de niveau, il faut adopter une démarche radicalement différente,
comme nous allons le constater dans la section qui suit.
6.4
6.4.1
Modèle linéaire gaussien
Le problème et sa formulation vectorielle
On suppose dans cette section que l’on dispose de k jeux indépendants d’observations indépendantes x1 , · · · , xk . On est encore dans le cadre d’un modèle gaussien,
6.4. MODÈLE LINÉAIRE GAUSSIEN
75
car pour tout i, xi est une observation du modèle statistique {N1 (m, σ 2 )⊗ni }m∈R,σ >0 .
Comme dans la section précédente, on impose l’hypothèse d’homoscédasticité du
modèle, i.e. les variances de chacun des jeux d’observations sont les mêmes. L’objectif est de construire un test pur portant sur l’égalité des moyennes de ces k jeux
d’observations.
Sous l’hypothèse d’homoscédasticité, on peut introduire les échantillons indépendants X1 ∼ N1 (m1 , σ 2 )⊗n1 , · · · , Xk ∼ N1 (mk , σ 2 )⊗nk pour construire la statistique de test. Le problème de test s’exprime donc par
H0 : m1 = · · · = mk
contre H1 : il existe i 6= j tel que mi 6= m j .
Dans cette formulation, m1 , · · · , mk sont des paramètres réels et σ > 0.
Soit n = n1 + · · · + nk , n0 = 0 et, pour chaque i = 1, · · · , k,
n1 +···+ni
Ii =
∑
e j,
j=n1 +···+ni−1 +1
où, pour tout j = 1, · · · , n, e j est le j-ème vecteur de la base canonique de Rn .
Notons alors
k
µ = ∑ mi Ii ,
i=1
E l’espace vectoriel engendré par les vecteurs I1 , · · · , Ik , et H le sous-espace vectoriel de Rn engendré par le vecteur (1 · · · 1)T . Avec cette écriture, le problème de
test s’énonce ainsi :
H0 : µ ∈ H
6.4.2
contre H1 : µ ∈ E \ H.
Statistique de test
Dans la suite, zF désigne la projection orthogonale de z ∈ Rn sur le sous-espace
vectoriel F. Si X = (X1 · · · Xk )T , on a la décomposition :
X = µ + ε,
où ε ∼ Nn (0, Id). Cette formulation porte le nom de modèle linéaire gaussien.
Dans ce cadre, on observe que :
76
CHAPITRE 6. STATISTIQUE DES ÉCHANTILLONS GAUSSIENS
. XE = µ + εE car µ ∈ E. En particulier, XE − µ est la projection orthogonale
de ε sur E ;
. X − XE = ε − εE est la projection orthogonale de ε sur l’orthogonal de E.
Cette quantité ne contient pas d’information sur la valeur de µ, mais elle
contient des informations sur la dispersion des observations.
En exploitant ces constatations, on obtient directement avec le théorème de
Cochran :
Proposition
(i) XE est un estimateur sans biais de µ ;
(ii) XE ⊥
⊥ X − XE ;
2 . En particulier, kX −X k2 /(n−k) est un estimateur
(iii) kX −XE k2 ∼ σ 2 χn−k
E
2
sans biais de σ ;
(iv) kXE − µk2 ∼ σ 2 χk2 .
Sous H0 , XH = µ + εH et donc XE − XH = εE − εH . Le théorème de Cochran
appliqué au vecteur gaussien ε nous montre alors que
2
, et XE = ε − εE ⊥
⊥ XE − XH .
kXE − XH k2 ∼ σ 2 χk−1
La loi de Fisher de paramètres (i, j), notée F(i, j), est définie comme suit :
F(i, j) ∼
jU
, si U ⊥
⊥ V, et U ∼ χi2 ,
iV
V ∼ χ 2j .
D’après la proposition précédente et les observations ci-dessus, sous H0 , on connaît
donc la loi de la statistique
F=
n − k kXE − XH k2
∼ F(k − 1, n − k).
k − 1 kX − XE k2
Pour construire la région de rejet, on observe que, si P désigne la loi de X, on a
sous H0 ,
P(F ≥ f (α)) = α,
si f (α) désigne le quantile d’ordre 1 − α de la loi F(k − 1, n − k). La région de
rejet
2
n n − k kzE − zH k
R= z∈R :
≥ f (α)
k − 1 kz − zE k2
6.4. MODÈLE LINÉAIRE GAUSSIEN
77
défini donc un test pur de H0 contre H1 , au niveau α.
Rn .
Concaténons les jeux d’observations x1 , · · · , xk pour obtenir un vecteur x de
Plus précisémment, x = (x1 · · · xn )T est le vecteur de Rn tel que
k
x=∑
ni
∑ xi( j) en1+···+ni−1+ j ,
i=1 j=1
si, pour chaque i = 1, · · · , k, xi = (xi (1), · · · , xi (ni ))T . La procédure de décision
s’énonce alors ainsi : on accepte H0 au niveau α si x ∈
/ R.
Téléchargement