1.3 Quelques estimateurs standard

publicité
Estimations
METHODE STATISTIQUES POUR L’INFORMATIQUE
CHAPITRE 3
LICENCE INFORMATIQUE – UNIVERSITE BORDEAUX 1 –
SEMESTRE 5 – ANNEE SCOLAIRE 2004/2005
1 INFERENCES STATISTIQUES
Le calcul des probabilités permet, à partir d’un modèle théorique, d’associer à un évènements une probabilité
qui mesure la fréquence de son apparition dans une suite d’épreuves identiques. La construction du modèle
même est une autre investigation qui reste à faire. Les techniques statistiques vont nous aider à reconstruire le
modèle ou nous autoriser à nous poser un certain nombre de questions sur le modèle à partir d’un bon nombre
d’observations (un échantillon) de réalisations de l’événement étudié. Ces inférences sont fondées sur des
critères tels que la vraisemblance des valeurs observées, l’absence de biais ou la convergence des prévisions
suggérées par l’échantillon lorsque la taille de celui ci augmente.
1.1 ESTIMATION
La théorie de l’estimation est une problématique importante en statistique théorique. Disposant d’un échantillon
x1,…, xn de réalisations d’une v.a. X d’une loi donnée, ou un ou plusieurs paramètres sont inconnus, quelles
valeurs peut on proposer pour les paramètres inconnus ?
Nous appelons dans la suite la v.a. X variable aléatoire parente. Pour l’évaluation d’un paramètre (ou un vecteur
paramètre) inconnu  dont dépend la loi de X, considérons l’application : ^n=^n(X1, …, Xn), qui est une v.a.
prenant une valeur possible de . L’application ^n doit être mesurable.
Elle sera applée un estimateur de  ; i.e. pour une réalisation (x1, …, xn), la valeur de  est évaluée
par ^(x1,…,xn). Il faut noter que le nombre d’arguments d’un estimateur n’est pas fixé et varie avec n, qui est la
taille de l’échantillon.
1.2 QUALITES SOUHAITEES
Jusqu’ici, un estimateur est défini de façon arbitraire. Il est évident qu’une telle introduction ne présente un
intérêt que si on l’enrichit de certaines qualités ou de certaines mesures de performances. Nous énumérons dans
la suite quatre propriétés souhaitées. Elles ne sont pas nécessairement compatibles. De plus, la recherche d’un
estimateur possédant une performance souhaitée peut ne pas être une tache facile.
1.2.1 Maximum de vraisemblance
1.2.1.1
Définition
On peut justifier le choix d’un estimateur par le fait qu’il maximise la vraisemblance de la réalisation de
l’échantillon (x1, …, xn) :
 Si la loi est discrète, la fonction de vraisemblance est la probabilité pour que (X1, …, Xn) = (x1, …, xn) .
 Si la loi admet une densité f, la fonction de vraisemblance est le produit f(x 1)…f(xn) .
Dans les deux cas la fonction de vraisemblance, notée Ln() dépend de n, de (x1, …, xn) et de . L’estimateur
^(x1,…,xn) est appelé un estimateur de maximum de vraisemblance, s’il maximise la fonction de vraisemblance.
1.2.1.2
Exemple
On dispose d’un échantillon (x1, …, xn) d’une v.a. X suivant une loi de Poisson de paramètre  inconnu. Trouver
un estimateur du maximum de vraisemblance .
1.2.1.3
Solution
La fonction de vraisemblance vaut
suffit de maximiser e
 n
 x ...  x
1
n
Ln ( )  e
 n
 x ...  x
1
n
x1!...xn !
. Pour maximiser cette expression par rapport à , il
, ou, de façon équivalente, son logarithme. Un calcul simple, passant par la
dérivation du logarithme, aboutit à l’estimateur du maximum de vraisemblance :
̂ n 
1 n
 xi . On en déduit
n i 1
que l’estimation du paramètre d’une loi de Poisson par la méthode de vraisemblance nous conduit à identifier le
paramètre par la moyenne arithmétique de l’échantillon.
1
1.2.2 Biais d’un estimateur
Un estimateur ^n de  est dit sans biais si son espérance vaut  pour tout n  N* ; sinon on dit qu’il est biaisé.
Si l’espérance de ^n converge vers , il est alors appelé asymptotiquement sans biais.
L’estimateur ̂ n 
1 n
 xi est un estimateur sans biais du paramètre de la loi de Poisson.
n i 1
1.2.3 Convergence d’un estimateur
Un estimateur ^n de  est dit convergent s’il tend en probabilité vers , lorsque n.
1.2.4 Efficacité absolue d’un estimateur
Un estimateur ^n de  est absolument efficace si, étant convergent et sans biais, il possède la plus petite
variance parmi tous les estimateurs partageant les deux premières propriétés.
1.3 QUELQUES ESTIMATEURS STANDARD
1.3.1 Estimateur standard de l’espérance
Soit (x1, …, xn) un échantillon d’une v.a. possédant une espérance inconnu µ. Son estimateur standard est la
ˆ n ( x1 ,..., x n ) 
moyenne de l’échantillon : µ
1 n
 xi . Cet estimateur est sans biais. Il est de plus convergent
n i 1
lorsque la v.a. parente admet une variance (la loi des grands nombres). Dans la suite, pour alléger la notation,
nous supprimons la référence de l’estimateur à l’indice n et aux arguments x1, …, xn lorsqu’il n’y a pas de danger
de confusion.
1.3.2 Estimateur standard d’une distribution de probabilité finie
Soit (x1, …, xn) un échantillon d’une v.a. X prenant une des valeurs 1,…, k avec les probabilités inconnues p1,
…, pk respectivement. L’estimateur standard du vecteur p=(p1, …, pk) est défini par :
pˆ i 
1 n
1  ( x j ) ,
n j 1 i
i=1…k.
Autrement dit, l’estimateur standard de chaque pi est la fréquence relative d’occurrences de i dans l’échantillon.
C’est un estimateur sans biais. On peut aussi démontrer que cet estimateur maximise la fonction de
vraisemblance.
1.3.3 Estimateur standard de la variance
Soit X une v.a. admettant une espérance µ et une variance V, toutes deux inconnues. Soit (x1, …, xn) un
ˆ , Vˆ ) est donné par :
échantillon de X. L’estimateur standard joint ( µ
µˆ 
1 n
 xi
n i 1
1 n
Vˆ 
 ( xi  µˆ )² .
n  1 i 1
Cet estimateur de la variance est convergent et sans biais. On notera qu’il vaut la variance empirique multipliée
par le facteur n/(n-1). On démontre en effet que l’espérance de cette dernière vaut (n-1)/nV et il faut donc la
multiplier par n/(n-1) pour la dé-biaiser.
Dans
le
cas
ou
l’espérance
µ
est
connue,
l’estimateur
standard
de
la
variance
devient :
n
1
Vˆ 
 ( xi  µ)² et cet estimateur de la variance est convergent et sans biais.
n  1 i 1
2
1.3.4 Estimateur standard de l’écart type
Il est donné par ˆ
section précédente.
 Vˆ , ou Vˆ est l’estimateur standard de V, donné par l’une des deux formules de la
1.3.5 Estimateurs standard de la covariance et du coefficient de corrélation
Etant donné un échantillon ((x1, y1),…,(xn, yn)) du couple (X, Y) de v.a. réelles admettant chacune une espérance
et une variance inconnues. L’estimateur standard côv de cov(X, Y) est donné par :
côv 
1 n
 ( xi  µˆ )( yi ˆ)
n  1 i 1
Ou µ̂ et ˆ sont les estimateurs standard de l’espérance de X et de celle de Y respectivement.
De même, l’estimateur standard
coˆrr de corr(X, Y) est donné par : coˆrr 
côv
ou ̂ et ˆ sont les
ˆ .ˆ
estimateurs standard de l’écart type de X et de celui de Y respectivement. Ces deux estimateurs sont sans biais.
1.4 INTERVALLE DE CONFIANCE (J. ISTAS)
Etant donné un estimateur ^n d’un paramètre inconnu , quelle confiance peut-on lui accorder ? Prenons un
intervalle centré de rayon  autour de ^ et cherchons à déterminer si  appartient ou non à cet intervalle.
Evidemment, sauf dans des cas très particuliers, on ne peut répondre avec certitude à la question [^n +/- ] ?
On peut toutefois confirmer, du moins en principe, qu’avec une certaine probabilité , la vraie valeur du
paramètre se trouve dans cet intervalle. Nous dirons alors que l’intervalle [^n +/- ] est un intervalle de
confiance de niveau .
1.4.1 Exemple
Soit (x1, …, xn) un échantillon d’une v.a. normale réduite d’espérance µ inconnue (i.e. N(µ, 1)). Trouver un
intervalle de confiance de niveau  pour l’estimateur standard de l’espérance.
1.4.2 Solution
ˆ n ( x1 ,..., x n ) 
L’estimateur standard de l’espérance étant défini par : µ
1 n
 xi , on démontre facilement que
n i 1
c’est une v.a. normale d’espérance µ et de variance 1/n. On en déduit que la v.a.
n (µˆ n  µ) est une v.a.
normale centrée réduite. Nous avons alors, pour tout  > 0 :

 
Pr µˆ n  µ 
 
n

1
2
e

x²
2
x 
dx .
Pour un niveau  donné, choisissons  de sorte que :
appartient à l’intervalle
1
2
e

x²
2
x 
dx   . On peut alors affirmer que µ


 
, µˆ 
 µˆ 
 avec la probabilité .
n
n

Il s’agit donc d’un intervalle de confiance de niveau  pour l’estimateur.
1.5 INTERVALLE DE CONFIANCE ASYMPTOTIQUE
Il arrive souvent que le calcul exact d’un intervalle de confiance soit difficile, alors que le calcul d’un intervalle
de confiance approché, lorsque la taille de l’échantillon tend vers l’infini, soit accessible. On parle alors
d’intervalle de confiance asymptotique.
3
1.5.1 Exemple
Soit X une v.a. quelconque d’espérance µ inconnue et de variance 1. Soit (x 1, …, xn) un échantillon de X. On
ˆ n ( x1 ,..., x n ) 
considère l’estimateur standard µ
asymptotique de niveau  pour
1 n
 xi
n i 1
de µ. Trouver un intervalle de confiance
µ̂n .
1.5.2 Solution
µ̂n . Nous savons en revanche que, lorsque n,
Nous ne connaissons pas la loi de la v.a.
n (µˆ n  µ)
converge en loi vers une v.a. normale centrée et de variance 1. Nous avons donc asymptotiquement :

 
1
Pr µˆ n  µ 
 
n
2

Choisissons alors  de sorte que
e

x²
2
x 
1
2
dx .
e

x²
2
x 
dx   . Nous pouvons confirmer que la probabilité pour que le
paramètre inconnu µ se trouve dans l’intervalle


 
, µˆ 
 µˆ 
 vaut asymptotiquement . Par
n
n

conséquent, cet intervalle est un intervalle de confiance asymptotique de niveau  pour l’estimateur proposé.
2 TESTS D’HYPOTHESES
La problématique des tests statistiques se distingue de celle de l’estimation par le fait qu’elle ne s’intéresse pas à
la valeur exacte du paramètre inconnu. Elle cherche à déterminer si le paramètre satisfait ou non certaines
hypothèses données. A titre d’exemple, on peut considérer le cas d’un institut de sondage qui, disposant d’un
échantillon, souhaite faire certaines prévisions sur la probabilité qu’un candidat à l’élection batte les autres sans
se préoccuper dans un premier temps du chiffre exact de la cote de popularité.
2.1 EXEMPLE
Soit X une v.a. uniformément répartie dans l’intervalle [a, 1], où a est inconnu, mais on sait que 0  a <1.
Disposant d’un échantillon (x1, …xn), on souhaite établir une règle qui, en fonction de celui ci, décide :
 Soit H0 : a = 0
 Soit H1 : a > 1
Une stratégie serait de se fixer un seuil s et d’accepter H0 si le minimum de l’échantillon est inférieur à s. Si le
minimum le dépasse on rejette H0 en faveur de H1.
Quelque soit la décision, elle peut comporter deux risques :
 Rejeter H0, alors qu’elle est vraie (risque de première espèce)
 Accepter H0, alors qu’elle est fausse (risque de deuxième espèce).
Il n’est pas possible de minimiser ces deux risques simultanément. La méthode classique consiste à favoriser H0
en fixant une borne à ne pas dépasser pour l’erreur de première espèce : la probabilité du rejet H0, lorsqu’elle
est vraie ne doit pas dépasser un certain seuil .
On peut, de façon tout à fait équivalente, considérer ϐ = 1 - , ce qui est la probabilité d’accepter H0 lorsqu’elle
est vraie. C’est donc le seuil de confiance que l’on accorde à H 0. Traditionnellement, la valeur de  est choisie
dans l’intervalle [0.01, 0.1].
4
2.2 DEFINITIONS
Soit X une v.a. dont la loi dépend d’un paramètre inconnu . Soit  l’ensemble des valeurs possibles que  peut
prendre (en général un sous ensemble de Rk), appelé espace du paramètre. Il est divisé en deux sous-ensembles
disjoints et non vides :
 = 1 U 2.
On associe alors à ces deux régions les hypothèses :
H0 :   0 ;
H1 :   1 .
Lorsque 0 se réduit à un seul élément, l’hypothèses H0 est appelée hypothèse nulle.
Un test statistiques dans ce contexte, est une stratégie associant à un échantillon (x 1, …xn) une des hypothèses H0
ou H1. C’est donc une famille d’applications de Rn dans l’ensemble {H0, H1}.
Le risque de première espèce et le risque de deuxième espèce se définissent, dans le cas général, par les deux
probabilités données ci-dessus. Un seuil  à ne pas franchir pour le premier risque est imposé : c’est la
probabilités maximale du rejet de H0 lorsqu’elle est vraie.
La puissance d’un test, respectant le seuil , est mesurée en termes de probabilité du rejet de H 0 lorsqu’elle
fausse.
On peut remplacer la donnée de  par celle de ϐ = 1 - , appelé niveau de confiance de H0.
2.2.1 Un test pour l’exemple précédent
Etant donné un seuil  à ne pas dépasser pour le risque de première espèce, cherchons une frontière s pour le
minimum de l’échantillon. Rappelons que la stratégie consistait à retenir H0 si le minimum de l’échantillon ne
dépassait pas s et la rejeter sinon. Calculons alors la probabilité de son rejet, lorsqu’elle est vraie. Celle ci n’est
que la probabilité pour que le minimum, dans un n-échantillon de v.a. uniformément répartie sur l’intervalle [0,
1] dépasse s ; ce qui vaut (1 – s)n.
On en déduit que le risque de première espèce est majoré par , si (1 – s)n  . Et pour cela, le choix de s= 1-1/n
convient.
2.2.2 Quelques tests standards
Nous n’entrons pas ici dans une théorie des tests statistiques, et nous nous suffirons dans la suite de
l’introduction de quelques tests courants fréquemment sollicités dans les inférences statistiques (et donc à
connaître !). Les théorèmes, justifiant leur application, sont admis sans démonstration.
2.2.2.1
Test du Khi-deux d’ajustement
Soit X une v.a. prenant valeur dans l’ensemble {a1, …ak}/ Nous voulons tester l’hypothèse nulle :


H0 : la distribution de probabilité est le vecteur p = ( p(1), …, p(k) ) contre l’alternative :
H1 : elle est différente du vecteur p.
n
Etant donné un échantillon (x1, …, xn), définissons la fréquence observée de ai par :
N (i)  1ai  ( x j ) pour
j 1
tout i = 1, …, k.
C’est la fréquence d’observations de ai dans l’échantillon. Définissons, par ailleurs, la fréquence relative de a i par
f n (i ) 
N (i )
pour tout i = 1, …, k.
n
Nous avons déjà utilisé le vecteur fn comme estimateur standard du vecteur de p de distribution. Introduisons
maintenant une mesure d’écart entre les fréquences théoriques et les fréquences observées, appelée Khi-deux
d’ajustement par :
[ p(i )  f n (i )]²
. Nous avons alors :
p(i )
i 1
k
 n2 ( p, f n )  n
5
2.2.2.1.1
Théorème
Sous l’hypothèse nulle H0, la suite
 n2 ( p, f n ) converge en loi, lorsque n   vers une v.a. du Khi-deux à k-1
degrés de liberté.
2.2.2.1.2
Exemple
On a procédé à 120 lancers d’un même dé. Les résultats sont donnés dans le tableau suivant :
Face
1
2
3
4
5
6
Fréquence 14 16 28 30 18 14
Ce dé est-il pipé ? (on donnera la réponse avec un niveau de confiance ϐ = 0.95).
2.2.2.1.3
Solution
Dans ce problème, la v.a. prend valeurs dans {1, 2, 3, 4, 5, 6} et l’hypothèse nulle H 0 est celle de la distribution
p1 =p2 = … = p6 = 1/6.
On calcule le Khi-deux d’ajustement
 n2 ( p, f n ) =12.8. Or, la table de la loi du Khi-deux indique que pour le
² à 5=6 – 1 degrés de liberté, on ne doit pas dépasser la valeur de 11.1 au niveau de confiance 0.95. On rejette
donc l’hypothèse d’uniformité du dé, en retenant qu’il est pipé.
2.2.2.1.4
Remarque
Dans l’application du test d’ajustement du khi-deux, il faut veiller toutefois à ce que les fréquences théoriques
np(i) ne soient pas trop faibles, 5 étant considéré comme la limite inférieure traditionnelle. Si besoin est, on peut
regrouper plusieurs valeurs dans une seule classe afin de réaliser cette exigence. Cette technique permet
d’appliquer ce test à toutes les v.a. discrètes prenant valeurs dans un ensemble fini ou infini.
2.2.2.2
Test du Khi-deux d’indépendance
Soient X et Y deux v.a. prenant valeurs dans les ensembles {a 1, …, ak} et {b1, …,bl} respectivement, où k et l
sont deux entiers positifs quelconques (distincts ou égaux). En dehors de cette confirmation, rien n’est connu sur
ces v.a.
Nous souhaitons tester l’hypothèse :
 H0 : X et Y sont indépendantes contre l’alternative
 H1 : elle ne sont pas indépendantes.
Disposant d’un échantillon d’observations du couple (X, Y) : ( (x1, y1), (x2, y2), …, (xn, yn) ), on définit les
fréquences observées conjointes et marginales dans l’échantillon par :
n

Nij  1( ai ,b j ) ( x h , y h ) ; c’est la fréquence d’observations du couple (ai, bj).
h 1
n

Mi  1ai  ( x h ) ; c’est la fréquence d’observations de ai.
h 1
n

Li  1b j ( yh ) ; c’est la fréquence d’observations de bj.
h 1
2.2.2.2.1
Exemple (J. Istas)
300 conducteurs sont classifiés suivant leur âge et le nombre d’accidents qu’ils ont subits pendant les deux
dernières années. Les résultats sont donnés dans le tableau suivant :
Age/Nombre d’accidents 0
1 ou 2 3 ou plus
 21
8
23
14
[22, 26]
21 42
12
 27
71 90
19
6
L’âge des conducteurs et le nombre d’accidents subis sont-ils indépendants ? (on donnera la résponse avec un
niveau de confiance ϐ = 0.95).
2.2.2.2.2
Solution
Il s’agit de tester l’indépendance de deux v.a. (l’age et le nombre d’accidents). Le théorème précédent s’applique
avec k = l = 3. On calcule alors le Khi-deux d’indépendance. Il vient
 n2 ( N ' , M ' L' )  16.51 . Nous sommes
donc ramenés à rejeter l’hypothèse d’indépendance H0 au niveau de confiance 0.95. En effet la table de la loi du
Khi-deux indique que pour le ² de 4 = (3 – 1)*(3 – 1) degrés de liberté, on dépasse la valeur 9.48 avec une
probabilité  0.05.
2.2.2.3
Test de Student
Le problème de décider si l’espérance d’une v.a. normale est égale ou non à une grandeur donnée se pose
souvent en statistique. Dans la suite, nous considérons une v.a. X normale d’espérance µ et de variance  toutes
deux inconnues. On se donne une valeur a.
Nous voulons tester :


H0 : µ = a contre l’alternative
H1 : µ  a.
Désignons par /Xn et Sn les estimateurs standard de µ et de respectivement. Posons
Zn  n
Xn  a
. Nous
Sn
avons alors :
2.2.2.3.1
Théorème
Sous l’hypothèse H0, on a
Zn  n
Xn  µ
et Zn suit une loi de Student à n degrés de liberté.
Sn
Sous l’hypothèse H1, on a
Zn  n
Xn  µ
µa
et Zn croît en valeur absolue avec n.
 n
Sn
Sn
On en déduit alors la règle de décision suivante. Soit  le seuil de risque de première espèce à ne pas dépasser.
Alors on calcule Zn. Soit t/2(n-1) la valeur dont la probabilité de dépassement dans la loi de Student à n degrés
de liberté vaut /2. Alors :


Si |Zn| ne dépasse pas t/2(n) , alors on choisit H0.
Sinon on choisit H1.
2.2.2.3.2
Remarques
Le test précédent n’est pas un test asymptotique et peut s’appliquer aussi pour des valeurs relativement peu
élevées de n.
Si n tend vers l’infini, la loi de Student tend vers une normale centrée réduite. Traditionnellement, lorsque n 
30, on remplace l’écart dans la loi de Student par celui dans la loi normale.
Si nous voulons tester H0 : µ  a contre l’alternative H1 : µ > a, la région d’acceptation de H0 sera
S 

X n    , a  t / 2 (n  1) n  . De façon similaire, on peut tester H0 : µ  a contre l’alternative H1 : µ < a.
n

2.2.2.3.3
Exemple
Un fabriquant de piles électriques affirme que la durée moyenne du matériel qu’il produit est de 170h. On
prélève un échantillon de 30 piles et on observe une durée de vie moyenne de 155h et une variance empirique
S=30h². Que peut on penser de la confirmation du fabriquant (en supposant que la durée de vie est une v.a.
normale d’espérance et de variance inconnues ?)
2.2.2.3.4
Solution
7
Soit µ l’espérance de la durée de vie d’une pile. D’après le théorème précédent,
30
X µ
suit une loi de
S
Student t(29). Un calcul simple donne la valeur approximative –2.74 à et écart. Or, suivant une table de la loi de
Student, pour un seuil А=0.02, t(29) ne doit pas dépasser en valeur absolue 2.518. Il y a donc une bonne raison
pour rejeter l’affirmation du fabriquant.
8
Téléchargement