Chapitre 5 ESTIMATION - Méthodes de Statistique Appliquée

publicité
Statistique appliquée à la gestion et au marketing
http://foucart.thierry.free.fr/StatPC
Chapitre 5
ESTIMATION
La statistique inférentielle regroupe un ensemble de méthodes consistant à prendre en
compte le hasard dans l’analyse des données. Elle est fondée sur l’hypothèse que les
observations proviennent de tirages aléatoires dans une population statistique, constituant ce
que l’on appelle couramment un échantillon, et que la proportion dans laquelle un événement
est réalisé se rapproche de sa probabilité lorsque le nombre d’observations augmente
indéfiniment. La démarche est inversée par rapport à celle des probabilités : les paramètres
des lois de probabilités sont inconnus, et leur estimation consiste à en donner une
approximation la meilleure possible sous la forme d’une valeur précise ou d'un intervalle.
Nous suivrons l’habitude de plus en plus fréquente d’utiliser des caractères grecs pour
les paramètres théoriques, majuscules latins pour les variables aléatoires et minuscules latins
pour les valeurs observées.
1. DES PROBABILITÉS À LA STATISTIQUE.
La statistique inférentielle repose sur une hypothèse intuitive élaborée à partir
d’expériences diverses : celle de la convergence de la proportion dans laquelle un événement
est réalisé au cours d’expériences répétées vers sa probabilité telle que nous l’avons définie
dans le chapitre précédent.
Chapitre 5
2
Estimation
1.1 Simulation.
Les expériences montrant cette convergence sont nombreuses : les jeux de hasard
(jeux de casino, loto, etc.) en produisent un grand nombre, et le calcul des gains est fondé sur
cette convergence. Certains jeux de stratégie sont fondés aussi sur le calcul des probabilités,
comme le bridge.
Nous utilisons dans cet ouvrage des expériences virtuelles, effectuées à l’aide d’un
ordinateur1 et de logiciels spécifiques2 : ces expériences relèvent ce que l’on appelle la
simulation. Cette démarche, qui consiste à générer des nombres « pseudo-aléatoires »3, est
fréquemment utilisée dans le cas où il est difficile ou impossible d’effectuer un calcul
numérique (ce sont « les méthodes de Monte Carlo », appliquées par exemple au calcul
d’intégrales).
Ces nombres pseudo-aléatoires peuvent être considérés comme des observations d’une
v.a. suivant la loi uniforme, et, à l’aide de transformations mathématiques (données dans les
exercices 1 et 2), on peut en déduire des observations d’une v.a. suivant une loi quelconque.
Ce qui nous intéresse particulièrement ici, c’est la facilité avec laquelle on peut
observer une variable aléatoire autant de fois que l’on veut sans problème matériel. On crée
ainsi des données vérifiant les propriétés que l’on a choisies et que l’analyse statistique
permet de détecter. Inversement, lorsqu’une méthode n’est efficace que si les données
possèdent des propriétés particulières, on pourra vérifier qu’elle ne donne pas de bon résultat
dans le cas où les données ne les possèdent pas.
Exemple de tableau de données simulées (ou table de nombres au hasard) :
1
2
3
1
0.833
0.518
0.863
2
0.275
0.936
0.195
3
0.972
0.341
0.187
4
0.004
0.333
0.439
5
0.978
0.177
0.436
6
0.532
0.879
0.870
7
0.376
0.010
0.226
8
0.516
0.090
0.374
Tableau 1.5 : nombres pseudo-aléatoires
1
Une calculatrice munie de la touche Rnd (ou Random) peut suffire pour des expériences simples.
Nous avons aussi utilisé des logiciels publiés dans Introduction aux tests statistiques, Enseignement
Assisté par Ordinateur, de T. Foucart, édité par Technip, Paris, 1991.
3
Ces nombres ne sont pas tirés au hasard au sens strict du terme, d’où le préfixe pseudo.
2
Chapitre 5
3
Estimation
On déduit facilement de ces nombres compris entre 0 et 1 (exclus) des nombres
pseudo-aléatoires variant entre deux valeurs a et b fixées, ou des nombres entiers.
Par exemple, on obtiendra des nombres compris entre –1 et 2 en effectuant la
transformation suivante, pour toute valeur x du tableau précédent :
y=3x−1
Pour obtenir des nombres entiers compris entre 1 et 6, on pose :
y = Int(6 x +1)
Int(z) désignant le plus grand entier inférieur ou égal à z : Int(5.456) = 5, Int(4) = 4.
1.2 Loi des grands nombres.
Considérons le cas d’un dé à 6 faces, que l’on suppose parfaitement équilibré : la
population est P = {1, 2, 3, 4, 5, 6}. L’équilibre parfait de ce dé signifie qu’il n’y a aucune
raison physique d’observer une face plus qu’une autre dans une série de lancers.
En jetant le dé n fois, on obtient bien sûr n faces : à chaque jet, la probabilité d’obtenir
{1} est égale à 1/6, et la face obtenue au ie jet n’a aucune incidence sur les autres faces
obtenues : il y a équiprobabilité, et les lancers sont indépendants.
Dans ces conditions, l’expérience montre que, pour n suffisamment grand, la
proportion de faces {1} va tourner autour de 1/6. De même la proportion de faces {2}, de
faces {3} etc.
Considérons les faces 1 à 4 du dé. On définit ainsi un événement A = {1, 2, 3, 4}dont
la probabilité est égale à 4/6 = 2/3. L’événement A se produit dans une proportion égale à la
somme des proportions de chaque face et est donc de l’ordre de 4
x
1/6 soit 2/3. Cette
proportion est là aussi de l’ordre de la probabilité.
Exemple : nous avons effectué n = 600 lancers d’un dé parfaitement équilibré.
Les numéros ont tous été observés dans une proportion voisine de 1/6.
L’événement A = {1,2,3,4} et l’événement B = {5,6} ont été observés dans des
proportions proches de 2/3 et de 1/3 de l’effectif total : P(A) = 2/3, P(B) = 1/3.
n° 1
102
numéros
n° 2 n° 3 n° 4 n° 5 n° 6
103 99 92 102 102
événements
A
B
396
204
Chapitre 5
4
Estimation
L’expérience du dé peut être schématisée à l’aide d’une urne contenant six boules
numérotées de 1 à 6. Pour que les tirages soient indépendants, il suffit de remettre chaque
boule tirée dans l’urne : les tirages sont donc effectués « avec remise ». On peut généraliser
l’expérience en tirant dans une urne contenant un nombre quelconque de boules numérotées à
partir de 1.
Axiome de la loi des grands nombres : On considère une population contenant N
unités statistiques. On y effectue n tirages avec remise et on compte le nombre nA de
réalisations d’un événement A donné d’effectif NA. La proportion observée nA / n converge
vers la probabilité NA / N de l’événement A lorsque le nombre de tirages augmente
indéfiniment.
Dans la pratique des sondages, on évite d’interroger deux fois une même personne.
Les tirages d’unités statistiques sont donc effectués sans remise, et, par suite, ne sont pas
indépendants. Mais on montre que si la taille de la population dans laquelle on effectue les
tirages est grande par rapport au nombre d’unités statistiques que l’on tire au hasard, on peut
considérer les tirages comme indépendants.
Comme nous supposerons toujours cette condition réalisée, il n’est pas gênant de
supposer que les tirages sont effectués avec remise.
1.3 Notion de convergence.
La loi des grands nombres utilise une notion de convergence particulière qui demande
des explications.
Considérons l’ensemble des 6 faces du dé. La loi de probabilité de la v.a. X définie par
le numéro de la face obtenue est la loi uniforme sur {1, 2, 3, 4, 5, 6} :
Pour tout i de 1 à 6
P(X=i) = 1/6
Les proportions dans lesquelles les faces ont été observées en jetant le dé plusieurs fois
est une approximation de cette loi, chacune étant plus ou moins proche de 1/6.
Nous avons réalisé cette expérience en lançant 100 fois le dé. On constate (figure 1.5)
une proximité entre ces proportions et ces probabilités. Les proportions observées des faces 1,
4, 5 et 6 sont inférieures aux probabilités.
Chapitre 5
5
Estimation
Ces écarts sont compensés par des écarts opposés concernant les faces 2 et 3. Cela
s’explique par le fait que la somme des proportions comme la somme des probabilités est
toujours égale à 1.
Effectuons la même expérience, mais en lançant le dé 1000 fois : il est clair que les
proportions sont plus proches des probabilités que précédemment (figure 2.5).
Chapitre 5
6
Estimation
En augmentant le nombre de tirages, les proportions donnent généralement une
meilleure approximation des probabilités. Mais ce n’est pas toujours vrai : on aurait pu
obtenir des proportions plus proches de 1/6 en lançant le dé 100 fois, et même il n’est pas
exclu qu’en lançant le dé 6 fois seulement, on obtienne les six faces une fois chacune et par
suite des proportions strictement égales à 1/6 (la probabilité de cet événement est toutefois
faible : 6!/66 = 0.0154).
En conclusion, dans le cas d’une variable aléatoire discrète, il y a convergence des
proportions vers les probabilités, mais cette convergence dépend elle-même du hasard. Elle
n’est pas systématique.
Définition : la convergence de la proportion de réalisations d’un événement au cours
d’une suite d’expériences vers sa probabilité est appelée « convergence en probabilité ».
Propriété fondamentale : la densité observée d’une variable qualitative ou discrète
converge en probabilité vers la densité de la v.a. lorsque le nombre d’observations augmente
indéfiniment.
Les densités observées et théoriques sont en effet définies par les suites des
proportions et des probabilités. Cette convergence apparaît dans les diagrammes : les figures
1.5 et 2.5 en donnent une illustration.
Remarque : La convergence des proportions vers les probabilités ne signifie pas qu’il
y ait convergence des effectifs. Dans le cas du dé par exemple, la convergence de la
proportion de l’événement {1, 3, 5} vers 1/2 ne montre pas que le nombre d’observations de
cet événement tend vers la moitié du nombre d’expériences. Une explication est donnée par
les deux formules :
n1 = 0.5 n + √n n2 = 0.5 n − √n
La somme n1 + n2 est égale à n , et les proportions n1/n et n2/n tendent vers 0.5 lorsque
n tend vers l’infini :
lim(n1/n ) = lim (0.5 + 1/√n) = 0.5 lim(n2/n ) = lim (0.5 − 1/√n) = 0.5
Chapitre 5
7
Estimation
Pourtant, la différence n1 – 0.5 n, égale à √n, tend vers l’infini : il y a divergence entre
les valeurs 0.5 n et n1 (de même entre n2 et 0.5 n). On peut vérifier aussi que n1 – n2 = 2√n
augmente indéfiniment.
1.4 Densité et histogramme.
Nous avons vu dans le chapitre 1 comment construire l’histogramme d’une variable
statistique quantitative continue définie par n observations (xi) i = 1, …, n. : on choisit k
intervalles I1, I2, …, Ii, …, Ik, de longueur l1, l2, …, lk, et on dénombre les observations
appartenant à chaque intervalle : n1, n2, …, nk. On en déduit enfin la densité observée d1, d2,
…, dk par la formule :
Pour tout i de 1 à k
di = [ni / n] / li
Pour chaque intervalle Ii, la proportion ni / n est une approximation de la probabilité
P(X∈Ii), et la densité observée di est une valeur approchée de la densité par intervalle δi que
nous avons définie dans le chapitre précédent.
La densité observée est donc une approximation de la densité par intervalle et par suite
de la densité théorique lorsque le nombre d’observations augmente indéfiniment et que les
longueurs des intervalles deviennent de plus en plus petites. L’histogramme, qui représente la
densité observée, est une approximation de la représentation graphique de la densité
théorique.
Propriété fondamentale : la densité observée d’une variable quantitative converge
« en probabilité » vers la densité de la v.a. lorsque le nombre d’observations augmente
indéfiniment et que la longueur des intervalles tend vers 0.
Exemple : Considérons une série de 100 nombres pseudo-aléatoires compris entre 0
et 1. L’histogramme (figure 3.5) apparaît de façon évidente comme une approximation de la
courbe représentant la densité théorique de la loi uniforme continue sur [0, 1].
En générant 10 000 valeurs comprises entre 0 et 1, nous pouvons diminuer la taille
des intervalles en augmentant leurs effectifs pour observer la convergence. L’histogramme est
alors plus proche de la densité théorique de la loi uniforme sur [0, 1].
Chapitre 5
8
Estimation
On examinera aussi la figure 6.5 du chapitre 4.
2. ESTIMATEUR D’UN PARAMÈTRE
L’estimation statistique est un chapitre fondamental de la statistique mathématique.
Son objectif est d’affecter aux paramètres théoriques des lois de probabilité des valeurs
numériques, ou estimations, vérifiant des propriétés précises. Ces valeurs numériques sont les
observations de variables aléatoires appelées estimateurs.
2.1 Estimations empiriques.
Considérons tout d’abord la v.a. discrète X définie par la face obtenue en lançant le dé.
En relançant le dé 100 fois puis 1000 fois, nous avons obtenu les répartitions suivantes :
Chapitre 5
9
Faces
1
Probabilités
1/6
Proportions (100 valeurs) 0.16
Proportions (1000 valeurs) 0.175
Estimation
2
1/6
0.12
0.162
3
1/6
0.16
0.154
4
1/6
0.14
0.164
5
1/6
0.21
0.162
6
1/6
0.21
0.183
Tableau 2.5 : résultats des lancers d’un dé équilibré à 6 faces
Les moyennes sont donc :
•
Moyenne théorique :
µ
•
= p1 x x1
+ p2 x x2
+ p3 x x3
+ p4 x x4
+p5 x x5
+ p6 x x 6
= (1/6) x 1
+ (1/6) x 2
+ (1/6) x 3
+ (1/6) x 4
+ (1/6) x 5
+ (1/6) x 6
+ f3 x x3
+ f4 x x4
+ f5 x x5
+ f6 x x6
+ 0.16 x 3
+ 0.14 x 4
+ 0.21 x 5
+ 0.21 x 6
+ 0.154 x 3
+ 0.164 x 4
+ 0.162 x 5
+ 0.183 x 6
Moyenne observée
m
= f1 x x1
+ f2 x x2
sur les 100 valeurs :
m100
= 0.16 x 1
+ 0.12 x 2
sur les 1000 valeurs :
m1000 = 0.175 x 1
+ 0.162 x 2
On trouve :
µ = 3.5
m100= 3.75
m1000 = 3.525
La proximité entre la moyenne théorique (3.5) et les moyennes observées (3.75 et
3.525) est due à la convergence des proportions observées fi vers les probabilités pi. Plus les
effectifs sont importants, plus ces proportions sont proches des probabilités, et plus la
moyenne observée est proche de la moyenne théorique (au sens de la convergence en
probabilité).
Il y a également convergence dans le cas d’une v.a. continue. Examinons le cas de la
loi uniforme que nous avons simulée dans le paragraphe précédent (figure 3.5).
Toutes les valeurs observées appartenant à la première classe sont proches du centre
de cette classe, soit 0.1. De même pour les autres classes.
Classe
Centre
Proportion
[0, 0.2 [ [0.2, 0.4 [ [0.4, 0.6 [ [0.6, 0.8 [ [0.8, 1 [
0.1
0.3
0.5
0.7
0.9
0.23
0.19
0.15
0.22
0.21
Tableau 3.5 : Classification des 100 observations d’une v.a. de loi uniforme sur ]0, 1[
Chapitre 5
10
Estimation
Une valeur approximative de la moyenne est donc donnée par :
m = 0.23 x 0.1 + 0.19 x 0.3 +0.15 x 0.5 +0.22 x 0.7 +0.21 x 0.9 = 0.498
La moyenne observée m (= 0.498) est très proche de la moyenne théorique µ (= 0.5).
Cette proximité est d’autant plus forte que les nombres d’observations et de d’intervalles
augmentent, puisque, comme nous l’avons vu sur la figure 4.5 :
•
la proportion dans chaque intervalle converge vers la probabilité théorique ;
•
les longueurs des intervalles tendent vers 0 et les valeurs sont de plus en plus
proches du centre de la classe à laquelle elles appartiennent. .
La limite de la moyenne observée dans ces conditions est par définition l’intégrale de
la fonction x f(x) : on retrouve la moyenne d’une v.a. continue.
Le calcul détaillé que nous avons effectué pour montrer la convergence de la moyenne
empirique vers la moyenne théorique peut être appliquée au cas de la variance :
• Variance théorique :
σ2
= p1 x x12
+ p2 x x22
+ p3 x x32
+ p4 x x42
+ p5 x x52
+ p6 x x62 − µ2
+ f3 x x32
+ f4 x x42
+ f5 x x52
+ f6 x x62 – m2
• Variance observée :
s2
=f1 x x12
+ f2 x x22
On trouve, en notant s1002 et s10002 les variances des échantillons de taille 100 et 1000 :
σ2 = 2.917
s1002= 3.0008
s10002 = 3.045
Les convergences des proportions fi vers les probabilités pi et de la moyenne
empirique m vers la moyenne théorique µ assurent celle de la variance empirique vers la
variance théorique. Mais cette convergence en probabilité est soumise au hasard, et c’est pour
cela que la variance empirique s1002 précédente est plus proche de la variance théorique σ2 que
s10002.
Naturellement, les v.a. continues vérifient la même propriété.
Définition :
•
On appelle estimation empirique de la moyenne d’une variable aléatoire la
moyenne calculée sur les observations effectuées.
•
On appelle estimation empirique de la variance d’une variable aléatoire la
variance calculée sur les observations effectuées.
Chapitre 5
11
Estimation
Propriété :
Les estimations empiriques de la moyenne et de la variance convergent en probabilité
vers les paramètres théoriques lorsque le nombre d’observations augmente indéfiniment.
2.2 Estimateurs de la moyenne et de la variance.
On peut formaliser la notion d’échantillon et d’estimation. En effet, une suite
d’observations xi d’une v.a. X peut être considérée comme une suite d’observations de n
variables aléatoires Xi suivant la loi de X, correspondant chacune à un tirage au hasard dans la
population. Il existe donc deux notions d’échantillons :
Définitions :
•
L’échantillon de v.a. Xi, i = 1, …, n, est une suite de v.a. indépendantes et de
même loi que X, la v.a. Xi représentant simplement la v.a. X au iième tirage.
•
L’échantillon observé xi, i = 1, …, n, est une suite de valeurs observées de la v.a.
X ou de chaque v.a. Xi, i = 1, …, n.
Définition : on appelle estimateur d’un paramètre d’une loi de probabilité d’une v.a. X
une v.a. calculée sur un échantillon Xi, i = 1, …, n de X, dont la valeur observée est une
approximation de ce paramètre, et qui vérifie certaines propriétés d’optimalité.
Les estimateurs les plus utilisés sont les estimateurs empiriques de la moyenne et de la
variance.
La moyenne observée de la suite xi, i = 1, …, n est par définition le nombre m :
m=
1
–––
n
n
Σ xi
i=1
La moyenne de l’échantillon Xi, i = 1, …, n, est par définition la v.a. M :
M=
1
–––
n
n
Σ Xi
i=1
En conclusion, M est une v.a. dont la valeur observée à l’issue d’une suite de n tirages
au hasard est égale à m : la v.a. M est antérieure aux tirages, et m en est une valeur observée,
postérieure aux tirages.
Chapitre 5
12
Estimation
On peut définir de la même façon l’estimateur de la variance :
1
n
V = ––– Σ (Xi – µ)2
n i=1
dont la valeur observée v est la variance de l’échantillon observé :
1
n
v = ––– Σ (xi – µ)2
n i=1
On ne peut toutefois calculer cet estimateur que si l’on connaît la moyenne théorique
µ, ce qui n’est pas le cas en général. On considère donc souvent l’estimateur ci-dessous :
1
n
S = ––– Σ (Xi – Μ)2
n i=1
2
dont la valeur observée s2 est la variance de l’échantillon observé :
1
n
s2 = ––– Σ (xi – m)2
n i=1
Définitions :
•
L’estimateur empirique de la moyenne théorique d’une v.a. est la v.a. M :
M=
•
1
–––
n
n
Σ Xi
i=1
L’estimateur empirique de la variance théorique est la v.a. S2 :
1
n
S = ––– Σ (Xi – M)2
n i=1
2
2.3 Propriétés caractéristiques des estimateurs.
Ce que l’on appelle estimation en statistique inférentielle regroupe des méthodes
beaucoup plus générales que celles que nous avons présentées dans les paragraphes
précédents. Les estimateurs empiriques comme M et S2 ne sont pas toujours les « meilleurs »
pour estimer la moyenne et la variance théoriques d’une loi de probabilité. Dans le cas d’une
v.a. qui suit la loi de Poisson P(λ) par exemple, le paramètre λ est à la fois la moyenne et la
variance de la v.a. : l’estimateur de λ qu’il faut choisir est-il M ou S2 ?
Chapitre 5
13
Estimation
Pour répondre à ce genre de question, il est nécessaire de formaliser la démarche et de
préciser ce que l’on entend par « meilleur ». On cherche donc des estimateurs possédant
certaines propriétés. En voici quelques-unes :
Un estimateur d’un paramètre ω est :
•
sans biais si son espérance est égale à ω, et biaisé dans le cas contraire ;
•
asymptotiquement sans biais si son espérance converge vers ω lorsque le nombre
d’observations tend vers l’infini ;
•
convergent si sa valeur observée converge en probabilité vers ω lorsque le nombre
d’observations tend vers l’infini ;
•
efficace s’il n’existe pas d’estimateur sans biais de ω de variance strictement
inférieure.
Les estimateurs empiriques précédents possèdent des propriétés particulières :
•
L’estimateur empirique de la moyenne est sans biais.
•
L’estimateur empirique de la variance est asymptotiquement sans biais.
•
Ils sont convergents.
•
Lorsque les v.a. Xi suivent la loi normale, l’estimateur empirique de la moyenne
est efficace.
En ce qui concerne le second des quatre points précédents, on montre que l’estimateur
empirique de la variance a pour espérance (n−1) σ2/n. Cela explique que, surtout pour des
échantillons de taille faible, on choisit souvent comme estimateur ponctuel de σ2 la statistique
S’2 = n S2/(n−1). On a en effet (ex. 3) :
E(S’2) = E[ n S2/(n−1) ] = n E(S2) /(n − 1) = σ2
2.4 Loi de l’estimateur de la moyenne (théorème de la limite centrée).
Théorème de la limite centrée : on considère une suite de n v.a. Xi indépendantes et
de même loi de probabilité, d’espérance µ et de variance σ2. La loi de probabilité de
l’estimateur M est, pour une valeur suffisante de n, la loi normale d’espérance µ et de
variance σ2/n.
L’expression « valeur suffisante de n » est vague : cela vient du fait que le nombre n à
partir duquel on peut considérer que la loi de M est normale dépend de la loi des v.a. Xi.
Chapitre 5
14
Estimation
Par exemple, si les v.a. Xi suivent elles-mêmes la loi normale, il suffit que n soit
supérieur ou égal à 1 : la propriété est toujours vraie. Pour une loi uniforme, on considère en
général n = 12, ou n = 24. Dans le cas de lois non symétriques comme la loi exponentielle, la
valeur minimale de la taille de l’échantillon assurant la convergence vers la loi normale peut
être beaucoup plus grande (>50).
Étudions le cas de v.a. Xi suivant la loi uniforme sur ] 0, 1 [. La moyenne théorique est
égale à µ = 0.5 et la variance à σ2 = 1/12. Un échantillon de cette loi, pour une taille
suffisante, n = 24 par exemple, aura pour moyenne une valeur m proche de 0.5 et pour
variance une valeur s2 proche de 1/12. Ces valeurs m et s2 sont les valeurs observées des
estimateurs M et S2 :
0.628
0.247
0.308
0.923
0.781
0.891
0.935
0.715
0.003
0.397
0.493
0.271
0.955
0.853
0.094
0.133
0.379
0.427
0.978
0.914
0.962
0.491
0.161
0.946
Tableau 4.5 : 24 observations de la loi uniforme sur ] 0, 1 [
m = 0.5785487, s2 = 0.1043021
Le théorème de la limite centrée dit que la variable M suit la loi normale de moyenne
µ et de variance σ2/n. La simulation par ordinateur concrétise cette propriété : en générant 100
échantillons de taille 24, on obtient 100 valeurs observées m1, m2, …, m100 de M.
Chapitre 5
15
Estimation
On constate effectivement, sur la figure 5.5, la proximité de l’histogramme de ces 100
valeurs avec la densité théorique de la loi normale.
On pourra, en simulant des échantillons de taille 12 d’une v.a. suivant la loi
exponentielle par le logiciel TESTEAO4, constater que la taille de ces échantillons est très
insuffisante pour que leur moyenne suive la loi normale.
Ce théorème est vrai aussi lorsque la v.a. est discrète, avec les mêmes réserves sur la
taille n de l’échantillon nécessaire pour que la convergence de la v.a. M vers la loi normale
soit acceptable.
Une première application est de permettre une prévision de la valeur moyenne
observée si l’on connaît les paramètres théoriques de la loi de probabilité des Xi.
Exemple : on lance 100 fois le dé. D’après le théorème de la limite centrée, la
moyenne empirique M définie par la moyenne des 100 chiffres obtenus suit
approximativement la loi normale d’espérance µ = 3.5 et de variance σ2/n = 0.0292. On peut
donc effectuer des calculs de probabilités sur cette v.a. :
4
Introduction aux tests statistiques, Enseignement Assisté par Ordinateur, de T. Foucart, Technip,
Paris, 1991.
Chapitre 5
•
16
Estimation
La probabilité de l’intervalle [µ − 1.96 σ /√n, µ + 1.96 σ /√n] = [3.165,
3.835] est égale à 0.95. Il est donc très probable que la valeur moyenne
obtenue en lançant le dé 100 fois soit comprise entre ces deux valeurs.
•
La probabilité de l’intervalle ] −∞ , µ − 1.6449 σ /√n] = ] −∞ , 3.219 ] est égale
à 0.05. On est presque sûr d’obtenir une valeur moyenne supérieure à 3.219.
2.5 Loi de l’estimateur de la variance.
L’étude de l’estimateur de la variance est fondée sur une propriété supplémentaire : la
loi des v.a. Xi doit être la loi normale.
Théorème : si les v.a. Xi , i = 1, …, n sont indépendantes et suivent la loi normale
d’espérance µ et de variance σ2, la v.a. n S2/σ2 suit la loi du χ2 de degré de liberté n − 1.
Ce théorème est une conséquence de la définition de la loi du χ2. La v.a. n S2/σ2 est
une somme de carrés de variables qui suivent approximativement la loi normale centrée
réduite, si les Xi suivent la loi normale :
n S2
(X1 – M)2
(X2 – M)2
(X3 – M)2 …
(Xn – M)2
––– = ––––––– + –––––––– + ––––––––
+ ––––––––
…
σ2
σ2
σ2
σ2
σ2
Le degré de liberté est diminué de 1 pour tenir compte du fait que les variables de la
forme (Xi – M) / σ, ne sont pas indépendantes puisqu’elles dépendent toutes de M, et qu’elles
ne sont pas exactement de variance 1. On notera que la connaissance de la moyenne théorique
µ n’est pas nécessaire pour appliquer le théorème.
Nous avons simulé, pour visualiser la loi de probabilité de la v.a. n S2/σ2, 1000
échantillons de taille n de la loi des Xi, construit l’histogramme des valeurs n s2/σ2 obtenues,
et superposé la loi du χ2 correspondante.
En figure 7.5, la loi des v.a. Xi simulée est la loi normale et chaque échantillon de
taille 10. On constate la proximité entre l’échantillon et la loi du χ2, ce qui confirme le
théorème.
L’histogramme est par contre différent de la densité de la loi du χ2 lorsque ces
variables suivent la loi uniforme (figure 8.5).
Chapitre 5
17
Estimation
Comme dans le cas de l’estimateur M, on peut prévoir dans quel intervalle se trouvera
probablement la variance calculée sur n observations d’une v.a. qui suit la loi normale de
moyenne µ et de variance σ2.
Exemple : supposons n = 50 et σ2 = 25. La v.a. X2 = 50 S2/25 = 2 S2 suit la loi du χ2
de degré de liberté 49 (on suppose donc que les v.a. Xi suivent la loi normale). La table
statistique pour ν = 49 degrés de liberté donne les valeurs suivantes :
Chapitre 5
18
Estimation
P(2 S2 < 31.55) = 0.025 P(2 S2 > 70.22) = 0.025
On en déduit la probabilité ci-dessous :
P(31.55 <2S2 <70.22) = 0.95
La variance de l’échantillon sera très probablement comprise entre 15.78 et 35.36 :
P(15.78 < S2 < 35.36) = 0.95
3. ESTIMATION PAR INTERVALLE DE CONFIANCE.
Nous avons calculé précédemment des intervalles contenant probablement la moyenne
et la variance d’un échantillon généré suivant une loi dont les paramètres sont connus. Nous
abordons maintenant le problème inverse : la moyenne et la variance de la loi sont inconnues,
et nous cherchons des intervalles contenant vraisemblablement leurs vraies valeurs.
3.1 Intervalle de confiance. Propriétés des estimateurs empiriques.
La notion de niveau de confiance est indispensable pour construire un intervalle de
confiance. Nous avons déjà abordé ce problème dans le paragraphe précédent, en choisissant
des probabilités (0.95) associées aux intervalles contenant très probablement les valeurs
calculées sur l’échantillon.
Il faut en effet fixer une probabilité suffisamment grande pour que l’on puisse
considérer que la réalisation d’un événement est très probable. Habituellement, on choisit les
valeurs 0.90, 0.95, ou 0.99, que l’on note 1 − α pour des raisons expliquées dans le chapitre 6.
Définition : le niveau de confiance 1 − α, noté aussi (100 − α) %, est la probabilité
d’un événement que l’on considère comme très probable.
Son choix est raisonné ; on doit l’effectuer en fonction du contexte dans lequel les
estimations sont effectuées. On ne peut guère donner plus de précisions à ce stade.
On considère un paramètre ω de la loi de probabilité d'une v.a. X, et un échantillon Xi,
i = 1, …, n de cette v.a. .
Chapitre 5
19
Estimation
Définition : l’intervalle de confiance du paramètre ω est défini au niveau de confiance
1 – α par l’observation de deux v.a. B1 et B2 dépendant de l’échantillon Xi, i = 1, …, n et
vérifiant la propriété suivante :
P(ω ∈[B1, B2 ]) = 1−α
Les bornes B1 et B2 de l’intervalle dépendent du hasard. Chaque échantillon observé
donne donc un intervalle de confiance [b1, b2] différent. L’intervalle de confiance est
finalement l’ensemble des valeurs vraisemblables du paramètre ω compte tenu de
l’échantillon observé.
On donne en figure 9.5 une suite d’intervalles de confiance de la moyenne théorique µ
d’une v.a. X. Chaque intervalle [m1, m2] résulte de l’observation d’un échantillon de X et est
la réalisation de l’intervalle aléatoire [M1, M2] contenant le paramètre théorique m avec la
probabilité 0.95. Les v.a. M1 et M2 sont définies dans le paragraphe 3.2.
3.2 Intervalle de confiance de la moyenne (variance connue).
Nous cherchons à évaluer la moyenne µ de la population (figure 9.5). Pour cela, on
choisit un niveau de confiance égal à (100−α)%, qui permet de définir l’intervalle de
confiance. On suppose tout d’abord que la variance théorique σ2 est connue.
Propriété : lorsque les v.a. Xi sont indépendantes et suivent la loi normale, la
Chapitre 5
20
Estimation
statistique U définie par
U = [M − µ ]/[σ2/n ]1/2
suit la loi centrée réduite.
On sait que la v.a. M suit la loi normale de moyenne µ et de variance σ2/n. La variable
U ci-dessus est obtenue en centrant et en réduisant M.
On peut donc déterminer le nombre uα tel que :
P(−uα < U < uα ) = 1 − α
Pour obtenir un intervalle symétrique, on pose :
P(U < − uα ) = α/2
P(U > uα ) = α/2
Exemple (figure 10.5) :
α = 1%
α = 5%
α = 10%
1 – α = 99%
1 – α = 95%
1 – α = 90%
uα = 2.58
uα = 1.96
uα = 1.65
On en déduit :
P(− uα σ/√n < M − µ < uα σ/√n ) = 1 − α
P(M − uα σ/√n < µ < M + uα σ/√n ) = 1 − α
On obtient l’intervalle ci-dessous :
IC = [M − uα σ/√n, M + uα σ/√n] = [M1, M2]
avec :
Chapitre 5
21
Estimation
M1 = M − uα σ/√n M2 = M + uα σ/√n
À ce niveau, les bornes de l’intervalle IC dépendent de la v.a. M et sont aléatoires : on
peut donc dire que la moyenne théorique µ appartient à l’intervalle de confiance IC avec la
probabilité 1 – α.
Par contre, après observation de l’échantillon, on connaît la valeur observée m de M :
on ne peut tenir le même discours que précédemment puisque les bornes de l’intervalle ne
dépendent plus du hasard. La moyenne théorique µ est très « vraisemblablement » comprise
entre les deux valeurs numériques.
Définition : lorsque la variance théorique σ2 est connue, l’intervalle de confiance de la
moyenne au niveau de confiance (100−α)% est l’intervalle :
[m − uα σ/√n , m + uα σ/√n ]
le nombre uα étant choisi dans la table de la loi normale centrée réduite U de façon que
P(− uα < U < uα ) = 1 − α.
Remarques :
•
Les bornes de l’intervalle de confiance sont symétriques par rapport à la moyenne
observée. Il est possible de les choisir différemment. Par exemple, on choisit la valeur uα telle
que :
P(U < uα ) = 1 − α
L’intervalle de confiance est alors de la forme ] − ∞, M + uα σ/√n ] : la moyenne
théorique est très vraisemblablement inférieure à m + uα σ/√n.
•
La longueur de l’intervalle aléatoire tend vers 0 lorsque le nombre d’observations
augmente indéfiniment. On retrouve la convergence de l’estimateur M vers la moyenne
théorique µ.
•
Le théorème de la limite centrée permet de calculer cet intervalle de confiance
même lorsque la v.a. X ne suit pas la loi normale, à condition que l’échantillon soit de taille
suffisante.
Chapitre 5
22
Estimation
3.3 Intervalle de confiance de la moyenne (variance inconnue).
L’estimation de la moyenne est plus fréquemment effectuée sans que l’on connaisse la
variance théorique. On ne peut donc plus effectuer les calculs précédents. Le calcul de
l’intervalle de confiance est fondé sur la propriété suivante :
Propriété : lorsque les v.a. Xi sont indépendantes et suivent la loi normale, la
statistique T définie par :
T = [M − µ ]/[S2 / (n−1) ]1/2
suit la loi de Student de degré de liberté n−1.
Une démarche analogue à la précédente nous donne l’intervalle de confiance.
Définition : lorsque la variance théorique σ2 est inconnue, l’intervalle de confiance de
la moyenne au niveau de confiance (100−α)% est l’intervalle :
[m − tα s/(n − 1)1/2 , m + tα s/(n − 1) 1/2 ]
Pour déterminer tα, on utilise :
• si n ≤ 120, la table de la loi de probabilité de Student de degré de liberté ν = n−1 ;
• pour n > 120 la table de la loi normale centrée réduite.
Nous donnons ci-dessous quelques valeurs de tα :
n = 10
n = 20
n = 20
n = 50
ν=9
ν = 19
ν = 19
ν = 49
α= 5%
α= 5%
α= 10%
α= 5%
tα = 2.26
tα = 2.09
tα = 1.73
tα = 2.02
Remarque : les remarques du paragraphe précédent restent vraies.
Exemple : nous avons calculé dans le chapitre 1 la moyenne et la variance des 50
achats de l’échantillon tiré au hasard : m = 316.945F, s = 207.1291, s2 = 42902.472. On a,
pour α = 5%, tα = 2.02. L’intervalle de confiance de la moyenne est égal à :
[316.945 − 2.02 x 207.1291/√49 , 316.945 + 2.02 x 207.1291/√49 ]
Chapitre 5
23
Estimation
Soit :
[ 257.173, 376.717 ]
Dans le calcul de l’intervalle de confiance de la moyenne, le manque de symétrie de la
répartition, constaté précédemment par l’étude de l’histogramme et la valeur du coefficient
d’asymétrie (1.16, est compensé par le nombre d’observations (50).
3.4 Intervalle de confiance de la variance.
En ce qui concerne la variance, le principe est le même, mais la loi de probabilité
utilisée est la loi du χ2 de degré de liberté ν = n−1.
Propriété : lorsque les v.a. Xi sont indépendantes et suivent la loi normale, la v.a.
n S2/σ2 suit la loi du χ2 de degré de liberté n−1.
La loi du χ2 n’est pas symétrique (figure 11.5), puisque les valeurs appartiennent à
l’intervalle [0, + ∞ [. Pour obtenir un intervalle de confiance de niveau de confiance 1 −α
symétrique en probabilité, il faut déterminer deux bornes (figure 11.5) :
•
χα2 telle que P(n S2 / σ2 < χα2) = α/2
•
χ1−α2 telle que P(n S2/σ2 > χ1−α2) = α/2
Chapitre 5
24
Estimation
Les valeurs ci-dessous sont obtenues dans la table de la loi du χ2 :
n
10
20
20
50
50
ν
9
19
19
49
49
α
5%
5%
10%
5%
10%
χα2
2.700
8.907
10.117
31.555
33.93
χ1−α2
19.023
32.852
30.144
70.222
66.34
On en déduit la probabilité de l’intervalle [χα2, χ1−α2 ] suivant la loi du χ2 :
P(χα2 < n S2/σ2 < χ1−α2) = 1 − α
Un calcul simple donne :
P(n S2/χ1−α2 < σ2 < n S2/χα2) = 1 − α
Définition : l’intervalle de confiance de la variance au niveau de confiance (100 −
α)% est l’intervalle :
[n s2/χ1−α2 , n s2/χα2 ]
Le calcul de l’intervalle de confiance de la variance est plus compliqué pour n>100 et
nous n’en parlerons pas (la procédure est expliquée dans la plupart des tables du χ2).
Remarques :
• Les bornes χα2 et χ1−α2 respectent la symétrie en probabilité. On aurait pu les
choisir de façon différente, la seule condition étant :
P(n S2/σ2 < χα2) + P(n S2/σ2 > χ1−α2) = α
•
En choisissant χα2= 0, on obtient une valeur minimale de la variance puisque
l’intervalle de confiance est de la forme [n s2/χ1−α2 , + ∞ [
•
En choisissant χ1−α2= + ∞, on obtient une valeur maximale de la variance
puisque l’intervalle de confiance est de la forme [0, n s2/χα2 [
• La v.a. n S2/σ2 ne suit la loi du χ2 que lorsque la v.a. X suit la loi normale.
L’intervalle de confiance peut toujours être calculé, mais son intérêt est limité lorsque cette
propriété n’est pas vraie, même lorsque l’effectif de l’échantillon est élevé.
• On remarquera que l’intervalle de confiance de la variance ne dépend pas de la
moyenne théorique de la v.a. Plus précisément, les v.a. M et S2 sont indépendantes, ce qui
signifie que l’approximation faite sur un paramètre n’a pas d’effet sur l’approximation faite
Chapitre 5
25
Estimation
sur l’autre.
Exemple : calculons l’intervalle de confiance de la variance des achats des clients
d’Euromarket. L’estimation est s2 = 42902.472. Le degré de liberté est égal à 49 pour 50
observations. On a, en choisissant un niveau de confiance égal à 95% :
χα2 = 31.555 χ1−α2 = 70.222
D’où l’intervalle de confiance de la variance des achats :
[50 x 42 902.472/70.222 , 50 x 42 902.472/31.555 ]
IC = [30 547.74, 67 980.47]
On sait que le montant des achats n’est pas réparti suivant la loi normale dans la
population. On accordera donc un intérêt limité à l’intervalle de confiance ci-dessus que nous
n’avons calculé qu’à titre d’exemple numérique.
3.5 Autres intervalles de confiance.
Les lois des estimateurs M et S2 nous ont permis de calculer les bornes des intervalles
de confiance des paramètres µ et σ2. On ne peut pas toujours effectuer ce calcul, et la
recherche des bornes doit parfois être menée différemment.
Étudions les cas particuliers d’une probabilité et du paramètre λ d’une loi de Poisson.
3.5.1 intervalle de confiance d’une probabilité π.
La démarche repose sur la loi de Bernoulli de paramètre π (qui n’est évidemment pas
égal ici à 3.14) et la loi binomiale. Cette probabilité π est la probabilité d’un événement E, par
exemple la proportion de femmes dans la clientèle d’Euromarket..
On calcule, en effectuant une suite de n tirages, le nombre de réalisations nE de
l’événement E : on sait que le rapport p = nE/n est une estimation de la probabilité π, et que nE
est la valeur observée x d’une variable aléatoire X qui suit la loi binomiale B(n, π).
Lorsque le nombre de tirages est suffisant (n>100) on utilise une approximation de
cette loi par la loi normale :
Définition : pour n >100, on appelle intervalle de confiance d’une probabilité π au
niveau de confiance (100−α)%, l’intervalle :
Chapitre 5
26
Estimation
[ p − uα [p (1 − p)/n]1/2 , p + uα [p (1 − p)/n]1/2 ]
dans lequel p est la fréquence observée dans l’échantillon et uα est choisi dans la table de la
loi normale suivant le niveau de confiance fixé.
Exemple : pour n =200, x= 130 et α = 0.05, on a uα = 1.96. On en déduit p = 0.65 et
l’intervalle de confiance :
[ 0.65 − 1.96 x [ 0.65 x 0.35/200 ] 1/2 , 0.65 + 1.96 x [ 0.65 x 0.35/200 ] 1/2 ]
IC = [ 0.584 , 0.716]
Pour les petites valeurs de n, la procédure consiste à déterminer pour x connue les
valeurs πα a et π1−α telles que :
P(X>x/π = πα) = α/2
P(X<x/π = π1−α) = α/2
Cela revient à calculer la plus grande et la plus petite des valeurs possibles de π.
On peut utiliser un abaque5, une table statistique ou un logiciel.
Exemple : examinons le cas pour n = 10, p = 0.6 et α = 0.05. Nous donnons cidessous les probabilités P(X<=6) et P(X>=6) pour π = 0.3 et π = 0.8.
Loi Binomiale B(10,0.3)
Loi Binomiale B(10,0.8)
P(X<=6)
0.989408
P(X<=6)
0.120874
P(X>=6)
0.047349
P(X>=6)
0.967207
On peut considérer que les valeurs π = 0.3 et π = 0.8 appartiennent à l’intervalle de
confiance puisque les probabilités sont supérieures à 0.025.
On constate aussi que plus la valeur de π est élevée, plus la probabilité P(X<=6) est
faible et plus la probabilité P(X>=6) est grande. On cherche donc la valeur de π la plus
grande possible, jusqu’à obtenir P(X<=6) = 0.025. On trouve π = 0.88
Réciproquement, plus la valeur de π est faible, plus la probabilité P(X<=6) est grande
et plus la probabilité P(X>=6) est petite. On cherche donc la valeur de π la plus petite
5
Graphique donnant par simple lecture la solution approchée d'un problème numérique. On trouvera un
abaque dans l’ouvrage de G. Saporta.
Chapitre 5
27
Estimation
possible, jusqu’à obtenir P(X>=6) = 0.025. On trouve π = 0.26.
La lecture de l’abaque donne le même intervalle de confiance: [0.26, 0.88].
3.5.2 intervalle de confiance du paramètre λ de la loi de Poisson.
Définition : l’intervalle de confiance du paramètre λ d’une v.a. de loi P(λ) au niveau
de confiance (100 − α)% est l’intervalle :
[χα2/2n , χ1−α2/2n ]
où n est le nombre d’observations, s leur somme et où les valeurs χα2 et χ1−α2 vérifient
les propriétés :
• χα2 telle que P(X12 < χα2) = α/2, X12 étant une v.a. suivant la loi du χ2 de degré de
liberté ν1 = 2 s
• χ1−α2 telle que P(X22 > χ1−α2) = α/2, X22 étant une v.a. suivant la loi du χ2 de degré
de liberté ν2 = 2 (s+1)
On peut utiliser aussi les tables statistiques ou un logiciel pour calculer l’intervalle de
confiance comme précédemment.
Exemple : pour calculer l’intervalle de confiance du paramètre λ d’une loi de Poisson
dont la valeur estimée sur 10 observations est l = 2.5, on cherche les valeurs χα2 et χ1−α2 pour
les degrés de liberté 50 et 52 et pour le niveau de confiance choisi (95%). La table donne :
χα2 = 32.357, χ1−α2 = 73.810. On en déduit l’intervalle de confiance :
[1.618, 3.691]
CONCLUSION
L’estimation est un chapitre important de la statistique inférentielle dont nous n’avons
donné qu’un aperçu limité aux propriétés fondamentales. Elle donne les outils nécessaires à
une approximation contrôlée des paramètres statistiques habituels. On peut ainsi déterminer la
précision d’une estimation, et inversement, calculer le nombre d’observations nécessaires
pour obtenir une précision donnée. Ce dernier point est utile en particulier dans les sondages.
Chapitre 5
28
Estimation
TABLE DES MATIÈRES
1. DES PROBABILITÉS À LA STATISTIQUE........................................................... 1
1.1 Simulation............................................................................................................. 2
1.2 Loi des grands nombres........................................................................................ 3
1.3 Notion de convergence. ........................................................................................ 4
1.4 Densité et histogramme. ....................................................................................... 7
2. ESTIMATEUR D’UN PARAMÈTRE....................................................................... 8
2.1 Estimations empiriques. ....................................................................................... 8
2.2 Estimateurs de la moyenne et de la variance...................................................... 11
2.3 Propriétés caractéristiques des estimateurs. ....................................................... 12
2.4 Loi de l’estimateur de la moyenne (théorème de la limite centrée). .................. 13
2.5 Loi de l’estimateur de la variance. ..................................................................... 16
3. ESTIMATION PAR INTERVALLE DE CONFIANCE......................................... 18
3.1 Intervalle de confiance. Propriétés des estimateurs empiriques. ........................ 18
3.2 Intervalle de confiance de la moyenne (variance connue). ................................ 19
3.3 Intervalle de confiance de la moyenne (variance inconnue). ............................. 22
3.4 Intervalle de confiance de la variance. ............................................................... 23
3.5 Autres intervalles de confiance. ......................................................................... 25
3.5.1 intervalle de confiance d’une probabilité π. ................................................ 25
3.5.2 intervalle de confiance du paramètre λ de la loi de Poisson. ...................... 27
CONCLUSION ............................................................................................................ 27
Téléchargement
Study collections