Chapitre 7 : Echantillonnage et estimation

publicité
Probabilités Elémentaires – Licence
Chapitre 7 : Echantillonnage et estimation
Jusqu’à présent, nous travaillions avec des variables aléatoires dont les lois de probabilité, ainsi
que leurs paramètres, étaient connus ou supposés connus, ce qui nous permettait de calculer des
probabilités relatives à ces variables. La démarche statistique est inverse : les lois des variables,
ou au moins leurs paramètres, sont inconnus et vont être "inférés" à travers l’observation d’un
échantillon.
1
Echantillonnage
1.1
Description des données statistiques sur un caractère
On considère ici une population, c’est-à-dire un ensemble d’individus, et on s’intéresse à un caractère particulier des individus de cette population, qu’on suppose, pour chaque individu, quantifiable
par un nombre réel. On a mesuré expérimentalement la valeur du caractère de n individus et on a
trouvé les nombres x1 , · · · , xn .
Exemples :
1. La population est l’ensemble des câbles fabriqués dans une usine donnée, le caractère est la
charge de rupture d’un câble. On a mesuré la charge de rupture de 12 de ces câbles et obtenu
la liste :
1440 1410 1520 1470 1430 1490 1455 1445 1472 1455 1470 1430
2. La population est l’ensemble des jeux de pile ou face effectués avec une pièce de monnaie
donnée, le caractère est égal à 1 si on obtient face et 0 si on obtient pile. On a lancé la pièce
10 fois et obtenu la liste :
0010010110
Nous rappelons maintenant les outils les plus courants de description des propriétés des listes de
résultats x1 , · · · , xn obtenues dans ce contexte expérimental.
1.1.1
Représentations graphiques
On peut représenter l’ensemble de ces nombres graphiquement par :
– la fonction de répartition empirique : l’ordonnée du point d’abscisse a est égale à
1
|{j ∈ {1, · · · , n} : xj ≤ a}|.
n
– le diagramme en bâtons des effectifs : la hauteur du bâton d’abscisse a est égale à
|{j ∈ {1, · · · , n} : xj = a}|.
Cette représentation n’a d’intérêt que s’il y a des répétitions dans la liste x1 , · · · , xn .
– un histogramme des fréquences : la surface du rectangle, dont la base est l’intervalle borné I, est
égale à
1
|{j ∈ {1, · · · , n} : xj ∈ I}|.
n
Un tel histogramme dépend de la façon dont on découpe en intervalles l’ensemble des valeurs du
caractère.
1.1.2
Mesures de tendance et de dispersion
On peut aussi en calculer des tendances
centrales :
1 Pn
– la moyenne empirique x̄ = n i=1 xi .
1
– la médiane m : si les xj sont rénumérotés de telle sorte que x(1) ≤ · · · ≤ x(n) ,
(
x si n = 2k − 1,
m = 1 (k)
2 (x(k) + x(k+1) ) si n = 2k.
Les quartiles, les déciles, et plus généralement les s-quantiles sont définis de façon analogue en
répartissant les x(i) en 4, 10 ou s groupes, au lieu de 2 pour la médiane.
– le mode : la valeur a (ou l’une des valeurs) qui maximise |{j ∈ {1, · · · , n} : xj = a}|.
On peut en décrire la dispersion par :
– l’étendue : différence entre la plus grande et la plus petite valeur des xi .
– l’écart entre certains quantiles :Ppar exemple, différence entre les troisième et premier quartiles.
– l’écart moyen à la médiane : n1 ni=1 |xi − m|.
– la variance empirique :
n
s2 =
1X
(xi − x̄)2 .
n
i=1
Reprenons l’exemple 1. S’il ne veut pas faire faillite, le fabricant des câbles ne peut pas mesurer
la charge de rupture de tous les câbles qu’il fabrique, puisque cette mesure les détruit. La valeur
moyenne de la charge de rupture qu’il a calculée en testant 12 câbles reflète-t-elle bien la valeur
moyenne de la charge de rupture de l’ensemble des câbles ? La fonction de répartition empirique
obtenue est-elle une bonne approximation de celle qu’on obtiendrait après le test de tous les câbles
ou de 1200 de ces câbles ? L’objet de la théorie des statistiques est de répondre à des questions de
ce type, c’est-à-dire d’estimer la pertinence de la généralisation des caractéristiques de l’échantillon
expérimental à la population toute entière.
La démarche choisie est celle de la modélisation probabiliste. On assimile le caractère numérique,
dont x1 , · · · , xn est un échantillon observé, à une variable aléatoire X dont la loi est inconnue, ou
dont le type est connu mais certains des paramètres sont inconnus. Par exemple, il se peut qu’on
sache, pour des raisons théoriques ou en conséquence d’expériences antérieures, que la charge de
rupture d’un câble suit une loi normale N (µ, σ 2 ) de paramètres µ et σ 2 inconnus ; mais on peut
aussi n’avoir aucune idée a priori sur le type de sa loi.
On représente l’expérience de l’échantillonage par n variables aléatoires X1 , · · · , Xn , indépendantes
et de même loi que X, et on considère que la liste (x1 , · · · , xn ) est un résultat possible de cette
expérience, c’est-à-dire une valeur particulière prise par le vecteur aléatoire (X1 , · · · , Xn ).
Nous allons dans ce cours voir comment l’échantillon expérimental peut être utilisé pour estimer la
loi de X ou certaines de ses caractéristiques, et donner des moyens de mesurer la validité de ces
estimations.
1.2
Echantillons aléatoires et statistiques
Définition 1. Soit X une variable aléatoire associée à un univers Ω. Un échantillon aléatoire
de X de taille n est un n-uplet (X1 , · · · , Xn ) de variables aléatoires indépendantes de même loi
que X. La loi de X sera appelée loi mère. Une réalisation de cet échantillon est un n-uplet de réels
(x1 , · · · , xn ) où Xi (ω) = xi .
Définition 2. Soit (X1 , · · · , Xn ) un échantillon aléatoire. Une statistique est une variable aléatoire
de la forme Φ(X1 , · · · , Xn ), où Φ est une fonction de Rn dans Rp .
Exemple : Un mois avant un référendum, on sonde 1000 personnes inscrites sur les listes électorales
sur leur intention d’aller voter. Les 1000 personnes ont été tirées au hasard (avec remise) dans la
population des inscrits. On obtient 650 intentions favorables. Si on tire une personne au hasard et
qu’on l’interroge, on peut représenter sa réponse par une variable aléatoire X qui vaut 1 si elle a
l’intention d’aller voter, et 0 sinon. La loi de X est une loi de Bernoulli de paramètre p, inconnu,
égal à la proportion dans la population des inscrits des personnes ayant l’intention d’aller voter.
On peut représenter l’expérience du sondage en introduisant 1000 variables aléatoires (X1 , · · · , Xn )
indépendantes car les 1000 personnes ont été tirées au hasard (avec remise), et qui suivent la loi
B(1, p) : (X1 , · · · , Xn ) est donc un échantillon aléatoire de loi B(1, p).
Le sondage a donné des valeurs expérimentales de cet échantillon, x1 , · · · , x1000 , telles que x1 +
· · · + x1000 = 650. Une statistique usuelle est la moyenne empirique n1 (X1 + · · · + Xn ), dont la
2
valeur expérimentale est ici 0, 65 : c’est la proportion parmi les inscrits sondés de personnes ayant
l’intention d’aller voter. On étudiera dans la suite du cours dans quelle mesure cette valeur 0, 65
peut être considérée comme une approximation de p.
2
Estimateurs
2.1
Définition et propriétés
Dans l’exemple précédent, la statistique n1 (X1 + · · · + Xn ) est utilisée pour estimer le paramètre p
de la loi B(1, p) de l’échantillon X1 , · · · , Xn On dira que c’est un estimateur de ce paramètre p.
Définition 3. Considérons un échantillon aléatoire X1 , · · · , Xn dont la loi dépend d’un paramètre θ
réel (ou vectoriel) inconnu et qu’on veut estimer. Un estimateur du paramètre θ est tout simplement
une statistique dont la valeur expérimentale est utilisée comme estimation de θ.
Un estimateur peut être de plus ou moins bonne qualité, suivant la fiabilité de l’estimation de θ qu’il
fournit. Les propriétés qu’on va définir maintenant permettent de cerner la qualité d’un estimateur.
Considérons un estimateur T = Φ(X1 , · · · , Xn ) de θ.
Définition 4. On appelle biais de T pour θ la valeur
bθ (T ) = E(T ) − θ.
L’estimateur T sera dit sans biais si E(T ) = θ.
Définition 5. Un estimateur T est dit convergent (ou asymptotiquement sans biais) si E(T ) tend
vers θ lorsque n tend vers l’infini. Il sera dit consistant si T converge en probabilité vers θ lorsque
n tend vers l’infini.
Proposition 1. Si T est convergent et de variance tendant vers 0 lorsque n tend vers l’infini, alors
T est consistant.
Définition 6. La qualité d’un estimateur se mesure également par l’erreur quadratique moyenne
(ou risque quadratique) définie par
E[(T − θ)2 ].
Proposition 2. L’erreur quadratique moyenne s’exprime en fonction du biais et de la variance de
l’estimateur :
E[(T − θ)2 ] = [E(T ) − θ]2 + V(T ).
Remarques :
1. Entre deux estimateurs, le "meilleur" sera celui dont l’erreur quadratique moyenne est la plus
faible (on dit qu’il est plus efficace).
2. Entre deux estimateurs sans biais, le "meilleur" sera celui dont la variance est minimale.
3. Le critère d’erreur quadratique moyenne n’est pas parfait mais il est préféré à d’autres critères
qui semblent plus naturels comme l’erreur absolue moyenne E(|T − θ|) car il est relativement
facile à manipuler analytiquement.
2.2
Quelques estimateurs classiques
Dans ce paragraphe, X1 , · · · , Xn désigne un échantillon aléatoire de X, µ désigne l’espérance des
Xi et σ 2 leur variance.
3
2.2.1
Moyenne empirique
Pour estimer l’espérance µ, il est naturel d’utiliser la moyenne de l’échantillon
n
1X
X̄ =
Xi .
n
i=1
Proposition 3. On a :
σ2
.
n
La moyenne empirique X̄ est donc un estimateur sans biais et consistant de µ. De plus, par le
2
théorème limite central, X̄ converge en loi vers N (µ, σn ) lorsque n tend vers l’infini.
E(X̄) = µ et V(X̄) =
Proposition 4. Toute somme de variables aléatoires normales indépendantes est une variable aléa2
toire normale. Ainsi, si X ∼ N (µ, σ 2 ) alors pour toute valeur de n, X̄ ∼ N (µ, σn ).
2.2.2
Variance empirique
Pour estimer la variance σ, il est naturel d’utiliser la variance de l’échantillon
n
1X
S =
(Xi − X̄)2 .
n
2
i=1
Proposition 5. Soit µ4 le moment centré d’ordre 4 de X. On a :
n−1
n−1 2
σ et V(S 2 ) =
[(n − 1)µ4 − (n − 3)σ 4 ].
n
n3
La variance empirique S 2 est donc un estimateur asymptotiquement sans biais et consistant de σ 2 .
E(S 2 ) =
Pour avoir un estimateur sans biais de la variance, on peut utiliser la variance empirique "corrigée"
n
S ∗2 =
n
1 X
S2 =
(Xi − X̄)2 .
n−1
n−1
i=1
2.3
Méthodes d’estimation classiques
Considérons une variable aléatoire X réelle, discrète ou continue, dont la loi de probabilité dépend
d’un paramètre θ ∈ Rp inconnu que l’on cherche à estimer à partir d’un échantillon aléatoire.
2.3.1
Méthode des moments
Le principe de cette méthode est de faire P
coincider les moments théoriques E(X k ), dépendant du
paramètre θ, et les moments empiriques n1 ni=1 xki issus de l’échantillon. En effet, la loi des grands
nombres nous assure que les moments empiriques convergent vers les moments théoriques lorsque n
tend vers l’infini.
Exemples :
1. Avec une loi discrète.
On souhaite estimer le paramètre p ∈ [0, 1] d’une loi géométrique à partir d’un n-échantillon.
Ce paramètre étant unidimensionnel, il nous suffit d’utiliser les moments d’ordre 1. Il faut
résoudre l’équation
E(X) =
n
n
i=1
i=1
1X
1
1X
n
xi ⇔ =
xi ⇔ p = Pn
.
n
p
n
i=1 xi
L’estimateur de p obtenu par la méthode des moments est donc
p̃ = Pn
n
i=1 Xi
4
=
1
.
X̄
2. Avec une loi continue.
On souhaite estimer le paramètre θ = (µ, σ 2 ) d’une loi normale à partir d’un n-échantillon. Ce
paramètre étant bidimensionnel, nous utilisons les moments d’ordre 1 et 2. Il faut résoudre le
système d’équations
(
P
E(X) = n1 ni=1 xi
P
E(X 2 ) = n1 ni=1 x2i
(
P
µ = n1 ni=1 xi
P
⇔
µ2 + σ 2 = n1 ni=1 x2i
(
P
µ = n1 ni=1 xi
P
⇔
σ 2 = n1 ni=1 (xi − x̄)2
Les estimateurs de µ et σ 2 obtenus par la méthode des moments sont donc la moyenne et la
variance empiriques.
2.3.2
Méthode du maximum de vraisemblance
Définissons d’abord la fonction f telle que
(
fθ (x) si X est une v.a. continue de densité fθ ,
f (x; θ) =
Pθ (X = x) sinon.
Définition 7. On appelle fonction de vraisemblance de θ pour une réalisation (x1 , · · · , xn ) d’un
échantillon, la fonction de θ :
L(x1 , · · · , xn ; θ) =
n
Y
f (xi ; θ).
i=1
Définition 8. La méthode consistant à estimer θ par la valeur qui maximise L s’appelle méthode
du maximum de vraisemblance :
θ̂ = arg max L(x1 , · · · , xn ; θ).
θ∈Rp
Exemples :
1. Avec une loi discrète.
On souhaite estimer le paramètre λ > 0 d’une loi de Poisson à partir d’un n-échantillon. On
x
a f (x; λ) = e−λ λx! . La fonction de vraisemblance s’écrit donc
L(x1 , · · · , xn ; λ) =
n
Y
f (xi ; λ) = e−nλ
i=1
n
Y
λ xi
i=1
xi !
.
Cette vraisemblance étant strictement positive, il est plus simple de maximiser la log-vraisemblance :
ln L(x1 , · · · , xn ; λ) = −nλ + ln(λ)
n
X
xi −
i=1
n
X
ln(xi !).
i=1
La dérivée première
∂ ln L(x1 , · · · , xn ; λ)
= −n +
∂λ
s’annule pour λ = λ̂ =
Pn
i=1 xi
.
n
Pn
i=1 xi
λ
La dérivée seconde
∂ 2 ln L(x1 , · · · , xn ; λ)
=−
∂λ2
Pn
i=1 xi
λ2
est toujours négative ou nulle donc nous avons bien un maximum au point λ = λ̂. L’estimateur
du maximum de vraisemblance de λ est donc la moyenne empirique
n
1X
λ̂ = X̄ =
Xi .
n
i=1
5
2. Avec une loi continue.
On souhaite estimer les paramètres
µ etσ 2 > 0 d’une loi normale à partir d’un n-échantillon.
2
On a f (x; µ, σ 2 ) = √ 1 2 exp − (x−µ)
. La fonction de vraisemblance s’écrit donc
2σ 2
2πσ
2
L(x1 , · · · , xn ; µ, σ ) =
n
Y
2
2 −n/2
f (xi ; µ, σ ) = (2πσ )
Pn
i=1 (xi −
2σ 2
exp −
i=1
µ)2 .
Cette vraisemblance étant strictement positive, il est plus simple de maximiser la log-vraisemblance :
n
ln L(x1 , · · · , xn ; µ, σ ) = − ln(2πσ 2 ) −
2
2
Pn
i=1 (xi −
2σ 2
µ)2
.
On considère d’abord
∂ ln L(x1 , · · · , xn ; µ, σ 2 )
=
∂µ
Pn
i=1 (xi
σ2
− µ)
qui s’annule lorsque µ = x̄. De son côté,
Pn
2
n
∂ ln L(x1 , · · · , xn ; µ, σ 2 )
i=1 (xi − µ)
+
=
−
∂(σ 2 )
2σ 2
2(σ 2 )2
P
s’annule lorsque σ 2 = n1 ni=1 (xi − µ)2 . Finalement, le gradient de L s’annule pour (µ, σ 2 ) =
(µ̂, σ̂ 2 ) = (x̄, s2 ). Pour vérifier qu’il s’agit bien d’un maximum, il faut vérifier que la matrice
hessienne est définie négative. On a
 2
∂ ln L(x1 ,··· ,xn ;µ,σ 2 )

(µ̂, σ̂ 2 ) = − σ̂n2 < 0

2

Pn
 ∂ 2 ln L(x ∂µ
2
(x −µ̂)2
1 ,··· ,xn ;µ,σ )
(µ̂, σ̂ 2 ) = 2(σ̂n2 )2 − i=1(σ̂2 )i3
=
∂(σ 2 )2
P

n

 ∂ 2 ln L(x1 ,··· ,xn ;µ,σ2 ) (µ̂, σ̂ 2 ) = − i=1 (xi −µ̂) = 0

∂µ ∂(σ 2 )
n
2(σ̂ 2 )2
−
nσ̂ 2
(σ̂ 2 )3
= − 2(σ̂n2 )2 < 0
(σ̂ 2 )2
donc nous avons bien un maximum au point (µ, σ 2 ) = (µ̂, σ̂ 2 ) = (x̄, s2 ). Les estimateurs du
maximum de vraisemblance de µ et σ 2 sont donc la moyenne et la variance empiriques.
6
Téléchargement