Introduction€: `Loi des grands nombres`

publicité
SONDAGE
(ECHANTILLONNAGE)
POPULATION
STATISTIQUE
ECHANTILLON
N individus possédant une modalité
yi de la (ou des) variable(s) y
n individus possédant une modalité
yi de la (ou des) variables(s) y
(1 ≤
(1 ≤ i ≤ N)
valeur centrale
²
n)
ESTIMATEURS
PARAMETRES
valeur centrale dispersion
µ
σ
moyenne
variance
i≤
corrélation
ρ
coef. corr.
!
moyenne
dispersion
σ e²
variance
corrélation
r
coef. corr.
STAT. PROBABILISTES
ESTIMATION
STAT. DESCRIPTIVES
(INDUCTION STAT.)
LOIS DE
DISTRIBUTIONS
DE PROBABILITES
CARACTERISTIQUES
D'UNE SERIE
STATISTIQUE
Echantillon : Collection d'individus prélevés dans la population statistique.
Sondage (tirage aléatoire) : Procédure de sélection des éléments d'une
population pour constituer un échantillon représentatif de cette population.
Estimation (inférence) : calcul d'un paramètre de la population à partir de sa
valeur prise dans l'échantillon (estimateur).
Dimension : c’est le couplage entre le nombre de paramètre (poids, taille …) et
le nombre de méthode (ou technique) utilisé
Loi de probabilités : modèle mathématique permettant de rendre compte de
phénomènes aléatoires.
1
THEORIE DE L’ECHANTILLONNAGE
Introduction : ‘Loi des grands nombres’
Quand on répète N fois une expérience aléatoire et que l'on note par f le
nombre de fois que l'événement A s'est produit (f= fréquence de A) la
probabilité p(A) est la limite, quand N tend vers l'infini, de f/N (fréquence
relative de A). De même que l'on parle de distribution de fréquences on peut
parler de distribution de probabilités.
POPULATION
INFINIE
ECHANTILLON
n
FREQUENCE
RELATIVE
f=F/n
PROBABILITE
p
EX. 1 : Variable qualitative : jeu de dé
DISTRIBUTION
DE
PROBABILITES
P
DISTRIBUTION DE
FREQUENCES
ABSOLUES
POUR n = 1000 TIRAGES
F
1/6
167
150
1
2
3
4
5
6
1
190
2
145
175
160
3
4
5
180
6
EX. 2 : Variable quantitative
P
F
0.20
200
0.18
180
0.16
160
0.14
140
0.12
120
0.10
100
0.08
80
0.06
60
0.04
40
0.02
20
n = 1000
0
0
1 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 7 8 9 10 11 12
2
De même pour un échantillon extrait d'une population supposée infinie : la
fréquence relative d'une classe est une réalisation de sa fréquence relative
dans la population, c'est-à-dire de la probabilité associée à cette classe.
Généralités - Objectifs
Considérons une population P composée de N individus. Supposons qu’il
existe une variable X associée à chaque individu (exp. SAU pour une
exploitation).
Nous ne connaissons pas la répartition de X dans la population considérée. La
moyenne µ et la variance σ2 (ou la proportion p) dans la population P sont
respectivement :
1 N
µ = ∑ xi
N i=1
1 N
σ ² = ∑ (x i − µ )²
N i=1
Par sondage, on prélève un échantillon aléatoire de n individus dans la
population P. Soit x1, x1, x2,
…, xn les valeurs de X dans l’échantillon. La
moyenne x et la variance σ
(ou la proportion f) de X dans l’échantillon sont
2
e
respectivement :
1 n
x = ∑ xi
n i=1
•
1 n
σ = ∑ (x i − x )²
n i=1
2
e
2
x et σ e constituent-elles des estimations de µ et de σ2 ? Si oui, quelle est
leur précision ?
• Connaissant x et σ e , que peut-on dire de la moyenne µ et la variance σ2
2
de la population totale P ?
3
Les distributions d'échantillonnage
On prélève un échantillon de n éléments dans une population de moyenne µ et
de variance σ².
On obtient une moyenne x et une variance σ e .
2
Si l'on répétait cette opération un grand nombre de fois, on constaterait que les
moyennes obtenues à partir de ce grand nombre d'échantillons de n unités se
distribueraient suivant une loi normale de moyenne " = µ et de variance σ²M =
σ²/n. Cela se vérifie :
• quelque soit la distribution de la variable étudiée si n est suffisamment grand
(n>30 en pratique)
• quelque soit la taille n de l'échantillon si celui-ci est tiré d'une population
normale
D'après le Théorème Central Limite, l'ensemble de toutes les moyennes qu'on
pourrait obtenir par des échantillons de n unités est lui-même une variable
aléatoire M de distribution normale N(µ,σ
σ/√
√n).
La distribution de M s'appelle distribution d'échantillonnage de la moyenne.
On constate que la dispersion (σ²/n) de cette variable est beaucoup plus faible
que celle de la variable étudiée (σ²).
4
Distribution d'échantillonnage d'un paramètre
f(x)
N ELEMENTS
(POPULATION
D'ORIGINE)
DISTRIBUTION
(QUELCONQUE)
DE LA VARIABLE
σ
µ
ON EXTRAIT INDEPENDAMMENT K ECHANTILLONS DE MEME TAILLE
K ECHANTILLONS
n éléments
n éléments
σe 1
................
σe 2
x1
n éléments
σe k
x2
xk
K ESTIMATIONS DU PARAMETRE
µ
K ESTIMATIONS
f(x)
Paramètre de la distribution :
DISTRIBUTION
D' ECHANTILLONNAGE
DE LA MOYENNE
"=µ
σ = σ/√n
M
σM
M
"
5
Estimation ponctuelle de la moyenne et de la variance
! Théorème
Soit X une variable aléatoire définie sur la population avec E(X) = µ et
V(X) = σ².
d’après le théorème central limite :
E(M) = µ ;
V(M) = σ²/n ;
E(σe2 ) =
n-1
σ²
n
! Utilisation
En pratique, on dispose d'un seul échantillon de taille n. Alors, la meilleure
estimation ponctuelle (par un seul nombre) :
• de la moyenne µ de la population est la moyenne x de l'échantillon ( x
est un estimateur sans biais de µ).
• de la variance σ² de la population est le nombre s² (dit variance
estimée)
s² =
n 2
σe
n-1
2
( σ e est un estimateur biaisé de σ²).
(s² est un estimateur non biaisé de σ²).
6
Estimation ponctuelle d’un pourcentage
La population est formée d'individus ayant ou non un caractère donné A. Soit
p la probabilité pour qu'un individu pris au hasard dans la population présente
le caractère A.
! Théorème
F est une variable aléatoire appelée la distribution d’échantillonnage des
proportions. Elle suit une loi normale de moyenne $ et de variance σ²F
d’après le théorème central limite :
E(F) = p ;
V(F) =
p(1- p)
n
! Utilisation
Quand on dispose d'un seul échantillon de taille n, la meilleure estimation
ponctuelle de p est la fréquence f observée sur l'échantillon. f est un
estimateur sans biais de p.
7
Erreur-type de la moyenne et estimation d’une moyenne par un
intervalle de confiance
! Théorème
Quelle que soit la loi suivie par X de moyenne µ et de variance σ², la
distribution d'échantillonnage de la moyenne suit une loi normale de
moyenne µ et de variance σ²/n .
La variable
Z=
M−µ
σ
suit une loi normale centrée réduite.
n
! Utilisation avec un seul échantillon
• Variance de la population connue
Nous voulons construire un intervalle de confiance autour de la
moyenne de l’échantillon de manière à ce qu’il contienne µ dans 95%
des cas.
D'après la table de la loi normale réduite on peut écrire, pour un risque
α=0.05
P (- 1.96 <
x-µ
σ < + 1.96) = 0.95
n
Plus généralement :
P

 x - z
α/2

σ
σ 
< µ <x + zα/2
 = 1-α
n
n
8
• Variance de la population inconnue
Si l'on remplace le paramètre σ² par son estimateur dans notre
échantillon s², on peut calculer une estimation de la variance de la
distribution de la moyenne : var(M)=s²/n dont la racine carrée est
appelée erreur-type (de la moyenne).
x-µ
x-µ
σ
Lorsque σ est inconnu l'expression
est remplacée par s
qui
n
n
n'est pas distribuée normalement, mais comme un t de Student.
L'expression devient alors :
s
s 

P x- t
<µ<x+t
 = 1- α
α
ν
α
ν
[
]
[
]
n
n


µ
!1
!2
!i
α = risque d’erreur
tα[ν] : variable de student au seuil α pour ν ddl
(ν = n - 1)
Ex. : t0.05[29]=2.045
tα[ν]→ zα/2 quand ν → ∞
Si l’on répète indéfiniment l’échantillonnage de
taille n dans la population de moyenne µ, on sait
que (1 - α) intervalles de confiance construits de
cette manière contiendront µ.
9
Estimation d’un pourcentage par un intervalle de confiance
nf nombre d'individu ayant le caractère A dans un échantillon de taille n, suit la
loi binomiale B(n, p). Si n est grand et p, ni voisin de 0 ni voisin de 1, on peut
approximer la loi binomiale B(n, p) par la loi normale N (np, npq ) .
! Théorème
La distribution d'échantillonnage des proportions suit une loi normale de
moyenne p et de variance p(1-p)/n .
La variable Z =
F−p
p(1 − p)
n
suit une loi normale centrée réduite.
! Utilisation avec un seul échantillon
Nous voulons construire un intervalle de confiance autour de la proportion
‘‘f’’ de l’échantillon de manière à ce qu’il contienne p dans 95% des cas.
D'après la table de la loi normale réduite on peut écrire, pour un risque
α=0.05
P (- 1.96 <
f - p
f (1 - f )
n
< + 1.96) = 0.95
Plus généralement :

f (1 - f )
f (1 - f ) 

< p < f + zα / 2
P  f - z α / 2
 = 1 - α

n
n 
10
Téléchargement