Concepts de base en probabilité et statistiques

publicité
Partie ii :
Chapitre 2
Distribution d’échantillonnage
Cours Statistiques
1
Plan
1.
2.
3.
4.
5.
Échantillonnage et méthodes d’échantillonnage
Statistiques et distribution d’échantillonnage
Distribution d’échantillonnage de la moyenne
Distribution d’échantillonnage de la variance
Distribution d’échantillonnage d’une proportion
Cours Statistiques
2
Plan
1.
2.
3.
4.
5.
Échantillonnage et méthodes d’échantillonnage
Statistiques et distribution d’échantillonnage
Distribution d’échantillonnage de la moyenne
Distribution d’échantillonnage de la variance
Distribution d’échantillonnage d’une proportion
Cours Statistiques
3
Échantillonnage : Terminologie
 Une population se définit comme un ensemble d’éléments
(individus, entreprises, dossiers, projets, …) homogènes
c’est-à-dire ayant des caractéristiques communes. On note
par N la taille de la population.
 Un échantillon est tout sous-ensemble de la population. On
note par n la taille de l’échantillon.
 Un caractère ou une variable statistique c’est l’aspect que
l’on désire étudier chez un élément (individus, entreprises,
dossiers, projets, …).
Cours Statistiques
4
Échantillonnage : Terminologie
 Pour étudier les caractéristiques d’une population, on
dispose de deux méthodes de collecte de données :
1. La méthode exhaustive ou recensement où chaque
individu de la population est étudié selon le (ou les)
caractère(s) étudié(s).
2. La méthode des sondages ou échantillonnage qui
conduit à n’examiner qu’une fraction (c’est-à-dire un
échantillon) de la population.
Cours Statistiques
5
Échantillonnage : Définition et objectif
Définition 1
L’échantillonnage est un processus par lequel un échantillon de la
population est sélectionné afin d’étudier les caractéristiques d’une
population entière.
Objectif de l’échantillonnage
L’échantillonnage a pour objectif de formuler des conclusions sur les
caractéristiques d’une population à partir des données d’un échantillon.
Il est donc essentiel de choisir avec soin l’échantillon de façon à ce qu’il
représente fidèlement la population visée (un échantillon représentatif)
Cours Statistiques
6
Échantillonnage : Raisons d’être
 On effectue l’échantillonnage essentiellement pour les
raisons suivantes :
1. Lorsque la population est infinie
2. Par souci d’économie de coût
3. Obtenir l’information le plus rapidement possible
4. …
Cours Statistiques
7
Échantillonnage : Méthodes
Les méthodes d’échantillonnage peuvent être regroupées en
deux grandes familles :
1.
L’échantillonnage non aléatoire (ou non probabiliste) :
L’analyste utilise son expérience et ses connaissances
personnelles pour choisir parmi les unités de la population celles
qui feront partie de l’échantillon et qui, à son avis, représentent
adéquatement la population.
2.
L’échantillonnage aléatoire (ou probabiliste) : Obtenu par
l’intermédiaire d’un mécanisme probabiliste, de sorte que l’on
connaisse à l’avance la probabilité (non nulle) qu’une unité
quelconque de la population soit incluse dans l’échantillon.
Cours Statistiques
8
Échantillonnage : Méthodes
Méthode d’échantillonnage aléatoire simple
Définition : Dans cette méthode un échantillon est
construit de telle sorte que chaque unité de la population
ait la même probabilité d’être sélectionnée dans
l’échantillon. Le choix des unités de la population peut se
faire avec ou sans remise. (équiprobabilité)
Cours Statistiques
9
Échantillon aléatoire
Définition mathématique d’un échantillon
aléatoire
Un échantillon aléatoire de taille n de la variable aléatoire X est
une suite de variables aléatoires indépendantes X1 , X 2 ,..., X n ayant
toutes la même distribution que X.
Si E ( X )   X alors E ( X 1 )  E ( X 2 )  E ( X n )   X
Si Var ( X )   X2 alors Var ( X 1 )  Var ( X 2 )  Var ( X n )   X2
Une suite x1 , x2 ,..., xn de valeurs prises par les variables aléatoires
Xi est une réalisation de l’échantillon aléatoire (un échantillon).
Cours Statistiques
10
Échantillon aléatoire
Explication
Supposons qu’on veut étudier les poids (caractère) des jeunes 18-25 ans
résidant dans le grand Tunis (population). Supposons que le poids de ces
jeunes est décrit par la variable aléatoire X. Un échantillon aléatoire de
taille 10 est une suite de 10 variables aléatoires i.i.d, soit :
1
x11 , x1
,...,
x
2
10
Échantillon 1
2
x12 , x22 , ..., x10
Échantillon 2
K
x1K , x2K , ..., x10
Échantillon K
X1
X2
Cours Statistiques
X 10
11
Échantillon aléatoire
Exemple 1
Supposons que la taille (en cm) des étudiants d’une école
d’ingénieurs est une variable aléatoire X distribuée
normalement, c’est-à-dire que X N (  X ,  X2 ) .
Un échantillon aléatoire de taille 50 de cette population est une
suite e 50 variables aléatoires X i N ( X i ,  X2 i ), i  1..50.
Cours Statistiques
12
Échantillonnage : Définition d’un paramètre
 Définition : Un paramètre est toute mesure
caractéristique calculée sur la base des données de la
population.
 Exemples:
 X La moyenne théorique du caractère X dans la
population

2
X
p
La variance théorique du caractère X dans la
population
La proportion théorique des individus ayant
une certaine caractéristique dans la population
Cours Statistiques
13
Échantillon aléatoire pour l’estimation des paramètres
 Une population (la variable aléatoire X) est connue si on
connaît la forme générale de sa distribution, c’est-à-dire sa
fonction de masse ou de densité.
 En pratique on peut connaître partiellement une population,
c’est-à-dire qu’on connaît la forme générale de sa distribution
mais avec des paramètres inconnus.
 Exemples: On fait l’hypothèse que la taille des étudiants est
distribuée normalement : X N (  X ,  X2 ) mais on ne connaît
pas les valeurs des paramètres  X et  X2 .
Ce sont ces paramètres que l’on cherche à estimer.
Cours Statistiques
14
Plan
1.
2.
3.
4.
5.
Échantillonnage et méthodes d’échantillonnage
Statistiques et distribution d’échantillonnage
Distribution d’échantillonnage de la moyenne
Distribution d’échantillonnage de la variance
Distribution d’échantillonnage d’une proportion
Cours Statistiques
15
Statistiques et distribution d’échantillonnage
 Définition d’une statistique (variable aléat)
Soit X 1 , X 2 , X 3 ,..., X n un échantillon aléatoire d’une variable
aléatoire X. Une statistique est une fonction h( X 1 , X 2 ,..., X n ) ne
dépendent que des variables aléatoires Xi .
Ou empirique
 Exemples :
1 n
– La moyenne échantillonnale : X   X i
n i 1
1 n
2
– La variance échantillonnale : S 
(
X

X
)
 i
n  1 i 1
2
n
1 si succès
1
– La proportion échantillonnale : Pˆ   X i avec X i  
n i 1
0 si échec
Cours Statistiques
16
Statistiques et distribution d’échantillonnage
Paramètre
(théorique)
Statistique(empirique ou
échantillonnale)
X
1 n
X   Xi
n i 1

1 n
2
S 
(
X

X
)
 i
n  1 i 1
2
X
p
2
n
1 si succès
1
ˆ
P   X i avec X i  
n i 1
0 si échec
Cours Statistiques
17
Statistiques et distribution d’échantillonnage
 Puisque les Xi sont des variables aléatoires, toute statistique
est aussi une variable aléatoire.
 Pour toute statistique on pourra s’intéresser à sa distribution
de probabilité, appelée distribution d’échantillonnage.
 Par exemple, dans les prochaines sections on discutera des
mesures caractéristique (essentiellement l’espérance et
variance) qu’on pourra calculer pour ces différentes
statistiques. Ainsi, on calculera E(X), Var(X), E(S2), Var (S2),
E(P̂ ) etVar( P̂ ).
Cours Statistiques
18
Plan
1.
2.
3.
4.
5.
Échantillonnage et méthodes d’échantillonnage
Statistiques et distribution d’échantillonnage
Distribution d’échantillonnage de la moyenne
Distribution d’échantillonnage de la variance
Distribution d’échantillonnage d’une proportion
Cours Statistiques
19
Distribution d’échantillonnage de la moyenne
Distribution d’échantillonnage de la moyenne X
Soit X 1 , X 2 , X 3 ,..., X n un échantillon aléatoire d’une variable
aléatoire X de moyenne E ( X )   X et variance Var ( X )   X2 .
Soit X la moyenne échantillonnale, alors :
1. E ( X )  E ( X )   X
( X est un estimateur non-biaisé de  X )
Var ( X ) 

2. Var ( X ) 
n
n
2
X
Attention : le fait de connaître
 X2
est important
Cours Statistiques
20
Distribution d’échantillonnage de la moyenne
Distribution de probabilité de X
(tirage avec remise ou population infinie)
Cours Statistiques
21
Distribution d’échantillonnage de la moyenne
Exemple 1
Supposons que les tailles des individus dans une population
suivent une distribution normale de moyenne μ = 170 cm et
de variance σ2 = 25 cm. On tire avec remise un échantillon
de taille 25 de cette population. Quelle est la probabilité
pour que la taille moyenne dans l’échantillon soit supérieure
à 172 cm ?
22
Cours Statistiques
Distribution d’échantillonnage de la moyenne
Réponse :
2
25

 1)
X  N (   170,   25)  X  N (   170,
n 25
2
172 -170
P( X  172)  P( Z 
)  P( Z  2)  0.023
1
23
Cours Statistiques
Distribution d’échantillonnage de la moyenne
Exemple 2
Supposons que les tailles des individus dans une population
de moyenne μ = 185 cm et de variance σ2 inconnue. On tire
avec remise un échantillon de taille 36 de cette population.
Sachant que la variance de cet échantillon s2 = 40, quelle est
la probabilité pour que la taille moyenne dans l’échantillon
soit supérieure à 187 cm ?
24
Cours Statistiques
Distribution d’échantillonnage de la moyenne
Réponse :
X  N (   185,  2 )
s 2 40
 X  N (   185,   1.11)
n 36
187 -185
P( X  187)  P( Z 
)  P( Z  1.897)  0.029
1.0541
25
Cours Statistiques
Plan
1.
2.
3.
4.
5.
6.
Échantillonnage et méthodes d’échantillonnage
Statistiques et distribution d’échantillonnage
Lois continues usuelles : Lois du Khi-deux et de Student
Distribution d’échantillonnage de la moyenne
Distribution d’échantillonnage de la variance
Distribution d’échantillonnage d’une proportion
Cours Statistiques
26
Distribution d’échantillonnage de la variance
2
S
Distribution d’échantillonnage de la variance
Soit X 1 , X 2 , X 3 ,..., X n un échantillon aléatoire d’une variable
aléatoire X de moyenne E ( X )   X et variance Var ( X )   X2 .
Soit S 2 la variance échantillonnale, alors :
1. E ( S 2 )  Var ( X )   X2
(S 2 est un estimateur non-biaisé de  X2 )
2
dans le cas d' une population normale
2. V ( S ) 
n 1
4
2
Cours Statistiques
27
Distribution d’échantillonnage de la variance
Distribution de probabilité de S
2
Théorème
Soit X 1 , X 2 , X 3 ,..., X n
un échantillon aléatoire d’une variable
aléatoire X qui suit une loi normale X N (  X ,  X2 ). Soit
la
variance échantillonnale S,2on a alors la statistique

2
n 1
  n  1
S
2
 X2
suit une loi du Khi-deux avec n-1 degrés de liberté. (avec
l’espérance est inconnue)
Cours Statistiques
28
Distribution d’échantillonnage de la variance
Exemple
On fait l’hypothèse que la taille (en cm) des étudiants d’une école
de génie est une variable aléatoire normale X de moyenne
inconnue et de variance 100, c’est-à-dire X N (175,100).
Un échantillon de taille 51 est sélectionné de cette population.
Quelle est la probabilité que la variance échantillonnale S2 soit au
plus égale 112.66.
Cours Statistiques
29
Distribution d’échantillonnage de la variance
Réponse
(51  1) 2
(51  1)
P( S  112.66)  P(
S  112.66 
)  P(  502  56.33)  0.75
100
100
2
Cours Statistiques
30
Plan
1.
2.
3.
4.
5.
6.
Échantillonnage et méthodes d’échantillonnage
Statistiques et distribution d’échantillonnage
Lois continues usuelles : Lois du Khi-deux et de Student
Distribution d’échantillonnage de la moyenne
Distribution d’échantillonnage de la variance
Distribution d’échantillonnage d’une proportion
Cours Statistiques
31
Distribution d’échantillonnage d’une proportion
Soit X une variable aléatoire qui suit une loi de bernoulli B(p). Si
la proportion échantillonnale est
P̂ , alors :
La proportion des individus ayant une
certaine caractéristique dans la
population
E ( Pˆ )  p
p(1  p )
ˆ
Var ( P ) 
n
(Si tirage avec remise)
Cours Statistiques
32
Distribution d’échantillonnage d’une proportion
Distribution d’échantillonnage de la proportionP̂
Si n  p  5 et n  (1  p )  5 alors
 p (1  p ) 
ˆ
P  N  p,

n


Cours Statistiques
(Si tirage avec remise)
33
Distribution d’échantillonnage d’une proportion
Exemple
Supposons que, dans une population, la proportion des individus
ayant un poids au dessus de la normale est de 70%. On tire avec
remise un échantillon de taille 50 de cette population.
Quelle est la probabilité pour que, dans l’échantillon, la
proportion des individus ayant un poids au dessus de la normale
soit supérieure à 0.8 ?
Cours Statistiques
34
Distribution d’échantillonnage d’une proportion
Réponse
np  50  0.7  35  5
p (1  p )


ˆ

P  N  p  0.7,
 0.0042 

n
n(1- p)  50(1- 0.7)  15  5


0.8 - 0.7
ˆ
P( P  0.8)  P( Z 
)  P( Z  1.54)  0.062
0.065
Cours Statistiques
35
Téléchargement