Échantillonnage et Statistique Inférentielle - Cours

Telechargé par El phara Ruben
Eléments de cours d’échantillonnage et statistique inférentielle par olivier ALIMA MBOUOMBOUO
Objectifs principaux : comprendre la loi faible des grandes nombres et le théorème central limite,
connaitre les lois d’échantillonnage, savoir estimer une moyenne ou une fréquence, construire et utiliser
un test de validité d’hypothèse.
INTRODUCTION
L’échantillonnage est l’étude des liens existant entre les paramètres (moyenne ou fréquence) des
échantillons issus de la population et ceux de la population elle-même. C’est grâce à l’échantillonnage
qu’on peut faire des statistiques inférentielles.
- Pour prédire, dix jours avant l’élection, la proportion exacte des camerounais qui va voter pour tel
ou tel candidat, il faudrait interroger tous les camerounais : c’est matériellement impossible. On
interroge donc un échantillon d’environ mille personnes (sondage) et on en déduit une estimation
de la proportion recherchée.
- Une machine doit remplir des paquets de sucre de 1kg. Il est matériellement impossible de
vérifier que la masse de chaque paquet est bien 1 kg. Alors pour contrôler le bon réglage de la
machine, on étudie un échantillon de 50 paquets et on prendra une décision grâce aux tests
d’hypothèses, cette théorie doit beaucoup au statisticien anglais KarlPearson.
I- ECHANTILLONNAGE
1) Théorème dit : "loi faible des grands nombres"
a) Etude d’un exemple :
On lance un dé « normal » et on considère l’évènement A "j’obtiens un 6", on lance n fois le dé.
Soit X1 la variable aléatoire de Bernoulli prenant la valeur 1 si le 6 apparait au 1er lancer et la
valeur 5 sinon.
- La variable aléatoire Sn = X1 + …………………….. + Xn est la variable aléatoire donnant le nombre
d’apparitions du 6 au cours des n lancers.
- La variable aléatoire n =
Sn prend pour valeurs la fréquence d’apparition du 6 au cours des n
lancers. La variable Sn (somme de nVa de Bernoulli) suit la loi binomiale B (n,
) ; en utilisant les
propriétés de la somme de variables aléatoires, on obtient : E (Sn) =
et V (Sn) =
, de même :
E( n) =
et V ( n) =
; d’où ( n) =

Lorsque n augmente et tend vers l’infini, E ( n) est toujours égale à
tandis que l’écart type S (Xn)
tend vers 0.
Donc, lorsque n tend vers l’infini, la probabilité pour que la fréquence de sortie de 6 soit très
proche de
est de plus en plus proche de 1.
Autrement dit :  IR++, P (n- -
  ) tend vers 1 lorsque
n+ .
b) Loi faible des grands nombres :
Théorème :
Soient X1, ………….. ,Xn, n variables aléatoires indépendantes de même loi, définir sur telle que
E(Xi) = m et V (Xi) =². On définit lesvariablesaléatoiresSn = X1 + ………+ Xn et n =
Sn.
Alors ++, P n-E(x))  ) tend vers 1 lorsque n +∞.
Autrement dit : lim P n-E(X)/)= 1 ou Xn converge en probabilité vers n
+ ∞.
Ce théorème admis permet de faire le lien entre les statistiques et les probabilités. Il justifie
surtout le fait que l’on peut choisir comme probabilité d’un évènement la fréquence statistique
d’apparition de cet évènement lorsque le nombre d’expériences est très grand. On doit à jacques Bernoulli
une démonstration de la loi faible des grands nombres.
2) Théorème central limite
On parle également du théorème de la limite centrée :
ECHANTILLONNAGE-STATISTIQUE INFERENTIELLE
Eléments de cours d’échantillonnage et statistique inférentielle par olivier ALIMA MBOUOMBOUO
Théorème
Soit X1, ……………….,Xn ; n variables aléatoires indépendantes de même loi, définies sur telle que
E (Xi) = m et V (xi) = **²
Pour n suffisamment grand, la variable aléatoire n = 
Suit approximativement la loi normaleN(m,
).
Remarque 1 :
Du fait des propriétés admises concernant la somme desv.a suivant des lois normales, si les Xi
suivent toutes la même loi normale N (m,) ; alors n = 
suit la loi normale N (m ;
),
quelque soit n  N.
Note : si le Xi suivent une loi quelconque sans qu’il soit besoin de connaitre cette loi des Xi, (pourvu que ce
soit la même pour toutes) alors, si n est suffisamment grand, n = 
 approximativement
N(m,
).
Remarque 2
Nous savons que, pour n suffisamment grand, on peut remplacer les probabilités associées à la loi
Binomiale B (n, p) par celles de la loi normale
N (m, ) avec m = np et = .
L’approximation de la loi binomiale par la loi normale est un exemple d’application du théorème
de la limite centrée. En effet, si X suit une loi binomiale B(n,p) , alors X est la somme de n v.a de Bernoulli
suivant toutes la même loi de moyenne p et d’écart type  Ainsi d’après le théorème de la limite
centrée, pour n suffisant grand,

 suit approximativement la loi N (p, 
 ) ; ce qui est
équivalent à : X = X1 + X2 + ………..+ Xn suit approximativement la loi normale N (np, ).
3) Distribution d’échantillonnage
a) Principe
L’échantillonnage consiste, connaissant les propriétés d’une population, à déterminer les
propriétés des échantillons dans cette population.
On ne considère ici que des échantillons aléatoires et des tirages effectués avec remise,pour que
les tirages soient indépendants. Dans le cas où l’effectif de la population est grand,ce qui est très souvent le
cas des populations que l’on étudie,on peut assimiler les tirages sans remise aux tirages avec remise.
L’échantillon peut donc être considéré comme la réalisation d’une suite de n v.a indépendantes de même
loi de probabilité.
b) Distribution d’échantillonnage de moyennes
On considère une population d’effectif N de moyenne m et d’écart type On prélève avec remise
un échantillon aléatoire de taille n.
L’observation de l’échantillon correspond à l’observation de n v.a X1, x2……………….,xn
indépendants de même loi de moyenne m et d’écart type Soit la v.a = 
associée à cet
échantillon. D’après le théorème de la limite centrée, la loi de peut être approchée par la loi normale N
(m,
).
Théorème
Soit une population d’effectif N ; de moyenne m et d’écart type .On prélève un échantillon
aléatoire de taille n. soit la v.a. qui associe à chaque échantillon sa moyenne. Alors , pour n suffisamment
grand, la loi de peut être approchée par la loi normale N (m,
).
Exemple
Une production de 10 000 objets est réglée pour un poids moyen de 250 g et pour un écart type
de 10g. On prélève 200 objets (tirage avec remise). Calculons la probabilité pour que la moyenne de
l’échantillon soit comprise entre 249 g et 251 g.
Solution
Eléments de cours d’échantillonnage et statistique inférentielle par olivier ALIMA MBOUOMBOUO
L’échantillon étant suffisamment grand, la loi d’échantillon peut être approchée par la loi normale de
moyenne 250 et d’écart type 
 = 
Ainsi : P(249 < 251) = P (-1 < 250 1) = p (




) =
P (-    ) où T = 

suit la loi normale centrée réduite.
Donc P (249   251) = p (    ) = 2(1.414) -1 = 0.84
c)Distribution d’échantillonnage de fréquence
Théorème :
Soit une population d’effectif N dont N éléments possèdent lecaractère étudié. La fréquence du caractère
étudié est P=
. Soit la v.aF donnant la fréquence du caractère étudié pour chaque échantillon aléatoire de
taille n prélevé.
Alors, pour n suffisamment grand, la loi de F peut êtreapprochée par la loi normale N (p,

) :
Remarque
Ce théorème est un cas particulier du précédent et on est ici dans le cas d’une approximation de la
loi binomiale par la loi normale.
Exemple
Au cours d’une consultation électorale, le candidat d’un parti politique a recueilli 55% des
suffrages exprimés. Calculons la probabilité d’avoir, dans un échantillon de taille 100 prélevé parmi les
suffrages exprimés, moins de 50% des voix pour ce candidat.
Solution
La taille de l’échantillon étant suffisamment grande, F suit approximativement la loi N (0,55 ,
0,05)
Ainsi : p (F 0,5) = p (F 0,55 -0,05) = P ( 
 -1) = P ( T -1)
= 1- p ( T 1) = 0,16.
Remarque :
Si X est la variable donnant le nombre d’éléments de l’échantillon ayant voté pour ce candidat,
alors X soit la loi binomiale B (100 ; 0,55). X est une v.a discrète et F est donc aussi une v.a discrète qui
prend pour valeurs les fractions
 où 0 k 100.
Pour avoir une valeur plus proche de la réalité, il faut faire une correction de continuité :
P(F = P (F-0,55.   0,055) = p ( 
  = p (T -1,1) = 1- p (T1,1) = 0,13.
II- STATISTIQUE INFERENTIELLE : ESTIMATION
1) Principe
Je ne connais pas la fréquence ou la moyenne d’un caractère d’une population donnée et j’essaie
d’estimer en observant un échantillon.
Par exemple, avant les élections on ne connait pas encore les résultats, mais on aimerait bien
savoir … on ne peut pas interroger toute la population, alors les instituts spécialisés effectuent des
sondages, i.einterrogent 1 000 personnes environ dans la population camerounaise et, à partir de là, ils
évaluent les résultats que devraient obtenir les différents candidats.
L’estimation peut se faire à l’aide d’un nombre qui estime celui recherché : c’est l’estimation
ponctuelle, ou à l’aide d’un intervalle : c’est l’intervalle de confiance ou la fourchette.
2) Estimation d’une moyenne
Je ne connais pas m (moyenne de la population) et généralement pas non plus (écart type de la
population) et je cherche à les estimer à l’aide de la moyenne notée mi (ou ) et de l’écart type i (ou n)
d’un échantillon.
a) Estimation ponctuelle de m et
Règle 1
Eléments de cours d’échantillonnage et statistique inférentielle par olivier ALIMA MBOUOMBOUO
La moyenne d’un échantillon de taille n prélèvé au hasard dans une population est une bonne
estimation ponctuelle de la moyenne m de la population.
Règle 2
L’écart type d’un échantillon de taille n prélevé au hasard dans une population n’est pas une bonne
estimation de l’écart type de la population. On admettra que le nombre
 est une bonne
estimation ponctuelle de .
b) Estimation d’une moyenne par intervalle de confiance
On considère la v.a X qui, à tout échantillon aléatoire de taille n associe sa moyenne et on
suppose que les conditions sont réunies pour considérer que la loi X suit la loi N (n,
).
Règle :
L’intervalle centré sur la moyenne X de l’échantillon -

est l’intervalle de confiance 2.
En effet, on a p(m-a +a) = p (-a -ma) = p (-t
  )
= p (-t     = 2 (t) -1, avec t =
i.e a = 

Exemple
Si on suppose que 2 (t) 1 = 0.95, la moyenne de l’échantillon est une valeur prise par la v.a .
elle est ou n’est pas dans l’intervalle m-, m +, mais on sait que du fait du calcul ci-dessus, 95% des
moyennes des échantillons sont dans l’intervalle m-a, m +a, alors m sera de 95 % des intervalles du
typex-a, +a.
Si l’on dispose d’un échantillon, on dira que l’intervalle x-a, +a est un intervalle de confiance à
95% (plus generalement au niveau de confiance 2 (t)-1) de la moyenne de la population.
Conditions d’application
Les résultats précédents sont valides si les conditions sont réunies pour considérer que la loi de
suit la loi normaleN(n,
),càd si l’unedes 3 conditions suivantes sontréalisées :
1) La population suit une loi normale N (m, ) avec connu, quelque soit la taille de l’échantillon.
2) La population suit une loi normale N (m, ) avec inconnu, mais l’échantillon est de grande
taille (sup à 30) et les résultats s’appliquent alors en prenant pour écart type son estimation
ponctuelle.
3) La population suit une loi quelconque de moyenne m et d’écart type et l’échantillon est de
grande taille ( 
Exemple :
Pour mieux gérer les demandes de crédits de ses clients, le directeur d’une agence bancaire
réalise une étude relative à la durée de traitement des dossiers. Un échantillon aléatoire non exhaustif de
50 dossiers traités a donné :
Temps en minutes
0,10
10,20
20,30
30,40
40,50
50,60
Nombre de personnes
4
9
16
13
5
3
La moyenne de l’échantillon = 28 min. écart de l’échantillon  = 12,69. On en déduit : estimation
ponctuelle de la moyenne m de la population : 28 min. Estimation ponctuelle de l’écart type de la
population:
n-1. =
. n = 12,82
Intervalle de confiance de la moyenne au niveau de confiance de 95%
Si est lav.a qui, à chaque échantillon de taille 50, associe la moyenne des durées de traitement
des dossiers de l’échantillon, alors suit approximativement la loi normale N (m,
) On remplace
par son estimation n-1 = 12,82.
On a p (m-a   m+a) = p (-a  = p (-t 
 p (-a -ma) = p (-t
 )
= p (-t   ) =0,95 ; avec t =

Eléments de cours d’échantillonnage et statistique inférentielle par olivier ALIMA MBOUOMBOUO
2 (t)-1 = 0,95 càd (t) = 0,975 t = 1,96 et a = 
 = 3,55
D’où l’intervalle de confiance de la moyenne au niveau de confiance de 95 % (ou au seuil de 5%)est : x-a ;
x +a, soit 28-3,55 ; 28 + 3,55, c a d 24, 45, 31, 55,
Conclusion : on peut estimer que (et on est "sur à 95%") que la moyenne du temps passé dans l’agence
pour le traitement d’un dossier est comprise entre 24,45 min et 31,55min.
Remarque
Avec d’autres échantillons de même effectif, on pourrait obtenir d’autres intervalles de confiance de cette
moyenne avec le même coefficient de confiance (dans cet exemple 95%).
3)estimation d’une proportion
a- Estimation Ponctuelle
La proportion Pn du caractère dans un échantillon de taille n prélevé au hasard dans une
population est une bonne estimation ponctuelle de la proportion P du caractère de la population.
b-Estimation d’une proportion par intervalle de confiance
On considère une population en proportion p (ou fréquence ou pourcentage), on considère la v.a
F, qui à tout échantillon aléatoire de taille n associe la population du caractère considéré dans
l’échantillon. On suppose que les conditions sont réunies pour considérer que la loi de F peut être
approchée par la loi normale N (p, 
 Un calcul similaire à celui effectué précédemment pour
l’estimation d’une moyenne nous amèneau résultat suivant : l’intervalle centré sur la proportion pn de
l’échantillonpn t 
, pn + t 
, est l’intervalle de confiance d’une proportion p de la
population au niveau de confiance 2 (t) -1. mais, pour calculer 
, il faut connaitre p et c’est
justement le paramètre qu’on cherche à estimer. Pour résoudre ce problème on peut prendre

 = 
 n). D’où la règle suivante :
Règle :
L’intervalle centré sur une proportion Pn de l’échantillon, Pn - t
, pn + t
 est l’intervalle
de confiance de proportion P de la population au niveau de confiance 2 (t) -1. Les conditions
d’application de ce résultat sont réunies si l’échantillon est de grande taille ( à 50).
Exemple :
Dans un sondage effectué 15 jours avant le scrutin auprès de 1000 personnes choisis de façon
aléatoire dans la ville de FOUMBAN , 458 personnes se déclarent favorables à la candidate Mme
MBOMBO.
La proportion d’électeur favorable à cette dame dans cette échantillon est de Pn = 45,8%
L’estimation ponctuelle de la proportion d’électeurs favorable à Mme MBOMBO dans cette ville
est de 45,8%.
Déterminons l’intervalle de confiance au seuil de 5% de la proportion p d’électeurs qui vont voter
pour Mme MBOMBO.
On a : 2 (t) -1 = 0,95 (t) = 0,975 t = 1,96 et t 
 = 0,03 d’où l’intervalle de confiance
de la proportion au niveau de confiance de 95% l’on au seuil de 5% est 0,428 ; 0,488.
A partir du sondage effectué sur 1000 personnes, on peut estimer (avec un coefficient de
confiance de 95% que le score de Mme MBOMBO sera dans la fourchette 0,428 ; 0,488.
Confiance à 90%, risque de 10% : 2 (t) -1 = 0,9 (t) = 0,95 t = 1,64
Confiance à 99 %, risque de 1% : 2 (t) -1 = 0,99 (t) = 0,995 t = 2,58
III- STATISTIQUE INFERENTIELLE : TESTS DE VALIDITE D’HYPOTHESE
1- Principe
Je connais la valeur théorique de la moyenne ou de la proportion d’un certain caractère d’une
population donnée et je vais vérifier que cette valeur est conforme à l’aide d’un échantillon.
Par exemple, une machine est réglée pour produire des pièces par jour, il est bien évident qu’il est
impossible (ce serait trop long et trop couteux) de vérifier toutes les pièces.
1 / 11 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!