Telechargé par El phara Ruben

cours

publicité
ECHANTILLONNAGE-STATISTIQUE INFERENTIELLE
Objectifs principaux : comprendre la loi faible des grandes nombres et le théorème central limite,
connaitre les lois d’échantillonnage, savoir estimer une moyenne ou une fréquence, construire et utiliser
un test de validité d’hypothèse.
INTRODUCTION
L’échantillonnage est l’étude des liens existant entre les paramètres (moyenne ou fréquence) des
échantillons issus de la population et ceux de la population elle-même. C’est grâce à l’échantillonnage
qu’on peut faire des statistiques inférentielles.
- Pour prédire, dix jours avant l’élection, la proportion exacte des camerounais qui va voter pour tel
ou tel candidat, il faudrait interroger tous les camerounais : c’est matériellement impossible. On
interroge donc un échantillon d’environ mille personnes (sondage) et on en déduit une estimation
de la proportion recherchée.
- Une machine doit remplir des paquets de sucre de 1kg. Il est matériellement impossible de
vérifier que la masse de chaque paquet est bien 1 kg. Alors pour contrôler le bon réglage de la
machine, on étudie un échantillon de 50 paquets et on prendra une décision grâce aux tests
d’hypothèses, cette théorie doit beaucoup au statisticien anglais KarlPearson.
IECHANTILLONNAGE
1) Théorème dit : "loi faible des grands nombres"
a) Etude d’un exemple :
On lance un dé « normal » et on considère l’évènement A "j’obtiens un 6", on lance n fois le dé.
Soit X1 la variable aléatoire de Bernoulli prenant la valeur 1 si le 6 apparait au 1er lancer et la
valeur 5 sinon.
- La variable aléatoire Sn = X1 + …………………….. + Xn est la variable aléatoire donnant le nombre
d’apparitions du 6 au cours des n lancers.
-
La variable aléatoire
n
=
1
𝑛
Sn prend pour valeurs la fréquence d’apparition du 6 au cours des n
1
lancers. La variable Sn (somme de nVa de Bernoulli) suit la loi binomiale B (n, ) ; en utilisant les
6
propriétés de la somme de variables aléatoires, on obtient : E (Sn) =
1
5
6
36𝑛
E( n) = et V ( n) =
; d’où𝛿 ( n) = √
𝑛
6
et V (Sn) =
5𝑛
36
, de même :
5
36𝑛
1
Lorsque n augmente et tend vers l’infini, E ( n) est toujours égale à tandis que l’écart type S (Xn)
6
tend vers 0.
Donc, lorsque n tend vers l’infini, la probabilité pour que la fréquence de sortie de 6 soit très
1
proche de est de plus en plus proche de 1.
6
1
Autrement dit : ∀𝜀 ∈ IR++, P ( n- - ! < ℇ) tend vers 1 lorsque
6
n+ ∞.
b) Loi faible des grands nombres :
Théorème :
Soient X1, ………….. ,Xn, n variables aléatoires indépendantes de même loi, définir sur Ω telle que
E(Xi) = m et V (Xi) =𝛿². On définit lesvariablesaléatoiresSn = X1 + ………+ Xn et
n
1
= Sn.
𝑛
Alors∀𝜀 ∈ 𝐼𝑅 ++, P ( n-E(x)) < 𝜀) tend vers 1 lorsque n +∞.
Autrement dit : lim P ( n-E(X)/)= 1 ou Xn converge en probabilité vers 𝐸(𝑋).
n
 + ∞.
Ce théorème admis permet de faire le lien entre les statistiques et les probabilités. Il justifie
surtout le fait que l’on peut choisir comme probabilité d’un évènement la fréquence statistique
d’apparition de cet évènement lorsque le nombre d’expériences est très grand. On doit à jacques Bernoulli
une démonstration de la loi faible des grands nombres.
2) Théorème central limite
On parle également du théorème de la limite centrée :
Eléments de cours d’échantillonnage et statistique inférentielle par olivier ALIMA MBOUOMBOUO
Théorème
Soit X1, ……………….,Xn ; n variables aléatoires indépendantes de même loi, définies sur Ω telle que
E (Xi) = m et V (xi) = **²
Pour n suffisamment grand, la variable aléatoire
Suit approximativement la loi normaleN(m,
𝜎
√𝑛
n
=
𝑋1+⋯+𝑋𝑛
𝑛
).
Remarque 1 :
Du fait des propriétés admises concernant la somme desv.a suivant des lois normales, si les Xi
suivent toutes la même loi normale N
(m,𝜎) ; alors
n
=
𝑋+⋯……+𝑋𝑛
𝑛
suit la loi normale N
(m ;
𝜎
√𝑛
),
quelque soit n ∈ 𝐼N.
Note : si le Xi suivent une loi quelconque sans qu’il soit besoin de connaitre cette loi des Xi, (pourvu que ce
soit la même pour toutes) alors, si n est suffisamment grand,
N(m,
8
√𝑛
n
=
𝑋1+⋯……….+𝑋 𝑛
𝑛
𝑠𝑢𝑖𝑡 approximativement
).
Remarque 2
Nous savons que, pour n suffisamment grand, on peut remplacer les probabilités associées à la loi
Binomiale B (n, p) par celles de la loi normale
N (m, 𝛿) avec m = np et 𝛿 = √𝑛𝑝𝑞.
L’approximation de la loi binomiale par la loi normale est un exemple d’application du théorème
de la limite centrée. En effet, si X suit une loi binomiale B(n,p) , alors X est la somme de n v.a de Bernoulli
suivant toutes la même loi de moyenne p et d’écart type √𝑝𝑞. Ainsi d’après le théorème de la limite
centrée, pour n suffisant grand,
𝑋
𝑛
=
𝑋1+𝑋2+⋯…….+𝑋𝑛
𝑛
suit approximativement la loi N
(p,
√𝑝𝑞
√𝑛
) ; ce qui est
équivalent à : X = X1 + X2 + ………..+ Xn suit approximativement la loi normale N (np, √𝑛𝑝𝑞).
3) Distribution d’échantillonnage
a) Principe
L’échantillonnage consiste, connaissant les propriétés d’une population, à déterminer les
propriétés des échantillons dans cette population.
On ne considère ici que des échantillons aléatoires et des tirages effectués avec remise,pour que
les tirages soient indépendants. Dans le cas où l’effectif de la population est grand,ce qui est très souvent le
cas des populations que l’on étudie,on peut assimiler les tirages sans remise aux tirages avec remise.
L’échantillon peut donc être considéré comme la réalisation d’une suite de n v.a indépendantes de même
loi de probabilité.
b) Distribution d’échantillonnage de moyennes
On considère une population d’effectif N de moyenne m et d’écart type 𝛿.On prélève avec remise
un échantillon aléatoire de taille n.
L’observation de l’échantillon correspond à l’observation de n v.a X1, x2……………….,xn
indépendants de même loi de moyenne m et d’écart type 𝛿. Soit la v.a =
échantillon. D’après le théorème de la limite centrée, la loi de
(m,
𝛿
√𝑛
𝑋1+⋯……+𝑋𝑛
𝑛
associée à cet
peut être approchée par la loi normale N
).
Théorème
Soit une population d’effectif N ; de moyenne m et d’écart type 𝛿.On prélève un échantillon
aléatoire de taille n. soit la v.a. qui associe à chaque échantillon sa moyenne. Alors , pour n suffisamment
grand, la loi de
peut être approchée par la loi normale N (m,
𝛿
√𝑛
).
Exemple
Une production de 10 000 objets est réglée pour un poids moyen de 250 g et pour un écart type
de 10g. On prélève 200 objets (tirage avec remise). Calculons la probabilité pour que la moyenne de
l’échantillon soit comprise entre 249 g et 251 g.
Solution
Eléments de cours d’échantillonnage et statistique inférentielle par olivier ALIMA MBOUOMBOUO
L’échantillon étant suffisamment grand, la loi d’échantillon
moyenne 250 et d’écart type
P (-√2 ≤ 𝑇 ≤ √2) où T =
10
√200
𝑋−250
√2
2
=
√2
2
. Ainsi : P(249 <
peut être approchée par la loi normale de
−1
𝑥−250
2
√2
2
251) = P (-1 < – 250 <1) = p ( √2 <
<
1
√2
2
)=
suit la loi normale centrée réduite.
Donc P (249 < < 251) = p (−√2 ≤ 𝑇 ≤ √2) = 2𝜋(1.414) -1 = 0.84
c)Distribution d’échantillonnage de fréquence
Théorème :
Soit une population d’effectif N dont N’ éléments possèdent lecaractère étudié. La fréquence du caractère
étudié est P=
𝑁′
𝑃
. Soit la v.aF donnant la fréquence du caractère étudié pour chaque échantillon aléatoire de
taille n prélevé.
Alors, pour n suffisamment grand, la loi de F peut êtreapprochée par la loi normale N
√
(p,
𝑝(1−𝑝)
𝑛
):
Remarque
Ce théorème est un cas particulier du précédent et on est ici dans le cas d’une approximation de la
loi binomiale par la loi normale.
Exemple
Au cours d’une consultation électorale, le candidat d’un parti politique a recueilli 55% des
suffrages exprimés. Calculons la probabilité d’avoir, dans un échantillon de taille 100 prélevé parmi les
suffrages exprimés, moins de 50% des voix pour ce candidat.
Solution
La taille de l’échantillon étant suffisamment grande, F suit approximativement la loi N
0,05)
Ainsi : p (F <0,5) = p (F – 0,55 <-0,05) = P (
𝐹−0,55
0,05
(0,55 ,
< -1) = P ( T < -1)
= 1- p ( T≤ 1) = 0,16.
Remarque :
Si X est la variable donnant le nombre d’éléments de l’échantillon ayant voté pour ce candidat,
alors X soit la loi binomiale B (100 ; 0,55). X est une v.a discrète et F est donc aussi une v.a discrète qui
prend pour valeurs les fractions
𝑘
100
où 0 ≤ k≤ 100.
Pour avoir une valeur plus proche de la réalité, il faut faire une correction de continuité :
P(F< 0,495) = P (F-0,55. < − 0,055) = p (
𝐹−0,55
0,05
< −1,1) = p (T < -1,1) = 1- p (T<1,1) = 0,13.
IISTATISTIQUE INFERENTIELLE : ESTIMATION
1) Principe
Je ne connais pas la fréquence ou la moyenne d’un caractère d’une population donnée et j’essaie
d’estimer en observant un échantillon.
Par exemple, avant les élections on ne connait pas encore les résultats, mais on aimerait bien
savoir … on ne peut pas interroger toute la population, alors les instituts spécialisés effectuent des
sondages, i.einterrogent 1 000 personnes environ dans la population camerounaise et, à partir de là, ils
évaluent les résultats que devraient obtenir les différents candidats.
L’estimation peut se faire à l’aide d’un nombre qui estime celui recherché : c’est l’estimation
ponctuelle, ou à l’aide d’un intervalle : c’est l’intervalle de confiance ou la fourchette.
2) Estimation d’une moyenne
Je ne connais pas m (moyenne de la population) et généralement pas non plus 𝛿 (écart type de la
population) et je cherche à les estimer à l’aide de la moyenne notée mi (ou ) et de l’écart type 𝛿 i (ou 𝛿 n)
d’un échantillon.
a) Estimation ponctuelle de m et 𝛿
Règle 1
Eléments de cours d’échantillonnage et statistique inférentielle par olivier ALIMA MBOUOMBOUO
La moyenne d’un échantillon de taille n prélèvé au hasard dans une population est une bonne
estimation ponctuelle de la moyenne m de la population.
Règle 2
L’écart type 𝛿𝑛 d’un échantillon de taille n prélevé au hasard dans une population n’est pas une bonne
𝑛
estimation de l’écart type 𝛿 de la population. On admettra que le nombre √
𝛿𝑛 est une bonne
𝑛−1
estimation ponctuelle de 𝛿.
b) Estimation d’une moyenne par intervalle de confiance
On considère la v.a X qui, à tout échantillon aléatoire de taille n associe sa moyenne et on
suppose que les conditions sont réunies pour considérer que la loi X suit la loi N (n,
𝛿
√𝑛
).
Règle :
L’intervalle centré sur la moyenne X de l’échantillon  En effet, on a p(m-a<< 𝑚+a) = p (-a < -m<a) = p (-t<
= p (-t ≤ 𝑇 ≤ 𝑡) = 2 𝜋 (t) -1, avec t =
𝑡𝛿
,𝑥 +
√𝑛
𝑥−𝑚
𝛿
√𝑛
𝑎
𝛿
√𝑛
𝑡𝛿
√𝑛
est l’intervalle de confiance 2𝜋 (𝑡) − 1.
< 𝑡)
i.e a =
𝑡𝛿
√𝑛
Exemple
Si on suppose que 2 𝜋 (t) – 1 = 0.95, la moyenne de l’échantillon est une valeur prise par la v.a .
elle est ou n’est pas dans l’intervalle m-𝛿, m +𝛿, mais on sait que du fait du calcul ci-dessus, 95% des
moyennes des échantillons sont dans l’intervalle m-a, m +a, alors m sera de 95 % des intervalles du
typex-a, +a.
Si l’on dispose d’un échantillon, on dira que l’intervalle x-a, +a est un intervalle de confiance à
95% (plus generalement au niveau de confiance 2 𝜋 (t)-1) de la moyenne de la population.
Conditions d’application
Les résultats précédents sont valides si les conditions sont réunies pour considérer que la loi de
suit la loi normaleN(n,
𝛿
√𝑛
),càd si l’unedes 3 conditions suivantes sontréalisées :
1) La population suit une loi normale N (m, 𝛿) avec 𝛿 connu, quelque soit la taille de l’échantillon.
2) La population suit une loi normale N (m, 𝛿) avec 𝛿 inconnu, mais l’échantillon est de grande
taille (sup à 30) et les résultats s’appliquent alors en prenant pour écart type son estimation
ponctuelle.
3) La population suit une loi quelconque de moyenne m et d’écart type 𝛿 et l’échantillon est de
grande taille (> à 50).
Exemple :
Pour mieux gérer les demandes de crédits de ses clients, le directeur d’une agence bancaire
réalise une étude relative à la durée de traitement des dossiers. Un échantillon aléatoire non exhaustif de
50 dossiers traités a donné :
Temps en minutes
0,10
10,20
20,30
30,40
40,50
50,60
Nombre de personnes
4
9
16
13
5
3
La moyenne de l’échantillon = 28 min. écart de l’échantillon 𝛿𝑛 = 12,69. On en déduit : estimation
ponctuelle de la moyenne m de la population : 28 min. Estimation ponctuelle de l’écart type 𝛿 de la
population:
𝑛
𝛿 n-1. = √ . 𝛿n = 12,82
𝑛−1
Intervalle de confiance de la moyenne au niveau de confiance de 95%
Si est lav.a qui, à chaque échantillon de taille 50, associe la moyenne des durées de traitement
des dossiers de l’échantillon, alors
suit approximativement la loi normale N
par son estimation 𝛿 n-1 = 12,82.
On a p (m-a ≤ ≤ m+a) = p (-a ≤ 𝑋 − 𝑚 < 𝑎) = p (-t ≤
= p (-t≤ 𝑇 ≤ 𝑡) =0,95 ; avec t =
−𝑚
𝛿
√50
(m,
𝛿
√50).
) On remplace𝛿
≤ 𝑡)p (-a < -m<a) = p (-t<
−𝑚
𝛿
√𝑛
< 𝑡)
𝑎
𝜎
√50
Eléments de cours d’échantillonnage et statistique inférentielle par olivier ALIMA MBOUOMBOUO
2𝜋 (t)-1 = 0,95 càd 𝜋 (t) = 0,975 → t = 1,96 et a = 𝑡
𝛿𝑛−1
√𝑛
= 3,55
D’où l’intervalle de confiance de la moyenne au niveau de confiance de 95 % (ou au seuil de 5%)est : x-a ;
x +a, soit 28-3,55 ; 28 + 3,55, c a d 24, 45, 31, 55,
Conclusion : on peut estimer que (et on est "sur à 95%") que la moyenne du temps passé dans l’agence
pour le traitement d’un dossier est comprise entre 24,45 min et 31,55min.
Remarque
Avec d’autres échantillons de même effectif, on pourrait obtenir d’autres intervalles de confiance de cette
moyenne avec le même coefficient de confiance (dans cet exemple 95%).
3)estimation d’une proportion
a- Estimation Ponctuelle
La proportion Pn du caractère dans un échantillon de taille n prélevé au hasard dans une
population est une bonne estimation ponctuelle de la proportion P du caractère de la population.
b-Estimation d’une proportion par intervalle de confiance
On considère une population en proportion p (ou fréquence ou pourcentage), on considère la v.a
F, qui à tout échantillon aléatoire de taille n associe la population du caractère considéré dans
l’échantillon. On suppose que les conditions sont réunies pour considérer que la loi de F peut être
approchée par la loi normale N (p, √
𝑝(1−𝑝)
𝑛
). Un calcul similaire à celui effectué précédemment pour
l’estimation d’une moyenne nous amèneau résultat suivant : l’intervalle centré sur la proportion pn de
l’échantillonpn – t √
𝑝 (1−𝑝)
𝑛
,
pn + t √
𝑝 (1−𝑝)
𝑛
,
est l’intervalle de confiance d’une proportion p de la
population au niveau de confiance 2𝜋 (t) -1. mais, pour calculer √
𝑝 (1−𝑝)
𝑛
,
il faut connaitre p et c’est
justement le paramètre qu’on cherche à estimer. Pour résoudre ce problème on peut prendre
√
𝑃𝑛 (1−𝑝)
𝑛
√
𝑛
𝑛−1
=√
𝑝 (1−𝑝n)
𝑛−1
. D’où la règle suivante :
Règle :
L’intervalle centré sur une proportion Pn de l’échantillon, Pn - t√
𝑃𝑛 (1−𝑃𝑛
𝑛−1
, pn + t√
𝑃𝑛 (1−𝑃𝑛
𝑛−1
 est l’intervalle
de confiance de proportion P de la population au niveau de confiance 2𝜋 (t) -1. Les conditions
d’application de ce résultat sont réunies si l’échantillon est de grande taille (> à 50).
Exemple :
Dans un sondage effectué 15 jours avant le scrutin auprès de 1000 personnes choisis de façon
aléatoire dans la ville de FOUMBAN , 458 personnes se déclarent favorables à la candidate Mme
MBOMBO.
La proportion d’électeur favorable à cette dame dans cette échantillon est de Pn = 45,8%
L’estimation ponctuelle de la proportion d’électeurs favorable à Mme MBOMBO dans cette ville
est de 45,8%.
Déterminons l’intervalle de confiance au seuil de 5% de la proportion p d’électeurs qui vont voter
pour Mme MBOMBO.
On a : 2𝜋 (t) -1 = 0,95 𝜋 (t) = 0,975  t = 1,96 et t √
𝑝 (1−𝑝)
𝑛−1
= 0,03 d’où l’intervalle de confiance
de la proportion au niveau de confiance de 95% l’on au seuil de 5% est 0,428 ; 0,488.
A partir du sondage effectué sur 1000 personnes, on peut estimer (avec un coefficient de
confiance de 95% que le score de Mme MBOMBO sera dans la fourchette 0,428 ; 0,488.
 Confiance à 90%, risque de 10% : 2𝜋 (t) -1 = 0,9 𝜋 (t) = 0,95  t = 1,64
 Confiance à 99 %, risque de 1% : 2𝜋 (t) -1 = 0,99 𝜋 (t) = 0,995  t = 2,58
IIISTATISTIQUE INFERENTIELLE : TESTS DE VALIDITE D’HYPOTHESE
1- Principe
Je connais la valeur théorique de la moyenne ou de la proportion d’un certain caractère d’une
population donnée et je vais vérifier que cette valeur est conforme à l’aide d’un échantillon.
Par exemple, une machine est réglée pour produire des pièces par jour, il est bien évident qu’il est
impossible (ce serait trop long et trop couteux) de vérifier toutes les pièces.
Eléments de cours d’échantillonnage et statistique inférentielle par olivier ALIMA MBOUOMBOUO
On prend donc, à la sortie de la machine, une cinquantaine ou une centaine de pièces au hasard et
on les mesure. Imaginons que l’on mesure 10 pièces sur les 14 000, supposons qu’elles mesurent toutes
10 mm ; puis-je en déduire que toutes les piècessont bonnes ? Certes, non ! Il se pourrait que seules ces 10
pièces soient bonnes et 13990 autres sont mauvaises. C’est théoriquement possible, mais pratiquement
impossible : la probabilité d’un tel évènement est nulle.
Par contre, si on a une forte proportion de pièces mauvaises parmi les 10, il y a de grandes
chances que la machine soit mal réglée et que beaucoup de pièces parmi les 14 000 soient mauvaises.
2- Test de conformité d’une moyenne :
a) Etude générale
On pense que la moyenne théorique de la population est m, je cherche à vérifier si cette valeur de m est
exacte à l’aide d’un échantillon.
On suppose que les conditions sont réunies pour considérer que la v.aXn qui à tout échantillon
aléatoire de taille n associe la moyenne de cet échantillon suit la loi normale N (m,
𝛿
√𝑛
).c a d que, soit X suit
la loi normale N (m, 𝛿) ,soit l’échantillon est assez grand pour que le théorème central limite s’applique.
 Première étape
Formuler l’hypothèse nulle H0 : cette hypothèse s’exprime dans les cas qui nous concernent sous
forme d’une égalité. Par exemple m = 10. C’est l’hypothèse que celui qui fait le test croie vraie et qu’il ne
rejettera que si elle est infirmée de l’expérience.
 Deuxième étape :
Formuler l’hypothèse H1 : le choix de cette hypothèse détermine la région critique.
Test bilatéral : si H1 est la négation de H0, cad m ≠10, alors le test est bilatéral et la région critique
a la forme suivante :
Zone d’acceptation de H0
Zone de rejet de H0
-
10
Région critique
Test unilatéral à gauchhe : H1 : m >10, on a :
Seuil critique
Zone d’acceptation de H0
Zone de rejet H0
-
Test unilatéral à droite : H1 : m> 20, on a
Région critique
10
Zone de rejet de H0
Seuil critique
Région critique
10
Zone de rejet de H0
Région critique
Zone de rejet de H0
Région critique
Zone de rejet de H0
Région critique
Seuil critique

Troisième étape :
Après avoir choisi le seuil de signification 𝛼 du test (il est donné dans l’énoncé et vaut en
général de 5% à 1%), déterminer alors la région critique, ou la zone d’acceptation du test qui est le
complémentaire de la région critique. Cette détermination se fait à l’aide de la v.a X, qui sous l’hypothèse
H0 suit la loi normale N (m,
𝛿
√𝑛
).

Quatrième étape
Enoncer la règle de décision et conclure en vu des calculs effectués sur l’échantillon.
b) Exemple de test de conformité d’une moyenne bilatérale
Une machine emballe automatiquement et en série des paquets de beurre : cette machine est
réglée pour que la masse d’un paquet de beurre suive une loi normale de moyenne 250 g avec un écart
type de 1,7g. On voudrait vérifier si la masse moyenne m des paquets de beurre produits par la machine
est bien effectivement de 250g, en supposant que le test est fait auseuil de 5% et que la taille de
l’échantillon est de 50.
Solution
Eléments de cours d’échantillonnage et statistique inférentielle par olivier ALIMA MBOUOMBOUO
-
Hypothèse nulle H0 : m = 250
Hypothèse alternative H1 : m ≠ 250
Zone de rejet de H0
Zone de rejet de H0
Régionqu’on
critique
Région
critique
Considérons
a choisi un échantillon de250
taille 50 . X est la v.a qui
à chaque
échantillon de taille 50
associe la moyenne des masse de l’échantillon ; alors X soit approximativement la loi normale N (250,
1,7
√50
).
Seuil critique
Remarque
L’on ne connait pas l’écart type de la population et si l’échantillon est suffisamment grand, on le remplace
𝑛
par son estimateur 𝛿𝑒 √ obtenu à partir de l’écart type 𝛿𝑒.
𝑛−1
-
Déterminons l’intervalle d’acception du test :
On a : P (m-a < X< m +a) = P (-a< X – m < a) = P-<
= P (-t ≤ T ≤t)= 0,95,avec t=
𝑋−𝑚
𝛿
√50
<t
𝑎
𝛿
√50
Or 2 𝜋 (t) – 1 = 0,95 𝜋 (t) = 0,975  t = 1,96 et a = t
𝛿
√50
= 0,47
D’où l’intervalle d’acception du test est : m-a, m+a , càd : 250-0,47 ; 250 + 0,47 soit 249, 53 ; 250,47
- Règle de décision
Si la moyenne de l’échantillon de 50 paquets de beurre est dans l’intervalle ci-dessus ,on
accepte H0, sinon on la refuse.
- Décision
Considérons le tableau statistique suivant :
Masse en g
247 48 249 250 252
Nombre de paquets
2 6
8
13
11
On a x = 250,24 ; ainsi x ∈259, 53 ; 250,47. Donc on accepte H0.on peut ainsi affirmer que, au risque de 5
%, la moyenne des paquets de beurre est bien de 250g.
Remarque
Dans le cas d’un test bilatéral, les calculs sont exactement les mêmes que lorsqu’on détermine
un intervalle de confiance. Mais la démarche diffère.
- Par exemple dans le cas de la recherche d’un intervalle de confiance à 95% on est amené à
déterminer un réel a tel que P (m-a< X< m+a) = 0,95 ; X étant la v.a qui à chaque échantillon de
taille n, associe la moyenne des masses de l’échantillon.
- Si on ne connait pas la moyenne et qu’on cherche à estimer à l’aide d’un intervalle de confiance,
l’intervalle cherché est (x –a, x+a ,x étant la moyenne de l’échantillon.
- Si on veut vérifier que la moyenne est bien m et qu’on fait un test bilatéral pour le savoir,
l’intervalle d’acceptation du test sera
(m –a, m+a.
c) Exemple de test de conformité d’une moyenne unilatérale à gauche
Un grossiste a négocié l’achat d’un lot de poulets auprès d’une coopérative agricole. La masse
moyenne des poulets qu’il doit recevoir est de 1,2 kg avec un écart type de 0,15 kg. Lors de la livraison, un
contrôle réalisé sur un échantillon de 180 poulets tirés au hasard donne une moyenne x= 1,098 kg. Le
grossiste doit-il, au vu de ces mesures sur cet échantillon, penser que la coopérative n’a pas respecté le
contrat ?
Solution
Notons m la masse des poulets livrés, on va appeler
- Hypothèses nulle H0 : m = 1,2kg
- Hypothèses alternative H1 : m< 1,2kg
La différence avec le 1er exemple est que l’hypothèse alternative n’est pas la négation de H0, en
effet, si la masse moyenne des poulets est supérieure à 1,2 kg, on ne pense pas que le grossiste refuse la
livraison, et qu’il ait des raisons de ne pas faire confiance à la coopérative.
Soit X la v.a prenant pour valeur la moyenne des masses des échantillons de taille 180.
Eléments de cours d’échantillonnage et statistique inférentielle par olivier ALIMA MBOUOMBOUO
Alors, pour l’hypothèse H0, X suit la loi normale N (1,2, √
T=
0,15
180
).
Fixons à 2% le seuil de signification du test.
Déterminons la région critique
𝑋−1,2
0,15
180
√
suit la loi N (0,1)
On a ainsi : P (T< 𝑡) = 0,02 𝜋 (t) = 0,02  t = -2,05
𝛿
0,15
𝑛
180
Sachant que x + t √ = 1,2 – 2,05 √
= 1,17 ; on a P (X<1,17) = 0,02. Le seuil critique est donc 1,17
kg.
- Règle de décision
Cette règle est d’accepter H0 si la moyenne de l’échantillon est supérieure à 1,17 et de la
rejeter dans le cas contraire.
La moyenne des masses des poulets de l’échantillon était de 1,098 kg. Le grossiste va donc
rejeter H0 et refuser ainsi la livraison.
3- Test de conformité d’une proportion
a- Principe général
On considère une population et un caractère de cette population en proportion p (en
fréquence, ou pourcentage). On pense sue la proportion théorique du caractère dans la population est p et
l’on cherche à vérifier si cette valeur de p est exacte à l’aide d’un échantillon.
On considère la v.a F qui, a tout échantillon aléatoire de taille n associe la population du
caractère considéré dans l’échantillon. Supposons que les conditions soient réunies pour considérer que
la loi de F peut être rapprochée par la loiN(p, √
𝑝(1−𝑝)
𝑛
)
-
Première étape
Formulation de l’hypothèse nulle H0 : cette hypothèse s’exprime dans les cas qui nous
concernent, sous forme d’une égalité. Par exemple P = 0,7.c’est l’hypothèse que celui qui fait le test croit
vraie et qu’il ne rejettera que si elle est infirmée par l’expérience.
- Deuxième étape :
Formulation de l’hypothèse H1 : le choix de cette hypothèse détermine la région critique :
 Test bilatéral : si H1 est la négation de H0,càd p≠ 0.7,alors le test est bilatéral et la région critique a
la forme :
Test unilatéral : si H1 s’ exprime sous la forme d’une inégalité, alors le test est unilatéral et la
région critique dépend du sens de l’inégalité :
 Test unilatéral à gauche : si P < 0.7, on a :
………………………………………………………………………….
Test unilatéral à droite :si p > 0.7, on a :Apres avoir choisi le seuil de signalisation & du test ; on peut alors
déterminer la région critique, on la zone d’accoplat du test qui est complémentaire de la région critique.
Cette détermination se fait à l’aide de la V-a X, qui sont l’hypothèse HO sont la loi normal

 Quatrieme étape
Enoncer la règle de décision et conclure au vu des calculs effectués sur l’échantillon.
b- EXEMPLE DE TEST DE CONFORMITE D’ UNE PROPORTION UNILATERALE A DROITE
Un établissement scolaire utilise 25 ordinateurs de même modèle. Après 1000h de service, les
ordinateurs ont connu au moins une défaillance.
Le fournisseur déclare que moins de 10% des ordinateurs de ce type subissent une défaillance pendant
les 1000 premières heures d’utilisation.
Construisons un test unilatéral au seuil de 5% permettant de vérifier cette affirmation du fournisseur.
SOLUTION :
Soit F la v-a qui à tout échantillon aléatoire de 25 ordinateurs modèles associe le pourcentage d’ordinateurs de
cet échantillon subissant au moins une défaillance pendant les 1000 premières heures d’utilisation.On suppose
Eléments de cours d’échantillonnage et statistique inférentielle par olivier ALIMA MBOUOMBOUO
𝑝 (1−𝑝)
que F suit la loi normale N (p ;√
25
) où p est le pourcentage d’ ordinateurs neufs de l’ensemble de la
production subissant une défaillance pendant les 1000 premières heures d’utilisation.
-
Hypothèse nulle H0 : p = 0.1 (p≤ 0.1)
Hypothèse alternative : p > 0.1
Test unilatéral : **********************************************
**********************************************************
0.1 (1−0.5)
Le test est fait au seuil de 5% et on a un échantillon de taille 25. l’écart type deFest :√
25
= 0.06
Si F est la v-a qui à chaque échantillon de taille 25, associe la proportion de machines ayant une défaillance
pendant les 1000 premières heures, alors F N N(0.1 0.06) détermination de la zone d’occupation du test
(complémentaire de la région critique) P (F< p t a) = P (F-P < a) = p (
(𝑓−𝑝)
0.06
< 𝑡) = 0.95 avec t=
9
0.06
𝜋(t) = 0.99
t = 1.65 et a= 0.1 d’ où le seuil critique du test p= 0.2 et la zone d’acceptation du test est
l’ensemble des valeurs inferieurs a 0.2
-
Règle de décision:Si la proportion de l’échantillon des 25 machines est dans la zone ci-dessus, on
accepte H0, sinon on la refuse. On a p= 0.16 donc on accepte H0 et on peut affirmer, au risque de 5%,
que l’affirmation du fournisseur pour la proportion des ordinaires ayant une défaillance pendant les
1000 premières heures est vraie.
4) RISQUE DE 1ERE ESPECE –RISQUE DE 2E ESPECE : ETUDE D’UN EXEMPLE :
Avant d’accepter de joue une partie de sinkenor( le célèbre jeu de dés) avec Nanard le flambeur, Gigi veut s’
assurer que le dé apporté par Nanard n’est pas truqué. Pour cela, il se propose de contrôler la fréquence
d’apparition du 5 (très important dans ce jeu) lors d’une série de 400 heures de dés.
-
CONSTRUCTION D’UN TEST BILATERAL
-
H0 : P= (le dé n’étant pas truqué)
-
H1 : P ≠
1
6
1
6
Si F est la v-a prenant pour valeur la fréquence d’apparition de 5 au cours des 400 lancers, alors sous H0, F suit
1
1
approximativement la loi normale( N ; √6
6
𝑋
5
6
400
)
Détermination de la zone d’acception du test ; au seuil de 5% : on a
P (p- a < F< p +a) = 0.95; càd
𝑎 (𝐹−𝑝)
P− <
𝛿
𝛿
<
𝑎
𝛿
= 0.95 ainsi 2𝜋(
𝑎
𝛿
) − 1 = 0.95 , donc a= 0.036 d’où la zone
d’acceptation du test est (p- a ; p +a) càd [0.130 ; 0.203].
REGLE DE DECISION :
Si à l’issue des 400 lancers, la fréquence obtenue est dans l’intervalle [0.130 ; 0.203], il accepte hypothèse H0 ;
sinon il la refuse.
DECISION :
Gigi effectue les 400 lancers il obtient 49 fois le 5 : Pe= 0.1225
Pe n’est pas dans l’intervalle [0.130 ; 0.203], Il rejette donc H0 et considère que le dé est truqué.
Eléments de cours d’échantillonnage et statistique inférentielle par olivier ALIMA MBOUOMBOUO
B) CHOIX D’UN AUTRE SEUIL :
Si Gigi avait fait un test au seuil de 1%, l’intervalle d’acceptation serait alors [0.118 ; 0.215], alors Pe= 0.1225
∈[0.118 ; 0.215] Gigi aurait accepté l’hypothèse H0 ; càd le dé n’est pas truqué.
C) RISQUE 𝛼 ET RISQUE 𝛽:
La décision d’accepter comme vraie H0 ou de rejeter H0 se fait au vu du résultat de l’expérience sur 400 lancers.
On ne sait pas si H0 est vraie ou non. On peut se tromper et il y a deux risques de se tromper :
-Il se peut que le dé ne soit effectivement pas truqué, mais que la fréquence obtenue ne soit pas dans
l’intervalle [0.130 ; 0.203] et qu’alors il rejette H0 et considère le dé comme truqué alors qu’il ne l’est pas : c’est
le risque de 1ere espèce ou risque𝛼 ;c’est aussi le seuil de signification du test.Ici on a :
a= P ( F∈[0.130 ; 0.203]) = 0.05 =5%
-
Il se peut que le dé soit traqué, mais que la fréquence obtenue soit dans l’intervalle [0.130 ; 0.203] et
qu’alors il accepte H0 et considère que le dé comme non truqué alors qu’il l’est : c’est le risque de
deuxième espèce ou risque 𝛽. pour calculer ce risque, il nous fait connaitre la valeur de P.
DECISION
choix de H0
Pas d’erreur
H0 est vraie
Réalité
Erreur de 2e espèce de
probabilité 𝛽
H1 est vraie
Choix de H1
Erreur de1ere espèce de
probabilité 𝛼
Pas d’erreur
D )CALCUL DE RISQUE 𝛽
On suppose queNanard a fait effectivement truquer le dé, de telle sorte que la fréquence de sortie du 5 soit P=
1
5
on a, sous l’hypothèse P=
F
N
1
5
1
; √5
𝑋
4
5
400
1
5
,
aussi pour 𝛼 = 5%, 𝛽= P (0.130 ≤ F < 0.203) = 0.579
Pour 𝛼=1%, 𝛽= P (0.118 ≤ F < 0.215) = 0.773
On constate sur cet exemple et nous admettons de manière générale que plus le risque 𝛼 est grand, plus le
risque 𝛽 est petit et réciproquement.On constate également que le risque 𝛽 est nettement plus important que
le risque 𝛼.
e)DIMIINUTION DES RISQUES
Pour un risque 𝛼 donné, on peut diminuer le risque 𝛽 en augmentant la taille de l’échantillon.
Supposons que Gigi ait fait son première test (𝛼= 5%) avec un échantillon de 900 lancers. L’intervalle
d’acceptation du test aurait été : [0.142 ; 0.191] en effet, sous H0, X suit la loi N (
P (p-a< F< p+ a) = 0.95 càd
𝑎 F−𝑝 𝑎
p (− <
𝜎
𝜎
< )= 0.95,ainsi
𝜎
𝑎
𝑎
𝜎
𝜎
1
6
1
𝑋
; √6
5
6
900
2 𝜋 ( ) -1= 0.95 et = 1.96; donc a = 0.20
On a alors 𝛽= p (0.142< F < 0.191) d’ où sous l’hypothèse H1, F suit la loi
N
1
5
1
𝑋
; √5
4
5
400
; on trouve 𝛽 = 0.255
Eléments de cours d’échantillonnage et statistique inférentielle par olivier ALIMA MBOUOMBOUO
5) TEST DE COMPARAISON
a) comparaison de deux moyennes :
Il s’agit de comparer deux populations, c’est à dire de déterminer si deux populations sont semblables ou
sensiblement différentes par rapport à une caractéristique particulière.soit la v- a X1 qui a chaque échantillon
de taille n1 de la population P1 associer la moyenne m1. on considère n1 suffisamment grand pour que X1 suive
la loi normale
N (M1 ;
N (M2 ;
𝜎1
√𝑛1
𝜎2
√𝑛2
) ;soit la v-a X2 m1 on considère N1 suffisamment soit pour Q X2
) on suppose de plus que les deux v-a X1 et X2 sont indépendantes.on retrouve les 4 étapes :
-Enoncé de l’hypothèse nulle H0 : m1=m2
- Enonce
de l’hypothèse alternative H1 : par exemple m1≠m2 dans le cas d’ untestbilatéral.
-Détermination de la zone d’acceptation du test(complémentaire de la région critique) :après avoir choisi le
seuil de signification
𝛼 du test, on peut alors déterminer la région critique. Cette détermination se fait à l′ aidede la
L’aide de la v.a D=X1-X 2 qui sous l’hypothèse H0 ,suit la loi normale de paramètres 0 et
-Enoncé de la règle de décision et conclusion au vu des calculs effectués sur l’échantillon.
Eléments de cours d’échantillonnage et statistique inférentielle par olivier ALIMA MBOUOMBOUO
Téléchargement