Échantillonnage et Statistique Inférentielle - Cours

Telechargé par El phara Ruben

Téléchargement

Eléments de cours d’échantillonnage et statistique inférentielle par olivier ALIMA MBOUOMBOUO

Objectifs principaux : comprendre la loi faible des grandes nombres et le théorème central limite,

connaitre les lois d’échantillonnage, savoir estimer une moyenne ou une fréquence, construire et utiliser

un test de validité d’hypothèse.

INTRODUCTION

L’échantillonnage est l’étude des liens existant entre les paramètres (moyenne ou fréquence) des

échantillons issus de la population et ceux de la population elle-même. C’est grâce à l’échantillonnage

qu’on peut faire des statistiques inférentielles.

- Pour prédire, dix jours avant l’élection, la proportion exacte des camerounais qui va voter pour tel

ou tel candidat, il faudrait interroger tous les camerounais : c’est matériellement impossible. On

interroge donc un échantillon d’environ mille personnes (sondage) et on en déduit une estimation

de la proportion recherchée.

- Une machine doit remplir des paquets de sucre de 1kg. Il est matériellement impossible de

vérifier que la masse de chaque paquet est bien 1 kg. Alors pour contrôler le bon réglage de la

machine, on étudie un échantillon de 50 paquets et on prendra une décision grâce aux tests

d’hypothèses, cette théorie doit beaucoup au statisticien anglais KarlPearson.

I- ECHANTILLONNAGE

1) Théorème dit : "loi faible des grands nombres"

a) Etude d’un exemple :

On lance un dé « normal » et on considère l’évènement A "j’obtiens un 6", on lance n fois le dé.

Soit X1 la variable aléatoire de Bernoulli prenant la valeur 1 si le 6 apparait au 1er lancer et la

valeur 5 sinon.

- La variable aléatoire Sn = X1 + …………………….. + Xn est la variable aléatoire donnant le nombre

d’apparitions du 6 au cours des n lancers.

- La variable aléatoire n = 

 Sn prend pour valeurs la fréquence d’apparition du 6 au cours des n

lancers. La variable Sn (somme de nVa de Bernoulli) suit la loi binomiale B (n, 

) ; en utilisant les

propriétés de la somme de variables aléatoires, on obtient : E (Sn) = 

 et V (Sn) = 

, de même :

E( n) = 

 et V ( n) = 

; d’où ( n) = 



Lorsque n augmente et tend vers l’infini, E ( n) est toujours égale à 

 tandis que l’écart type S (Xn)

tend vers 0.

Donc, lorsque n tend vers l’infini, la probabilité pour que la fréquence de sortie de 6 soit très

proche de 

 est de plus en plus proche de 1.

Autrement dit :  IR++, P (n- -

  ) tend vers 1 lorsque

n+ ∞.

b) Loi faible des grands nombres :

Théorème :

Soient X1, ………….. ,Xn, n variables aléatoires indépendantes de même loi, définir sur  telle que

E(Xi) = m et V (Xi) =². On définit lesvariablesaléatoiresSn = X1 + ………+ Xn et n = 

 Sn.

Alors  ++, P n-E(x))  ) tend vers 1 lorsque n +∞.

Autrement dit : lim P n-E(X)/)= 1 ou Xn converge en probabilité vers  n

 + ∞.

Ce théorème admis permet de faire le lien entre les statistiques et les probabilités. Il justifie

surtout le fait que l’on peut choisir comme probabilité d’un évènement la fréquence statistique

d’apparition de cet évènement lorsque le nombre d’expériences est très grand. On doit à jacques Bernoulli

une démonstration de la loi faible des grands nombres.

2) Théorème central limite

On parle également du théorème de la limite centrée :

ECHANTILLONNAGE-STATISTIQUE INFERENTIELLE

Eléments de cours d’échantillonnage et statistique inférentielle par olivier ALIMA MBOUOMBOUO

Théorème

Soit X1, ……………….,Xn ; n variables aléatoires indépendantes de même loi, définies sur Ω telle que

E (Xi) = m et V (xi) = **²

Pour n suffisamment grand, la variable aléatoire n = 



Suit approximativement la loi normaleN(m, 

).

Remarque 1 :

Du fait des propriétés admises concernant la somme desv.a suivant des lois normales, si les Xi

suivent toutes la même loi normale N (m,) ; alors n = 

 suit la loi normale N (m ; 

),

quelque soit n  N.

Note : si le Xi suivent une loi quelconque sans qu’il soit besoin de connaitre cette loi des Xi, (pourvu que ce

soit la même pour toutes) alors, si n est suffisamment grand, n = 

 approximativement

N(m, 

).

Remarque 2

Nous savons que, pour n suffisamment grand, on peut remplacer les probabilités associées à la loi

Binomiale B (n, p) par celles de la loi normale

N (m, ) avec m = np et  = .

L’approximation de la loi binomiale par la loi normale est un exemple d’application du théorème

de la limite centrée. En effet, si X suit une loi binomiale B(n,p) , alors X est la somme de n v.a de Bernoulli

suivant toutes la même loi de moyenne p et d’écart type  Ainsi d’après le théorème de la limite

centrée, pour n suffisant grand, 



 suit approximativement la loi N (p, 

 ) ; ce qui est

équivalent à : X = X1 + X2 + ………..+ Xn suit approximativement la loi normale N (np, ).

3) Distribution d’échantillonnage

a) Principe

L’échantillonnage consiste, connaissant les propriétés d’une population, à déterminer les

propriétés des échantillons dans cette population.

On ne considère ici que des échantillons aléatoires et des tirages effectués avec remise,pour que

les tirages soient indépendants. Dans le cas où l’effectif de la population est grand,ce qui est très souvent le

cas des populations que l’on étudie,on peut assimiler les tirages sans remise aux tirages avec remise.

L’échantillon peut donc être considéré comme la réalisation d’une suite de n v.a indépendantes de même

loi de probabilité.

b) Distribution d’échantillonnage de moyennes

On considère une population d’effectif N de moyenne m et d’écart type On prélève avec remise

un échantillon aléatoire de taille n.

L’observation de l’échantillon correspond à l’observation de n v.a X1, x2……………….,xn

indépendants de même loi de moyenne m et d’écart type  Soit la v.a = 

 associée à cet

échantillon. D’après le théorème de la limite centrée, la loi de peut être approchée par la loi normale N

(m, 

).

Théorème

Soit une population d’effectif N ; de moyenne m et d’écart type .On prélève un échantillon

aléatoire de taille n. soit la v.a. qui associe à chaque échantillon sa moyenne. Alors , pour n suffisamment

grand, la loi de peut être approchée par la loi normale N (m, 

).

Exemple

Une production de 10 000 objets est réglée pour un poids moyen de 250 g et pour un écart type

de 10g. On prélève 200 objets (tirage avec remise). Calculons la probabilité pour que la moyenne de

l’échantillon soit comprise entre 249 g et 251 g.

Solution

Eléments de cours d’échantillonnage et statistique inférentielle par olivier ALIMA MBOUOMBOUO

L’échantillon étant suffisamment grand, la loi d’échantillon peut être approchée par la loi normale de

moyenne 250 et d’écart type 

 = 

Ainsi : P(249 < 251) = P (-1 < – 250 1) = p (













) =

P (-    ) où T = 





suit la loi normale centrée réduite.

Donc P (249   251) = p (    ) = 2(1.414) -1 = 0.84

c)Distribution d’échantillonnage de fréquence

Théorème :

Soit une population d’effectif N dont N’ éléments possèdent lecaractère étudié. La fréquence du caractère

étudié est P=

 . Soit la v.aF donnant la fréquence du caractère étudié pour chaque échantillon aléatoire de

taille n prélevé.

Alors, pour n suffisamment grand, la loi de F peut êtreapprochée par la loi normale N (p,



) :

Remarque

Ce théorème est un cas particulier du précédent et on est ici dans le cas d’une approximation de la

loi binomiale par la loi normale.

Exemple

Au cours d’une consultation électorale, le candidat d’un parti politique a recueilli 55% des

suffrages exprimés. Calculons la probabilité d’avoir, dans un échantillon de taille 100 prélevé parmi les

suffrages exprimés, moins de 50% des voix pour ce candidat.

Solution

La taille de l’échantillon étant suffisamment grande, F suit approximativement la loi N (0,55 ,

0,05)

Ainsi : p (F 0,5) = p (F – 0,55 -0,05) = P ( 

  -1) = P ( T  -1)

= 1- p ( T 1) = 0,16.

Remarque :

Si X est la variable donnant le nombre d’éléments de l’échantillon ayant voté pour ce candidat,

alors X soit la loi binomiale B (100 ; 0,55). X est une v.a discrète et F est donc aussi une v.a discrète qui

prend pour valeurs les fractions 

 où 0  k 100.

Pour avoir une valeur plus proche de la réalité, il faut faire une correction de continuité :

P(F = P (F-0,55.   0,055) = p ( 

  = p (T  -1,1) = 1- p (T1,1) = 0,13.

II- STATISTIQUE INFERENTIELLE : ESTIMATION

1) Principe

Je ne connais pas la fréquence ou la moyenne d’un caractère d’une population donnée et j’essaie

d’estimer en observant un échantillon.

Par exemple, avant les élections on ne connait pas encore les résultats, mais on aimerait bien

savoir … on ne peut pas interroger toute la population, alors les instituts spécialisés effectuent des

sondages, i.einterrogent 1 000 personnes environ dans la population camerounaise et, à partir de là, ils

évaluent les résultats que devraient obtenir les différents candidats.

L’estimation peut se faire à l’aide d’un nombre qui estime celui recherché : c’est l’estimation

ponctuelle, ou à l’aide d’un intervalle : c’est l’intervalle de confiance ou la fourchette.

2) Estimation d’une moyenne

Je ne connais pas m (moyenne de la population) et généralement pas non plus  (écart type de la

population) et je cherche à les estimer à l’aide de la moyenne notée mi (ou ) et de l’écart type i (ou n)

d’un échantillon.

a) Estimation ponctuelle de m et 

Règle 1

Eléments de cours d’échantillonnage et statistique inférentielle par olivier ALIMA MBOUOMBOUO

La moyenne d’un échantillon de taille n prélèvé au hasard dans une population est une bonne

estimation ponctuelle de la moyenne m de la population.

Règle 2

L’écart type d’un échantillon de taille n prélevé au hasard dans une population n’est pas une bonne

estimation de l’écart type de la population. On admettra que le nombre 

 est une bonne

estimation ponctuelle de .

b) Estimation d’une moyenne par intervalle de confiance

On considère la v.a X qui, à tout échantillon aléatoire de taille n associe sa moyenne et on

suppose que les conditions sont réunies pour considérer que la loi X suit la loi N (n, 

).

Règle :

L’intervalle centré sur la moyenne X de l’échantillon -

 

est l’intervalle de confiance 2.

En effet, on a p(m-a +a) = p (-a -ma) = p (-t



  )

= p (-t     = 2  (t) -1, avec t = 



i.e a = 



Exemple

Si on suppose que 2  (t) – 1 = 0.95, la moyenne de l’échantillon est une valeur prise par la v.a .

elle est ou n’est pas dans l’intervalle m-, m +, mais on sait que du fait du calcul ci-dessus, 95% des

moyennes des échantillons sont dans l’intervalle m-a, m +a, alors m sera de 95 % des intervalles du

typex-a, +a.

Si l’on dispose d’un échantillon, on dira que l’intervalle x-a, +a est un intervalle de confiance à

95% (plus generalement au niveau de confiance 2 (t)-1) de la moyenne de la population.

Conditions d’application

Les résultats précédents sont valides si les conditions sont réunies pour considérer que la loi de

suit la loi normaleN(n, 

),càd si l’unedes 3 conditions suivantes sontréalisées :

1) La population suit une loi normale N (m, ) avec connu, quelque soit la taille de l’échantillon.

2) La population suit une loi normale N (m, ) avec inconnu, mais l’échantillon est de grande

taille (sup à 30) et les résultats s’appliquent alors en prenant pour écart type son estimation

ponctuelle.

3) La population suit une loi quelconque de moyenne m et d’écart type  et l’échantillon est de

grande taille ( 

Exemple :

Pour mieux gérer les demandes de crédits de ses clients, le directeur d’une agence bancaire

réalise une étude relative à la durée de traitement des dossiers. Un échantillon aléatoire non exhaustif de

50 dossiers traités a donné :

Temps en minutes

0,10

10,20

20,30

30,40

40,50

50,60

Nombre de personnes

La moyenne de l’échantillon = 28 min. écart de l’échantillon  = 12,69. On en déduit : estimation

ponctuelle de la moyenne m de la population : 28 min. Estimation ponctuelle de l’écart type  de la

population:

n-1. = 

. n = 12,82

Intervalle de confiance de la moyenne au niveau de confiance de 95%

Si est lav.a qui, à chaque échantillon de taille 50, associe la moyenne des durées de traitement

des dossiers de l’échantillon, alors suit approximativement la loi normale N (m, 

) On remplace

par son estimation n-1 = 12,82.

On a p (m-a   m+a) = p (-a  = p (-t 



 p (-a -ma) = p (-t



 )

= p (-t   ) =0,95 ; avec t = 





Eléments de cours d’échantillonnage et statistique inférentielle par olivier ALIMA MBOUOMBOUO

2 (t)-1 = 0,95 càd  (t) = 0,975  t = 1,96 et a = 

 = 3,55

D’où l’intervalle de confiance de la moyenne au niveau de confiance de 95 % (ou au seuil de 5%)est : x-a ;

x +a, soit 28-3,55 ; 28 + 3,55, c a d 24, 45, 31, 55,

Conclusion : on peut estimer que (et on est "sur à 95%") que la moyenne du temps passé dans l’agence

pour le traitement d’un dossier est comprise entre 24,45 min et 31,55min.

Remarque

Avec d’autres échantillons de même effectif, on pourrait obtenir d’autres intervalles de confiance de cette

moyenne avec le même coefficient de confiance (dans cet exemple 95%).

3)estimation d’une proportion

a- Estimation Ponctuelle

La proportion Pn du caractère dans un échantillon de taille n prélevé au hasard dans une

population est une bonne estimation ponctuelle de la proportion P du caractère de la population.

b-Estimation d’une proportion par intervalle de confiance

On considère une population en proportion p (ou fréquence ou pourcentage), on considère la v.a

F, qui à tout échantillon aléatoire de taille n associe la population du caractère considéré dans

l’échantillon. On suppose que les conditions sont réunies pour considérer que la loi de F peut être

approchée par la loi normale N (p, 

 Un calcul similaire à celui effectué précédemment pour

l’estimation d’une moyenne nous amèneau résultat suivant : l’intervalle centré sur la proportion pn de

l’échantillonpn – t 

, pn + t 

, est l’intervalle de confiance d’une proportion p de la

population au niveau de confiance 2 (t) -1. mais, pour calculer 

, il faut connaitre p et c’est

justement le paramètre qu’on cherche à estimer. Pour résoudre ce problème on peut prendre





 = 

 n). D’où la règle suivante :

Règle :

L’intervalle centré sur une proportion Pn de l’échantillon, Pn - t

 , pn + t

  est l’intervalle

de confiance de proportion P de la population au niveau de confiance 2 (t) -1. Les conditions

d’application de ce résultat sont réunies si l’échantillon est de grande taille ( à 50).

Exemple :

Dans un sondage effectué 15 jours avant le scrutin auprès de 1000 personnes choisis de façon

aléatoire dans la ville de FOUMBAN , 458 personnes se déclarent favorables à la candidate Mme

MBOMBO.

La proportion d’électeur favorable à cette dame dans cette échantillon est de Pn = 45,8%

L’estimation ponctuelle de la proportion d’électeurs favorable à Mme MBOMBO dans cette ville

est de 45,8%.

Déterminons l’intervalle de confiance au seuil de 5% de la proportion p d’électeurs qui vont voter

pour Mme MBOMBO.

On a : 2 (t) -1 = 0,95  (t) = 0,975  t = 1,96 et t 

 = 0,03 d’où l’intervalle de confiance

de la proportion au niveau de confiance de 95% l’on au seuil de 5% est 0,428 ; 0,488.

A partir du sondage effectué sur 1000 personnes, on peut estimer (avec un coefficient de

confiance de 95% que le score de Mme MBOMBO sera dans la fourchette 0,428 ; 0,488.

 Confiance à 90%, risque de 10% : 2 (t) -1 = 0,9  (t) = 0,95  t = 1,64

 Confiance à 99 %, risque de 1% : 2 (t) -1 = 0,99  (t) = 0,995  t = 2,58

III- STATISTIQUE INFERENTIELLE : TESTS DE VALIDITE D’HYPOTHESE

1- Principe

Je connais la valeur théorique de la moyenne ou de la proportion d’un certain caractère d’une

population donnée et je vais vérifier que cette valeur est conforme à l’aide d’un échantillon.

Par exemple, une machine est réglée pour produire des pièces par jour, il est bien évident qu’il est

impossible (ce serait trop long et trop couteux) de vérifier toutes les pièces.

1 / 11 100%

Documents connexes

Solutions du chapitre I

Chap 7 Le recueil et l`analyse des informations

Exercices sur les statistiques d`ordre

Cours sur la fluctuation d`une fréquence Première - Maths

Solutions chapitre 3

Estimation de paramètres

Math 9 – Numerical Methods Assessment Record

Une loi (8 points) 1 Variables Gaussiennes (12 points)

Concepts de base en probabilité et statistiques

Méthodologie de l`enquête statistique

Programme - Moodle Lille 2

TP2 COMMENT SE DEROULE LA DIVISION CELLULAIRE

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Échantillonnage et Statistique Inférentielle - Cours

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Échantillonnage et Statistique Inférentielle - Cours

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib