Introduction sur l`inférence statistiques et théorie de l`échantillonnage

publicité
Introduction sur l’inférence statistiques et théorie de
l’échantillonnage
February 8, 2015
Chapitre 3
February 8, 2015
1 / 15
Introduction sur l’inférence statistique
Section
1
Introduction sur l’inférence statistique
2
Théorie de l’échantillonnage
Chapitre 3
February 8, 2015
2 / 15
Introduction sur l’inférence statistique
Introduction sur l’inférence statistique
Si on a accès aux valeurs des variables pour toute la population (ex:
On veut faire une étude de marché et on peut interroger tous les
consommateurs potentiels), on peut se contenter de faire de la
statistique descriptive.
Cependant, obtenir l’intégralité des données s’avère souvent très long et
coûteux, voire impossible.
En statistique inférentielle, on étudie une partie seulement de la
population, l’échantillon.
Dans notre exemple, on appelle un certain nombre de consommateurs
potentiels pour leur demander s’ils pourraient être intéressés par notre
produit, quelles caractéristiques les intéresseraient...
Chapitre 3
February 8, 2015
3 / 15
Introduction sur l’inférence statistique
Introduction sur l’inférence statistique
On cherche à induire les caractéristiques inconnues d’une population à
partir d’un échantillon issu de cette population
A partir des réponses à notre sondage, on cherche à savoir quelle
proportion de la population pourrait s’intéresser à notre produit et
quelles caractéristiques maximiseraient la demande
Les caractéristiques de l’échantillon reflètent, avec une certaine marge
d’erreur, les caractéristiques de la population.
Chapitre 3
February 8, 2015
4 / 15
Introduction sur l’inférence statistique
Introduction sur l’inférence statistique (2)
On considère la population comme infinie
raisonnable si elle est très grande
On peut de ce fait considérer les variables statistiques qui la décrivent
comme des variables aléatoires
La répartition des valeurs de ces statistiques est décrite par des lois de
probabilité dont on peut connaître la forme mais pas certains de ses
paramètres (espérance, variance,...) ou qui peuvent être totalement
inconnues (on ne s’intéressera pas à ce cas de figure dans le cadre du
cours)
L’inférence statistique vise à identifier ces lois à partir d’un échantillon
de valeurs prises par les variables
La théorie de l’échantillonnage étudie les méthodes pour constituer un
"bon échantillon" (qui soit représentatif de la population dont il est
issu)
Chapitre 3
February 8, 2015
5 / 15
Théorie de l’échantillonnage
Section
1
Introduction sur l’inférence statistique
2
Théorie de l’échantillonnage
Chapitre 3
February 8, 2015
6 / 15
Théorie de l’échantillonnage
L’échantillon
Un échantillon de taille n est l’un des sous-ensemble possibles de n
éléments tirés parmi les N éléments d’une population
Plusieurs échantillons peuvent donc être tirés d’une population : on
peut tirer CNn échantillons différents
Chapitre 3
February 8, 2015
7 / 15
Théorie de l’échantillonnage
Méthodes d’échantillonnage
On se place dans le cadre d’un plan d’échantillonnage probabiliste
ou plan stochastique.
Ces plans se caractérisent par le fait que les individus statistiques
devant faire partie de l’échantillon sont sélectionnés par tirages
probabilistes. Chaque individu de la population statistique a une
probabilité connue d’être inclus dans l’échantillon (cette probabilité est
appelée probabilité d’inclusion d’ordre un de l’individu pour le plan
d’échantillonnage considéré). Avec de tels plans, il est possible
d’utiliser la théorie des probabilités : les observations sur
l’échantillon sont des variables aléatoires. On peut utiliser des outils
d’inférence statistique pour estimer des paramètres de la population et
également évaluer les précisions d’estimation.
À ne pas confondre avec le plan empirique.
Chapitre 3
February 8, 2015
8 / 15
Théorie de l’échantillonnage
Méthodes d’échantillonnage
Méthodes aléatoires :
Échantillonnage aléatoire simple : On choisit au hasard et sans
remise n éléments parmi les N éléments de la population (ou population
mère)
Échantillonnage stratifié : Si la population est constituée de strates
(sous-populations, par exemple: classes d’âge...), on procède à un
échantillonnage aléatoire simple au sein de chaque strate de taille
proportionnelle à la taille de la strate dans la population. Les individus
de la population n’ont pas, contrairement au cas précédent, tous la
même probabilité d’être tirés. Cet échantillonnage augmente la
précision des estimations.
Échantillonnage par grappe : on choisit au hasard des grappes (ex :
filiales d’une entreprise, écoles d’un département, immeubles dans une
ville...) et on interroge tous les individus de ces grappes. Cette
méthode sera bonne si les grappes se ressemblent et que les individus
composant les grappes sont différents les uns des autres.
Chapitre 3
February 8, 2015
9 / 15
Théorie de l’échantillonnage
La distribution d’échantillonnage
Si les échantillons sont aléatoires (chaque élément a la même
probabilité d’appartenir à l’échantillon), chacun des CNn échantillons
différents sont équiprobables
Dans chaque échantillon, les paramètres (moyenne, médiane,
variance...) prendront des valeurs différentes
On appelle distribution d’échantillonnage, l’ensemble des couples
(valeur du paramètre, probabilité pour que le paramètre prenne cette
valeur)
Chapitre 3
February 8, 2015
10 / 15
Théorie de l’échantillonnage
La distribution d’échantillonnage
Si on s’intéresse à la demande potentielle pour notre produit, la
distribution d’échantillonnage de la moyenne sera obtenue en relevant,
pour chaque échantillon la moyenne de la demande potentielle
renseignée par les sondés à laquelle on associe une probabilité
d’occurence (nombre d’échantillons avec cette valeur de demande
potentielle moyenne/ nombre total d’échantillons possibles)
On fait de même pour la variance, la médiane... et les distributions
ainsi obtenues correspondent à des variables aléatoires
Chapitre 3
February 8, 2015
11 / 15
Théorie de l’échantillonnage
La distribution d’échantillonnage (2)
Il ne faut pas confondre:
La moyenne (ou la variance, médiane...) de la variable X dans la
population-mère : demande potentielle moyenne des consommateurs
pour notre produit
La moyenne de la variable X dans un échantillon : demande
potentielle moyenne dans un échantillon
La moyenne de la distribution d’échantillonnage des moyennes :
on prend dans chaque échantillon la moyenne de la demande potentielle
et on fait la moyenne de toutes ces moyennes
La moyenne de la distribution d’échantillonnage des variances :
on prend dans chaque échantillon la variance de la demande potentielle
et on fait la moyenne de toutes ces variances
Chapitre 3
February 8, 2015
12 / 15
Théorie de l’échantillonnage
Exemple
On sait que 4% des pièces produites dans une usine sont défectueuses
On tire un échantillon 100 pièces au hasard
Quelle est la probabilité pour que vous observiez plus de 5% de pièces
défecteuses dans votre échantillon?
Chapitre 3
February 8, 2015
13 / 15
Théorie de l’échantillonnage
Exemple (2)
Soit X la variable aléatoire "nombre de pièces défectueuses dans
l’échantillon"
X ֒→ B(100, 0.04) avec E (X ) = np = 4
Comme "n est grand",
on peut faire l’approximation suivante:
p
֒→ N (np = 4, np(1 − p) = 1.96)
On cherche P(X > 5)
On centre et on réduit pour se ramener à une N (0, 1):
−4
P(X > 5) = P( X1.96
>
5−4
1.96 )
−4
= P( X1.96
> 0.51)
−4
< 0.51) = 1 − 0.69497 ≈ 30.5%
= 1 − P( X1.96
Chapitre 3
February 8, 2015
14 / 15
Théorie de l’échantillonnage
Exemple (3)
Conclusion: en constituant un échantillon de 100 pièces on a 30.5% de
chances d’obtenir plus de 5% de pièces défectueuses dans notre
échantillon
Les questions qu’on se pose en pratique correspondent au problème
inverse: j’ai un échantillon avec x% de pièces défectueuses et je me
demande ce que cela me dit sur la proportion de pièces défectueuses
qui sortent de l’usine.
On parle alors d’Estimation Ponctuelle
Chapitre 3
February 8, 2015
15 / 15
Téléchargement