Page 1 L’inférence statistique Donald Long Centre de recherche et de développement en éducation
(CRDE) Université de Moncton longd@umoncton.ca (506) 858-4886
Approche
quantitative
L’inférence
statistique
Les objectifs pédagogiques
Approfondir la notion de représentativité d’un échantillon
Comprendre la relation entre les caractéristiques de la population
et celles de l’échantillon
Connaître les conditions qui améliorent la représentativité d’un échantillon
Connaître la signification réelle de l’erreur d’échantillonnage
Connaître la démarche générale pour parvenir à l’inférence statistique
En savoir plus sur les intervalles de confiance
Mieux comprendre l’influence de la variabilité des scores
et de la taille de l’échantillon sur l’erreur-type de l’échantillonnage
S’initier à la notion d’erreur de Type 1 et de Type 2
Le sommaire
1. De l’échantillon à la population
2. Les paramètres de la population
et les statistiques de l’échantillon
3. Inférer, c’est comparer
4. La démarche vers l’inférence statistique
5. Les erreurs d’échantillonnage
6. Les intervalles de confiance
7. La statistique : la science de l’incertitude
8. Oups ! J’ai fait une erreur !
Page 2 L’inférence statistique Donald Long Centre de recherche et de développement en éducation
(CRDE) Université de Moncton longd@umoncton.ca (506) 858-4886
Vous arrive-t-il parfois à l’épicerie de
goûter à un raisin avant d’acheter toute
la grappe ? Quelle que soit votre
décision, elle découlera d’une inférence.
Vous attribuerez à la grappe les
caractéristiques du raisin que vous avez goûté. L’inférence statistique est
nécessaire tout simplement parce que la plupart du temps nous étudions la
population entière par le biais d’un échantillon. Et, ce faisant, l’estimation
s’accompagne d’erreurs. Le rôle véritable de la statistique est justement de
mesurer le degré d’erreur de ces estimations.
Un synonyme populaire de l’inférence est la généralisation. Dans les deux cas,
il s’agit d’attribuer à la population les caractéristiques connues de l’échantillon.
Cette attribution est d’autant plus pertinente et réaliste que l’échantillon a été tiré
selon des règles strictes qui régissent l’échantillonnage. Un échantillon simple
aléatoire, par exemple, est le type d’échantillon qui représente le mieux la
population. Cependant, d’autres types d’échantillon permettent des
généralisations tout aussi valables.
La validité de l’inférence à toute la population en s’appuyant sur les données de
l’échantillon dépend de la représentativité de l’échantillon. Si votre échantillon
se compose des élèves de 5e année d’une seule école de votre district scolaire, il
est probable que les résultats que vous obtiendrez auprès de cet échantillon ne
pourront être généralisés à tous les élèves de 5e année de la province. Tout au
plus pourront-ils être généralisés aux élèves des autres classes de 5e année de
votre district. Et, là, l’erreur d’estimation pourrait être importante.
Grosso modo, pour s’assurer que l’échantillon représente le plus fidèlement
possible la population, il est nécessaire que les individus soient tirés de cette
population en nombre suffisant. Plus le nombre d’individus dans un échantillon
s’approche de celui de la population dont il est tiré, moins grande est l’erreur
d’estimation des paramètres de la population.
La représentativité de l’échantillon
tient à
la nature des individus,
en plus de leur nombre
par rapport à la population.
Dans le tableau ci-après, l’échantillon 1 est formé de 25 % de chacun des cinq
icônes différents constituant la population totale d’icônes. La proportion de
chaque catégorie d’icônes dans la population a été respectée dans l’échantillon
1. Par contre, dans l’échantillon 2, ces proportions n’ont pas été conservées.
1. De l’échantillon
à la population
Page 3 L’inférence statistique Donald Long Centre de recherche et de développement en éducation
(CRDE) Université de Moncton longd@umoncton.ca (506) 858-4886
L’un de ces icônes de la population ne fait même pas partie de l’échantillon.
Alors, dans ce dernier cas, la nature de la population n’est pas fidèlement
représentée dans l’échantillon. Et que dire des proportions !
Population Échantillon 1 Échantillon 2
Afin de s’assurer de la faisabilité d’une recherche, on doit se contenter la plupart
du temps d’étudier une partie de la population. Bien des facteurs nous
empêchent de faire appel à toute la population dans chacune des recherches que
nous voulons mener. Comme l’échantillon ne peut être identique à la population,
les statistiques de l’échantillon diffèrent des paramètres de la population.
2. Les paramètres de la population
et les statistiques de l’échantillon
Shavelson (1996) énonce l’affirmation suivante : « en généralisant à une
population, nous sommes intéressés à décrire des caractéristiques de la
population, telles que la moyenne et l’écart-type, à partir des caractéristiques
de l’échantillon ».
Pour rendre plus concrets certains concepts, servons-nous de l’exemple suivant.
Supposons que notre population totale soit composée de 20 nombres qui vont de
1 à 9. À l’aide de l’ordinateur, 3 échantillons différents ont été choisis. Le
premier représente 20 % de la population des 20 nombres, le deuxième, 40 %, et
le troisième 80 %. Le résultat de cette sélection aléatoire se trouve dans le
tableau qui suit.
Population Échantillons
Paramètres
et statistiques 100 % 20 % 40 % 80 %
5 6 2 3 8 5
1 4 3 7 5 3 9
2 5 7 8 6 4 1
2 3 5 1
2 8 5 4 5 9 2 7
5 6 3 8 1
4 3 5 7 2
5 7 8 6 4 1
Moyenne 4,70 2,75 (1,95) 5,25 (0,50) 4,69 (0,01)
Écart-type 2,36 1,71 (0,65) 2,60 (0,24) 2,27 (0,09)
Page 4 L’inférence statistique Donald Long Centre de recherche et de développement en éducation
(CRDE) Université de Moncton longd@umoncton.ca (506) 858-4886
Pour chacun d’eux nous avons calculé la moyenne et l’écart-type. Ensuite, nous
avons calculé la différence de chacune de ces statistiques avec les paramètres de
la population. La moyenne estimative de l’échantillon de 20 % est de 2,75 et sa
différence avec la moyenne de la population (4,70) est de 1,95. En fait, l’erreur
d’échantillonnage quant à la moyenne est de 1,95.
Par ailleurs, quant à l’échantillon de 80 %, l’erreur d’échantillonnage est
minime, 0,01. On observe que, plus l’échantillon se rapproche de la population,
moins appréciables sont les différences entre les paramètres et les statistiques.
Cette fois-ci, tirons 3 échantillons successifs de 20 % chacun. Nous serons,
ainsi, en mesure de constater si la variation entre les statistiques seulement est
minime ou considérable.
Population Échantillons
Paramètres
et statistiques 100 % 20 % 20 % 20 %
5 6 2 3 8 5
1 4 3 3 5 7 9
2 5 7 8 6 4 1
5 1 4 7
2 4 5 7
1 5 7 9
Moyenne 4,70 4,25 4,50 5,50
Écart-type 2,36 2,50 2,08 3,41
Les résultats obtenus pour le 3e échantillon à la droite du tableau montrent bien à
quel point il est nécessaire de ne pas trop se fier aux statistiques d’un échantillon
restreint et peu représentatif. En fait, si l’échantillon est restreint, il risque fort
d’être peu représentatif.
La représentativité d’un échantillon
ne relève ni de l’intuition
ni d’une boule de cristal,
mais de calculs précis.
C’est l’écart entre
les paramètres de la population
et les statistiques de l’échantillon
qui confère à l’échantillon un degré
plus ou moins élevé de représentativité.
Quelles sont les caractéristiques principales que nous souhaitons connaître à
propos de la population ? Parmi les nombreuses caractéristiques, il y a, bien sûr
Page 5 L’inférence statistique Donald Long Centre de recherche et de développement en éducation
(CRDE) Université de Moncton longd@umoncton.ca (506) 858-4886
la moyenne et l’écart-type, qui sont respectivement des mesures de tendance
centrale et de dispersion des scores dans une distribution.
Caractéristiques Population Échantillon
Moyenne µ X = ΣX ÷ N
Écart-type σ2 s2 = Σx2 ÷ (N-1)
Les formules statistiques créées pour estimer les paramètres de la population à
partir des données de l’échantillon s’appellent des estimateurs. On leur attribue
des qualités ou des caractéristiques particulières. Shavelson (1996) insiste sur les
trois caractéristiques suivantes :
1. L’impartialité. Un estimateur de la moyenne de la population est impartial si,
pour un nombre indéfini et large d’échantillons, la moyenne de l’échantillon sera
égale à la moyenne de la population. Si vous tirez d’innombrables échantillons
d’une population, la moyenne des moyennes de tous ces échantillons sera égale
à celle de la population.
2. La consistance. L’estimateur se rapproche de plus en plus du paramètre de la
population à mesure que l’échantillon augmente.
3. L’efficacité. L’estimateur d’un paramètre de la population est le plus efficace
quand les estimations ne varient pas d’un échantillon à l’autre.
Est-il besoin de répéter que,
plus un échantillon aléatoire est grand,
plus il sera représentatif,
moins il y aura d’erreurs d’estimation
et plus les distributions de scores se
rapprocheront de la normalité ?
Jusqu’à présent, nous avons vu
comment des valeurs statistiques
calculées à partir d’observations faites
auprès d’un échantillon nous
permettent d’estimer les
caractéristiques de la population. Nous savons, par ailleurs, qu’il existe
toujours un écart entre un échantillon et sa population. Nous pouvons
réduire cet écart surtout par l’augmentation de la taille de l’échantillon ainsi que
par la technique d’échantillonnage
3. Inférer
c’est comparer
1 / 16 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !