Page 2 L’inférence statistique Donald Long Centre de recherche et de développement en éducation
(CRDE) Université de Moncton longd@umoncton.ca (506) 858-4886
Vous arrive-t-il parfois à l’épicerie de
goûter à un raisin avant d’acheter toute
la grappe ? Quelle que soit votre
décision, elle découlera d’une inférence.
Vous attribuerez à la grappe les
caractéristiques du raisin que vous avez goûté. L’inférence statistique est
nécessaire tout simplement parce que la plupart du temps nous étudions la
population entière par le biais d’un échantillon. Et, ce faisant, l’estimation
s’accompagne d’erreurs. Le rôle véritable de la statistique est justement de
mesurer le degré d’erreur de ces estimations.
Un synonyme populaire de l’inférence est la généralisation. Dans les deux cas,
il s’agit d’attribuer à la population les caractéristiques connues de l’échantillon.
Cette attribution est d’autant plus pertinente et réaliste que l’échantillon a été tiré
selon des règles strictes qui régissent l’échantillonnage. Un échantillon simple
aléatoire, par exemple, est le type d’échantillon qui représente le mieux la
population. Cependant, d’autres types d’échantillon permettent des
généralisations tout aussi valables.
La validité de l’inférence à toute la population en s’appuyant sur les données de
l’échantillon dépend de la représentativité de l’échantillon. Si votre échantillon
se compose des élèves de 5e année d’une seule école de votre district scolaire, il
est probable que les résultats que vous obtiendrez auprès de cet échantillon ne
pourront être généralisés à tous les élèves de 5e année de la province. Tout au
plus pourront-ils être généralisés aux élèves des autres classes de 5e année de
votre district. Et, là, l’erreur d’estimation pourrait être importante.
Grosso modo, pour s’assurer que l’échantillon représente le plus fidèlement
possible la population, il est nécessaire que les individus soient tirés de cette
population en nombre suffisant. Plus le nombre d’individus dans un échantillon
s’approche de celui de la population dont il est tiré, moins grande est l’erreur
d’estimation des paramètres de la population.
La représentativité de l’échantillon
tient à
la nature des individus,
en plus de leur nombre
par rapport à la population.
Dans le tableau ci-après, l’échantillon 1 est formé de 25 % de chacun des cinq
icônes différents constituant la population totale d’icônes. La proportion de
chaque catégorie d’icônes dans la population a été respectée dans l’échantillon
1. Par contre, dans l’échantillon 2, ces proportions n’ont pas été conservées.
1. De l’échantillon
à la population