Statistique et société, Vol. 1, N° 2 octobre 2013
www.statistique-et-societe.fr | © Société Française de Statistique (SFdS)
44
amboyant après la dernière guerre, sous l’impulsion de pères fondateurs parmi lesquels on
compte Jerzy Neyman, Morris Hansen ou William Cochran.
Les deux composantes de l’erreur d’échantillonnage
L’erreur d’échantillonnage s’apprécie au travers de deux composantes: le biais et la variance de
l’estimation (en toute rigueur, le terme « estimateur » serait plus correct, mais nous adopterons
ici la terminologie la plus commune). Pour illustrer ces concepts, partons du problème posé par
l’estimation de la proportion de votants pour un candidat donné à des élections présidentielles.
Avant le scrutin, c’est évidemment un véritable enjeu que de prédire le nom du candidat qui
l’emportera ! Il faut comprendre que la proportion exacte que l’on cherche à approcher au mieux
et que l’on notera désormais Pvrai, est une proportion certes inconnue mais que l’on pourrait
obtenir de façon exacte si on disposait de moyens susants pour questionner l’ensemble des
électeurs …et sous condition évidemment que ceux-ci ne changent pas d’avis entre la date du
sondage et celle de l’élection proprement dite. Au demeurant, le risque causé par un éventuel
changement d’opinion n’est pas à mettre au compte de l’erreur d’échantillonnage, c’est là un
tout autre phénomène qui tient au fait qu’un paramètre – comme une population d’ailleurs –
évolue avec le temps.
Le biais …
Considérons maintenant un axe sur lequel on place la valeur de Pvrai, et imaginons tous les
échantillons possibles que l’on peut construire à partir de la population complète (le nombre
de ces échantillons est gigantesque dès que la population dépasse quelques dizaines
d’individus) : chaque échantillon donne lieu à une estimation de proportion qui lui est propre
et qui se positionne sur l’axe au moyen, mettons, d’une petite croix. Il est clair que toutes ces
petites croix se répartissent entre les valeurs zéro et un : en eet, certains échantillons sont
composés uniquement de partisans du candidat-cible (estimation égale à 100%, soit 1) et
certains échantillons, tout à fait à l’opposé, ne rassembleront que des opposants au candidat
– l’estimation de la proportion étant alors égale à 0%. La théorie dit que la probabilité de
tomber « par hasard » sur un de ces échantillons extrêmes est très faible …mais elle n’est pas
nulle ! Il est par ailleurs bien clair que plus l’échantillon est de grande taille, moins on a de
chance de rencontrer une situation aussi atypique. Entre ces valeurs extrêmes, compte tenu
des très grandes tailles de population auxquelles on a à faire, on trouve un quasi-continuum
de situations : on se convainc facilement que, quelle que soit une estimation donnée a priori
et comprise entre 0 et 100 %, il existe toujours (au moins) un échantillon qui conduit à une
estimation qui en est extrêmement proche.
Par dénition, un biais existe dès lors que la moyenne des estimations, formée à partir de
l’ensemble de tous les échantillons que l’on peut constituer dans la population, dière du
paramètre: graphiquement, c’est le cas lorsque la moyenne de toutes les petites croix – on va
l’appeler Psondage – n’est pas égale à Pvrai. Dans le cas contraire, on a un plan de sondage sans biais.
Lorsqu’on parle de moyenne des estimations, il faut comprendre que la moyenne en question
est pondérée par les probabilités de sélectionner les échantillons considérés (techniquement,
on parle « d’espérance mathématique »). Le schéma des petites croix est certes pratique
pour comprendre la notion de biais mais cette approche purement graphique se justie plus
particulièrement lorsque tous les échantillons que l’on peut construire ont la même probabilité
d’être sélectionnés. Très souvent, ce n’est pas le cas car on privilégie certains échantillons par
rapport à d’autres. C’est alors comme si notre axe constituait le éau d’une balance articulé au
niveau de la vraie proportion Pvrai et que chaque petite croix positionnée sur ce éau avait un
poids égal à la probabilité de tirer l’échantillon auquel elle est associée. Si le plan de sondage
est sans biais, la balance est équilibrée; dans le cas contraire le éau va pencher, à droite s’il y a
moyen