
SPF
Economie, P.M.E.,
Classes moyennes
et Energie
4
d. même si l’échantillon tiré est équilibré, rien ne dit
que les proportions seront respectées parmi les
répondants (10).
Aussi allons-nous nous y prendre autrement: nous
déterminons à l’avance le nombre de ménages à tirer
par province (11) (voir c. supra), de sorte que – au sein
de chacune – chaque ménage (et donc chaque indivi-
du) ait la même probabilité d’être tiré (12).
Pour le reste, laissons faire la Nature ou le calcul des
probabilités, qui nous indique (sous le nom pompeux
de «loi des grands nombres» (13)) que, dans un
échantillon de 100.000 individus tirés au hasard, le
nombre de femmes sera compris entre 50.608 et
51.608 avec une probabilité supérieure à 99,8 %. De
même, il est fort probable que les âges, les statuts
professionnels,... seront représentés de façon ap-
proximativement proportionnelle. Nous allons voir
l’impact de cet adverbe «approximativement» sur
l’extrapolation.
3. Les techniques
d’extrapolation
3.1. Le problème
Le public entend parfois avec méfiance le mot «extra-
polation», soupçonnant quelque manipulation inavoua-
ble des chiffres. Si nous partons des résultats bruts
(fournis par les répondants), c’est pour estimer –le
mieux possible– la situation de la population.
La méthode consiste à attribuer un certain poids ou
coefficient d’extrapolation à chaque répondant, comme
s’il représentait une fraction de la population (14). Une
fois ces poids déterminés, les résultats pourront être
calculés; par exemple, notre estimation du nombre de
chômeurs BIT âgés de 20 à 24 ans (pour croiser infor-
mations de l’enquête et démographique) sera la
somme des poids des répondants qui cumulent ces
deux caractéristiques.
Pour extrapoler, nous pourrions donner à chaque ré-
pondant son poids initial, c’est-à-dire l’inverse de la
probabilité qu’il a d’être tiré au sort. Ainsi, si dans une
certaine province, nous avions décidé de tirer (par
trimestre) un ménage sur 500, chaque individu aurait
une probabilité égale à 1 sur 500 d’être sélectionné. Ne
suffirait-il pas alors de donner à chaque répondant un
coefficient 500 (le poids initial dépendra de la province,
voir c. supra)? Non, parce que
· comme nous tirons des ménages, rien ne garantit
qu’un individu sur 500 fera partie de l’échantillon
initial,
· de plus, comme nous le disions, les catégories
d’âge (croisé ou non avec le sexe, …) ne seront
vraisemblablement représentées que de façon
presque proportionnelle,
· de toutes façons, le nombre de répondants sera
très vraisemblablement inférieur à l’effectif de
l’échantillon initial.
C’est pourquoi nous devons modifier ces poids initiaux.
Deux objectifs nous guideront:
Cohérence: les valeurs publiées de grandeurs déjà
connues (15) (non seulement la population totale, mais
aussi sa ventilation par âge, sexe, région,...ainsi que le
nombre de ménages (16)) devraient coïncider avec les
données disponibles (fournies par le Registre national).
Précision: notre méthode ne doit pas biaiser (17) (ni
sur-estimer, ni sous-estimer systématiquement) les
grandeurs à estimer (p.ex. le nombre de personnes en
emploi); par ailleurs, la variance (18), qui mesure les
fluctuations aléatoires (dues au fait qu’un autre échan-
tillon aurait vraisemblablement fourni d’autres résultats
bruts) doit être réduite au minimum.
La cohérence imposera naturellement que la somme
des poids des répondants/répondantes coïncide avec
la population masculine/féminine donnée par le Regis-
tre national, et mutatis mutandis pour les classes d’âge
(nous travaillons par classes de 5 ans, en regroupant
les 75 ans et plus). Ainsi, si la proportion de femmes
est plus importante dans l’échantillon que dans la po-
pulation, nous compenserons par des poids moins
élevés.
Il en va de même pour le statut socioprofessionnel:
nous souhaitons que la somme des poids des répon-
dants chômeurs complets indemnisés corresponde au
total de la population des chômeurs complets indemni-
sés. Ceci peut sembler superflu: n’avons-nous pas
expliqué que «chômeur complet indemnisé» et «chô-
meur au sens du BIT» étaient deux concepts distincts?
Oui, mais ils sont corrélés, au sens qu’une fraction
importante de chômeurs d’après l’ONEM le sont éga-
lement selon l’enquête, et réciproquement. Ainsi, si les
chômeurs complets indemnisés sont sur-représentés
dans l’échantillon, il est probable que les chômeurs BIT
le sont également, ce qui nous conduira à diminuer
leurs coefficients.
Pour un exemple numérique hypothétique, nous ren-
voyons au cadre à la fin de cet article. La section sui-
vante sur l’approche traditionnelle par post-stratification
et les sections ultérieures consacrées aux schémas de
pondération développent plus systématiquement les
idées susmentionnées.
3.2. Post-stratification
Jusqu’à présent, l’échantillon de l’EFT a été extrapolé
selon la technique classique de la post-stratification,
les variables techniques utilisées sont les caractéristi-
ques individuelles suivantes:
· PROV: province dans laquelle réside l’individu,
dotée de 11 classes, soit les 10 provinces belges
et la Région de Bruxelles-Capitale;
· AGE: classe d’âge de l’individu: 0-4 ans, 5-9
ans,… 70-74 ans, et enfin 16
ème
classe: 75 ans et
plus;
· SEX: sexe de l’individu.
Au terme de l’enquête, les répondants individuels sont
classés dans une des 11´16´2=352 cellules ou post-
strates – d’où le terme «post-stratification» – définies
par les trois variables PROV, AGE et SEX. Dans cha-
que cellule h (h=1,…352), on compte alors le nombre
de répondants, n
h
. Nous connaissons ainsi la réparti-
tion des individus dans l’échantillon des répondants de
l’EFT, selon les variables PROV, AGE et SEX. La