1
2003
Carrefour de
l'économie
7-8A
Publication mensuelle du
Service public fédéral
Economie, P.M.E.,
Classes moyennes & Energie
Un numéro dessai peut
être demandé par écrit à:
Statistique & Information
économique
Carrefour de l’économie
rue de lIndustrie 6
1000 Bruxelles
fax: (02) 513 46 57
La reproduction de données
afin de les utiliser dans
dautres études est autorisée
à condition de mentionner
clairement et précisément
la source.
Les articles - même non-signés -
nengagent que leur(s) auteur(s).
Editeur responsable:
H. D'Hondt,
rue de lIndustrie 6,
1000 Bruxelles.
794-03
ISSN 1370 - 7221
7ème année
http://mineco.fgov.be
2003/7-8A
Une méthode de calibrage appliquée aux
statistiques de lemploi
Par D. Luminet et C. Vanderhoeft, Bureau des
Méthodes et de Coordination, Institut national de
Statistique, Direction générale Statistique et
Information Economique
1. Sources statistiques...................................................... 2
1.1. Généralités............................................................................ 2
1.2. Sources pour les comptes de lemploi ........ 2
2. Enquêtes par sondage ............................................... 3
2.1. Lorganisation ...................................................................... 3
2.2. Variables dintérêt et variables auxiliaires .... 3
2.3. L’échantillon.......................................................................... 3
3. Les techniques dextrapolation .......................... 4
3.1. Le problème .......................................................................... 4
3.2. Post-stratification ............................................................. 4
3.3. Un nouveau modèle...................................................... 5
3.4. De la post-stratification au calibrage
généralisé............................................................................... 6
3.5. g-Calib 1.0 .............................................................................. 7
4. Principaux résultats ....................................................... 7
5. Perspectives ......................................................................... 8
Références .......................................................................................... 9
Résultats de lenquête de satisfaction
Carrefour de l’Économie
Par la Rédaction Carrefour de l’Économie,
Direction générale Statistique et Information
économique
1. Analyse................................................................................... 14
2. Première réaction de la rédaction ................ 14
3. Pour terminer .................................................................... 15
4. Info supplémentaire.................................................... 15
La réforme de la loi sur la protection de la
concurrence économique
Synthèse du mémoire de stage (2001) de Valérie
Habils, conseiller adjoint auprès de lAdministration
de la Politique commerciale - Service de la
Concurrence
Voir en p.16
Une méthode de calibrage appliquée
aux statistiques de lemploi
Résultats de lenquête de satisfaction
Carrefour de l’Économie
La réforme de la loi sur la protection
de la concurrence économique
SPF
Economie, P.M.E.,
Classes moyennes
et Energie
2
Comptes nationaux: Cycle des affaires et bilan de lannée 2002
Par la Direction générale Statistique et Information économique, Analyses économiques.
L’enquête sur les forces de travail (EFT) est une
source essentielle de statistiques sur l’emploi et le
chômage. Il importe que l’EFT extrapolée fournisse des
estimations correctes. Cet article présente une évolu-
tion récente dans la méthode d’estimation et illustre
l’amélioration de l’extrapolation et de l’estimation grâce
à des informations auxiliaires issues d’organismes de
sécurité sociale. La première partie traite, de façon
générale puis dans le cadre de l’EFT, des différentes
sources statistiques et des types de variables, familia-
risant le lecteur avec l’approche moderne. Les aspects
plus techniques des nouvelles méthodes sont alors
explicités aussi clairement que possible et le tableau
encadré «Calcul des poids» concrétise numériquement
quelques idées. Certains résultats (provisoires) sont
mentionnés et les possibilités d’avenir qu’offrent la
nouvelle méthodologie et par conséquent le logiciel g-
Calib conçu par l’INS, sont enfin abordées.
1. Sources statistiques
1.1. Généralités
Pour établir ses statistiques sociales (portant principa-
lement sur les individus et les ménages) et économi-
ques (relatives aux entreprises), l’INS désormais
rattaché à la Direction générale «Statistique et Infor-
mation Economique» se base sur trois types de
sources:
· les enquêtes exhaustives (auprès de toute la po-
pulation(1));
· les enquêtes par sondage (auprès d’un échantil-
lon);
· les fichiers gérés par d’autres institutions.
La plus notoire des enquêtes exhaustives est bien sûr
l’enquête socio-économique générale (anciennement
appelée «recensement»), lancée en octobre 2001, et
dont les premiers résultats ont été publiés récemment.
Une opération aussi lourde ne peut être organisée que
de temps en temps.
C’est pourquoi l’INS recourt généralement à des en-
quêtes par sondage (auprès d’un nombre limité de
personnes, de ménages, d’entreprises, …). Par rapport
à un recensement, un sondage présente des inconvé-
nients (résultats dépendant de l’échantillon, donc enta-
chés d’une marge d’erreur aléatoire), mais aussi des
avantages: économie (de temps et d’argent, pour les
répondants comme pour notre Institut) et rapidité de
production (on traite plus aisément un petit fichier
qu’un grand).
Poussant plus loin le principe de simplification admi-
nistrative, mieux vaut – à qualité égale recourir à des
données existantes(2) que les récolter à nouveau;
cependant, les données transmises par les différents
organismes ne permettent pas toujours à l’INS de
calculer les résultats requis. Par exemple, Eurostat
(Bureau Statistique des Communautés Européennes)
vise à harmoniser les statistiques des Quinze (et des
pays associés ou candidats), en définissant des
concepts uniformes, alors que les fichiers administratifs
se basent sur la gislation (sociale, fiscale, ...) propre
à chaque Etat membre.
1.2. Sources pour les comptes de
l’emploi
Chacun a déjà entendu les termes Produit Intérieur
Brut et Produit National Brut, notions essentielles des
comptes nationaux, qui s’expriment en (milliards d’) €.
En Belgique, c’est l’Institut des Comptes Nationaux
(ICN) (associant l’Institut National de Statistique (INS),
la Banque Nationale de Belgique (BNB) et le Bureau
Fédéral du Plan (BFP)) qui est chargé de les établir.
A ces grandeurs économico-financières (combien
produit-on?), il est utile d’adjoindre un volet «humain»
ou «social»: qui produit? Les comptes de l’emploi, vus
comme composante des comptes nationaux, visent
notamment à déterminer:
· le nombre de personnes en emploi (salarié et non-
salarié),
· les heures travaillées (absolument ou en équiva-
lent temps plein),
· les salaires (3).
Ces grandeurs peuvent être détaillées selon les ca-
ractéristiques démographiques (âge, sexe, domicile du
travailleur) ou économiques (localisation et secteur
d’activité de l’entreprise).
Il est utile de pondre à la question «qui pourrait pro-
duire» en identifiant, parmi les personnes sans emploi,
celles qui sont à la recherche d’un emploi et seraient
disponibles pour travailler, autrement dit les chômeurs
au sens du Bureau International du Travail (BIT); cette
définition internationale est distincte de l’inscription ou
non auprès des organismes régionaux et de
l’indemnisation éventuelle par l’ONEM.
Se pose évidemment la question des sources: sur
quelles données allons-nous baser ces comptes de
l’emploi (et du chômage)?
Une enquête exhaustive (telle un recensement décen-
nal) ne permettrait pas de publier des résultats avec la
fréquence souhaitable, le choix s’offre entre une en-
quête par sondage et l’utilisation de données adminis-
tratives.
Les organismes de sécurité sociale (essentiellement
l’Office National de Sécurité Sociale (ONSS), l’Office
National de Sécurité Sociale des Administrations Pro-
vinciales et Locales (ONSSAPL) et l’Institut National
des Assurances Sociales pour Travailleurs Indépen-
dants (INASTI) pour l’emploi, et l’Office National de
l’Emploi (ONEM) pour le chômage), publient leurs
propres statistiques. Un traitement des données
3
2003
Carrefour de
l'économie
7-8A
ONSS, ONSSAPL et INASTI aboutira à un chiffre de
l’emploi, après élimination des doubles comptes (per-
sonnes salariées par plusieurs employeurs, ou cumu-
lant une activité indépendante avec un emploi salarié)
et ajout d’une estimation des travailleurs non assujettis
à la sécurité sociale (p.ex. domestiques). Mais pour ce
qui concerne le chômage, les différences de concepts
entre «chômeurs complets indemnisés» (selon
l’ONEM) et «chômeur au sens du BIT» sont trop im-
portantes, ce qui exclut les fichiers administratifs
comme seule source statistique pour l’emploi.
Nous prendrons comme base l’EFT, décrite en détail
dans Carrefour de l’Economie 1999/9. Rappelons qu’il
s’agit d’une enquête auprès des ménages dont le but
principal est de classer la population en âge de tra-
vailler (15 ans et plus) en trois groupes exhaustifs et
distincts (personnes occupées, chômeurs et inactifs),
selon les critères du BIT. L’EFT utilise donc les
concepts adéquats, mais sa validité – comme pour tout
sondage est limitée par les fluctuations
d’échantillonnage.
L’innovation consiste à intégrer des données de la
sécurité sociale à l’enquête, en appliquant de nou-
velles techniques de calibrage(4), via le logiciel g-
Calib, développé par le second auteur.
2. Enquêtes par sondage
2.1. L’organisation
Les quatre phases d’une enquête par sondage sont:
· la préparation, qui comporte notamment la déter-
mination de la population, la mise au point du
questionnaire (5) et le plan de sondage ou échan-
tillonnage (manière de tirer au sort l’échantillon),
· le travail de terrain, ou enquête proprement dite, et
l’enregistrement des réponses,
· le calcul des résultats (6) extrapolés,
· et leur diffusion.
Avant de nous pencher sur l’échantillonnage et sur
l’extrapolation et sans minimiser l’importance des
autres opérations – quelques mots sur les variables qui
interviennent dans l’EFT.
2.2. Variables d’intérêt et variables
auxiliaires
Dans les enquêtes par sondage, on distingue parfois
deux types de variables:
· Les variables d’intérêt, celles que l’on cherche ef-
fectivement à estimer et qui forment donc l’objet de
l’enquête. Dans les enquêtes sur les forces de tra-
vail, le statut au regard de l’activité (occupé, chô-
meur, inactif) et la durée habituelle du travail sont
deux variables d’intérêt.
· Les variables auxiliaires, souvent connues par une
autre source (comme le Registre national ou le fi-
chier de l’ONSS), ne forment pas l’objet de
l’enquête, mais elles permettent d’améliorer
l’extrapolation.
Une source essentielle d’information pour toutes les
enquêtes auprès des personnes ou ménages est le
Registre national (7), qui renseigne entre autres le
domicile, la composition du ménage, l’âge et le sexe de
ses membres. Son utilité est double:
· individuellement, au niveau de l’échantillonnage,
comme base de sondage, (autrement dit, liste de
tous les ménages et de tous les individus suscep-
tibles d’être tirés), et ultérieurement pour
l’extrapolation;
· globalement, pour fournir les totaux de population
par âge, sexe, et (commune de) domicile, ce qui
jouera un rôle dans l’extrapolation; il s’agit d’une
première information auxiliaire.
Les données de la sécurité sociale peuvent également
être utilisées comme variables auxiliaires dans
l’extrapolation. Ceci constitue une nouveauté... ose-
rons-nous dire une avancée? Ici aussi, nous utiliserons
des données
· individuelles, pour chaque membre de
l’échantillon,
· globales, comme totaux dans la population.
En résumé, nous disposerons de deux sortes de don-
nées auxiliaires
· démographiques (issues du Registre national),
· socioprofessionnelles (transmises via la BCSS(8)
par les institutions de sécurité sociale).
2.3. L’échantillon
On parle souvent d’échantillon représentatif, ce qui
peut être interprété comme «représentant proportion-
nellement les différentes catégories»(9).
Au 1er janvier 2001, la population belge s’élevait à
10.263.423 personnes, dont 5.245.400 femmes
(51,108 %) et 5.018.023 (48,892 %) hommes. On pour-
rait tirer un échantillon (mettons, 100.000 personnes)
ce rapport des sexes serait respecté (51.108 fem-
mes et 48.892 hommes); en jargon statistique «strati-
fier selon le sexe avec allocation proportionnelle».
De me, on pourrait exiger une représentation pro-
portionnelle (à l’arrondi près: nous pouvons difficile-
ment sélectionner 0,01 Roi des Belges) des âges, des
catégories socioprofessionnelles, etc. …mais:
a. ce serait compliqué en pratique, car nous tirons
des ménages et non des individus;
b. le statut socioprofessionnel (p.ex. «inscrit à l’ONEM
ou non»; bien sûr «chômeur BIT ou non» n’est pas
une information auxiliaire, mais une donnée de
l’enquête), – volatil, à la différence de l’âge
l’évolution prévisible) et du sexe (aux changements
rarissimes) – ne figure pas au Registre national;
c. Eurostat souhaite des résultats fiables pour cha-
que province, ce qui nous amène à renforcer
l’échantillon dans les moins peuplées d’entre elles;
SPF
Economie, P.M.E.,
Classes moyennes
et Energie
4
d. même si l’échantillon tiré est équilibré, rien ne dit
que les proportions seront respectées parmi les
répondants (10).
Aussi allons-nous nous y prendre autrement: nous
déterminons à l’avance le nombre de ménages à tirer
par province (11) (voir c. supra), de sorte que – au sein
de chacune chaque ménage (et donc chaque indivi-
du) ait la même probabilité d’être tiré (12).
Pour le reste, laissons faire la Nature ou le calcul des
probabilités, qui nous indique (sous le nom pompeux
de «loi des grands nombres» (13)) que, dans un
échantillon de 100.000 individus tirés au hasard, le
nombre de femmes sera compris entre 50.608 et
51.608 avec une probabilité supérieure à 99,8 %. De
même, il est fort probable que les âges, les statuts
professionnels,... seront représentés de façon ap-
proximativement proportionnelle. Nous allons voir
l’impact de cet adverbe «approximativement» sur
l’extrapolation.
3. Les techniques
d’extrapolation
3.1. Le problème
Le public entend parfois avec méfiance le mot «extra-
polation», soupçonnant quelque manipulation inavoua-
ble des chiffres. Si nous partons des résultats bruts
(fournis par les répondants), c’est pour estimer –le
mieux possible– la situation de la population.
La méthode consiste à attribuer un certain poids ou
coefficient d’extrapolation à chaque répondant, comme
s’il représentait une fraction de la population (14). Une
fois ces poids déterminés, les résultats pourront être
calculés; par exemple, notre estimation du nombre de
chômeurs BIT âgés de 20 à 24 ans (pour croiser infor-
mations de l’enquête et démographique) sera la
somme des poids des répondants qui cumulent ces
deux caractéristiques.
Pour extrapoler, nous pourrions donner à chaque ré-
pondant son poids initial, c’est-à-dire l’inverse de la
probabilité qu’il a d’être tiré au sort. Ainsi, si dans une
certaine province, nous avions décidé de tirer (par
trimestre) un ménage sur 500, chaque individu aurait
une probabilité égale à 1 sur 500 d’être sélectionné. Ne
suffirait-il pas alors de donner à chaque répondant un
coefficient 500 (le poids initial dépendra de la province,
voir c. supra)? Non, parce que
· comme nous tirons des ménages, rien ne garantit
qu’un individu sur 500 fera partie de l’échantillon
initial,
· de plus, comme nous le disions, les catégories
d’âge (croisé ou non avec le sexe, …) ne seront
vraisemblablement représentées que de façon
presque proportionnelle,
· de toutes façons, le nombre de répondants sera
très vraisemblablement inférieur à l’effectif de
l’échantillon initial.
C’est pourquoi nous devons modifier ces poids initiaux.
Deux objectifs nous guideront:
Cohérence: les valeurs publiées de grandeurs déjà
connues (15) (non seulement la population totale, mais
aussi sa ventilation par âge, sexe, région,...ainsi que le
nombre de ménages (16)) devraient coïncider avec les
données disponibles (fournies par le Registre national).
Précision: notre méthode ne doit pas biaiser (17) (ni
sur-estimer, ni sous-estimer systématiquement) les
grandeurs à estimer (p.ex. le nombre de personnes en
emploi); par ailleurs, la variance (18), qui mesure les
fluctuations aléatoires (dues au fait qu’un autre échan-
tillon aurait vraisemblablement fourni d’autres résultats
bruts) doit être réduite au minimum.
La cohérence imposera naturellement que la somme
des poids des répondants/répondantes coïncide avec
la population masculine/féminine donnée par le Regis-
tre national, et mutatis mutandis pour les classes d’âge
(nous travaillons par classes de 5 ans, en regroupant
les 75 ans et plus). Ainsi, si la proportion de femmes
est plus importante dans l’échantillon que dans la po-
pulation, nous compenserons par des poids moins
élevés.
Il en va de même pour le statut socioprofessionnel:
nous souhaitons que la somme des poids des répon-
dants chômeurs complets indemnisés corresponde au
total de la population des chômeurs complets indemni-
sés. Ceci peut sembler superflu: n’avons-nous pas
expliqué que «chômeur complet indemnisé» et «chô-
meur au sens du BIT» étaient deux concepts distincts?
Oui, mais ils sont corrélés, au sens qu’une fraction
importante de chômeurs d’après l’ONEM le sont éga-
lement selon l’enquête, et réciproquement. Ainsi, si les
chômeurs complets indemnisés sont sur-représentés
dans l’échantillon, il est probable que les chômeurs BIT
le sont également, ce qui nous conduira à diminuer
leurs coefficients.
Pour un exemple numérique hypothétique, nous ren-
voyons au cadre à la fin de cet article. La section sui-
vante sur l’approche traditionnelle par post-stratification
et les sections ultérieures consacrées aux schémas de
pondération développent plus systématiquement les
idées susmentionnées.
3.2. Post-stratification
Jusqu’à présent, l’échantillon de l’EFT a été extrapolé
selon la technique classique de la post-stratification,
les variables techniques utilisées sont les caractéristi-
ques individuelles suivantes:
· PROV: province dans laquelle réside l’individu,
dotée de 11 classes, soit les 10 provinces belges
et la Région de Bruxelles-Capitale;
· AGE: classe d’âge de l’individu: 0-4 ans, 5-9
ans,… 70-74 ans, et enfin 16
ème
classe: 75 ans et
plus;
· SEX: sexe de l’individu.
Au terme de l’enquête, les répondants individuels sont
classés dans une des 11´16´2=352 cellules ou post-
strates d’où le terme «post-stratification» définies
par les trois variables PROV, AGE et SEX. Dans cha-
que cellule h (h=1,…352), on compte alors le nombre
de répondants, n
h
. Nous connaissons ainsi la réparti-
tion des individus dans l’échantillon des répondants de
l’EFT, selon les variables PROV, AGE et SEX. La
5
2003
Carrefour de
l'économie
7-8A
somme
å=nnh
des nombres nh des 352 cellules est
égale l’effectif total des répondant(e)s dans l’EFT.
Par ailleurs, le Registre national permet de déterminer
la distribution de l’ensemble de la population belge (19)
selon les variables PROV, AGE et SEX, représentée
par les nombres Nh (h=1,…352). La somme
å=NNh
équivaut à la population belge totale (se-
lon le Registre national à un moment donné).
La répartition relative de l’échantillon des répondants
de l’EFT peut être représentée par les proportions
nn
h
et celle de la population belge par les propor-
tions NN
h
. Puisque pour n’importe quelle cellule h,
en néral, nn
h
diffère de NN
h
, on peut affirmer
(comme dans la section 3.1) que l’échantillon (des
répondants) ne reflète pas la population belge avec
précision (20) et que si nn
h
> (resp.<) NN
h
, la
cellule h est respectivement sur- ou sous-représentée
dans l’échantillon.
Cela peut avoir des conséquences fâcheuses pour les
estimations. Imaginons que y est une variable d’intérêt,
par exemple le temps de travail (pour l’activité princi-
pale), et que nous voulons estimer le temps de travail
moyen d’un habitant belge à l’aide des données de
l’EFT. Remarquons que y ne figure pas au Registre
national mais constitue une variable de l’EFT. La
moyenne non pondérée d’échantillon y ne sera pas
une bonne estimation de la moyenne de la population
en raison de la sous- et sur-représentation (non com-
pensée) de certaines cellules, qui peuvent significati-
vement biaiser cette moyenne. L’estimation yN du
temps de travail total (de l’activité principale) pour la
population belge est s lors inacceptable. Nous pou-
vons à présent écrire:
n
NyN néchantillol'danstotaltravaildetemps
=
ce qui implique que pour passer du total de
l’échantillon au total de la population, chaque répon-
dant se voit attribuer un même coefficient de pondéra-
tion nN : en moyenne, chaque répondant de l’EFT
représente nN individus dans la population belge.
Avec la technique de post-stratification, la pondération
n’est plus uniforme mais différenciée. Un répondant de
la post-strate h reçoit le coefficient de pondération
hh
nN . Par conséquent, le temps de travail total de la
population belge est estimé à å
hh
yN et le temps de
travail moyen par habitant de la Belgique à
(
)
NyN
hh
å
. Remarquons enfin que le temps de
travail total de la post-strate h peut être écrit comme
suit
ce qui explique le coefficient de pondération
hh
nN
pour les répondants de la post-strate h: un pondant
de la post-strate h représente à présent
hh
nN indi-
vidus dotés des mêmes caractéristiques dans la po-
pulation belge.
La qualité des estimateurs obtenus par post-
stratification dépend notamment de la mesure dans
laquelle les variables (PROV, SEX et surtout AGE
dans notre exemple) sont explicatives de la variation
de la variable d’intérêt y (temps de travail dans notre
exemple) (21). Il est clair que des variables telles que
PROV, AGE et SEX expliqueront déjà pour une grande
part la variation de nombreuses variables d’intérêt.
Elles suffisent peut-être pour des estimations globales
mais rarement si l’on souhaite analyser plus en détails
ou estimer les paramètres de variables d’intérêt spéci-
fiques. Par conséquent, il semble logique de chercher
des variables de post-stratification auxiliaires, ce qui
peut toutefois rapidement nous confronter à certains
problèmes. Nous sommes alors obligés d’abandonner
les techniques de post-stratification classiques.
Comme nous l’exposerons dans les sections suivan-
tes, l’introduction de nouvelles techniques peut compli-
quer considérablement le calcul des coefficients
d’extrapolation et nécessiter impérativement un logiciel
spécialisé pour sa solution. Cependant, une théorie ou
méthode plus globale et plus générique offre
d’innombrables possibilités permettant de traiter, à
l’avenir, des situations très complexes et d’obtenir de
bonnes – voire de meilleures – estimations.
3.3. Un nouveau modèle
Le modèle de post-stratification énoncé à la section
précédente peut être présenté succinctement comme
suit: PROV ´ AGE ´ SEX. La notation renvoie explici-
tement au croisement complet des trois variables
PROV, AGE et SEX, sur lesquelles se base
l’extrapolation ultérieure, et implicitement au fait que
pour chaque cellule h au croisement complet, le chiffre
de la population Nh est connu.
Comme évoqué plus haut, un des principaux objectifs de
l’EFT est de fournir des estimations quant au nombre
d’actifs occupés, de chômeurs et d’inactifs, définis selon
les critères du BIT. Avec les variables observées dans
l’EFT, l’INS peut déterminer, pour chaque répondant(e),
l’une des trois catégories à laquelle il ou elle appartient.
Ce qui donne les trois variables d’intérêt dérivées yT, yC
et yI, où par exemple yT est défini comme:
ï
î
ï
í
ì
=
sinon 0
BIT sdéfinition
lesselon est répondant 1
T
y
rtravailleusi un
yC et yI sont définis de façon analogue, T, C et I dési-
gnant «travailleur», «chômeur» et «inactif» . La post-
stratification permet de calculer les estimations
åT
hh yN
,
åC
hh yN
, et
åI
hh yN
, correspondant
respectivement au nombre total d’actifs occupés (tra-
vailleurs), de chômeurs (actifs inoccupés) et d’inactifs
de 15 ans et plus.
,
néchantillol' dans strate
-post la dans total travailde temps
h
hhh n
h
NyN =
1 / 16 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!