Alain Desrosières (INSEE, Centre Alexandre Koyré d`histoire des

1
Alain Desrosières (INSEE, Centre Alexandre Koyré d’histoire des sciences) 7/6/2012
Sur l'histoire de la méthodologie statistique : mesurer ou instituer ?
Deux traditions de recherche encore largement séparées
[Communication au Congrès de la Société française de statistique (SFdS),
Bruxelles, 23 mai 2012]
La méthodologie statistique utilisée par les sciences sociales pour leurs enquêtes a une
double origine : d’une part, l’astronomie du tournant des 18ème et 19ème siècles, illustrée par
les noms de Gauss, Laplace et Legendre, et d’autre part, la méthode des sondages de la
première moitié du 20ème siècle, avec les travaux de Bowley et Neyman. Ces deux moments
sont liés, puisque Laplace avait déjà imaginé d’utiliser le calcul des probabilités pour évaluer
la population française, à partir d’un échantillon de paroisses, en calculant une « erreur à
craindre », c’est à dire un intervalle de confiance, exprimé en termes de pari, sur la précision
de l’évaluation (Bru 1988). Mais le transfert de cette méthodologie, depuis les sciences de la
nature vers les sciences sociales, a é à l’origine d’un réalisme métrologique dont les
conséquences sont importantes : il existe une « vraie valeur ». Son évaluation est soumise à
des erreurs. Elle peut être biaisée.
Plusieurs recensions des progrès de la méthodologie d’enquête ont été produites par des
spécialistes de ce domaine : Richard Platek et Carl Sarndal (2001), ou Robert Groves et Lars
Lyberg (2010). Ces textes développent les avancées de ces méthodes, à partir de la distinction
canonique entre « erreurs liées à l’échantillonnage » (sampling error) et « erreurs non liées à
l’échantillonnage » (nonsampling error). Mais ces développements ne remettent pas en cause
les deux notions centrales issues de la théorie de erreurs en astronomie : l’erreur et le biais.
De même que l’existence et la position exacte de l’étoile polaire sont des a priori du travail de
l’astronome, tout se passe comme si le chômage, l’inflation, le Produit intérieur brut,
l’intelligence ou l’opinion publique, étaient supposés relever de la même métrologie réaliste.
Les mesures (encore inconnues) de ces grandeurs existent antérieurement à leur
quantification. Elles sont potentiellement mesurables, ni plus ni moins qu’une grandeur
physique. Elles sont susceptibles d’être exprimées non seulement par des mots, mais aussi par
des nombres.
Mais cette expression par des nombres peut être interprétée de plusieurs façons. Une
épistémologie réaliste inspirée des sciences de la nature postule l’existence d’une vraie valeur
susceptible d’être mesurée. Elle utilise spontanément les mots erreur et biais. En revanche,
une autre épistémologie est possible. Selon celle-ci, le monde social est mis en forme,
construit et institué par des conventions, et la quantification joue un rôle éminent dans cette
institution du monde. Cette deuxième conception semble encore largement méconnue des
statisticiens méthodologues. Pourtant, on peut défendre l’idée qu’elle est implicitement
présente dans toute l’histoire de la statistique, au moins depuis Adolphe Quetelet, et même en
trouver des traces dans les écrits des méthodologues, en apparence les plus éloignés de cette
idée, mais qui, dans leur pratique, le savent et en tiennent compte.
La statistique crée de nouveaux êtres
Le moment fondateur de ce dédoublement des interprétations du travail statistique, entre
mesure et institution, peut être symbolisé par le travail de Quetelet sur la notion de moyenne
Les astronomes utilisaient celle-ci pour mesurer des distances en optimisant le « milieu qu’il
faut prendre » entre une série d’observations imparfaites. Quetelet importe ce calcul dans les
2
sciences de l’homme, mais il en change l’interprétation, en instituant un être nouveau qui n’a
pas de vraie valeur autre que celle issue du calcul : l’homme moyen. Michel Armatte (2010) a
analysé en détail la dualité de l’usage de la notion de dispersion par Quetelet, en distinguant
« erreur et variabilité ». Le glissement de l’erreur à la variabilité est au cœur des efforts des
méthodologues pour conforter la consistance de leurs enquêtes.
Cette situation d’ignorance mutuelle entre traditions épistémologiques résulte en partie
d’une division sociale et cognitive du travail ancienne, entre, d’une part, les statisticiens
méthodologues, et d’autre part les spécialistes du domaine (économiste, sociologue, historien,
psychologue). Ces derniers pensent et gèrent les problèmes de définition, de classement et de
codage des variables, dont le méthodologue discutera ensuite la variabilité et le biais éventuel
de l’estimation. Cette division du travail a des effets cheux. Elle n’a pas seulement une
origine historique. Elle a partie liée avec des caractéristiques essentielles des statistiques
utilisées par les sciences sociales, et, plus généralement, par la vie sociale dans son ensemble :
leur crédibilité et leur efficacité argumentative, dès lors que l’institution du monde évoquée
ci-dessus est oubliée et naturalisée. Prendre appui sur l’exemple des sciences de la nature a
été, depuis Quetelet, la façon dont les sciences de l’homme ont assis leur légitimité. Or la
maîtrise de la variabilité et des biais dans les procédures de mesure a été une pièce maîtresse
des progrès de ces sciences de la nature, à commencer par l’astronomie (Armatte 1995). La
théorie mathématique des sondages, formulée depuis les travaux d’Arthur Bowley (1906) et
de Jerzy Neyman (1934), a fourni une base solide à l’estimation à partir d’échantillons
aléatoires. Puis les « erreurs » autres que celles résultant de l’échantillonnage (nonsampling
error) ont été analysées dans le cadre d’une une « théorie de l’erreur d’enquête totale » (Total
Survey Error, TSE), par Edwards Deming (1944), puis par Morris Hansen, William Hurwitz
(1951, 1953 et 1961).
Ces travaux pionniers ont constitué le socle des pratiques d’enquêtes statistiques, mises en
œuvre tant dans les Instituts nationaux de statistique (INS) que dans des centres de recherche
universitaires. Les notions d’erreur et de biais semblent y jouer un rôle central. Les diverses
sources d’erreurs et de variabilité des ponses y sont analysées de façon de plus en plus fine.
Leur histoire a fait l’objet de plusieurs travaux de synthèse. Ceux-ci peuvent être lus du point
de vue de l’usage de la notion de « vraie valeur », et de son interprétation. En effet,
l’explicitation détaillée des difficultés concrètes de l’enquête conduit à s’éloigner, de fait, de
cette idée de « vraie valeur », en en gardant cependant le langage. Ceci est fait en mettant en
avant les idées d’indicateur, de proxy, de variable latente, de flou, d’ordre de grandeur, de
gold standard, d’utilité de l’enquête. On passe ainsi de « est ce que c’est vrai ? » à « à quoi ça
sert ? ». Ces expressions, qui visent toutes à relativiser la supposée vraie valeur, sont des
opérateurs de l’institution du monde par la quantification.
Tout se passe comme si le statisticien était écartelé entre deux tendances opposées. D’une
part, le souci de répondre à une demande sociale de réalisme métrologique, en se calant sur le
modèle des sciences de la nature, le pousse à raisonner en termes d’erreur et de biais. Mais
d’autre part, la pratique concrète des enquêtes, analysée de façon de plus en plus exigeante, le
conduit à prendre conscience des nombreuses médiations et conventions, entre observations,
enregistrements, mise en forme et diffusion du produit fini, la grandeur quantifiée et mesurée.
Comment cette tension est elle gérée ? Comment être à la fois réaliste et constructiviste, sans
le savoir ? Tel est le paradoxe du statisticien d’enquête.
Le Journal of Official Statistics (JOS) de Statistics Sweden (l’Office suédois de
statistique), a publié, en 2001, à la demande de son responsable Lars Lyberg, un important
3
article de synthèse sur l’état de ces questions, cinquante ans plus tard, sous le titre (difficile à
traduire) : Can a Statistician Deliver ? (le statisticien peut il tenir ses promesses ?). Cet article
est suivi de seize commentaires d’un échantillon de spécialistes, puis d’une réponse des deux
auteurs. En 2010, Robert Groves (Directeur du Bureau américain du Census ), et Lars Lyberg
publient une nouvelle synthèse, intitulée : Total Survey Error. Past, Present and Future, dans
une Revue consacrée aux sondages d’opinion, le Public Opinion Quarterly. Nous prendrons
appui sur ces bilans de plus de soixante ans de recherche méthodologique, dressés par des
acteurs de premier plan de cette histoire, pour identifier les étapes du traitement en pratique de
la tension évoquée ci-dessus
1
.
Deming et les « treize facteurs qui affectent la qualité d’une enquête »
Le statisticien américain Edwards Deming (1900-1993) a été un des pionniers du langage
de la « démarche quali», qui se répandra dans l’industrie puis les services (dont la
production des statistiques) dans les années 1990. Il avait participé à l’organisation des
premières enquêtes par sondage probabiliste sur l’emploi et le chômage, dans le contexte du
New Deal et de la crise des années 1930 (Didier 2009). Il avait ensuite analysé en grand détail
« les treize facteurs qui affectent l’utilité d’une enquête » en un savoureux tableau (Deming
1944) Puis il avait transposé ce formalisme au contrôle de qualité dans l’industrie. La
détection des irrégularités et des failles des systèmes de production en série le conduisit à
réexaminer l’organisation des chaînes de production, et, de proche en proche, tout le système
des relations de travail dans l’entreprise. Dans ce cadre, apparaissait une distinction
fondamentale, récurrente dans la suite de l’histoire de la production statistique, entre qualité
du produit, celle qui intéresse l’utilisateur, et qualité du processus de fabrication, à laquelle
s’attache l’organisateur de la production
2
.
Dans les Etats-Unis des années 1950, Deming ne rencontra pas le succès espéré pour ses
projets de organisation des entreprises autour de l’objectif de la qualité. Il émigra au Japon,
l’industrie en pleine reconstruction adopta son langage et ses outils, techniques et sociaux,
de la qualité. Alors furent développées les méthodes de gestion « à la japonaise », et les
« cercles de qualité », supposés regrouper des salariés autour d’un objectif commun :
l’amélioration de la qualité de la production. La « qualité » était ainsi passée d’une finition
techniciste, en termes d’ingénieur, de précision et de régularité d’une production en série, à
une conception sociale, formulée dans le langage du responsable des relations humaines. La
distinction entre « qualité du produit » et « qualité du processus » caractérise l’histoire de la
thématique de la qualité. Elle sera une des réponses des méthodologues statisticiens au
dilemme réalisme-constructivisme. A défaut de refléter une « vraie valeur », un processus de
production bien codifié, stable dans le temps, peut produire un indicateur, c'est-à-dire une
série harmonisée cohérente, qui constitue elle-même un précieux guide pour l’action, sans
qu’il soit nécessaire de supposer que cette série reflète, de façon fidèle et en tant que telle, les
variations de la vraie grandeur d’un objet réel.
A l’inverse, c’est la production de cette série qui crée et institue une réalité nouvelle,
comme on le voit avec les quantifications de la croissance par le Produit intérieur brut, de
l’inflation par l’indice des prix, de l’intelligence par le QI, ou de l’opinion publique par les
sondages. Cette façon de dire les choses est bien différente du langage de la métrologie des
sciences de la nature, avec ses erreurs et ses biais. Elle n’est pas relativiste, mais elle colle
1
Sur le même sujet de l’histoire des modèles d’erreurs dans les enquêtes, voir aussi Forsman (1989).
2
La même distinction apparaît dans le système des normes ISO, que sollicitent les firmes pour
certifier à leurs clients la bonne qualité de leurs prestations.
4
mieux aux usages réels des statistiques, ce dont Deming avait l’intuition quand il parlait des
« treize facteurs qui affectent l’utilité d’une enquête ». La prise en compte des usages
argumentatifs des statistiques modifie profondément l’interprétation de la notion de qualité,
comme on le verra à partir des années 1990 quand seront explicités les six critères de qualité
de la statistique publique : pertinence, précision, actualité, accessibilité, comparabilité et
cohérence (Desrosières 2003).
La liste des « treize facteurs » de Deming (1944), reproduite par Groves et Lyberg (2010,
p.851), est riche et détaillée. De façon surprenante, l’item « erreurs d’échantillonnage »
(Sampling errors and biases) n’est qu’un des treize, et mentionné seulement en onzième
place. Tous les autres relèvent des nonsampling errors
3
, dans un ordre peu clair : variabilité
de réponses, diversité des façons de collecter les réponses et de mettre en scène l’interaction
avec l’enquêté, biais et variations dus à l’enquêteur, biais de sponsorship, imperfections dues
à la forme du questionnaire et des plans de tabulation, changement de l’univers avant que les
tabulations ne soient disponibles, biais dues aux non-réponses, à une mauvaise date de
l’enquête, à un échantillon non représentatif, erreurs de procédures de mise en forme,
traitement et interprétation des données (data-editing).
Cette liste énumère des questions très hétérogènes, incommensurables entre elles, et
surtout impossibles à quantifier comme peut l’être l’intervalle de confiance des sampling
errors. Elle fonctionne comme un utile aide-mémoire des pièges qui guettent le statisticien
d’enquête, mais non pas du tout comme une « théorie générale des nonsampling errors »,
comme le déploreront Platek et Sarndal dans leur texte de 2001. On y trouve mêlés, d’une
part, les mots erreurs et biais, qui impliquent une « vraie valeur », et d’autre part, les mots
variabilité, différences, imperfections, changements de l’univers, qui n’impliquent que la non-
univocité des réponses, indépendamment de l’existence d’une vraie valeur. Ces « facteurs »
sont déplorés. Le statisticien cherche à en réduire les effets fâcheux en standardisant de plus
en plus la passation des enquêtes, en recourant éventuellement aux « sciences du
comportement » (behavioural sciences) puis aux sciences cognitives
4
. Une autre voie, toute
différente, sera de considérer ces difficultés apparentes comme des phénomènes
sociologiquement intéressants en tant que tels, (et non plus comme des obstacles à éliminer),
au risque éventuel de changer radicalement la signification des statistiques produites, sinon
même de les discréditer. De ce point de vue, la séparation entre statisticiens méthodologues et
spécialistes du domaine est des plus fâcheuses, car ce changement de regard ne peut pas
résulter de la seule culture du méthodologue.
Dans leur réponse aux seize commentaires de leur article du JOS, Platek et Sarndal
finissent par admettre que : « …bien que très populaire, la dichotomie entre sampling error et
nonsampling error, nous semble archaïque. Cette terminologie est déséquilibrée : un simple
décompte montre qu’une enquête a une erreur d’échantillonnage mais peut-être 25 types
d’autres erreurs. Un découpage plus pertinent distinguerait les méthodes avant la collecte
3
Des recherches sur l’impact de tels « facteurs » ont été menées par l’Unité de méthodologie
statistique de l’INSEE, sous l’impulsion de Jean-Claude Deville. L’une porte sur « l’incidence du
caractère obligatoire des enquêtes » (Berthier et Dupont 1997). Une autre porte sur « une méthode de
mesure de l’effet enquêteur » (Berthier, Deville, Néros 1999).
4
Les « imperfections de la collecte » avaient déjà été décrites, dans les années 1960, dans une
perspective critique, visant à dénoncer les simplifications et le caractère réducteur de la sociologie
quantitative naissante. Cette critique provenait notamment des ethnométhodologues, des sociologues
qui œuvraient pour défendre une sociologie interprétative, face à la sociologie objectivante appuyée
sur les méthodes statistiques (Cicourel 1964).
5
(relevant des behavioural sciences) et les méthodes après la collecte (relevant de la statistique
mathématique)… » (Platek et Sarndal 2001, p. 121).
Ainsi sont distingués deux types de compétences apparemment bien différentes. La notion
implicite de vraie valeur n’a pas la même épaisseur pour les uns et pour les autres. Peu
interrogée par le statisticien, pour qui elle est un a priori évident comme elle l’est pour
l’astronome du XVIIIème siècle, elle est en revanche au cœur des préoccupations du
« behavioural scientist » (selon une terminologie peu utilisée par les francophones).
Deux (ou trois) traditions de recherche
Le rapport à une supposée vraie valeur peut être testé en pratique par l’intermédiaire d’un
gold standard, c’est à dire une source supposée plus fiable que l’enquête en cours. Cette
source est alors traitée comme si elle fournissait une vraie valeur. Déjà le Norvégien Anders
Kiaer évaluait (vers 1900) la justesse de ses « dénombrements représentatifs » (ou sondages)
en les comparant à des recensements exhaustifs, pour celles des variables qui figurent dans les
deux sources (Lie 2002). Selon Groves et Lyberg (2010), l’analyse démographique fournit des
gold standards pour évaluer d’éventuelles sous estimations dans les recensements de
population américains. De leur côté, Hansen et alii (1951) précisaient les critères de ce que
doit être la vraie valeur, à laquelle les biais peuvent être rapportés :
1. Elle doit être définie de façon unique.
2. Elle doit être définie en fonction de l’objectif de l’enquête.
3. Elle doit pouvoir être obtenue par des opérations concrètes, possibles à mener.
Le caractère restrictif de ces conditions conduit peu à peu les statisticiens à relativiser cette
idée de vraie valeur. Ainsi Deming (1960) juge que « les vraies valeurs n’existent pas », mais
que le résultat de l’enquête peut être vu comme un « proxy », introduisant ainsi une idée qui
ne vient pas des sciences de la nature, et rapproche d’une autre tradition plus spécifique aux
sciences sociales.
La distinction entre deux traditions de recherche est explicitée en détail par Platek et
Sarndal (2001, p. 121-123)
5
. La première, celle des méthodologues statisticiens de culture
mathématique et probabiliste, interprète la précision de façon quantitative : l’ « écart à la
vérité » (deviation from the truth), est vu comme la somme des erreurs attribuables à chaque
étape de la série des opérations d’enquête, chacune d’entre elles pouvant être en théorie
estimée. Elle intervient plutôt en aval de l’enquête. La seconde, en revanche, intervient en
amont. Elle mobilise les « sciences du comportement » (behavioural sciences) pour étudier
les causes des comportements qui induisent erreurs et variabilités, afin de duire ces facteurs
en contrôlant et en standardisant mieux les procédures de l’enquête.
Ainsi par exemple les spécialistes du traitement des non-réponses se répartissent en deux
groupes distincts. Les « ajusteurs », statisticiens matheux, imaginent des méthodes
probabilistes pour boucher au mieux les trous provoqués par les non-réponses, notamment à
l’aide d’informations auxiliaires. Les « réducteurs » en revanche, de culture « behaviouriste »,
cherchent à comprendre les causes des non-réponses et des erreurs de mesure, afin de les
réduire. Mais ils ont du mal à se parler :
« Les deux groupes peuvent s’écouter poliment, mais les subtilités scientifiques de chaque
côté, issues de théories spécifiques différentes, atteignent facilement un niveau tel qu’une
5
Groves et Lyberg (2010, p. 866) parlent, dans le même sens, de « deux cultures ».
1 / 10 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !