Alain Desrosières (INSEE, Centre Alexandre Koyré d`histoire des

publicité
Alain Desrosières (INSEE, Centre Alexandre Koyré d’histoire des sciences)
7/6/2012
Sur l'histoire de la méthodologie statistique : mesurer ou instituer ?
Deux traditions de recherche encore largement séparées
[Communication au Congrès de la Société française de statistique (SFdS),
Bruxelles, 23 mai 2012]
La méthodologie statistique utilisée par les sciences sociales pour leurs enquêtes a une
double origine : d’une part, l’astronomie du tournant des 18ème et 19ème siècles, illustrée par
les noms de Gauss, Laplace et Legendre, et d’autre part, la méthode des sondages de la
première moitié du 20ème siècle, avec les travaux de Bowley et Neyman. Ces deux moments
sont liés, puisque Laplace avait déjà imaginé d’utiliser le calcul des probabilités pour évaluer
la population française, à partir d’un échantillon de paroisses, en calculant une « erreur à
craindre », c’est à dire un intervalle de confiance, exprimé en termes de pari, sur la précision
de l’évaluation (Bru 1988). Mais le transfert de cette méthodologie, depuis les sciences de la
nature vers les sciences sociales, a été à l’origine d’un réalisme métrologique dont les
conséquences sont importantes : il existe une « vraie valeur ». Son évaluation est soumise à
des erreurs. Elle peut être biaisée.
Plusieurs recensions des progrès de la méthodologie d’enquête ont été produites par des
spécialistes de ce domaine : Richard Platek et Carl Sarndal (2001), ou Robert Groves et Lars
Lyberg (2010). Ces textes développent les avancées de ces méthodes, à partir de la distinction
canonique entre « erreurs liées à l’échantillonnage » (sampling error) et « erreurs non liées à
l’échantillonnage » (nonsampling error). Mais ces développements ne remettent pas en cause
les deux notions centrales issues de la théorie de erreurs en astronomie : l’erreur et le biais.
De même que l’existence et la position exacte de l’étoile polaire sont des a priori du travail de
l’astronome, tout se passe comme si le chômage, l’inflation, le Produit intérieur brut,
l’intelligence ou l’opinion publique, étaient supposés relever de la même métrologie réaliste.
Les mesures (encore inconnues) de ces grandeurs existent
antérieurement à leur
quantification. Elles sont potentiellement mesurables, ni plus ni moins qu’une grandeur
physique. Elles sont susceptibles d’être exprimées non seulement par des mots, mais aussi par
des nombres.
Mais cette expression par des nombres peut être interprétée de plusieurs façons. Une
épistémologie réaliste inspirée des sciences de la nature postule l’existence d’une vraie valeur
susceptible d’être mesurée. Elle utilise spontanément les mots erreur et biais. En revanche,
une autre épistémologie est possible. Selon celle-ci, le monde social est mis en forme,
construit et institué par des conventions, et la quantification joue un rôle éminent dans cette
institution du monde. Cette deuxième conception semble encore largement méconnue des
statisticiens méthodologues. Pourtant, on peut défendre l’idée qu’elle est implicitement
présente dans toute l’histoire de la statistique, au moins depuis Adolphe Quetelet, et même en
trouver des traces dans les écrits des méthodologues, en apparence les plus éloignés de cette
idée, mais qui, dans leur pratique, le savent et en tiennent compte.
La statistique crée de nouveaux êtres
Le moment fondateur de ce dédoublement des interprétations du travail statistique, entre
mesure et institution, peut être symbolisé par le travail de Quetelet sur la notion de moyenne
Les astronomes utilisaient celle-ci pour mesurer des distances en optimisant le « milieu qu’il
faut prendre » entre une série d’observations imparfaites. Quetelet importe ce calcul dans les
1
sciences de l’homme, mais il en change l’interprétation, en instituant un être nouveau qui n’a
pas de vraie valeur autre que celle issue du calcul : l’homme moyen. Michel Armatte (2010) a
analysé en détail la dualité de l’usage de la notion de dispersion par Quetelet, en distinguant
« erreur et variabilité ». Le glissement de l’erreur à la variabilité est au cœur des efforts des
méthodologues pour conforter la consistance de leurs enquêtes.
Cette situation d’ignorance mutuelle entre traditions épistémologiques résulte en partie
d’une division sociale et cognitive du travail ancienne, entre, d’une part, les statisticiens
méthodologues, et d’autre part les spécialistes du domaine (économiste, sociologue, historien,
psychologue). Ces derniers pensent et gèrent les problèmes de définition, de classement et de
codage des variables, dont le méthodologue discutera ensuite la variabilité et le biais éventuel
de l’estimation. Cette division du travail a des effets fâcheux. Elle n’a pas seulement une
origine historique. Elle a partie liée avec des caractéristiques essentielles des statistiques
utilisées par les sciences sociales, et, plus généralement, par la vie sociale dans son ensemble :
leur crédibilité et leur efficacité argumentative, dès lors que l’institution du monde évoquée
ci-dessus est oubliée et naturalisée. Prendre appui sur l’exemple des sciences de la nature a
été, depuis Quetelet, la façon dont les sciences de l’homme ont assis leur légitimité. Or la
maîtrise de la variabilité et des biais dans les procédures de mesure a été une pièce maîtresse
des progrès de ces sciences de la nature, à commencer par l’astronomie (Armatte 1995). La
théorie mathématique des sondages, formulée depuis les travaux d’Arthur Bowley (1906) et
de Jerzy Neyman (1934), a fourni une base solide à l’estimation à partir d’échantillons
aléatoires. Puis les « erreurs » autres que celles résultant de l’échantillonnage (nonsampling
error) ont été analysées dans le cadre d’une une « théorie de l’erreur d’enquête totale » (Total
Survey Error, TSE), par Edwards Deming (1944), puis par Morris Hansen, William Hurwitz
(1951, 1953 et 1961).
Ces travaux pionniers ont constitué le socle des pratiques d’enquêtes statistiques, mises en
œuvre tant dans les Instituts nationaux de statistique (INS) que dans des centres de recherche
universitaires. Les notions d’erreur et de biais semblent y jouer un rôle central. Les diverses
sources d’erreurs et de variabilité des réponses y sont analysées de façon de plus en plus fine.
Leur histoire a fait l’objet de plusieurs travaux de synthèse. Ceux-ci peuvent être lus du point
de vue de l’usage de la notion de « vraie valeur », et de son interprétation. En effet,
l’explicitation détaillée des difficultés concrètes de l’enquête conduit à s’éloigner, de fait, de
cette idée de « vraie valeur », en en gardant cependant le langage. Ceci est fait en mettant en
avant les idées d’indicateur, de proxy, de variable latente, de flou, d’ordre de grandeur, de
gold standard, d’utilité de l’enquête. On passe ainsi de « est ce que c’est vrai ? » à « à quoi ça
sert ? ». Ces expressions, qui visent toutes à relativiser la supposée vraie valeur, sont des
opérateurs de l’institution du monde par la quantification.
Tout se passe comme si le statisticien était écartelé entre deux tendances opposées. D’une
part, le souci de répondre à une demande sociale de réalisme métrologique, en se calant sur le
modèle des sciences de la nature, le pousse à raisonner en termes d’erreur et de biais. Mais
d’autre part, la pratique concrète des enquêtes, analysée de façon de plus en plus exigeante, le
conduit à prendre conscience des nombreuses médiations et conventions, entre observations,
enregistrements, mise en forme et diffusion du produit fini, la grandeur quantifiée et mesurée.
Comment cette tension est elle gérée ? Comment être à la fois réaliste et constructiviste, sans
le savoir ? Tel est le paradoxe du statisticien d’enquête.
Le Journal of Official Statistics (JOS) de Statistics Sweden (l’Office suédois de
statistique), a publié, en 2001, à la demande de son responsable Lars Lyberg, un important
2
article de synthèse sur l’état de ces questions, cinquante ans plus tard, sous le titre (difficile à
traduire) : Can a Statistician Deliver ? (le statisticien peut il tenir ses promesses ?). Cet article
est suivi de seize commentaires d’un échantillon de spécialistes, puis d’une réponse des deux
auteurs. En 2010, Robert Groves (Directeur du Bureau américain du Census ), et Lars Lyberg
publient une nouvelle synthèse, intitulée : Total Survey Error. Past, Present and Future, dans
une Revue consacrée aux sondages d’opinion, le Public Opinion Quarterly. Nous prendrons
appui sur ces bilans de plus de soixante ans de recherche méthodologique, dressés par des
acteurs de premier plan de cette histoire, pour identifier les étapes du traitement en pratique de
la tension évoquée ci-dessus1.
Deming et les « treize facteurs qui affectent la qualité d’une enquête »
Le statisticien américain Edwards Deming (1900-1993) a été un des pionniers du langage
de la « démarche qualité », qui se répandra dans l’industrie puis les services (dont la
production des statistiques) dans les années 1990. Il avait participé à l’organisation des
premières enquêtes par sondage probabiliste sur l’emploi et le chômage, dans le contexte du
New Deal et de la crise des années 1930 (Didier 2009). Il avait ensuite analysé en grand détail
« les treize facteurs qui affectent l’utilité d’une enquête » en un savoureux tableau (Deming
1944) Puis il avait transposé ce formalisme au contrôle de qualité dans l’industrie. La
détection des irrégularités et des failles des systèmes de production en série le conduisit à
réexaminer l’organisation des chaînes de production, et, de proche en proche, tout le système
des relations de travail dans l’entreprise. Dans ce cadre, apparaissait une distinction
fondamentale, récurrente dans la suite de l’histoire de la production statistique, entre qualité
du produit, celle qui intéresse l’utilisateur, et qualité du processus de fabrication, à laquelle
s’attache l’organisateur de la production2.
Dans les Etats-Unis des années 1950, Deming ne rencontra pas le succès espéré pour ses
projets de réorganisation des entreprises autour de l’objectif de la qualité. Il émigra au Japon,
où l’industrie en pleine reconstruction adopta son langage et ses outils, techniques et sociaux,
de la qualité. Alors furent développées les méthodes de gestion « à la japonaise », et les
« cercles de qualité », supposés regrouper des salariés autour d’un objectif commun :
l’amélioration de la qualité de la production. La « qualité » était ainsi passée d’une définition
techniciste, en termes d’ingénieur, de précision et de régularité d’une production en série, à
une conception sociale, formulée dans le langage du responsable des relations humaines. La
distinction entre « qualité du produit » et « qualité du processus » caractérise l’histoire de la
thématique de la qualité. Elle sera une des réponses des méthodologues statisticiens au
dilemme réalisme-constructivisme. A défaut de refléter une « vraie valeur », un processus de
production bien codifié, stable dans le temps, peut produire un indicateur, c'est-à-dire une
série harmonisée cohérente, qui constitue elle-même un précieux guide pour l’action, sans
qu’il soit nécessaire de supposer que cette série reflète, de façon fidèle et en tant que telle, les
variations de la vraie grandeur d’un objet réel.
A l’inverse, c’est la production de cette série qui crée et institue une réalité nouvelle,
comme on le voit avec les quantifications de la croissance par le Produit intérieur brut, de
l’inflation par l’indice des prix, de l’intelligence par le QI, ou de l’opinion publique par les
sondages. Cette façon de dire les choses est bien différente du langage de la métrologie des
sciences de la nature, avec ses erreurs et ses biais. Elle n’est pas relativiste, mais elle colle
Sur le même sujet de l’histoire des modèles d’erreurs dans les enquêtes, voir aussi Forsman (1989).
La même distinction apparaît dans le système des normes ISO, que sollicitent les firmes pour
certifier à leurs clients la bonne qualité de leurs prestations .
1
2
3
mieux aux usages réels des statistiques, ce dont Deming avait l’intuition quand il parlait des
« treize facteurs qui affectent l’utilité d’une enquête ». La prise en compte des usages
argumentatifs des statistiques modifie profondément l’interprétation de la notion de qualité,
comme on le verra à partir des années 1990 quand seront explicités les six critères de qualité
de la statistique publique : pertinence, précision, actualité, accessibilité, comparabilité et
cohérence (Desrosières 2003).
La liste des « treize facteurs » de Deming (1944), reproduite par Groves et Lyberg (2010,
p.851), est riche et détaillée. De façon surprenante, l’item « erreurs d’échantillonnage »
(Sampling errors and biases) n’est qu’un des treize, et mentionné seulement en onzième
place. Tous les autres relèvent des nonsampling errors3, dans un ordre peu clair : variabilité
de réponses, diversité des façons de collecter les réponses et de mettre en scène l’interaction
avec l’enquêté, biais et variations dus à l’enquêteur, biais de sponsorship, imperfections dues
à la forme du questionnaire et des plans de tabulation, changement de l’univers avant que les
tabulations ne soient disponibles, biais dues aux non-réponses, à une mauvaise date de
l’enquête, à un échantillon non représentatif, erreurs de procédures de mise en forme,
traitement et interprétation des données (data-editing).
Cette liste énumère des questions très hétérogènes, incommensurables entre elles, et
surtout impossibles à quantifier comme peut l’être l’intervalle de confiance des sampling
errors. Elle fonctionne comme un utile aide-mémoire des pièges qui guettent le statisticien
d’enquête, mais non pas du tout comme une « théorie générale des nonsampling errors »,
comme le déploreront Platek et Sarndal dans leur texte de 2001. On y trouve mêlés, d’une
part, les mots erreurs et biais, qui impliquent une « vraie valeur », et d’autre part, les mots
variabilité, différences, imperfections, changements de l’univers, qui n’impliquent que la nonunivocité des réponses, indépendamment de l’existence d’une vraie valeur. Ces « facteurs »
sont déplorés. Le statisticien cherche à en réduire les effets fâcheux en standardisant de plus
en plus la passation des enquêtes, en recourant éventuellement aux « sciences du
comportement » (behavioural sciences) puis aux sciences cognitives4. Une autre voie, toute
différente, sera de considérer ces difficultés apparentes comme des phénomènes
sociologiquement intéressants en tant que tels, (et non plus comme des obstacles à éliminer),
au risque éventuel de changer radicalement la signification des statistiques produites, sinon
même de les discréditer. De ce point de vue, la séparation entre statisticiens méthodologues et
spécialistes du domaine est des plus fâcheuses, car ce changement de regard ne peut pas
résulter de la seule culture du méthodologue.
Dans leur réponse aux seize commentaires de leur article du JOS, Platek et Sarndal
finissent par admettre que : « …bien que très populaire, la dichotomie entre sampling error et
nonsampling error, nous semble archaïque. Cette terminologie est déséquilibrée : un simple
décompte montre qu’une enquête a une erreur d’échantillonnage mais peut-être 25 types
d’autres erreurs. Un découpage plus pertinent distinguerait les méthodes avant la collecte
Des recherches sur l’impact de tels « facteurs » ont été menées par l’Unité de méthodologie
statistique de l’INSEE, sous l’impulsion de Jean-Claude Deville. L’une porte sur « l’incidence du
caractère obligatoire des enquêtes » (Berthier et Dupont 1997). Une autre porte sur « une méthode de
mesure de l’effet enquêteur » (Berthier, Deville, Néros 1999).
4 Les « imperfections de la collecte » avaient déjà été décrites, dans les années 1960, dans une
perspective critique, visant à dénoncer les simplifications et le caractère réducteur de la sociologie
quantitative naissante. Cette critique provenait notamment des ethnométhodologues, des sociologues
qui œuvraient pour défendre une sociologie interprétative, face à la sociologie objectivante appuyée
sur les méthodes statistiques (Cicourel 1964).
3
4
(relevant des behavioural sciences) et les méthodes après la collecte (relevant de la statistique
mathématique)… » (Platek et Sarndal 2001, p. 121).
Ainsi sont distingués deux types de compétences apparemment bien différentes. La notion
implicite de vraie valeur n’a pas la même épaisseur pour les uns et pour les autres. Peu
interrogée par le statisticien, pour qui elle est un a priori évident comme elle l’est pour
l’astronome du XVIIIème siècle, elle est en revanche au cœur des préoccupations du
« behavioural scientist » (selon une terminologie peu utilisée par les francophones).
Deux (ou trois) traditions de recherche
Le rapport à une supposée vraie valeur peut être testé en pratique par l’intermédiaire d’un
gold standard, c’est à dire une source supposée plus fiable que l’enquête en cours. Cette
source est alors traitée comme si elle fournissait une vraie valeur. Déjà le Norvégien Anders
Kiaer évaluait (vers 1900) la justesse de ses « dénombrements représentatifs » (ou sondages)
en les comparant à des recensements exhaustifs, pour celles des variables qui figurent dans les
deux sources (Lie 2002). Selon Groves et Lyberg (2010), l’analyse démographique fournit des
gold standards pour évaluer d’éventuelles sous estimations dans les recensements de
population américains. De leur côté, Hansen et alii (1951) précisaient les critères de ce que
doit être la vraie valeur, à laquelle les biais peuvent être rapportés :
1. Elle doit être définie de façon unique.
2. Elle doit être définie en fonction de l’objectif de l’enquête.
3. Elle doit pouvoir être obtenue par des opérations concrètes, possibles à mener.
Le caractère restrictif de ces conditions conduit peu à peu les statisticiens à relativiser cette
idée de vraie valeur. Ainsi Deming (1960) juge que « les vraies valeurs n’existent pas », mais
que le résultat de l’enquête peut être vu comme un « proxy », introduisant ainsi une idée qui
ne vient pas des sciences de la nature, et rapproche d’une autre tradition plus spécifique aux
sciences sociales.
La distinction entre deux traditions de recherche est explicitée en détail par Platek et
Sarndal (2001, p. 121-123)5. La première, celle des méthodologues statisticiens de culture
mathématique et probabiliste, interprète la précision de façon quantitative : l’ « écart à la
vérité » (deviation from the truth), est vu comme la somme des erreurs attribuables à chaque
étape de la série des opérations d’enquête, chacune d’entre elles pouvant être en théorie
estimée. Elle intervient plutôt en aval de l’enquête. La seconde, en revanche, intervient en
amont. Elle mobilise les « sciences du comportement » (behavioural sciences) pour étudier
les causes des comportements qui induisent erreurs et variabilités, afin de réduire ces facteurs
en contrôlant et en standardisant mieux les procédures de l’enquête.
Ainsi par exemple les spécialistes du traitement des non-réponses se répartissent en deux
groupes distincts. Les « ajusteurs », statisticiens matheux, imaginent des méthodes
probabilistes pour boucher au mieux les trous provoqués par les non-réponses, notamment à
l’aide d’informations auxiliaires. Les « réducteurs » en revanche, de culture « behaviouriste »,
cherchent à comprendre les causes des non-réponses et des erreurs de mesure, afin de les
réduire. Mais ils ont du mal à se parler :
« Les deux groupes peuvent s’écouter poliment, mais les subtilités scientifiques de chaque
côté, issues de théories spécifiques différentes, atteignent facilement un niveau tel qu’une
5
Groves et Lyberg (2010, p. 866) parlent, dans le même sens, de « deux cultures ».
5
appréciation réelle de la contribution de l’autre devient difficile. Les efforts de chacun sont
pertinents, mais ils reflètent deux solitudes scientifiques, à l’intérieur d’un même domaine »
(Platek et Sarndal, 2001, p.121).
Quel lien y a-t-il entre cette distinction [décrite dans les mêmes termes par Platek et
Sarndal (2001) que par Groves et Lyberg (2010)], et celle, suggérée ci-dessus, entre mesure et
institution ? Celle-ci constituerait elle une troisième tradition, plus constructiviste ? Les
travaux menés à l’INSEE dans les années 1980, à l’occasion de la réforme de la nomenclature
socioprofessionnelle, suggèrent une réponse à cette question. La question posée était celle de
la stabilité et de la consistance des « professions et catégories socioprofessionnelles » (PCS)
enregistrées et codées dans les recensements et les enquêtes. Cette nomenclature avait plutôt
mauvaise réputation auprès notamment des économistes (mais non des sociologues). Les
économistes reprochent aux PCS d’être floues, souvent mal définies et variant trop selon le
mode de collecte. Ils lui préfèrent des variables comme le revenu et le diplôme. Les
recherches menées alors portaient précisément sur ces critiques, en retournant l’argument, et
en considérant ce flou comme une information intéressante en tant que telle6 (INSEE 1981 ;
Desrosières &Thévenot 2002 ).
Deux sources de « flou » ont été analysées : le flou de déclaration et le flou de
chiffrement. Le flou de déclaration a été quantifié grâce à une comparaison des réponses aux
questions sur la profession, faites par les mêmes personnes, d’une part, au recensement
(exhaustif), et d’autre part, à l’enquête sur l’emploi (par sondage). Il apparaît une grande
variabilité de ces réponses, qui peut entraîner des variations importantes des catégories où ces
personnes sont classées. Mais ces variations sont instructives pour une étude de l’image que
les personnes offrent d’elles mêmes selon le cadre de la collecte. De ce point de vue, la PCS
n’est plus seulement vue comme une catégorisation objective, relevant des notions d’erreur et
de biais, puisqu’il n’ y a plus de « vraie valeur », plus vraie qu’une autre. Cette démarche est
dans le prolongement de celle qui résultait, ci-dessus, des travaux des behavioural sciences
(sciences du comportement), mais leur interprétation est très différente : il s’agit moins
« d’éliminer des imperfections » pour standardiser la collecte, que de voir dans ces soi-disant
imperfections des informations précieuses pour une analyse sociologique de la façon dont les
personnes s’identifient socialement (Thévenot 1981a et b ).
Le flou de chiffrement apporte une autre information. Le même paquet de questionnaires
est soumis à un double chiffrement, par des personnes différentes. Le flou provient désormais
des différences d’interprétations par les codeuses (en général des femmes) de mêmes
déclarations de professions. Ceci renseigne cette fois sur la consistance des catégories
imaginées par le statisticien. L’expérience montre que cette consistance est fortement corrélée
au degré d’institutionnalisation de la catégorie dans la société elle-même, par exemple dans le
droit ou le quasi-droit des professions libérales à statut ou des conventions collectives.
Autrement dit, le même travail de standardisation et de codification7 est à l’œuvre, d’une part,
dans la société pour durcir et instituer certaines catégories, et d’autre part, dans l’enquête
statistique, qui cherche à éliminer les imperfections, qui sont, dans son vocabulaire, sources
d’erreurs et de biais. Là encore, il s’agit d’un changement de regard à partir d’interrogations
similaires.
6
Cette approche est aussi celle de Dominique Merllié, dans son étude des variations des réponses
des étudiants interrogés, à des fins statistiques, sur la profession de leurs parents (Merllié 1990).
7
Laurent Thévenot a analysé ce travail, commun à maintes pratiques sociales et à la production des
taxinomies statistiques, sous le nom d’investissement de formes (Thévenot 1986).
6
Le cercle se referme si on observe que l’inscription de certaines idées ou notions dans des
travaux statistiques visant à les quantifier, contribue à les instituer, à les faire exister
autrement, comme le montrent des exemples aussi différents que le chômage, l’opinion,
l’intelligence avec le Quotient intellectuel, les compétences scolaires avec les enquêtes PISA,
l’Indice du développement humain (IDH) d’Amartya Sen, bientôt le bonheur. Ainsi les mises
en équivalence suscitées par les études des behavioural sciences, au nom de la réduction des
erreurs et des biais, contribuent à inscrire des variables dans des réseaux plus longs, en les
accrochant à d’autres variables standardisées par des procédures comparables. C’est bien pour
cela que les économistes (orthodoxes) préfèrent les variables revenu et diplôme à la PCS, à
laquelle ils reprochent ce qu’ils perçoivent comme une insuffisante standardisation.
Démarche qualité et sciences sociales
La « démarche qualité » a été promue dans les instituts nationaux de statistique (INS) de
nombreux pays, à partir des années 1990, sous le nom de Total Quality Management (TQM).
Initiée par les travaux de Deming, elle a été popularisée par Lars Lyberg, membre de Statistics
Sweden (l’INS suédois), responsable du JOS, et co-auteur d’un des articles commentés ici.
L’originalité de cette démarche a été d’étendre la notion de qualité, traditionnellement
associée à la précision (accuracy) à d’autres critères : l’actualité (timeliness), l’accessibilité, la
comparabilité, la cohérence, et aussi un critère qui n’a sans doute pas la même signification
pour un chercheur et pour un utilisateur plongé dans l’action et dans la vie sociale : la
pertinence (relevance).
L’intérêt pour cette approche TQM a plusieurs explications (Desrosières 2003). La
tendance à faire de la production statistique une activité marchande, relevant de contrats et de
cahiers des charges spécifiant et objectivant les « qualités » attendues des prestations, a
conduit à cette liste de critères plus ou moins standardisés, dans une démarche comparable à
celle des normes ISO. Par ailleurs, dans le cas européen, le souci d’harmoniser les statistiques
publiques des divers pays de l’Union a incité à standardiser les prestations des INS, de façon à
pouvoir les comparer ou les additionner. Là encore, la statistique joue un rôle éminent, non
seulement pour décrire, mais aussi pour instituer une réalité en devenir : l’Union européenne.
De ce point de vue les critères essentiels ne sont plus la précision, mais la comparabilité, et
surtout l’actualité (dite aussi « fraîcheur »), pour répondre aux besoins des politiques
conjoncturelles et des marchés.
La qualité « TQM » ainsi promue est décrite en fonction des usages concrets des
statistiques, pour l’action, la décision, l’expertise ou le débat public, et non dans une
perspective de connaissance ou de recherche. Elle n’est pas exprimée en termes réflexifs, de
la façon dont par exemple les historiens sont formés à la « critique des sources », en
explicitant les conditions de production de leurs données. La « pertinence » est décrite comme
« devant satisfaire les besoins des utilisateurs ». Ceux-ci doivent se fier à la check-list des
propriétés du produit, inscrites dans le cahier des charges, et garanties par une « assurance
qualité ».
Une approche plus réflexive de la notion de qualité a été proposée par le groupe français
dit de l’économie des conventions. Ces économiste ont analysé comment les qualités
attribuées à des marchandises résultent de procédures de qualification, assises sur des
conventions (Eymard-Duvernay 1989). Or ces économistes étaient, pour la plupart, d’anciens
statisticiens. Leur conception de la qualité provenait en bonne partie de leurs travaux
antérieurs sur les propriétés des variables statistiques (Desrosières 2011). La sociologie des
7
sciences, dont s’inspire la façon d’analyser la production statistique mobilisée ici, pourrait
utilement informer les travaux des statisticiens méthodologues, en les incitant par exemple à
prendre quelque distance réflexive par rapport aux notions de vraie valeur, d’erreur et de
biais. Ainsi, contrairement au constat pessimiste de Platek et Sarndal, auraient peut-être lieu
des échanges utiles entre des traditions de recherche provenant de planètes différentes.
Bibliographie
Armatte M., 1995 : Histoire du Modèle linéaire. Formes et usages en statistique et en économétrie
jusqu’en 1945, thèse EHESS, Paris (à paraître aux Presses de l’Ecole des mines en 2012)
Armatte M., 2010 : « Statut de la Dispersion : de l’erreur à la variabilité », Journal électronique
d’histoire des probabilités et de la statistique, juin 2010, http://www.jehps.net/juin2010/Armatte.pdf
Berthier C., Deville J.-C. et Néros B. 1999 : "Une méthode de mesure de l'effet enquêteur", Actes
des Journées de Méthodologie Statistique 17-18 mars 1998, Insee-Méthodes n°84-85-86, p.133-143.
Berthier C., et Dupont F., 1997 : "L'incidence du caractère obligatoire des enquêtes", Actes des
Journées de Méthodologie Statistique 11-12 décembre 1996, Insee-Méthodes n°69-70-71, p.131-146.
Bowley A. L., 1906 : « Presidential Address to the Economic Section of the British Association”,
Journal of the Royal Statistical Society , 69, Part III, p. 540-558.
http://www.jstor.org/discover/10.2307/2339344?uid=3738016&uid=2134&uid=2&uid=70&uid=4&si
d=56185483183
Bru B., 1988 : « Estimations laplaciennes. Un exemple : la recherche de la population d'un grand
empire, 1785-1812 ». Journal de la société de statistique de Paris, 129, n°1-2,
p. 6-45.
Cicourel A., 1964 : Method and Measurement in Sociology, Free Press of Glencoe, NewYork.
Deming E., 1944 : On Errors in Surveys, American Sociological Review, n° 9, p. 359-369.
http://www.jstor.org/discover/10.2307/2085979?uid=3738016&uid=2129&uid=2&uid=70&uid=4&si
d=56185453093
Deming E., 1960 : Sample Design in Business Research, Wiley, New York.
Desrosières A., 2001 : « Entre réalisme métrologique et conventions d’équivalence : les ambiguïtés
de la sociologie quantitative », Genèses, 43, juin 2001, p. 112-127. http://www.cairn.info/revuegeneses-2001-2-page-112.htm
Desrosières A., 2003 : « Les qualités des quantités », Courrier des statistiques, n° 105-106, p. 5163. http://www.insee.fr/fr/ffc/docs_ffc/cs105l.pdf
Desrosières A., 2010 : La politique des grands nombres. Histoire de la raison statistique, La
Découverte/Poche, Paris.
Desrosières A., 2011 : « Les origines statisticiennes de l’économie des conventions. Réflexivité et
expertise » , Oeconomia. History, Methodology, Philosophy, Vol. 1, n° 2, juin 2011, p. 299-309.
Desrosières A ., Thévenot L., 2002 : Les catégories socioprofessionnelles, La
Découverte/Repères, Paris.
Didier E., 2009. En quoi consiste l’Amérique ? Les statistiques, le New Deal et la démocratie, La
Découverte, Paris.
Eymard-Duvernay F., 1989 : « Conventions de qualité et formes de coordination », Revue
économique, 40(2), mars, p. 329-359.
http://www.persee.fr/web/revues/home/prescript/article/reco_0035-2764_1989_num_40_2_409142
Forsman G., 1989 : “Early Survey Models and Their Use in Survey Quality Work”, Journal of
Official Statistics, n° 5, p. 41-55. http://www.jos.nu/Articles/abstract.asp?article=5141
Groves R.M., Lyberg L ;, 2010 : “Total Survey Error. Past, Present and Future”, Public Opinion
Quarterly, Vol. 74, N° 5, p.849-879.
http://poq.oxfordjournals.org/content/74/5/849.full.pdf+html
Hansen M.H., Hurwitz W.N., Marks E.S., and Mauldin W.P., 1951 : “Response Errors in
Surveys”, Journal of American Statistical Association, n° 46, p. 147-190.
Hansen M.H., Hurwitz W.N., and Madow W., 1953 : Sample Survey Methods and Theory,
Volume I-II, Wiley, NewYork,.
8
Hansen M.H., Hurwitz W.N., and Bershad M.A., 1961 : “Measurement Errors in Censuses and
Surveys”, Bulletin of the International Statistical Institute, 38, 2, p. 359-374.
INSEE, 1981 : Les catégories socioprofessionnelles et leur repérage dans les enquêtes. Etudes
méthodologiques, Coordination par Laurent Thévenot, Archives et Documents, n° 38, décembre 1981.
Kish L., 1995 : “The Hundred Years’ Wars of Survey sampling”, Statistics in Transition, 2, p. 813830.
Lagarenne Ch., et Schuhl P., 1997 : "Contrôle de qualité de l'enquête trimestrielle emploi :
résultats de l'enquête Protocole", Actes des Journées de Méthodologie Statistique 18-19 octobre 1995,
Insee-Méthodes n°59-60-61, p. 389-413.
Lie E., 2002 : “The Rise and Falls of Sampling Methods in Norway, 1875-1906 “, Science in
context, n° 3, pp. 385-409.
Lyberg L., Biemer P., and Japec L., 1998 : “Quality Improvement in Surveys. A process
Perspective”, Joint Statistical Meetings, American Statistical Association, Dallas.
Merllié D., 1990 : “Les catégories socio-professionnelles à l’épreuve de la réitération : une mesure
de la fidélité du classement dans une enquête administrative », Population, Vol.45, n° 6, p.1037-1064.
http://www.persee.fr/web/revues/home/prescript/article/pop_0032-4663_1990_num_45_6_3643
Neyman J., 1934 : “On the Two Different Aspects of the Representative Method: The Method of
Stratified Sampling and the Method of Purposive Selection”, Journal of the Royal Statistical Society,
Vol. 97, No. 4, p. 558-625
http://www.jstor.org/discover/10.2307/2342192?uid=3738016&uid=2129&uid=2134&uid=2&uid=70
&uid=4&sid=56185487663
Platek R. and Sarndal C.E., 2001 : “Can a Statistician deliver ?”, + “Comments” and
“Rejoinder”, Journal of Official Statistics, Vol.17, N° 1, p. 1-127.
http://www.jos.nu/Contents/issue.asp?vol=17&no=1
Thévenot L., 1981a : « Un emploi à quel titre; l’identité professionnelle dans les questionnaires
statistiques », in : INSEE 1981 : Les catégories socioprofessionnelles et leur repérage dans les
enquêtes. Etudes méthodologiques, Archives et Documents, n° 38, décembre 1981, p. 9-39.
Thévenot L., 1981b : « Le flou d’appellation et de chiffrement dans les professions de santé », in :
INSEE 1981 : Les catégories socioprofessionnelles et leur repérage dans les enquêtes. Etudes
méthodologiques, Archives et Documents, n° 38, décembre 1981, p. 253-236.
Thévenot, L., 1986. « Les investissements de formes », in Conventions économiques, Cahiers du
Centre d’études de l’emploi, 29, Paris : CEE/PUF, 21-71.
Résumé La méthodologie des enquêtes statistiques est largement fondée sur la théorie des sondages, issue des
travaux de Bowley, Neyman, Deming et Hansen. Elle vise à contrôler et réduire les erreurs de mesure, en
distinguant deux composantes : la variance des estimations, et le biais (ou « erreur systématique »). Dans cette
théorie, on distingue aussi l’ « erreur d’échantillonnage » (sampling error) supposée bien maîtrisée par le calcul
des probabilités, et l’ « erreur non issue de l’échantillonnage » (nonsampling error), beaucoup plus difficile à
contrôler et à quantifier, même de façon probabiliste. Depuis les travaux pionniers de Deming et Hansen, ces
questions ont fait l’objet d’une abondante littérature.
Cette méthodologie est, implicitement ou explicitement, issue des recherches des astronomes du 18ème siècle
(Laplace, Gauss, Legendre), qui cherchaient à contrôler les erreurs d’observation des planètes et des étoiles.
Mais le transfert de l’épistémologie de l’observation astronomique, vers les sciences sociales et économiques,
pose des problèmes souvent mal explicités par la méthodologie des enquêtes. En effet, alors que l’existence et la
position de la lune ou de l’étoile polaire prêtent peu à controverse, en revanche, l’existence et la grandeur de
variables comme l’inflation, le chômage, le Produit intérieur brut, ou, a fortiori, l’opinion publique,
l’intelligence ou le bonheur, reposent sur des systèmes de conventions sociales, indispensables pour procéder
aux opérations de mesure.
L’étude systématique de ces conventions fait rarement partie du bagage théorique des méthodologues, et
relève de traditions de recherche très différentes : histoire, sociologie, économie, linguistique, anthropologie,
herméneutique… Depuis une trentaine d’années, ces questions ont été étudiées, par exemple dans le courant
français dit de l’ « économie des conventions », dont les promoteurs étaient d’ailleurs souvent des anciens
statisticiens. Comment expliquer ce clivage des traditions de recherche ? Est il possible d’y remédier ? Comment
articuler des cultures aussi différentes ?
Mots clés : Erreur, échantillonnage, biais, flou, codage, convention
9
10
Téléchargement