Création d`un Institut de sciences sociales

publicité
Sociologie & Statistiques
Une brève exploration
pragmatico-épistémologique
Préambule
 Qui suis-je ?
– Je ne suis pas statisticien.
– Je suis sociologue (et un peu gestionnaire).
 Parcours professionnel
– Pendant plus de dix ans j’ai été chercheur au Centre d’Étude de l’Opinion de l’Ulg.
– Créé en juin 1982, le CLEO est un centre de recherche pluridisciplinaire, dont les activités
sont directement axées sur l'étude des comportements, des opinions et des représentations
sociales de la population ainsi que sur le développement d'outils de collecte et d'analyse de
données. Il est composé de divers services universitaires : sociologie, informatique,
économie, science politique, psychologie sociale, gestion. Il est dirigé depuis mars 1985 par
René Doutrelepont, professeur de sociologie et responsable du service de sociologie
générale, de méthodologie et d'épistémologie des sciences sociales.
– J’assure aujourd’hui la direction opérationnelle du CLEO. Nos axes de recherche sont :
– La collaboration suivie avec les pouvoirs publics avec l'objectif de fournir des cadres de référence, des
informations précises et des pistes d'action pour la prise de décisions politiques dans les domaines
socioéconomiques et scientifiques.
– La réalisation de recherches de terrain à partir d'enquête qualitatives et quantitatives sur grands
échantillons de population ainsi que la mise au point de méthodes de collecte et d'analyse
d'information.
– Le développement d'études théoriques dans les domaines des opinions, des attitudes, des valeurs,
des mentalités et de leur articulation avec les comportements collectifs.
– En tant qu’assistant du département de sciences sociales, j’assure, entre autres,
l’encadrement des cours de méthodologie quantitative et de probabilités…
2
Objectif de la présentation
 Survoler, avec vous, les différents aspects des apports mutuels de la
sociologie et de la statistique.
– Je ne prétends pas à l’originalité. Je ne parlerai pas de mes recherches
personnelles (épistémologie de la complexité et méthodologie de la
prospective en sciences sociales).
– Il s’agit d’un séminaire et j’attends de vous des réactions et un débat.
 Une approche « pragmatico-épistémologique ».
– J’adopterai un point de vue sociologique plus que statistique.
– Je parlerai des « conditions de possibilité » d’une application des théories et
méthodes statistiques en sociologie (aspect épistémologique).
– Je tâcherait d’illustrer mon propos d’exemples concrets issus de la pratique
sociologique (aspect pragmatique).
3
Ce que la statistique fait à la sociologie (et vice-versa).
 Les sociologues sont-ils de simples « usagers » de la statistique ?
– Dans cette perspective les progrès de la « méthodologie statistique »
correspondraient a posteriori a des évolutions des disciplines conçues comme des
« domaines d’application ».
– Il faut toutefois souligner que, vers la fin du XIXème siècle, ce sont les travaux de
Francis Galton et Karl Pearson sur l’hérédité humaine et l’eugénisme, qui ont conduit
à formaliser la régression linéaire, la corrélation et le test du Chi2.
(voir STIGLER S., The History of Statistics. The Measurement of Uncertainty before 1900. Harvard University Press, Cambridge, 1986.)
 Quel est le rôle joué par le « pôle statistique » en sociologie ?
– Comme « penseur du social » le sociologue pourrait sans problème faire remonter sa
pratique professionnelle à Platon ou Aristote, rien moins que ça. Plus modestement, il
est le plus souvent admis que la sociologie naît avec la révolution industrielle et
l’émergence des démocraties modernes.
– Vous le savez sans doute, c’est Auguste Comte qui revendique la paternité du terme
sociologie et c’est dans la 47ème leçon de son cours de philosophie positive, publiée en 1839
que ce terme apparaît.
– Dans une logique disciplinaire, la statistique a offert des arguments « clé en main »
pour justifier l’autonomie et la prééminence d’une science nettement distincte du droit,
de la philosophie, de la psychologie ou même de l’économie…
– « Le groupe social a des structures spécifiques et des propriétés de régularité et de
prévisibilité dont sont dénués les individus volatiles et imprévisibles ». Cette version
classique de la sociologie quantitative a été clairement formulée par Quetelet dans les
années 1830, puis approfondie par Durkheim, Lazarsfeld… Bourdieu et beaucoup
d’autres.
4
Sociologie des usages sociologiques de la statistique
 En quoi consisterait un point de vue de sociologue sur les usages de la
statistique, notamment en sociologie ?
– La perspective qui sera la mienne sera d’expliciter les contraintes de
situation qui en découlent :
– Que va-t-on en faire ?
– Avec quelles notions a priori ?
– Pour faire quoi ?
5
La sociologie quantitative et ses modèles de réalité
 La pression du « bon chiffre ».
– Prenons par exemple la définition du partage de la population totale en trois
catégories : population active occupée, population active sans emploi (chômeurs) et
population inactive :
– Ce que l’on demandera au sociologie (ou économiste) statisticien sera de fournir « le bon
chiffre » s’approchant au mieux de la « réalité ». Il aura tendance a se retrancher derrière les
limites de ses outils et l’imprécision a priori des mesures et de l’application concrète des
critères de classification.
– Cette pression « sociale » résulte sans doute de ce que la statistique sociale a été
construite, légitimée et diffusée à partir du modèle métrologique réaliste des sciences
de la nature.
– La réalité existe bien avant son observation, comme l’étoile polaire a existé bien avant tout
les astronomes.
– Cependant, la définition et la mesure de la population active et du chômage relève sans
doute d’une autre épistémologie que celle de l’étoile polaire. Elles reposent sur des
conventions (principes généraux) et des décisions d’affecter tel cas à tel classe.
 Le statut de réalité des objets mesurés.
– Les sciences de la nature (réalisme direct).
– La « loi des erreurs » a inspiré Quetelet pour construire son « homme moyen ».
– Le langage des sciences de la vie (réalisme indirect)
– Les « propensions » au mariage, au suicide ou au crime calculés a partir de statistique
administratives globales reflètent des attributs de la société impossible a atteindre
directement. Les axes factoriels de l’analyse statistique « a la française » ont des propriétés
comparables (Quotient intellectuel de Binet…).
– Une rhétorique conventionnaliste (mesure socialement jugée sociale)
– Exemple de la maltraitance
6
Les sciences sociales et leurs données
 Petite histoire des rapports entre sondages et sociologie.
– Il est difficile de parler de statistiques en sciences sociales, sans parler des méthodes
de collecte des données et plus particulièrement des sondages.
– Les origines :
– Il est généralement admis que la statistique recouvre un ensemble de méthodes contribuant à
la connaissance d’une population. Ce dernier vocable est bien entendu a prendre au sens
étendu même si son usage est emprunté a la démographie et au dénombrement d’individus.
– L’apparition du besoin « statistique » de posséder des données chiffrées précède sans doute
sa dénomination de plusieurs millénaires. A son origine, il est le fait de chefs d’états (ou leur
équivalent de l’époque) désireux de connaître des éléments de leur puissance : population,
richesses… L’idée de recensement, d’inventaire, apparaît donc de façon tout à fait naturelle
dans l’histoire (le relevé des personnes et des biens avait lieu régulièrement en Mésopotamie
ou en Égypte près de 3000 ans avant J-C et des observation similaires peuvent être faites
pour le Japon, Rome, la Chine, les Incas…).
– C’est vers la fin du XVIIe siècle que le souci d’extrapolation apparaît plus nettement et
coïncide avec le développement de l’école arithmétique politique anglaise (Graunt, Petty).
Cette école est guidée par la recherche de constantes : nombre d’enfants par femmes,
nombre d’individus par feu…
– Parallèlement, le remplacement d’une connaissance exhaustive par une extrapolation fondée
sur l’examen d’une partie de la population est une attitude qui commence à trouver des
éléments de justification par l’apparition des premiers résultats de probabilités (Pascal,
Fermat puis Bernouilli).
– Le paradoxe du recul de l’échantillonnage au profit de l’exhaustivité au XIXe.
– Logique de contrôle et de technologie sociale.
7
Le début des sondages d’opinion
– Le début des sondages d’opinion :
– Les sondages d’opinion sont nés du désir d’obtenir des informations, si possible
quantitatives, sur « l’état d’esprit » de la population.
– On affirme généralement que le vrai berceau des sondages d’option se situe aux
Etats-Unis, à l’occasion des couvertures de presse des élections présidentielles .
– Dès 1936 (Gallup) ils se sont montrés efficaces pour prédire les résultats des élections
(victoire de Roosvelt sur Landon).
– En 1938, Jean Stoetzel, professeur de sociologie a la Sorbonne fonde l’IFOP et
de nombreux autres pays vont rapidement suivre le mouvement.
– Évolution parallèle de la réflexion théorique, probabiliste et statistique.
– Dès 1925, la discussion sur la méthode représentative ne porte plus sur son
principe, mais sur ses modalités d’application.
– En 1934, Jerzy Neyman présente dans son exposé devant la Royal Statistical
Society l’essentiel du cadre de la théorie statistique des sondages.
– Echantillonnage aléatoire, stratifié, par grappes…
– Allocation proportionnelle, non proportionnelle, optimale d’un échantillon stratifié.
– Définition d’un modèle statistique et des hypothèses sous-jacentes d’un
échantillonnage par choix judicieux (et sa critique).
– Émergence de la vogue des sondages d’opinion.
– Ils utilisent les techniques décrites par Neyman ou plutôt l’une de leur diverses
variantes (aujourd’hui encore au cœur des débats méthodologiques), la méthode
des quotas.
8
La notion d’opinion publique
 Petit détour par une brève histoire de la notion d’opinion publique
– Ce qui pourrait apparaître comme une notion consensuelle tant elle est fréquemment
utilisée, par les journalistes entre autres, est l’objet de nombreuses polémiques et a
recouvert, historiquement, des réalités diverses. En poursuivant plus avant la
réflexion, il serait sans doute possible de montrer que chacune de ses acceptions
successives a été elle-même le produit de débats et de luttes qui ont eu pour enjeu le
droit de parler au nom du peuple.
– C’est au XVIIIème siècle qu’émerge le vocable « opinion publique ». A cette époque,
les élites se servaient du concept comme d’une formule de légitimation politique. C’est
en quelque sorte la machine de guerre idéologique de la bourgeoisie afin de légitimer
ses propres revendications dans le domaine politique et d’affaiblir l’absolutisme royal.
L’outil de prédilection émergent à l’époque étant la presse dite d’opinion, ce sont les
« publicistes » qui font l’opinion autant qu’ils en prennent le pouls.
– A partir du XIXème siècle, la vision démocratique, qui fait de la « volonté populaire » la
source unique de légitimité politique, transmue les opinions publiquement affichées
des « élites sociales » en opinions du peuple. Le raisonnement sous-jacent est le
suivant : les élites sont élues et les élus sont (ou se considèrent comme) les porteparole naturels du peuple.
– A partir de ce moment, les frontières entre opinion publique et opinion commune se
brouillent définitivement. Dans un cas, on parle d’un « peuple à venir », guidé et
éclairé au sens de Kant, et de l’autre d’un peuple réel, de la multitude. D’une part
l’intervention de l’opinion se trouve justifiée par la raison, de l’autre par le nombre.
9
La place du sondage d’opinion
 Ambiguïté du terme « Sondage d’opinion »
– Sondage = méthode d’enquête et techniques associées
– Opinion = ni faits, ni cognitions, ni comportements. Pas nécessairement politiques !
 Le marché de l’enquête par sondage
12%
30%
5%
53%
Panels
Pour la France, le chiffre d’affaire
des différents instituts de sondage
s’élève à +- 700.000.000 € contre
25.000.000.000 € pour la publicité
à titre d’exemple.
Seuls 5 à 6 % concernent des
sondages d’opinion réalisés pour la
classe politique ou les médias… Il
s’agit donc d’un « produit d’appel »
pour les instituts de sondage.
Omnibus
Ad-hoc
Qualitatif
10
Le marché du sondage d’opinion
– Phénomène de concentration : en France comme en Belgique, quelques
instituts se partagent 90 % du marché (GFK, SOFRES, IPSOS …).
– Passage à un niveau de production industriel :
– Emergence du CATI /CAPI
– Spécialisation, segmentation des tâches, recours à des vacataires
Banalisation des « gros échantillons » qui deviennent souvent
pour le commanditaire le critère premier de crédibilité de l’étude et
prime sur la méthodologie ou l’analyse.
– Parallèlement on assiste à une banalisation de l’enquête par sondage :
– Micro-informatique;
– Logiciels statistiques;
– Enseignement dans les écoles supérieures de tout genre;
Recrudescence de l’activité de « sondeur improvisé » sans poids
commercial important mais contribuant à une diffusion lourde
d’une conception très limitée de l’analyse sociale.
11
La critique du sondage d’opinion
 La critique politique : l’impact des sondages
– Le politique, lui, semble y croire car il a légiféré pour interdire toute publication des
résultats de sondages pré-électoraux dans un laps de temps, variable en fonction du
pays, précédant les élections. Ceci crée de toute évidence une inégalité de traitement
entre les citoyens puisqu’il n’est pas interdit de transmettre des résultats à titre privé
et donc aux hommes politiques eux-mêmes.
– Lorsqu’il sont publiés, les sondages d’opinion rentrent également dans une logique
commerciale. Cela tend à devenir un « genre » journalistique à part entière. Ils
interviennent comme instance de légitimation du journaliste qui devient alors un peu
porte parole du peuple, un peu sociologue, un peu moraliste...
 La critique théorique de la notion d’opinion publique
– Selon la psychologie sociale, les opinions se construisent au travers d’un échange
social dynamique.
– La question théorique fondamentale est donc aussi vielle que la méthodologie de
l’enquête par sondage : « un individu prélevé dans un groupe social répond-il comme
son groupe social ? »
– L’analyse statistique d’un sondage fait l’hypothèse de l’existence dune « opinion
publique » sans pour autant poser a priori l’universalité des conditions selon
lesquelles les différentes opinions individuelles ont pu se forger.
– La critique de la notion d’opinion publique vient souvent de la prédominance du mode
d’analyse « majoritaire ». « L ’opinion moyenne » au nom de laquelle on fera, pour
des raisons d’économie intellectuelle, parler les « belges », le « jeunes »…
12
Une vision pragmatique de la théorie des sondages
 European Social Survey : les « nouveaux » standards méthodologiques.
– Au niveau international, on assiste a un retour en force des grosses machines
méthodologiques.
– Intransigeance sur le sondage probabiliste.
– Raffinement des méthodes d’échantillonnage.
– Tirages à plusieurs degrés. Calcul des impacts sur les estimateurs.
– Échantillon sans remplacement. Taux de réponse net attendu de 70%.
– Contrôle systématique des non-réponses et stratégies de conversion.
– Suivi minutieux des procédures de contact et documentation des refus.
– Impact pragmatique.
–
–
–
–
–
–
Recours à 130 enquêteurs pour récolter +- 600 enquêtes… Turn-over énorme !
Impossibilité concrète de mettre en œuvre les procédures de contact.
Qualité de l’information dans une enquête « arrachée » durant près d’une heure ?
Taux de réponse effectif de 58 % (gain relatif faible).
Coût au moins deux fois supérieur au méthodes habituelles.
Certains pays ont recours à la rémunération de l’enquêté…
 Avènement des sondages téléphoniques.
– Pour répondre aux dictats des gros échantillons et du probabilisme, l’enquête
téléphonique tend à s’imposer.
– Fiabilité des bases de sondage ?
– Exemple de la sous-estimation systématique des jeunes et de la sur-représentation des
femmes.
13
Les moyens statistique du sociologue
 L’évolution des moyens de calcul dans le passé récent
– Depuis les années 70, la situation dans le domaine du calcul a grandement évolué et
ce essentiellement grâce aux progrès techniques dans le domaine. Les ordinateurs se
sont très largement répandus, on baissé de prix, sont devenus plus performants et
surtout beaucoup plus « conviviaux ».
– Par ailleurs, les logiciels ont fait d’énormes progrès tant du point de vue de la
performance que de la facilité d’utilisation. Les logiciels de calcul statistique
initialement prévus pour tourner sur de gros ordinateurs sont apparus dans des
version adaptées a la micro-informatique (SAS, SPSS…).
– Caricaturalement, lorsqu’on me demandait il y a un peu plus de 10 ans encore de
produire des analyses statistiques, c’étaient des compétences informatiques que je
devais initialement mettre en œuvre (programmer et faire tourner SAS sur VM…).
Aujourd’hui, je suis capable d’apprendre a un étudiant la manipulation élémentaire de
SPSS en quelques heures… mais toujours pas de lui transmettre un « savoir faire »
statistique dans le même temps.
14
L’enseignement de la statistique au sociologue
 L’enseignement des statistiques aux sociologues
– Si les progrès ont été considérables en matière de disponibilité des outils statistiques
pour le sociologue, sa formation n’a, hélas, pas vraiment évolué.
– Traditionnellement, le jeune étudiant qui se destine à la sociologie a rarement le profil
d’un potentiel ingénieur civil ou d’un mathématicien (voire d’un économiste ou d’un
gestionnaire)… On peut même dire (bien que la variance soit élevée) qu’en moyenne
il est peu mathématisé… et ne souhaite pas vraiment y remédier.
 La situation à Liège
– Nos étudiants ont la « chance » d’avoir un des cursus les plus poussés en statistique
appliquée parmi les formation en sociologie dont j’ai connaissance.
– Statistique descriptive.
– Approche modèle
–
–
–
–
–
–
–
Analyse de données qualitatives
Inférence
Distribution de probabilités
Analyses de variance
Modèles linéaires généralisés
Analyses longitudinales
…
– Cependant, ils restent souvent ignorants, à leur sortie, d’outils « a la mode » comme
l’AFC/ACP, les équations structuralles (LISREL, AMOS…) ou le data mining.
15
Ce que les sociologues font en pratique des statistiques
 Le sociologue face à l’analyse de données d’enquête.
–
–
–
–
Le plus souvent il s’agit de la présentation de tableaux de fréquence.
Il présente des intervalles de confiance.
Pour des tables a deux entrées il recourt le plus souvent au CHI2.
Ils produit des comparaisons de moyennes et parfois des analyses de variance, voire
des test post-hoc.
– L’approche modèle ou l’analyse multivariée sont très rares dans le cadre de la
recherche commanditée. Je me permets toutefois un petit détour en forme de
commentaire :
– La définition d’un « bon modèle » en sociologie est elle-même délicate. Une phrase telle que
« X explique Y » , ou « la variable indépendante explique bien la variable dépendante » sont
vides de sens, la deuxième est même absurde d'un point de vue rhétorique, une variable
indépendante qui explique c'est un oxymoron comme sombre clarté ou silence
assourdissant...
– Un tel sujet nécessiterait un développement important mais nous éloignerait trop des objectifs
de cet exposé. Je conseille la lecture de « La mal-mesure de l'homme » de Stephen Jay
Gould, Odile Jacob, 1997, dans lequel sont mentionnés quelques exemples de modèles qui
marchent d'un point de vue statistique mais qui n'ont aucun sens concret. Stephen Jay Gould
cite par exemple le fait que l'on puisse expliquer le prix de l'essence par son âge, quand son
âge augmente le prix de l'essence augmente et la corrélation est forte, de même le prix du
beurre peut être expliqué par la distance entre les étoiles de notre galaxie, plus les étoiles
s'éloignent les unes des autres et plus le beurre est cher, c'est vrai mais cela ne veut rien dire
même pour un astrologue.
– De manière réciproque ce n'est pas parce qu'un modèle étudié est « mauvais », qu'il n'est
pas pertinent, qu'il n'apporte pas d'information.
– Le caractère « prédictif » des modèles est certes intéressant mais parfois moins pertinent que
leur valeur heuristique en sciences sociales.
16
La mode statistique en sociologie
 Depuis les années 70, ce qui fait fureur en sociologie (comme en psychologie
sociale), ce sont les Analyses Factorielles des Correspondances ou Analyses en
Composantes Principales.
– C’est Pierre Bourdieu qui en a lancé la vogue dans son célèbre livre « La distinction ».
Il y répertoriait les pratiques culturelles des français résumées en deux facteurs : le
capital social d’une part et le capital économique d’autre part. Bien que les méthodes
utilisées pour produire ses analyses soient documentées dans l’ouvrage de Bourdieu,
le recours a des étiquettes de données et l’interprétation des résultats continue à
poser problème.
– Un exemple de ce qu’on peut trouver aujourd’hui dans la littérature (extrait d’une
conférence de Christian Beaudelot)
17
Les modèles « Lisrel » ou le raffinement de la mode
 L’analyse en équations structurelles.
Pourquoi as-t-on recours à ce type d’analyse ?
– Pour tester un lien causal.
– Pour confirmer une analyse factorielle exploratoire.
– Mais surtout pour pouvoir publier de beaux graphiques comme celui-ci…
.36
1
J-Valence
2
J-Certainty
3
J-Orientation
4
J-Effort
.06
2
.8
.32
1.0
.76
.15
.83
.52
Jospin
.70
.36
8
.51
.3
11
-.5
.86
0
5
J-Control
Choice
for vote
-.19
.59
6
C-Valence
7
C-Certainty
8
C-Orientation
9
C-Effort
.8
.42
.41
.32
0
.82
.73
.04
.51
.42
Chirac
.70
.56
.3
7
–
.86
10
1.0
C-Control
18
A l’ombre des paradigmes en fleurs
 Le sociologue face à son commanditaire.
– Certains d’entre vous le savent, ou l’auront deviné, je ne rechigne pas
devant un peu de réflexion épistémologique… à l’occasion.
– La situation du sociologue engagé dans une recherche commanditée est
une situation paradoxale :
– D’une part, il va mettre en ouvre son savoir scientifique et les critères de
validation propres a sa discipline (méthodologie, rigueur du raisonnement,
précision et raffinement des analyses).
– D’autre part, il risque fort d’être confronté a un jugement extérieur dont les
critères seront tout différents.
– Lorsque je me trouve face à une demande d’enquête, je sais pertinemment
que je n’aurais que rarement l’occasion de déployer tout le potentiel des
interactions entre sociologie et statistique.
– Le commanditaire (qu’il me pardonne si il y en a un dans la salle), se soucie
peu de mes méthodes, de mes scrupules… il veut me faire confiance a priori
et attend de moi que je lui livre une information directement utilisable (quand
ce n’est pas celle qu’il attend, mais c’est là un autre débat).
– L’usage de la statistique en sociologie reste malheureusement, dans ce
contexte, limité à des doses homéopathiques.
19
Conclusions
 Il y a bien de larges champs de fertilisation mutuelle entre sociologie et
statistique.
 Même s’il ne s’agit pas d’un courant dominant, il ne faudrait pas abonner
la science sociale aux purs philosophes du social et il me paraît
important de maintenir un espace pour une sociologie quantitative.
 Celle-ci a sans doute besoin d’un peu plus d’autonomie et de se
développer en dehors de la recherche commanditée.
 Je serai très heureux de vous parler à une autre occasion de nouvelles
perspectives dans ce domaine:
– La simulation en sciences sociales.
20
Téléchargement