Sur l`analyse de régression en sociologie

Téléchargement

Communication aux 39e Journées de Statistique – Société Française de Statistique – Angers, 11-15 juin 2007

- 1 -

LOUIS-ANDRÉ VALLET (CNRS)

LABORATOIRE DE SOCIOLOGIE QUANTITATIVE

UMR 2773 CNRS & INSEE-CREST

[email protected]

SUR L’ANALYSE DE RÉGRESSION EN SOCIOLOGIE

Résumé : Si l'analyse statistique dite « de régression » se diffuse depuis une dizaine d'années dans la

sociologie française – sous la forme notamment de la régression logistique – son usage ne va pas

encore « de soi » dans cette communauté. Comme le rappelle souvent l'invocation du problème du

renne au Sahara et du chameau au Pôle Nord, cette technique est en effet considérée, plus que

d'autres, comme susceptible de produire des artefacts, c'est-à-dire des résultats dénués de toute

signification sociologique. En utilisant pour exemple l'analyse des parcours scolaires des enfants

d'immigrés, l'article se propose de revenir sur plusieurs aspects souvent mal compris de l'analyse de

régression, notamment les suivants. D'une part, l'analyse de régression dote le sociologue de

diagnostics permettant de détecter des situations limites où l'analyse statistique ne peut délivrer de

résultat robuste. D'autre part, à partir de données simulées, on montre par l'exemple qu'une

interprétation réaliste des coefficients de régression peut être soutenue : les coefficients de régression

partiels estimés sont nettement influencés par les situations caractéristiques des sous-populations qui

sont les plus fréquemment rencontrées dans les données. L'article s'achève par une réflexion sur la

modélisation statistique en sociologie et par la présentation d'un ouvrage, méconnu en France, de

Stanley Lieberson (1985) dans lequel le sociologue plaidait pour un usage lucide et raisonné de la

technologie statistique.

Dans un article actuellement non publié1, Jean-Paul Caille et moi-même avons étudié, à

partir du panel national 1989 d’élèves du second degré, les parcours scolaires des enfants

étrangers ou issus de l’immigration dans l’ensemble du second degré. On pouvait en effet se

demander si des résultats antérieurs établis au collège2 valaient pour toute la scolarité

secondaire et si, en particulier, les aspirations scolaires des familles continuaient à affecter le

déroulement des parcours. L’article apporte à ces questions une réponse positive car les

résultats empiriques qu’il établit peuvent être résumés comme suit. L’obtention d’un

baccalauréat général ou technologique sans redoublement dans le second degré a concerné

21 % des entrants en sixième qui comptaient quatre attributs étrangers, mais 32 % de ceux qui

n’en avaient aucun. De même, il s’agissait de 19 % des jeunes étrangers contre 32 % des

Français, ou encore de 25 % des élèves dont la famille résidait en France depuis 5 à 20 ans

contre 32 % de ceux dont un parent au moins y avait toujours vécu. Toutes ces différences

s’annulent et ne sont plus significatives lorsque l’analyse incorpore la catégorie

socioprofessionnelle du chef de famille (dans une nomenclature détaillée en dix-neuf postes).

Elles se transforment à l’avantage des enfants d’immigrés à la suite d’une description plus

complète du milieu familial (au moyen de dix variables supplémentaires). Cet avantage

s’accroît si l’on tient compte en outre des performances de l’enfant en français et

1 - Mais disponible sur Internet aux adresses suivantes :

http://www.crest.fr/pageperso/vallet/Obernai1.pdf (pour le texte lui-même)

et http://www.crest.fr/pageperso/vallet/Obernai2.pdf (pour les tableaux associés).

2 - Vallet L.-A., Caille J.-P., 1996. – Les élèves étrangers ou issus de l'immigration dans

l'école et le collège français. Une étude d'ensemble, Les dossiers d'Éducation et Formations,

67, Ministère de l'Éducation nationale, DEP.

Communication aux 39e Journées de Statistique – Société Française de Statistique – Angers, 11-15 juin 2007

- 2 -

mathématiques à l’entrée en sixième. Il se réduit enfin quand l’analyse incorpore les

indicateurs, observés en 1991, des aspirations scolaires des familles : cela constitue une

preuve empirique du rôle médiateur de ces aspirations dans l’explication de la réussite

scolaire des enfants d’immigrés. L’obtention du baccalauréat sept ans après l’entrée en

sixième nécessitait l’accès en six années à la classe de terminale et le succès à l’examen dès la

première tentative. Les résultats précédents sont reproduits avec le premier critère ; ils ne le

sont pas avec le second. À situation familiale et sociale identique, ce n’est donc pas dans une

plus forte réussite à l’examen que se forge la supériorité des parcours des enfants d’immigrés,

mais celle-ci prend naissance dans le cours de la carrière scolaire – au collège plus qu’au

lycée – à travers le jeu des aspirations et demandes familiales et de la façon dont l’institution

scolaire en tient compte. Il était enfin possible de retenir un critère de réussite moins strict

dans le second degré : l’obtention d’un baccalauréat général ou technologique, sept, huit ou

neuf années après l’entrée en sixième. L’avantage des enfants d’immigrés sur les autres élèves

de mêmes caractéristiques socio-démographiques se révèle alors plus marqué qu’il ne l’était

pour le succès au baccalauréat sans redoublement. Cela s’interprète comme le fait que, parmi

les élèves confrontés à des difficultés scolaires ou à des parcours atypiques, les enfants

d’immigrés persévèrent davantage que les autres dans la direction de la réussite d’études

longues.

L’analyse longitudinale des parcours des enfants d’immigrés ne conduit donc pas à

conclure à leur échec scolaire massif, mais elle souligne en premier lieu que les ressources

socio-économiques et culturelles du milieu familial forment les déterminants premiers de la

réussite à l’école. Cet aspect essentiel étant rappelé, les résultats que le panel 1989 met au jour

sont compatibles avec des travaux qualitatifs qui ont insisté sur la place de la mobilisation

scolaire dans la reformulation familiale des projets migratoires ou sur la fonction

instrumentale de moyen de promotion sociale que les élèves d’origine étrangère attribuent à

l’école. Les mêmes résultats rejoignent encore des travaux étrangers, fondés sur des données

longitudinales en Australie et aux États-Unis, qui ont souligné la force des aspirations et

motivations éducatives dans les minorités issues de l’immigration ainsi que le rôle de ces

facteurs socio-psychologiques dans la formation et l’explication des trajectoires scolaires.

Les analyses de régression sur lesquelles s’appuient les conclusions de ce dernier article

sont conduites de façon moins abrupte et plus progressive que ce n’était le cas dans la

publication principale de 1996 et l’intelligibilité des résultats qu’elles produisent en sort ainsi

renforcée. Dans un premier modèle, la variable d’intérêt – nombre d’attributs étrangers,

nationalité ou ancienneté en France des parents – est l’unique variable explicative introduite et

la modélisation équivaut donc strictement à l’examen du tri croisé entre cette variable et le

résultat du parcours scolaire. Le second modèle contrôle de surcroît la catégorie

socioprofessionnelle du chef de famille et cela réalise, en quelque sorte, l’analogue de la

comparaison qu’effectuait Paul Clerc en 1964 entre les enfants d’ouvrier étrangers et français.

En incluant encore dix variables socio-démographiques supplémentaires, le troisième modèle

incorpore une description plus complète de l’environnement des élèves et l’on conduit ainsi

une forme de comparaison « à situation familiale et sociale identique ». Enfin, dans les

quatrième et cinquième modèles, sont en outre introduits respectivement une mesure des

performances atteintes à l’entrée en sixième et deux indicateurs des aspirations des familles en

matière d’éducation. On raisonne alors en conduisant une comparaison entre les modalités de

la variable d’intérêt – étrangers contre Français, etc. – après avoir égalisé, « dans l’esprit »,

non seulement la situation familiale et sociale des élèves, mais encore leur niveau initial, puis

les aspirations scolaires de leur famille.

Communication aux 39e Journées de Statistique – Société Française de Statistique – Angers, 11-15 juin 2007

- 3 -

Il reste qu’aujourd’hui encore l’analyse de régression « ne va pas de soi » dans la

communauté sociologique française. Comme le rappelle souvent l’invocation du problème

« du renne au Sahara et du chameau au Pôle Nord »3, il s’agit en effet d’une technique qui est

considérée, plus que d’autres – par exemple, l’analyse factorielle des correspondances –

comme susceptible de produire des artefacts, c’est-à-dire des résultats dénués de toute

signification sociologique. La situation française diffère ainsi nettement de celle qui prévaut

dans le monde anglo-saxon où, à l’autre extrême, l’analyse de régression constitue une

technique d’application quasi routinière en sociologie. Le doute, voire la suspicion, présents

en France, sont en outre exacerbés lorsque le modèle de régression met en jeu des variables

explicatives considérées comme trop fortement corrélées, par exemple, s’agissant d’élèves,

l’origine sociale et l’origine nationale. Comme le souligne ainsi la citation suivante,

empruntée à un ouvrage récent de Marie Duru-Bellat4, un fort scepticisme peut alors être

exprimé à propos du raisonnement fondé sur le « contrôle » des variables et à l’égard des

résultats qu’il produit : « Si la modélisation ouvre au chercheur en sciences sociales des

horizons heuristiques, il reste que la clause « toutes choses égales par ailleurs » sur laquelle

elle se fonde présente un risque de « sociologie fiction » redoutable (discuté notamment par

Passeron, 1991). L’estimation de modèles multivariés est une fiction de raisonnement

expérimental, souvent « limite », précisément parce que le raisonnement expérimental sur

lequel ils reposent est évidemment très éloigné de la réalité. Si on admet sans peine qu’on

peut introduire, pour expliquer les choix d’orientation, à la fois les notes scolaires et le sexe

(variables corrélées), pour évaluer un effet du sexe « toutes choses égales par ailleurs » (effet

net restant lui-même à expliquer), le sociologue sera plus gêné devant l’introduction

simultanée de l’origine sociale et de l’origine ethnique, si on entend en déduire un effet de

l’origine ethnique « toutes choses égales par ailleurs ». La quête de l’effet pur tourne ici à la

sociologie fiction : dans la réalité, la distribution des niveaux d’instruction des parents (de

même que la plupart de leurs caractéristiques sociales) est tout sauf égale, entre enfants

français et étrangers. Le sens même de cette variable est défini dans son articulation avec

d’autres. La conséquence, c’est que les résultats sont nécessairement contextualisés : ils sont

produits dans un contexte caractérisé par telles ou telles « conditions initiales », ou telle ou

telle association entre des variables, qu’il faut décrire, ce qui n’est pas toujours fait, ou qu’on

ne fait jamais assez, en associant des tableaux aux analyses modélisées les plus complexes.

Cette question est d’autant plus cruciale que souvent les résultats ne sont pas dénués

d’incidences politiques. Évaluer si la nationalité de l’élève entraîne en elle-même un handicap

(avec à l’origine des facteurs de nature culturelle), ou bien si c’est avant tout le milieu social

associé dans notre pays au fait d’être étranger qui compte, a des incidences concrètes sur les

mesures à prendre pour contrer les difficultés des élèves étrangers » (2002, pp. 48-49).

Faut-il donc souscrire à l’argument selon lequel il est des situations – notamment la

comparaison des parcours scolaires des élèves étrangers et français – où tout recours à

l’analyse de régression devrait être exclu car il risquerait de produire une « sociologie

fiction » ? La réponse à cette question me paraît devoir être négative, à partir de

l’argumentation suivante qui peut être développée en six points.

3 - Il s’agit de l’argument que Maurice Halbwachs reprend de François Simiand à propos de

l’application de la notion de population-type :

Halbwachs M., 1935. – « La statistique en sociologie » in La statistique, ses applications, les

problèmes qu’elle soulève, 1944, Paris, Presses Universitaires de France, 7e semaine

internationale de synthèse, pp. 113-134.

4 - Duru-Bellat M., 2002. – Les inégalités sociales à l’école. Genèse et mythes, Paris, Presses

Universitaires de France.

Communication aux 39e Journées de Statistique – Société Française de Statistique – Angers, 11-15 juin 2007

- 4 -

Premièrement, les doutes exprimés à l’égard de l’analyse de régression doivent être

rapprochés du fait que son entrée dans la sociologie française est récente, puisqu’elle ne s’est

véritablement faite qu’avec la régression logistique, c’est-à-dire il y a une dizaine d’années

environ. Alors que la path analysis, introduite par Otis Dudley Duncan au milieu des années

soixante, s’est rapidement répandue dans la sociologie américaine, il n’en est pas allé de

même en France de l’analyse de dépendance, méthode pourtant très proche, développée par

Raymond Boudon à la même période5. L’explication pourrait tenir au fait que les sociologues

français ont toujours préféré les variables qualitatives ou catégorielles aux variables

quantitatives ou numériques et que le modèle de régression linéaire multiple, qui suppose que

la variable dépendante est quantitative continue et forme aussi le socle de l’analyse de

dépendance, leur était de ce fait peu adapté.

Deuxièmement, dans le monde social, les variables sont corrélées et c’est précisément

pour cette raison que l’analyse de régression est utile. À l’inverse, elle ne serait d’aucune

utilité si toutes les variables explicatives étaient orthogonales ou indépendantes car, dans ce

cas, un simple tri croisé entre la variable dépendante – par exemple le résultat du parcours

scolaire – et la variable d’intérêt – par exemple l’origine nationale – ferait immédiatement

apparaître le lien spécifique de la seconde à la première.

Troisièmement, si une combinaison linéaire de variables explicatives permettait de

reconstruire exactement le sous-échantillon correspondant à une modalité de la variable

d’intérêt – par exemple, si une combinaison particulière de modalités des variables catégorie

socioprofessionnelle du père, diplôme de la mère, taille de la famille, etc. permettait d’isoler

strictement la sous-population des enfants issus de l’immigration ou celle des enfants

d’origine maghrébine – alors le coefficient de régression partiel associé à cette modalité de la

variable d’intérêt ne serait pas estimable et l’on serait dans une situation de colinéarité stricte.

Quatrièmement, la même proposition peut être énoncée sous une forme affaiblie. Si une

combinaison linéaire de variables explicatives permettait de reconstruire presque exactement

le sous-échantillon correspondant à une modalité de la variable d’intérêt – par exemple, si une

combinaison particulière de modalités des variables catégorie socioprofessionnelle du père,

diplôme de la mère, taille de la famille, etc. permettait presque d’isoler la sous-population des

enfants issus de l’immigration ou celle des enfants d’origine maghrébine – alors il deviendrait

très difficile de « séparer les effets des variables » et cela se traduirait par des estimations très

incertaines puisque les erreurs-types associées aux coefficients de régression partiels seraient

très grandes. Une conclusion importante de ces deux arguments est que, sur le plan technique,

l’analyse de régression dote le sociologue de diagnostics qui lui permettent de détecter des

situations limites – colinéarité stricte ou quasi-colinéarité – où l’analyse statistique ne peut

délivrer de résultat robuste.

Cinquièmement, il est possible de défendre une interprétation réaliste des coefficients

de régression partiels, c’est-à-dire argumenter l’idée suivante : lorsque la variable d’intérêt est

assez fortement corrélée avec une autre variable explicative, alors le coefficient de régression

partiel associé à une modalité particulière de la variable d’intérêt traduira surtout la situation

5 - Quelques articles à tonalité méthodologique, rédigés notamment par Boudon, Chapoulie,

Degenne et Isambert, ont été publiés dans la Revue française de sociologie jusqu’au début de

la décennie soixante-dix, mais l’analyse de dépendance n’est jamais devenue une méthode

d’usage courant, contrairement par exemple à l’analyse factorielle des correspondances.

Communication aux 39e Journées de Statistique – Société Française de Statistique – Angers, 11-15 juin 2007

- 5 -

de la population correspondante relativement à la population de référence dotée des mêmes

caractéristiques sur la seconde variable explicative. Ou encore, pour l’exprimer plus

simplement à partir du même exemple, le coefficient de régression partiel estimé pour les

élèves issus de l’immigration traduira surtout la situation de ceux-ci relativement aux élèves

non issus de l’immigration et appartenant aux milieux sociaux défavorisés.

Sixièmement, raisonner à partir de données simulées, mais plausibles du point de vue de

la corrélation entre les variables explicatives, permet d’illustrer la pertinence de cette

interprétation réaliste des coefficients de régression partiels. Soit en effet un échantillon de

1 000 élèves soumis à une épreuve de performance standardisée. On suppose que 900 sont

français, parmi lesquels 600 sont d’origine sociale supérieure et obtiennent un score de 80, les

300 autres étant d’origine populaire et obtenant un score de 60. Par ailleurs, 100 élèves sont

étrangers, dont 10 d’origine sociale supérieure avec un score de 82 et 90 d’origine populaire

avec un score de 50. Sur ces données, « l’effet », sur le score de performance, associé au fait

d’être étranger plutôt que français vaut +2 en origine sociale supérieure, mais -10 en origine

sociale populaire. Intuitivement, on pressent que l’analyse de régression « ne se trompera

pas » si elle accorde, dans ses résultats, davantage d’importance à la seconde comparaison.

Celle-ci nous apparaît en effet primordiale puisque beaucoup d’élèves étrangers sont d’origine

populaire et que c’est donc pour cette origine sociale que la comparaison semble la plus

solide. De même, « l’effet », sur le score de performance, associé au fait d’être d’origine

sociale supérieure plutôt que populaire vaut +20 parmi les Français, mais +32 parmi les

étrangers. Là encore, on pressent bien que l’analyse de régression « ne se trompera pas » si

elle accorde, dans ses résultats, davantage d’importance à la première comparaison qui, pour

des raisons d’effectifs analogues à celles vues plus haut, nous apparaît comme la plus solide.

Les résultats de la régression linéaire multiple du score de performance sur l’origine

sociale et la nationalité (sans interaction entre ces deux variables) se conforment-ils à ces

intuitions ? Tel est bien le cas. D’une part, le coefficient de régression partiel estimé pour

« étranger » (par rapport à « Français ») vaut -8,51 ; il est donc intermédiaire entre les

résultats des deux comparaisons, mais fortement attiré par celle en origine populaire. D’autre

part, le coefficient de régression partiel estimé pour « origine sociale supérieure » (par rapport

à « populaire ») vaut +20,52 ; il est donc intermédiaire entre les résultats des deux

comparaisons, mais fortement attiré par celle réalisée parmi les Français.

Si, sans modifier les scores ni la répartition des élèves français selon l’origine sociale,

on transforme la distribution correspondante des élèves étrangers pour la rendre encore plus

extrême, on vérifie bien, par l’exemple, que les coefficients de régression partiels tendent à se

rapprocher des valeurs -10 et +20 caractéristiques des comparaisons qui nous apparaissent

comme les plus appropriées. Par exemple, si les 100 élèves étrangers se répartissent en 1

d’origine sociale supérieure et 99 d’origine populaire, les coefficients de régression partiels

estimés sont -9,84 et +20,06. Ou encore, si l’on suppose que les 100 élèves étrangers sont

d’origine sociale populaire, les coefficients de régression partiels estimés valent bien -10 et

+20. Tout cet exemple, fondé sur des données simulées mais plausibles, suffit donc à étayer

une interprétation réaliste des coefficients de régression : dans un modèle de régression

multiple où l’origine sociale et l’origine nationale comptent parmi les variables explicatives

introduites, le coefficient de régression partiel associé à l’origine étrangère reflète bien,

d’abord et avant tout, la situation relative de ces élèves par rapport aux autres, à l’intérieur

des milieux populaires ou défavorisés.

1 / 13 100%

Documents connexes

Introduction au Modèle Linéaire

Fonction homographique et comportement d`oiseaux

TD Statistique & Reconnaissance de Formes - MATLAB

Text mining

l`actuariel n° 15

Offre de stage

Data Mining 1 Sans détours 2 Premiers tests 3 Classification de

Régression logistique

Régression Logistique avec SPSS : Guide Complet

Les états confusionnels

liste td premiere es - La revanche des SES

Utilisation de la fréquence cardiaque nette (FCN) pour apprécier ou

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Sur l`analyse de régression en sociologie

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Sur l`analyse de régression en sociologie

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib