Communication aux 39e Journées de Statistique – Société Française de Statistique – Angers, 11-15 juin 2007
- 1 -
LOUIS-ANDRÉ VALLET (CNRS)
LABORATOIRE DE SOCIOLOGIE QUANTITATIVE
UMR 2773 CNRS & INSEE-CREST
SUR L’ANALYSE DE RÉGRESSION EN SOCIOLOGIE
Résumé : Si l'analyse statistique dite « de régression » se diffuse depuis une dizaine d'années dans la
sociologie française – sous la forme notamment de la régression logistique – son usage ne va pas
encore « de soi » dans cette communauté. Comme le rappelle souvent l'invocation du problème du
renne au Sahara et du chameau au Pôle Nord, cette technique est en effet considérée, plus que
d'autres, comme susceptible de produire des artefacts, c'est-à-dire des résultats dénués de toute
signification sociologique. En utilisant pour exemple l'analyse des parcours scolaires des enfants
d'immigrés, l'article se propose de revenir sur plusieurs aspects souvent mal compris de l'analyse de
régression, notamment les suivants. D'une part, l'analyse de régression dote le sociologue de
diagnostics permettant de détecter des situations limites où l'analyse statistique ne peut délivrer de
résultat robuste. D'autre part, à partir de données simulées, on montre par l'exemple qu'une
interprétation réaliste des coefficients de régression peut être soutenue : les coefficients de régression
partiels estimés sont nettement influencés par les situations caractéristiques des sous-populations qui
sont les plus fréquemment rencontrées dans les données. L'article s'achève par une réflexion sur la
modélisation statistique en sociologie et par la présentation d'un ouvrage, méconnu en France, de
Stanley Lieberson (1985) dans lequel le sociologue plaidait pour un usage lucide et raisonné de la
technologie statistique.
Dans un article actuellement non publié1, Jean-Paul Caille et moi-même avons étudié, à
partir du panel national 1989 d’élèves du second degré, les parcours scolaires des enfants
étrangers ou issus de l’immigration dans l’ensemble du second degré. On pouvait en effet se
demander si des résultats antérieurs établis au collège2 valaient pour toute la scolarité
secondaire et si, en particulier, les aspirations scolaires des familles continuaient à affecter le
déroulement des parcours. L’article apporte à ces questions une réponse positive car les
résultats empiriques qu’il établit peuvent être résumés comme suit. L’obtention d’un
baccalauréat général ou technologique sans redoublement dans le second degré a concerné
21 % des entrants en sixième qui comptaient quatre attributs étrangers, mais 32 % de ceux qui
n’en avaient aucun. De même, il s’agissait de 19 % des jeunes étrangers contre 32 % des
Français, ou encore de 25 % des élèves dont la famille résidait en France depuis 5 à 20 ans
contre 32 % de ceux dont un parent au moins y avait toujours vécu. Toutes ces différences
s’annulent et ne sont plus significatives lorsque l’analyse incorpore la catégorie
socioprofessionnelle du chef de famille (dans une nomenclature détaillée en dix-neuf postes).
Elles se transforment à l’avantage des enfants d’immigrés à la suite d’une description plus
complète du milieu familial (au moyen de dix variables supplémentaires). Cet avantage
s’accroît si l’on tient compte en outre des performances de l’enfant en français et
1 - Mais disponible sur Internet aux adresses suivantes :
http://www.crest.fr/pageperso/vallet/Obernai1.pdf (pour le texte lui-même)
et http://www.crest.fr/pageperso/vallet/Obernai2.pdf (pour les tableaux associés).
2 - Vallet L.-A., Caille J.-P., 1996. – Les élèves étrangers ou issus de l'immigration dans
l'école et le collège français. Une étude d'ensemble, Les dossiers d'Éducation et Formations,
67, Ministère de l'Éducation nationale, DEP.
Communication aux 39e Journées de Statistique – Société Française de Statistique – Angers, 11-15 juin 2007
- 2 -
mathématiques à l’entrée en sixième. Il se réduit enfin quand l’analyse incorpore les
indicateurs, observés en 1991, des aspirations scolaires des familles : cela constitue une
preuve empirique du rôle médiateur de ces aspirations dans l’explication de la réussite
scolaire des enfants d’immigrés. L’obtention du baccalauréat sept ans après l’entrée en
sixième nécessitait l’accès en six années à la classe de terminale et le succès à l’examen dès la
première tentative. Les résultats précédents sont reproduits avec le premier critère ; ils ne le
sont pas avec le second. À situation familiale et sociale identique, ce n’est donc pas dans une
plus forte réussite à l’examen que se forge la supériorité des parcours des enfants d’immigrés,
mais celle-ci prend naissance dans le cours de la carrière scolaire – au collège plus qu’au
lycée – à travers le jeu des aspirations et demandes familiales et de la façon dont l’institution
scolaire en tient compte. Il était enfin possible de retenir un critère de réussite moins strict
dans le second degré : l’obtention d’un baccalauréat général ou technologique, sept, huit ou
neuf années après l’entrée en sixième. L’avantage des enfants d’immigrés sur les autres élèves
de mêmes caractéristiques socio-démographiques se révèle alors plus marqué qu’il ne l’était
pour le succès au baccalauréat sans redoublement. Cela s’interprète comme le fait que, parmi
les élèves confrontés à des difficultés scolaires ou à des parcours atypiques, les enfants
d’immigrés persévèrent davantage que les autres dans la direction de la réussite d’études
longues.
L’analyse longitudinale des parcours des enfants d’immigrés ne conduit donc pas à
conclure à leur échec scolaire massif, mais elle souligne en premier lieu que les ressources
socio-économiques et culturelles du milieu familial forment les déterminants premiers de la
réussite à l’école. Cet aspect essentiel étant rappelé, les résultats que le panel 1989 met au jour
sont compatibles avec des travaux qualitatifs qui ont insisté sur la place de la mobilisation
scolaire dans la reformulation familiale des projets migratoires ou sur la fonction
instrumentale de moyen de promotion sociale que les élèves d’origine étrangère attribuent à
l’école. Les mêmes résultats rejoignent encore des travaux étrangers, fondés sur des données
longitudinales en Australie et aux États-Unis, qui ont souligné la force des aspirations et
motivations éducatives dans les minorités issues de l’immigration ainsi que le rôle de ces
facteurs socio-psychologiques dans la formation et l’explication des trajectoires scolaires.
Les analyses de régression sur lesquelles s’appuient les conclusions de ce dernier article
sont conduites de façon moins abrupte et plus progressive que ce n’était le cas dans la
publication principale de 1996 et l’intelligibilité des résultats qu’elles produisent en sort ainsi
renforcée. Dans un premier modèle, la variable d’intérêt – nombre d’attributs étrangers,
nationalité ou ancienneté en France des parents – est l’unique variable explicative introduite et
la modélisation équivaut donc strictement à l’examen du tri croisé entre cette variable et le
résultat du parcours scolaire. Le second modèle contrôle de surcroît la catégorie
socioprofessionnelle du chef de famille et cela réalise, en quelque sorte, l’analogue de la
comparaison qu’effectuait Paul Clerc en 1964 entre les enfants d’ouvrier étrangers et français.
En incluant encore dix variables socio-démographiques supplémentaires, le troisième modèle
incorpore une description plus complète de l’environnement des élèves et l’on conduit ainsi
une forme de comparaison « à situation familiale et sociale identique ». Enfin, dans les
quatrième et cinquième modèles, sont en outre introduits respectivement une mesure des
performances atteintes à l’entrée en sixième et deux indicateurs des aspirations des familles en
matière d’éducation. On raisonne alors en conduisant une comparaison entre les modalités de
la variable d’intérêt – étrangers contre Français, etc. – après avoir égalisé, « dans l’esprit »,
non seulement la situation familiale et sociale des élèves, mais encore leur niveau initial, puis
les aspirations scolaires de leur famille.
Communication aux 39e Journées de Statistique – Société Française de Statistique – Angers, 11-15 juin 2007
- 3 -
Il reste qu’aujourd’hui encore l’analyse de régression « ne va pas de soi » dans la
communauté sociologique française. Comme le rappelle souvent l’invocation du problème
« du renne au Sahara et du chameau au Pôle Nord »3, il s’agit en effet d’une technique qui est
considérée, plus que d’autres – par exemple, l’analyse factorielle des correspondances
comme susceptible de produire des artefacts, c’est-à-dire des résultats dénués de toute
signification sociologique. La situation française diffère ainsi nettement de celle qui prévaut
dans le monde anglo-saxon où, à l’autre extrême, l’analyse de régression constitue une
technique d’application quasi routinière en sociologie. Le doute, voire la suspicion, présents
en France, sont en outre exacerbés lorsque le modèle de régression met en jeu des variables
explicatives considérées comme trop fortement corrélées, par exemple, s’agissant d’élèves,
l’origine sociale et l’origine nationale. Comme le souligne ainsi la citation suivante,
empruntée à un ouvrage récent de Marie Duru-Bellat4, un fort scepticisme peut alors être
exprimé à propos du raisonnement fondé sur le « contrôle » des variables et à l’égard des
résultats qu’il produit : « Si la modélisation ouvre au chercheur en sciences sociales des
horizons heuristiques, il reste que la clause « toutes choses égales par ailleurs » sur laquelle
elle se fonde présente un risque de « sociologie fiction » redoutable (discuté notamment par
Passeron, 1991). L’estimation de modèles multivariés est une fiction de raisonnement
expérimental, souvent « limite », précisément parce que le raisonnement expérimental sur
lequel ils reposent est évidemment très éloigné de la réalité. Si on admet sans peine qu’on
peut introduire, pour expliquer les choix d’orientation, à la fois les notes scolaires et le sexe
(variables corrélées), pour évaluer un effet du sexe « toutes choses égales par ailleurs » (effet
net restant lui-même à expliquer), le sociologue sera plus gêné devant l’introduction
simultanée de l’origine sociale et de l’origine ethnique, si on entend en déduire un effet de
l’origine ethnique « toutes choses égales par ailleurs ». La quête de l’effet pur tourne ici à la
sociologie fiction : dans la réalité, la distribution des niveaux d’instruction des parents (de
même que la plupart de leurs caractéristiques sociales) est tout sauf égale, entre enfants
français et étrangers. Le sens même de cette variable est défini dans son articulation avec
d’autres. La conséquence, c’est que les résultats sont nécessairement contextualisés : ils sont
produits dans un contexte caractérisé par telles ou telles « conditions initiales », ou telle ou
telle association entre des variables, qu’il faut décrire, ce qui n’est pas toujours fait, ou qu’on
ne fait jamais assez, en associant des tableaux aux analyses modélisées les plus complexes.
Cette question est d’autant plus cruciale que souvent les résultats ne sont pas dénués
d’incidences politiques. Évaluer si la nationalité de l’élève entraîne en elle-même un handicap
(avec à l’origine des facteurs de nature culturelle), ou bien si c’est avant tout le milieu social
associé dans notre pays au fait d’être étranger qui compte, a des incidences concrètes sur les
mesures à prendre pour contrer les difficultés des élèves étrangers » (2002, pp. 48-49).
Faut-il donc souscrire à l’argument selon lequel il est des situations – notamment la
comparaison des parcours scolaires des élèves étrangers et français – où tout recours à
l’analyse de régression devrait être exclu car il risquerait de produire une « sociologie
fiction » ? La réponse à cette question me paraît devoir être négative, à partir de
l’argumentation suivante qui peut être développée en six points.
3 - Il s’agit de l’argument que Maurice Halbwachs reprend de François Simiand à propos de
l’application de la notion de population-type :
Halbwachs M., 1935. – « La statistique en sociologie » in La statistique, ses applications, les
problèmes qu’elle soulève, 1944, Paris, Presses Universitaires de France, 7e semaine
internationale de synthèse, pp. 113-134.
4 - Duru-Bellat M., 2002. – Les inégalités sociales à l’école. Genèse et mythes, Paris, Presses
Universitaires de France.
Communication aux 39e Journées de Statistique – Société Française de Statistique – Angers, 11-15 juin 2007
- 4 -
Premièrement, les doutes exprimés à l’égard de l’analyse de régression doivent être
rapprochés du fait que son entrée dans la sociologie française est récente, puisqu’elle ne s’est
véritablement faite qu’avec la régression logistique, c’est-à-dire il y a une dizaine d’années
environ. Alors que la path analysis, introduite par Otis Dudley Duncan au milieu des années
soixante, s’est rapidement répandue dans la sociologie américaine, il n’en est pas allé de
même en France de l’analyse de dépendance, méthode pourtant très proche, développée par
Raymond Boudon à la même période5. L’explication pourrait tenir au fait que les sociologues
français ont toujours préféré les variables qualitatives ou catégorielles aux variables
quantitatives ou numériques et que le modèle de régression linéaire multiple, qui suppose que
la variable dépendante est quantitative continue et forme aussi le socle de l’analyse de
dépendance, leur était de ce fait peu adapté.
Deuxièmement, dans le monde social, les variables sont corrélées et c’est précisément
pour cette raison que l’analyse de régression est utile. À l’inverse, elle ne serait d’aucune
utilité si toutes les variables explicatives étaient orthogonales ou indépendantes car, dans ce
cas, un simple tri croisé entre la variable dépendante – par exemple le résultat du parcours
scolaire – et la variable d’intérêt – par exemple l’origine nationale – ferait immédiatement
apparaître le lien spécifique de la seconde à la première.
Troisièmement, si une combinaison linéaire de variables explicatives permettait de
reconstruire exactement le sous-échantillon correspondant à une modalité de la variable
d’intérêt – par exemple, si une combinaison particulière de modalités des variables catégorie
socioprofessionnelle du père, diplôme de la mère, taille de la famille, etc. permettait d’isoler
strictement la sous-population des enfants issus de l’immigration ou celle des enfants
d’origine maghrébine – alors le coefficient de régression partiel associé à cette modalité de la
variable d’intérêt ne serait pas estimable et l’on serait dans une situation de colinéarité stricte.
Quatrièmement, la même proposition peut être énoncée sous une forme affaiblie. Si une
combinaison linéaire de variables explicatives permettait de reconstruire presque exactement
le sous-échantillon correspondant à une modalité de la variable d’intérêt – par exemple, si une
combinaison particulière de modalités des variables catégorie socioprofessionnelle du père,
diplôme de la mère, taille de la famille, etc. permettait presque d’isoler la sous-population des
enfants issus de l’immigration ou celle des enfants d’origine maghrébine – alors il deviendrait
très difficile de « séparer les effets des variables » et cela se traduirait par des estimations très
incertaines puisque les erreurs-types associées aux coefficients de régression partiels seraient
très grandes. Une conclusion importante de ces deux arguments est que, sur le plan technique,
l’analyse de régression dote le sociologue de diagnostics qui lui permettent de détecter des
situations limites – colinéarité stricte ou quasi-colinéarité – où l’analyse statistique ne peut
délivrer de résultat robuste.
Cinquièmement, il est possible de défendre une interprétation réaliste des coefficients
de régression partiels, c’est-à-dire argumenter l’idée suivante : lorsque la variable d’intérêt est
assez fortement corrélée avec une autre variable explicative, alors le coefficient de régression
partiel associé à une modalité particulière de la variable d’intérêt traduira surtout la situation
5 - Quelques articles à tonalité méthodologique, rédigés notamment par Boudon, Chapoulie,
Degenne et Isambert, ont été publiés dans la Revue française de sociologie jusqu’au début de
la décennie soixante-dix, mais l’analyse de dépendance n’est jamais devenue une méthode
d’usage courant, contrairement par exemple à l’analyse factorielle des correspondances.
Communication aux 39e Journées de Statistique – Société Française de Statistique – Angers, 11-15 juin 2007
- 5 -
de la population correspondante relativement à la population de référence dotée des mêmes
caractéristiques sur la seconde variable explicative. Ou encore, pour l’exprimer plus
simplement à partir du même exemple, le coefficient de régression partiel estimé pour les
élèves issus de l’immigration traduira surtout la situation de ceux-ci relativement aux élèves
non issus de l’immigration et appartenant aux milieux sociaux défavorisés.
Sixièmement, raisonner à partir de données simulées, mais plausibles du point de vue de
la corrélation entre les variables explicatives, permet d’illustrer la pertinence de cette
interprétation réaliste des coefficients de régression partiels. Soit en effet un échantillon de
1 000 élèves soumis à une épreuve de performance standardisée. On suppose que 900 sont
français, parmi lesquels 600 sont d’origine sociale supérieure et obtiennent un score de 80, les
300 autres étant d’origine populaire et obtenant un score de 60. Par ailleurs, 100 élèves sont
étrangers, dont 10 d’origine sociale supérieure avec un score de 82 et 90 d’origine populaire
avec un score de 50. Sur ces données, « l’effet », sur le score de performance, associé au fait
d’être étranger plutôt que français vaut +2 en origine sociale supérieure, mais -10 en origine
sociale populaire. Intuitivement, on pressent que l’analyse de régression « ne se trompera
pas » si elle accorde, dans ses résultats, davantage d’importance à la seconde comparaison.
Celle-ci nous apparaît en effet primordiale puisque beaucoup d’élèves étrangers sont d’origine
populaire et que c’est donc pour cette origine sociale que la comparaison semble la plus
solide. De même, « l’effet », sur le score de performance, associé au fait d’être d’origine
sociale supérieure plutôt que populaire vaut +20 parmi les Français, mais +32 parmi les
étrangers. Là encore, on pressent bien que l’analyse de régression « ne se trompera pas » si
elle accorde, dans ses résultats, davantage d’importance à la première comparaison qui, pour
des raisons d’effectifs analogues à celles vues plus haut, nous apparaît comme la plus solide.
Les résultats de la régression linéaire multiple du score de performance sur l’origine
sociale et la nationalité (sans interaction entre ces deux variables) se conforment-ils à ces
intuitions ? Tel est bien le cas. D’une part, le coefficient de régression partiel estimé pour
« étranger » (par rapport à « Français ») vaut -8,51 ; il est donc intermédiaire entre les
résultats des deux comparaisons, mais fortement attiré par celle en origine populaire. D’autre
part, le coefficient de régression partiel estimé pour « origine sociale supérieure » (par rapport
à « populaire ») vaut +20,52 ; il est donc intermédiaire entre les résultats des deux
comparaisons, mais fortement attiré par celle réalisée parmi les Français.
Si, sans modifier les scores ni la répartition des élèves français selon l’origine sociale,
on transforme la distribution correspondante des élèves étrangers pour la rendre encore plus
extrême, on vérifie bien, par l’exemple, que les coefficients de régression partiels tendent à se
rapprocher des valeurs -10 et +20 caractéristiques des comparaisons qui nous apparaissent
comme les plus appropriées. Par exemple, si les 100 élèves étrangers se répartissent en 1
d’origine sociale supérieure et 99 d’origine populaire, les coefficients de régression partiels
estimés sont -9,84 et +20,06. Ou encore, si l’on suppose que les 100 élèves étrangers sont
d’origine sociale populaire, les coefficients de régression partiels estimés valent bien -10 et
+20. Tout cet exemple, fondé sur des données simulées mais plausibles, suffit donc à étayer
une interprétation réaliste des coefficients de régression : dans un modèle de régression
multiple où l’origine sociale et l’origine nationale comptent parmi les variables explicatives
introduites, le coefficient de régression partiel associé à l’origine étrangère reflète bien,
d’abord et avant tout, la situation relative de ces élèves par rapport aux autres, à l’intérieur
des milieux populaires ou défavorisés.
1 / 13 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !