Séminaire organisé par l’école doctorale thématique PSYCEDUC et le GIRSEF Louvain-La-Neuve: 10-11 mars 2011 L’analyse de données longitudinales: les modèles multiniveaux de croissance Pascal BRESSOUX Université Pierre-Mendès-France Grenoble Laboratoire des Sciences de l’Education Bruxelles: De Boeck 2008 (2e éd. Nov. 2010) Analyses contextuelles et problèmes posés par les moindres carrés ordinaires Principes de l’analyse multiniveau Modèles multiniveaux (ou modèles hiérarchiques linéaires) Nés des avancées des modèles de contexte et des modèles mixtes. But : étudier les effets de l’environnement sur le « comportement » individuel. Données sur plusieurs « niveaux » : - Un effet-classe sur les acquis des élèves ? - Un effet-juge sur les condamnations des prévenus ? - Un effet-quartier sur la délinquance des jeunes ? - Un effet-pays sur les résultats des élèves à PISA ? - Etc. Souvent, structure hiérarchisée. Exemple : des élèves (niveau 1) dans des classes (niveau 2), etc. Exemple d’une structure hiérarchisée à quatre niveaux Académie 1 Ecole 1 Académie 2 Ecole 2 Ecole 3 Ecole 4 Niveau 4 (Académies) Niveau 3 (Ecoles) …/… Classe 1 él. 1 él. 2 Classe 2 él. 3 él. 4 Classe 3 él. 5 él. 6 Classe 4 él. 7 él. 8 Niveau 2 (classes) Niveau 1 (élèves) Problèmes posés par l’analyse de données hiérarchisées Non-indépendance des résidus Agrégation vs désagrégation (voir aussi diapo suivante) Effets aléatoires et effets fixes Hétérogénéité des relations Le modèle de régression par les MCO Yij 0 1 X ij ij où i = individus (unités d’analyse) et j = macro-unités (indistinctes) Droite de régression simple (sans distinction de classes) yij x x x x eij 1 x x 0 xij Hypothèses sur les erreurs i 2 N 0 , ~ 1 2 3 4 n ~ 0 2 0 0 0 2 0 0 0 0 0 0 0 2 0 N , 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 Admettons maintenant qu’on y inclue une variable de niveau 2, qu’on nommera Z. Si l’on raisonne sur les individus, on travaille sur des données désagrégées au niveau 1 (N = I): Yij 0 1 X ij 2 Z ij ij Si l’on raisonne sur les groupes, on travaille sur des données agrégées au niveau 2 (N = J): Y . j 0 1 X . j 2 Z j . j Estimation MCO des effets-classes (les gammas représentent des effets fixes) (N = I): Yij 0 1 X ij 1C1ij 2C2ij 3C3ij ... J 1C J 1ij ij Le modèle multiniveau Le modèle « vide » équivalant à une ANOVA avec effets aléatoires Au niveau 1 Yij 0 j eij Au niveau 2 0 j 00 u0 j Equation complète Yij 00 u0 j eij Coefficient de corrélation intra-classe 2 u0 u20 e2 = mesure du degré de « ressemblance » des individus i qui appartiennent à une même macro unité j. Un exemple : étude de la variance des acquis en français à l’école élémentaire 516 élèves d’âge élémentaire appartenant à 24 classes. Acquis des élèves mesurés à l’aide d’épreuves standardisées en début et en fin d’année scolaire dans la discipline du français. On cherche à savoir ce qui fait varier les acquis des élèves en cours d’année. Les scores d’acquisitions des élèves ont été normalisés, centrés et réduits Modèle vide décomposant les parts de variance inter et intraclasses du score final en français Paramètres Modèle 1 (vide) Effets fixes Constante 0,007 (0,078) Effets aléatoires Variance inter-classes 0,103 (0,042) Variance inter-élèves 0,890 (0,057) –2 log V 1434,071 0,103 0,104 0,103 0,890 Le modèle multiniveau à constantes aléatoires Niveau 1 Yij 0 j 1 X ij eij Niveau 2 0 j 00 u0 j 1 10 Equation complète Yij 00 10 X ij u0 j eij Les composants de la variance : Variance totale : Var eij e2 Var u0 j u20 Varyij e2 u20 eij N(0, e2 ) u0 j N(0, u20 ) Une matrice de variance-covariance des erreurs « bloc-diagonale » u20 e2 u20 u20 0 0) 0 u20 e2 u20 0 0 0 u20 2 2 2 2 0 0 0 u0 u0 u0 e 0 0 0 u20 e2 u20 u20 2 2 2 2 0 0 0 u 0 u 0 e u 0 V 0 0 0 u20 u20 u20 e2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 u20 e2 u20 u20 2 2 2 2 u0 u0 e u0 u20 u20 u20 e2 Un exemple d’estimation avec constantes aléatoires Modèles expliquant le score final en français (données aménagement du temps scolaire 1997-98) Paramètres Modèle 1 Modèle 2 0,007 (0,078) 0,007 (0,078) Effets fixes Constante Score initial en français 0,690 (0,031) Effets aléatoires Variance des constantes 0,103 (0,042) 0,096 (0,034) Variance inter-élèves 0,890 (0,057) 0,442 (0,028) 1434,071 1084,083 –2 log L N = 516 Le score initial (modèle 2) « n’explique » quasiment pas la variance des constantes (variance interclasses), mais il « explique » environ la moitié de la variance inter-élèves (intraclasse). Le modèle multiniveau complet : constantes et pentes aléatoires Niveau 1 Niveau 2 Yij 0 j 1 j X ij eij 0 j 00 u0 j 1 j 10 u1 j Equation complète Yij 00 10 X ij u0 j u1 j X ij eij Les composants de la variance : Var eij e2 Var u0 j u20 Var u1 j u21 Covu0 j , u1 j u10 Variance de Y devient fonction quadratique de X var Yij X ij e2 u20 u21 X ij2 2 u 01 X ij Structure des erreurs au niveau 2 u 0 j 0 u20 u 01 ~ N , 2 0 u 1 j u1 u10 au niveau 1, eij ~ N(0, 2 ) e Un exemple d’estimation avec constantes et pentes aléatoires Modèles expliquant le score final en français (données aménagement du temps scolaire 1997-98) Paramètres Modèle 1 Modèle2 Modèle 3 0,007 (0,078) 0,007 (0,078) 0,008 (0,069) 0,690 (0,031) 0,690 (0,041) 0,096 (0,034) 0,092 (0,033) Effets fixes Constante Score initial en français Effets aléatoires Niveau 2 (classes) : Variances des constantes 0,103 (0,042) Covariance constantes-pentes 0,014 (0,014) Variance des pentes 0,016 (0,011) Niveau 1 : variance inter-élèves –2 log L N = 516 0,890 (0,057) 0,442 (0,028) 0,441 (0,025) 1434,071 1084,083 1079,525 Calcul de la décroissance de la déviance avec 2 paramètres supplémentaires à estimer : D = 1084,083 – 1079,525 = 4,558 Pour atteindre p < 0,05, le Khi2 à 2 ddl devrait au moins être égal à 5,99. Il n’y a donc pas d’évidence ici que la relation entre le score initial et le score final varie en fonction des classes. Le tableau montre la covariance constantes-pentes. La corrélation (en fait, ici, elle n’est pas significativement différente de 0) peut être calculée de la manière suivante : r 0,014 0,37 0,092 0,016 On peut contraindre la covariance constantes pentes à être nulle. Par rapport au modèle sans pentes aléatoires, il n’y a alors qu’un seul paramètre supplémentaire à estimer. Exemple (mêmes données) : Variance des constantes = 0,094 (erreur-type = 0,033) Variance des pentes = 0,017 (erreur-type = 0,011) Variance de niveau 1 = 0,427 (erreur-type = 0,028) –2 log L = 1080,548 En ce cas, le calcul de la décroissance de la déviance avec 1 paramètre supplémentaire à estimer : D = 1084,083 – 1080,548 = 3,54. On est proche alors du seuil de significativité (pour atteindre p < 0,10 ; Khi2 à 1 ddl > 2,71 ; pour atteindre p < 0,05 ; le Khi2 à 1 ddl > 3,84). Un exemple d’estimation avec constantes et pentes aléatoires Modèles expliquant le score final en maths (données aménagement du temps scolaire 1997-98) Paramètres Modèle 1 Modèle2 Modèle 3 Modèle 4 0,010 (0,072) 0,003 (0,064) 0,016 (0,064) 0,016 (0,064) 0,711 (0,031) 0,713 (0,042) 0,713 (0,042) 0,077(0,028) 0,077(0,029) 0,077(0,029) Effets fixes Constante Score initial en maths Effets aléatoires Niveau 2 (classes) : Variances des constantes 0,080 (0,036) Covariance constantes-pentes 0,004 (0,013) Variance des pentes 0,019 (0,012) 0,019 (0,012) Niveau 1 : variance inter-élèves –2 log L N = 516 0,920 (0,059) 0,442 (0,028) 0,425 (0,028) 0,425 (0,028) 1446,170 10079,990 10074,956 10075,028 ∆(2 – 3) = 5,034 (pour 2 ddl) ; ∆(2 – 4) = 4,962 (pour 1 ddl) ATTENTION! Une question de méthode d’estimation : -Maximum de vraisemblance complet (ML ou FML) Ou -Maximum de vraisemblance restreint, ou résiduel (RML) Ajoutons une variable Z de niveau 2 au niveau 1 au niveau 2 Yij 0 j 1 j X ij eij 0 j 00 01Z j u0 j 1 j 10 11Z j u1 j Interaction inter-niveaux Equation complète Yij 00 01Z j 10 X ij 11Z j X ij u0 j u1 j X ij eij Le modèle multiniveau de croissance Relation entre les scores initial et final pour un échantillon d’individus y x Relation entre le temps et les scores pour un individu donné y t1 t2 t3 t Exemple d’une structure hiérarchisée de croissance Classe 1 Elève 1 Classe 2 Elève 2 Elève 3 Niveau 3 (Classes) Elève 4 Niveau 2 (Elèves) … /… mes. 1 mes. 2 mes. 3 mes. 1 mes. 2 mes. 3 Niveau 1 (Mesures) Une mesure du déroulement du Formalisation du temps est nécessaire (âge, durée…) Niveau 1 : modèle de croissance Yti 0i 1iTEMPSti 2i X ti eti Niveau initial moyen Niveau 2 : Rythme de croissance moyen 0i 00 01Z i u0i 1i 10 11Z i u1i 2i 20 Caractéristique qui varie avec le temps Caractéristique interindividuelle stable dans le temps En intégrant dans une même équation : Yti 00 01Zi 10TEMPSti 11Zi * TEMPSti 20 X ti u0i u1iTEMPS eti Rythme de croissance fonction aussi de Z Variance de Y fonction du temps (= gestion de l’hétéroscédasticité des erreurs) Modèle très souple Fonctionne pour données non équilibrées (ne nécessite pas le même nombre de mesures par sujet) Fonctionne pour des mesures prises à différents moments et dont l’espacement diffère (ne nécessite pas que tous les sujets soient mesurés au même moment). Permet de prendre en compte des environnements « macro » pour les individus: - classes, écoles, etc. pour les élèves - ateliers, usines, etc. pour les ouvriers - quartiers, villes, etc. pour les jeunes - Circonscription, canton, etc. pour les électeurs - Etc. 1er exemple : Une étude empirique L’évolution des perceptions de soi dans le passage CM2-6e Méthode Participants 62 élèves appartenant à 6 classes de CM2 en t1 et 9 classes de 6e en t2 et t3 Matériel Echelle SPP de Harter traduite et validée par Nurra et Pansu (perceptions de soi, importance accordée aux domaines, soutien social perçu) Jugement des enseignants (score de 0 à 10 en français et en maths) Fiches de renseignements sociodémographiques (âge, sexe…) Procédure Echelle SPP (perceptions de soi, importance aux domaines, soutien social perçu) passée à 3 temps. Jugement des enseignants (français + maths) récolté à 3 temps. T1: fin CM2 (mai 2005) T2 : début 6e (octobre-novembre 2005) T3 : fin 6e (mai 2006) Quelques cas individuels de croissance Elève 1 Elève 2 4 4 3,5 3,5 3 3 2,5 2,5 2 2 1,5 1,5 1 1 0 2 4 6 8 10 12 0 2 4 6 8 10 12 Peut-on établir un modèle de tout cela? Elève 14 Elève 12 4 4 3,5 3,5 3 3 2,5 2,5 2 2 1,5 1,5 1 1 0,5 0,5 0 0 0 2 4 6 8 10 12 0 2 4 Elève 51 6 8 10 12 8 10 12 Elève 41 4 4 3,5 3,5 3 3 2,5 2,5 2 2 1,5 1,5 1 1 0,5 0,5 0 0 0 2 4 6 8 10 12 0 2 4 6 Moyennes observées 0 6 12 3,05 2,97 2,92 Une spécification linéaire semble adaptée : de toute façon, impossible de spécifier une fonction d’ordre plus élevé (seulement 3 points) Evolution moyenne des perceptions de soi scolaires La structure des données peut être considérée comme complexe : Niveau 1 : mesures Niveau 2 : les élèves Niveau 3 : les classes de CM2 et de 6e (structure aléatoire croisée). Variables intégrées dans le modèle : Variable TEMPS mesurée en nombre de mois (0, 6, 12) Des caractéristiques stables dans le temps (sexe, à l’heure ou en avance) Des caractéristiques qui varient dans le temps (importance du domaine de l’école, jugement des enseignants, soutien des camarades) Etude de la croissance du sentiment de compétence scolaire Modèle à tester (différent de celui de Harter) Jugement de l’enseignant Sentiment de compétence scolaire Soutien social perçu Paramètres Modèle 1 Modèle 2 Modèle 3 2,981 (0,074)* 3,044 (0,076)* 1,226 (0,298)* –0,011 (0,005)* –0,073 (0,032)* Effets fixes Constante Temps Heure –0,074 (0,142) Avance 0,159 (0,218) Garçon –0,065 (0,086) Soutien camarades 0,035 (0,075) Jugement enseignant 0,098 (0,010)* Importance de l’Ecole 0,096 (0,044)* Temps × Soutien camarades 0,025 (0,010)* Effets aléatoires Niveau 2 : Constante Temps Cov constante*temps Niveau 1 : –2 log L (Full ML) Effets fixes : * p < .05 0,306 (0,062) 0,290 (0,060) 0,0005 (0,0003) 0,075 (0,024) 0,0000 (0,0002) 0,108 (0,014) 0,086 (0,014) 0,099 (0,017) 252,93 245,33 171,34 Certaines hypothèses pourraient facilement être testées avec les modèles multiniveaux de croissance Epstein : Dans modèle hiérarchique de soi, les schémas de haut degré (e.g. l’estime de soi) sont plus résistants aux changements que les conceptions d’ordre inférieur (e.g. la perception de soi dans des domaines spécifiques). Peut-on tester cette hypothèse ? Si hypothèse vraie, on devrait observer que la part de variance interindividuelle est plus forte pour l’estime de soi que pour la perception de soi dans des domaines spécifiques. Estime de soi (Valeur propre) Scolaire Conduite Apparence Physique Social Part de variance interindivid uelle (Rho) 64,9 % 74,0 % 69,9 % 79,8 % 67,1 % 59,2 % Fonction de variance interindivid uelle ns Tendance signif (p < .10) Augmente avec le temps ns Signif Augmente avec le temps ns ns Rythme de croissance moyen ns significatif (décroît dans le temps) ns ns ns ns L’estime de soi mesurée avec l’échelle de Rosenberg donne les valeurs suivantes : - Part de variance interindividuelle : Rho = 68,1 % - Fonction de variance interindividuelle : ns - Rythme de croissance : ns ATTENTION, il faudrait aussi tenir compte de la fidélité des mesures. 2e exemple : Modèle de croissance des effets à long terme de la réduction des effectifs au CP Le Ministère de l’Education Nationale français a lancé en 2002-2003 une expérimentation d’envergure visant à réduire la taille des classes de CP (1ère année élémentaire) à 10 élèves dans les zones défavorisées. Méthode Participants 100 classes expérimentales (8 à 12 élèves par classe dans les faits avec une moyenne égale à 10,45) 100 classes témoins (15 à 27 élèves par classe dans les faits avec une moyenne égale à 21,29). Toutes dans des milieux défavorisés (écoles en zone d’éducation prioritaire) Les élèves ont été suivis jusqu’à la fin de la 2e année élémentaire (en fait jusqu’au début de la 3e année mais les scores ne peuvent pas être mis sur la même échelle que les scores précédents). (Dans les écoles témoins, ces évaluations n’ont porté que sur 10 élèves choisis aléatoirement.) Leurs acquisitions en français-lecture ont été testées 5 fois (avec items d’ancrage). - Début, milieu et fin CP - Début et fin CE1 Modèles de réponse à l’item ont permis de mettre tous les scores sur une même échelle de mesure. 1163 élèves retenus pour les analyses (i.e. ceux qui étaient présents à la première et à la dernière évaluation). Structure des données : Niveau 1 : mesures (Nt = 5433) Niveau 2 : les élèves (Ni = 1163) Niveau 3 : les écoles (Nj = 69) Variables intégrées dans le modèle : Variable TEMPS mesurée en nombre de mois (0, 5, 8, 12, 20) Des caractéristiques stables dans le temps (origine sociale, sexe) Des caractéristiques de niveau supérieur (ancienneté enseignant, expérimentation) Figure 1 : Evolution des résultats bruts Variable d'analyse : score_francais time Obs N Moyenne N Ecart-type Minimum Maximum ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 0 1163 1163 -0.7470158 1.1387861 -3.6658400 3.5490100 5 1163 1095 1.0424832 0.9507920 -1.4529400 5.8454600 8 1163 999 1.8025968 1.0972123 -2.5008300 5.7569900 12 1163 1013 1.9704838 1.1691808 -0.9668000 5.7569900 20 1163 1163 2.8968559 1.1230747 -0.3306000 6.3903300 ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 3,5 3 Score en français 2,5 2 1,5 Gpe contrôle Gpe expé 1 0,5 0 -0,5 0 5 10 15 20 25 -1 Temps Figure 2 : Evolution des résultats bruts en fonction du groupe expérimental Quelle spécification adopter? Une spécification cubique? 3,5 3 Score français 2,5 2 1,5 1 0,5 0 -0,5 0 5 10 15 20 -1 Temps Figure 3 : Spécification cubique des résultats (sans variables de contrôle) 25 Finalement, choix pour une spécification piecewise avec deux ruptures de pente Paramètres Modèle 1 (inconditionnel = Modèle 2 inconditionnel de croissance : « vide ») Variance totale = 0,094 + 0,703 + 0,610 = 1,407 Effets fixes = 0,0688 Constante Variance inter-écoles = 0,094/1,407 0,379 (0,047)*** (6,88 % de la variance totale) Temps Variance inter-élèves = 0,703/1,407 = 0,4996 (Temps – 8)*post-CP (Temps – 12)*CE1 (49,96 % de la variance totale) Variance intra-élèves = 0,610/1,407 = 0,4336 Effets aléatoires Variance inter-écoles(43,36 (niveau% 3)de la variance totale) 0,090 (0,027)*** Variance constantes Covariance Constantes/temps Variance temps Variance inter-élèves (niveau 2) Variance constantes Covariance Constantes/temps Variance temps Variance intra-élèves (niveau 1) –2 log L (déviance) Nt = 5433 (mesures) Ni = 1163 (élèves) Nj = 69 (écoles) Modèle 2 (inconditionnel de croissance) -0,147 (0,049)** 0,170 (0,002)*** 0,094 (0,027)*** 0,335 (0,037)*** 0,703 (0,035)*** 2,370 (0,051)*** 20760,97 0,610 (0,013)*** 14951,46 Modèle 3 : Paramètres Modèle 3 = 1,218 Modèle 4 Variance totale = 0,090 + 0,749 + 0,379 Effets fixesVariance inter-écoles = 0,090/1,218 = 0,0739 (7,39 % de la Constante (0,049)*** -0,683 (0,056)*** variance-0,684 totale) Temps 0,323 (0,003)*** 0,323 Variance inter-élèves = 0,749/1,218 = 0,6149 (61,49 % (0,004)*** de (Temps – 8)*post-CP -0,304 (0,009)*** -0,305 (0,007)*** la variance totale) (Temps – 12)*CE1 0,097 (0,009)*** 0,098 (0,008)*** Variance intra-élèves = 0,379/1,218 = 0,3112 (31,12 % de Effets aléatoires la variance totale) Variance inter-écoles (niveau 3) Variance constantes Covariance Constantes/temps Variance temps Variance inter-élèves (niveau 2) Variance constantes Covariance Constantes/temps Variance temps Variance intra-élèves (niveau 1) –2 log L (déviance) Nt = 5433 (mesures) Ni = 1163 (élèves) Nj = 69 (écoles) 0,090 (0,026)*** 0,144 (0,037)*** -0,0052 (0,0017)** 0,0005 (0,0001)*** 0,749 (0,036)*** 0,791 (0,041)*** -0,0062 (0,0016)*** 0,0011 (0,0001)*** 0,379 (0,013)*** 12907,32 0,282 (0,007)*** 12468,15 Paramètres Effets fixes Constante Temps (Temps – 8)*post-CP (Temps – 12)*CE1 Profession du père (référence = cadre sup.) Agriculteur/artisan Prof. intermédiaire Employé Ouvrier Autre Fille CP réduit Ancienneté CP Temps*CP réduit (Temps – 8)*post-CP*CP réduit (Temps – 12)*CE1*CP réduit Temps*Ancienneté CP (Temps – 8)*post-CP*Ancienneté CP (Temps – 12)*CE1*Ancienneté CP Effets aléatoires Variance inter-écoles (niveau 3) Variance constantes Covariance Constantes/temps Variance temps Variance inter-élèves (niveau 2) Variance constantes Covariance Constantes/temps Variance temps Variance intra-élèves (niveau 1) –2 log L (déviance) Modèle 5 -0,361 (0,141)* 0,297 (0,007)*** -0,243 (0,014)*** 0,067 (0,014)*** -0,399 (0,175)* -0,1575 (0,151) -0,319 (0,143)* -0,556 (0,127)*** -0,602 (0,128)*** 0,240 (0,053)*** 0,023 (0,097) ns 0,006 (0,006) ns 0,0295 (0,0075)*** -0,0641 (0,0154)*** 0,0225 (0,0158) ns 0,0019 (0,0005)*** -0,0050 (0,0011)*** 0,0034 (0,0011)** 0,140 (0,037)*** -0,0054 (0,0017)** 0,0005 (0,0001)*** 0,751 (0,039)*** -0,0065 (0,0015)*** 0,0011 (0,0001)*** 0,277 (0,007)*** 12353,10 3,5 3 Score français 2,5 2 1,5 Gpe contrôle Gpe expé 1 0,5 0 -0,5 0 5 10 15 20 25 -1 Temps Figure 4 : Evolution des scores de français selon le groupe expérimental ou contrôle (la figure est tirée du modèle 5) Pour explorer d’autres possibilités de ce genre de modèles 3,5 3 Score français 2,5 2 1,5 Défavorisés 1 Favorisés 0,5 0 -0,5 0 5 10 15 20 25 -1 -1,5 Les pentes sont parallèles pendant les périodes de scolarisation. Les défavorisés Temps « perdent » par rapport aux favorisés durant la période de vacances. Figure 5 : Evolution des scores de français selon la catégorie socioprofessionnelle du père Figure 6 : Evolution de l’effet de l’ancienneté sur les score de français MERCI POUR VOTRE ATTENTION « Similarité » des individus au sein des contextes « Qui se ressemble s’assemble »… - Eventuelle sélection par les écoles - Eventuel choix des parents - Ségrégation spatiale en cas de carte scolaire … « Qui s’assemble se ressemble » - Destin commun (partage d’un même environnement) - interactions (influence mutuelle) Illustration du biais d’agrégation (Cf. observations classes DEP 95 : Relation entre jugement des enseignants et scores des élèves) Corrélation (toutes classes confondues) = 0,28 (p = 0,003). Corrélation inter-classes = –0,77 (p = 0,002). Corrélation médiane intra-classes = 0,73. Approche par la régression : Jˆij 2,47 0,020 Sij 0, 007 Jugement M1 Jˆ . j 4,16 0,022 S . j M2 0,006 M3 Jˆij 4,03 0,060 Sij 0,080 S . j 0, 008 0,011 contexte inter intra Score L’estimation de la part de variance inter-groupes Simulation… Données issues de tables de nombres aléatoires, groupées dans des macrounités (extrait de Wonnacott & Wonnacott, 1991, p. 867) Groupe Nombres aléatoires Moyenne Ecart-type 1 2 3 4 5 6 7 8 9 10 39 65 76 45 45 19 90 69 64 61 73 71 23 70 90 65 97 60 12 11 72 20 47 33 84 51 67 47 97 19 75 17 25 69 17 17 95 21 78 58 37 48 79 88 74 63 52 06 34 30 02 89 08 16 94 85 53 83 29 95 87 18 15 70 07 37 79 49 12 38 98 83 71 70 15 89 09 39 59 24 10 08 58 07 04 76 62 16 48 68 47 90 56 37 31 71 82 13 50 41 57.30 57.20 53.70 47.20 51.10 55.40 41.20 55.70 35.70 51.80 20.49 31.05 26.18 30.76 25.36 38.27 29.23 31.00 29.16 23.71 50.63 28.50 Total ρ = 0,059 (Proc ANOVA). Donc, part de variance inter-groupes = 5,9 % Droites de régression avec constantes aléatoires yij Classe j Moyenne u0 j xij Droites de régression avec constantes et pentes aléatoires yij Classe j Moyenne 1 u1 j xij Variance interindividuelle de la perception de soi scolaire 0,4 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0 0 2 4 6 8 10 Temps (en nombre de mois) Fonction de la variance interindividuelle de la perception de soi scolaire 12 14 Sentiment de compétence scolaire 4 3,5 3 Soutien faible 2,5 Soutien moyen Soutien fort 2 1,5 1 0 2 4 6 8 10 12 Temps Effet du soutien des camarades sur le sentiment de compétence scolaire (Soutien faible = M – 1s ; soutien moyen = M ; soutien fort = M + 1s)