Intérêt des modèles linéaires généralisés mixtes dans l’analyse des données à structure hiérarchique JF Etard Structure hiérarchique Les données collectées chez l’homme de nature biomédicale ou relatives aux sciences sociales répondent très fréquemment à une structure hiérarchique : • Essai multi-centrique • Données groupées (clustered) • Répétition des mesures chez mêmes sujets (données longitudinales) • Appartenance à une entité géographique (dimension spatiale) • Appartenance à un groupe social, professionnel, institutionnel, scolaire, familial (génétique) • Sondage en grappe • Randomisation par groupe Dès lors que les unités observées appartiennent à une même entité de niveau hiérarchique supérieur, elles auront tendance à se ressembler. La conséquence en est une non indépendance des observations, les données observées sont corrélées entre elles. Cette structure de corrélation doit être reconnue et prise en compte au stade de l’analyse statistique afin d’éviter des inférences statistiques incorrectes concernant les coefficients de régression et afin d’obtenir une meilleure précision des effets. Individu j = 1,…, J Mesure 1 …Mesure i… Centre j = 1, …, J Mesure I Individu 1 …Individu i… Individu I Modèles linéaires généralisés Les modèles linéaires généralisés (McCullagh & Nelder, 1989) permettent une approche unifiée de l’analyse biostatistique, pouvant prendre en compte différentes formes de distribution de la variable dépendante : normale, log-normale, binomiale, poissonienne, binomiale négative etc. Deux composantes, l’une aléatoire, l’autre systématique, sont nécessaires pour écrire le modèle : y=µ+e • • e : erreur aléatoire µ : systématique (linéaire) avec fonction de lien g(µ) = Xβ Le choix de la fonction de lien guidé par la distribution permettra de spécifier le modèle de régression désiré (linéaire, logistique, Poisson, etc). L’interprétation des paramètres dépendra ensuite du type de modèle : Distribution normale Lien canonique Nom de la fonction de lien identité µ binomiale log(µ /1-µ) logit poissonienne log (µ) log Régression Interprétation des coefficients régression linéaire régression logistique régression loglinéaire Augmentation arithmétique logitA - logitB = b exp(b) = OR TauxA – tauxB = b exp(b) = RR Modèles linéaires généralisés mixtes Dans les MLG classiques ou « fixes », les observations sont indépendantes, les effets β sont fixes. Les MLG mixtes vont permettre de modéliser des observations non indépendantes (modélisation de la variance-covariance). Un modèle mixte comprend des effets fixes (nb de modalités fixées, prenant des valeurs constantes) et des effets aléatoires (on considère qu’il existe une loi de distribution de probabilités sous-jacente ; les valeurs sont issues de la réalisation de cette distribution). On peut distinguer trois types de MLGM : 1. Modèles à effets aléatoires : certains effets varient aléatoirement (∃ distribution effets patients, centres…), s’ajoutant à la variation résiduelle 2. Modèles à coefficients aléatoires : variation aléatoire de l’effet des co-variable(s) 3. Modélisation de la structure de corrélation entre observations Trois exemples 1. Modèle simple mesurant l’effet d’un traitement (deux modalités) compte tenu d’un effet « patient » Dans cet exemple chaque patient i reçoit toutes les deux modalités de traitement (j = 1, 2) • L’approche la plus simple consiste à considérer les effets « traitement, t » et « patient, p » comme fixes (cela revient à une ANOVA à 2 facteurs, traitement et patient) : yij = µ + tj + pi + eij var(yij) = σ² Le nombre de paramètres peut être important, fonction du nombre de patients inclus dans l’étude. • Une autre approche consiste à considérer l’effet « patient » comme aléatoire, il s’agit alors d’un modèle mixte estimant la variance associée à l’effet patient : yij = µ + tj + pi + eij eij ∼ N(0, σ²) pi ∼ N(0, σp²) var(yij) = σ² + σp² cov (yij, yij’) = σp² Au lieu d’estimer un effet individuel, comme dans le cas précédant, différent pour chaque sujet, on s’intéresse maintenant à un effet concernant la population générale des patients, considérant que les patients inclus dans l’étude ont été échantillonnés depuis cet univers. On comprend alors qu’il est légitime de considérer ces effets individuels comme des variables aléatoires. Il s’agit d’un modèle à effets aléatoires. On voit que la variance totale est la somme de deux variances, la variance résiduelle et la variance associée aux patients. Cette dernière est équivalente à la covariance entre les mesures effectuées chez un même patient (cette covariance est nulle entre patients différents). 2. Essai multi-centrique avec mesures pre et post Dans cet exemple, le critère de jugement est mesuré avant (pre) et après (y) traitement chez chaque patient. • Estimation simple du traitement : yi = µ + tk + ei • Ajustement sur mesure avant traitement (=ANCOVA) : yi = µ + b. pre + tk + ei • Introduction d’un effet centre fixe: yi = µ + b.pre + tk + cj + ei • Introduction d’un terme d’interaction centre x traitement, fixe : yi = µ + b.pre + tk + cj + (ct)jk+ ei • Effets aléatoire sur centre et centre x traitement conduisant à un modèle mixte à effets aléatoires ; les variances associées à l’effet centre et à l’interaction centre par traitement sont estimées : cj ∼ N(0, σc²) et (ct)jk ∼ N(0, σct²) 3. Modèles pour données longitudinales répétées Le design est le même avec une série de mesures répétées dans le temps. On s’intéresse ici à la relation entre y et le temps. • Le temps (tempsj) est introduit comme co-variable fixe et la pente (m) associée estimée : yij = µ + b . pre + tk + m . tempsij + eij • On considère que la relation avec le temps varie suivant les patients, il faut donc estimer une droite de régression par patient et introduire un intercept et une pente par patient ; le nombre de paramètres devient très important, fonction du nombre de sujets inclus : yij = µ + b.pre + tk + m . tempsij + pi + (pm)i . temps ij + eij • On considère que les sujets sont issus d’une population générale, intercepts et pentes sont alors considérés comme aléatoires : il s’agit d’un modèle mixte à intercept (pi) et pentes aléatoires (pm)i ; les variations aléatoires se font autour d’un intercept et d’une pente moyenne ; les variances et covariances sont estimées, le nombre de paramètres diminue considérablement, le modèle est d’une portée générale. Avantages des modèles mixtes • • • • • • • Devant une structure hiérarchique : o la variance significative est-elle significative ? existe-t-il un effet « cluster » ? o les inférences se font à à l’ensemble des entités possibles de niveau supérieur (centres, hôpitaux, spatial…) d’où une généralisation des résultats au-delà de l’échantillon d’étude. Devant des données répétées avec données manquantes : meilleures estimations des effets fixes et des écart-types Taille d’échantillon plus réduite Devant de petits échantillons : effets aléatoires plus groupés que effets fixes, on évite des paramètres extrêmes par chance Devant des données manquantes « at random » dans un design cross-over ou données répétées : effet du traitement plus précis Les variances par traitement peuvent être estimées L’effet du traitement est autorisé à varier selon les sujets, d’où une meilleure prise en compte de l’effet « individu » et une prédiction possible.