modèles linéaires généralisés mixtes

publicité
Intérêt des modèles linéaires généralisés mixtes dans
l’analyse des données à structure hiérarchique
JF Etard
Structure hiérarchique
Les données collectées chez l’homme de nature biomédicale ou relatives aux sciences sociales
répondent très fréquemment à une structure hiérarchique :
• Essai multi-centrique
• Données groupées (clustered)
• Répétition des mesures chez mêmes sujets (données longitudinales)
• Appartenance à une entité géographique (dimension spatiale)
• Appartenance à un groupe social, professionnel, institutionnel, scolaire, familial (génétique)
• Sondage en grappe
• Randomisation par groupe
Dès lors que les unités observées appartiennent à une même entité de niveau hiérarchique supérieur,
elles auront tendance à se ressembler. La conséquence en est une non indépendance des observations,
les données observées sont corrélées entre elles. Cette structure de corrélation doit être reconnue et
prise en compte au stade de l’analyse statistique afin d’éviter des inférences statistiques incorrectes
concernant les coefficients de régression et afin d’obtenir une meilleure précision des effets.
Individu j = 1,…, J
Mesure 1
…Mesure i…
Centre j = 1, …, J
Mesure I
Individu 1
…Individu i…
Individu
I
Modèles linéaires généralisés
Les modèles linéaires généralisés (McCullagh & Nelder, 1989) permettent une approche unifiée de
l’analyse biostatistique, pouvant prendre en compte différentes formes de distribution de la variable
dépendante : normale, log-normale, binomiale, poissonienne, binomiale négative etc. Deux composantes,
l’une aléatoire, l’autre systématique, sont nécessaires pour écrire le modèle :
y=µ+e
•
•
e : erreur aléatoire
µ : systématique (linéaire) avec fonction de lien g(µ) = Xβ
Le choix de la fonction de lien guidé par la distribution permettra de spécifier le modèle de régression
désiré (linéaire, logistique, Poisson, etc). L’interprétation des paramètres dépendra ensuite du type de
modèle :
Distribution
normale
Lien canonique Nom de la fonction
de lien
identité
µ
binomiale
log(µ /1-µ)
logit
poissonienne
log (µ)
log
Régression
Interprétation des coefficients
régression
linéaire
régression
logistique
régression loglinéaire
Augmentation arithmétique
logitA - logitB = b
exp(b) = OR
TauxA – tauxB = b
exp(b) = RR
Modèles linéaires généralisés mixtes
Dans les MLG classiques ou « fixes », les observations sont indépendantes, les effets β sont fixes. Les
MLG mixtes vont permettre de modéliser des observations non indépendantes (modélisation de la
variance-covariance). Un modèle mixte comprend des effets fixes (nb de modalités fixées, prenant des
valeurs constantes) et des effets aléatoires (on considère qu’il existe une loi de distribution de probabilités
sous-jacente ; les valeurs sont issues de la réalisation de cette distribution).
On peut distinguer trois types de MLGM :
1. Modèles à effets aléatoires : certains effets varient aléatoirement (∃ distribution effets patients,
centres…), s’ajoutant à la variation résiduelle
2. Modèles à coefficients aléatoires : variation aléatoire de l’effet des co-variable(s)
3. Modélisation de la structure de corrélation entre observations
Trois exemples
1. Modèle simple mesurant l’effet d’un traitement (deux modalités) compte tenu d’un effet
« patient »
Dans cet exemple chaque patient i reçoit toutes les deux modalités de traitement (j = 1, 2)
•
L’approche la plus simple consiste à considérer les effets « traitement, t » et « patient, p »
comme fixes (cela revient à une ANOVA à 2 facteurs, traitement et patient) :
yij = µ + tj + pi + eij
var(yij) = σ²
Le nombre de paramètres peut être important, fonction du nombre de patients inclus dans l’étude.
•
Une autre approche consiste à considérer l’effet « patient » comme aléatoire, il s’agit
alors d’un modèle mixte estimant la variance associée à l’effet patient :
yij = µ + tj + pi + eij
eij ∼ N(0, σ²)
pi ∼ N(0, σp²)
var(yij) = σ² + σp²
cov (yij, yij’) = σp²
Au lieu d’estimer un effet individuel, comme dans le cas précédant, différent pour chaque sujet, on
s’intéresse maintenant à un effet concernant la population générale des patients, considérant que les
patients inclus dans l’étude ont été échantillonnés depuis cet univers. On comprend alors qu’il est légitime
de considérer ces effets individuels comme des variables aléatoires. Il s’agit d’un modèle à effets
aléatoires.
On voit que la variance totale est la somme de deux variances, la variance résiduelle et la variance
associée aux patients. Cette dernière est équivalente à la covariance entre les mesures effectuées chez
un même patient (cette covariance est nulle entre patients différents).
2. Essai multi-centrique avec mesures pre et post
Dans cet exemple, le critère de jugement est mesuré avant (pre) et après (y) traitement chez chaque
patient.
•
Estimation simple du traitement : yi = µ + tk + ei
•
Ajustement sur mesure avant traitement (=ANCOVA) : yi = µ + b. pre + tk + ei
•
Introduction d’un effet centre fixe: yi = µ + b.pre + tk + cj + ei
•
Introduction d’un terme d’interaction centre x traitement, fixe :
yi = µ + b.pre + tk + cj + (ct)jk+ ei
•
Effets aléatoire sur centre et centre x traitement conduisant à un modèle mixte à effets
aléatoires ; les variances associées à l’effet centre et à l’interaction centre par traitement
sont estimées : cj ∼ N(0, σc²) et (ct)jk ∼ N(0, σct²)
3. Modèles pour données longitudinales répétées
Le design est le même avec une série de mesures répétées dans le temps. On s’intéresse ici à la relation
entre y et le temps.
•
Le temps (tempsj) est introduit comme co-variable fixe et la pente (m) associée estimée :
yij = µ + b . pre + tk + m . tempsij + eij
•
On considère que la relation avec le temps varie suivant les patients, il faut donc estimer une
droite de régression par patient et introduire un intercept et une pente par patient ; le nombre de
paramètres devient très important, fonction du nombre de sujets inclus :
yij = µ + b.pre + tk + m . tempsij + pi + (pm)i . temps ij + eij
•
On considère que les sujets sont issus d’une population générale, intercepts et pentes sont alors
considérés comme aléatoires : il s’agit d’un modèle mixte à intercept (pi) et pentes aléatoires
(pm)i ; les variations aléatoires se font autour d’un intercept et d’une pente moyenne ; les
variances et covariances sont estimées, le nombre de paramètres diminue considérablement, le
modèle est d’une portée générale.
Avantages des modèles mixtes
•
•
•
•
•
•
•
Devant une structure hiérarchique :
o la variance significative est-elle significative ? existe-t-il un effet « cluster » ?
o les inférences se font à à l’ensemble des entités possibles de niveau supérieur (centres,
hôpitaux, spatial…) d’où une généralisation des résultats au-delà de l’échantillon d’étude.
Devant des données répétées avec données manquantes : meilleures estimations des effets fixes
et des écart-types
Taille d’échantillon plus réduite
Devant de petits échantillons : effets aléatoires plus groupés que effets fixes, on évite des
paramètres extrêmes par chance
Devant des données manquantes « at random » dans un design cross-over ou données répétées
: effet du traitement plus précis
Les variances par traitement peuvent être estimées
L’effet du traitement est autorisé à varier selon les sujets, d’où une meilleure prise en compte de
l’effet « individu » et une prédiction possible.
Téléchargement