Correspondances en Onco-hématologie - Vol. IV - n° 1 - janvier-février-mars 2009
Théorie et pratique des essais thérapeutiques en onco-hématologie
que la précédente. En particulier, si la mesure
des patients ayant une donnée manquante à un
instant t est mauvaise, et que leur mesure pré-
cédente (t–1) était déjà basse, reporter la valeur
de la dernière observation constitue un moindre
biais comparativement à une analyse limitée aux
cas complets. Une autre méthode d’imputation
simple consiste à remplacer la donnée manquante
par la moyenne des données observées chez tous
les patients, ou dans un sous-groupe de patients
ayant des caractéristiques proches, ou bien par
la moyenne des données antérieures du patient
(horizontal imputation). Outre la sous-estimation
de la variance, la principale limite de cette appro-
che est qu’elle nécessite des données MCAR pour
être non biaisée.
Des méthodes plus complexes ont été dévelop-
pées pour limiter le problème de la sous-esti-
mation de la variance. Une approche consiste à
imputer les réponses manquantes à partir d’un
modèle de régression tenant compte des don-
nées cliniques (indice d’activité, maladie, toxicité
des traitements) et des données précédentes
(regression imputation). Elle sous-estime encore
la variabilité des observations, mais réduit les
biais. Ce modèle peut également être utilisé de
manière non paramétrique, en classant les don-
nées à chaque point de mesure et en attribuant le
classement le plus bas aux données manquantes
dues à une progression de la maladie ou à une
toxicité. Une alternative consiste à assigner le
plus mauvais classement à toutes les données
manquantes, l’hypothèse sous-jacente étant que
la mesure est moins bonne pour les données man-
quantes non aléatoires que pour les données
observées.
Les différences entre les groupes sont ensuite
testées au point t choisi avec un test non paramé-
trique comme, par exemple, le test de Wilcoxon.
En pratique, si les données manquantes sont peu
nombreuses et équilibrées entre les groupes à
comparer, les résultats varient peu selon les
méthodes. En revanche, en cas de déséquilibre
ou de forte proportion de données manquantes,
le choix du test est diffi cile.
Analyse de sensibilité ✔
Les méthodes d’imputation peuvent être optimi-
sées par des approches plus lourdes en termes
de calcul. Au lieu d’une seule valeur, plusieurs
valeurs (m) sont calculées afi n de refl éter les m
distributions possibles (multiple imputation), soit
en utilisant les méthodes décrites plus haut, soit
en sélectionnant au hasard une valeur parmi les
données des patients avec données complètes
(hot deck imputation). Ensuite, l’analyse est faite
sur chacun des m jeux de données obtenus, et
combinée afin d’obtenir une variance moins
biaisée que celle estimée par imputation simple.
Le principal avantage de cette approche est de per-
mettre la réalisation d’analyses de sensibilité en
modifi ant le choix des distributions. On voit alors
si la conclusion reste la même quelles que soient
les conditions initiales (par exemple, lorsque le
pourcentage de données manquantes varie).
Analyse multivariée ✔
Le problème des données manquantes a éga-
lement un impact sur les méthodes d’analyse
multivariée. Les techniques du type analyse de
variance (ANOVA) pour mesures répétées néces-
sitent des données complètes, ce qui limite leur
utilisation aux situations où la morbidité est
faible, la compliance haute et le mécanisme de
données manquantes aléatoire. Si les données
ne sont pas complètes, l’analyse est restreinte
à des sous-groupes potentiellement non repré-
sentatifs.
Données manquantes de type MCAR et MAR ✔
Les méthodes fondées sur la maximisation de la
vraisemblance sont plus sophistiquées que celles
décrites jusqu’ici, mais permettent d’obtenir des
estimations fi ables non plus seulement dans les
cas de données MCAR, mais aussi avec données
manquantes de type MAR.
Pour les données quantitatives normales, la
nécessité d’utiliser un jeu de données complètes
peut être allégée en utilisant des modèles à effets
mixtes.
Le modèle général à effets mixtes s’écrit :
Yi = Xiβ + Zibi + εi
où Yi est le vecteur réponse de dimension ni pour
le sujet i, ni est le nombre de mesures pour le
sujet i, n est le nombre total de sujets 1 ≤ i ≤ n, Xi
et Zi sont des matrices structurées de dimension
(ni x p) et (ni x q), β est le vecteur de dimension p
des paramètres des effets fi xes, b
i
≈ n(0, D) est
le vecteur de dimension q des paramètres des
effets aléatoires, et εi ≈ n(0, Σi) est le vecteur
de dimension n
i
des composantes résiduelles ;
b1… bn et ε1… εn sont par hypothèse indépen-
dants. L’effet aléatoire permet de tenir compte
de l’hétéro généité entre individus.
Si l’hypothèse de données MAR est valide, les
méthodes fondées sur la maximisation de la
vraisemblance permettent de ne pas exclure les
patients présentant des données incomplètes.