Lire l`article complet

publicité
m é t h o d o l o g i e
Théorie et pratique
des essais thérapeutiques
en onco-hématologie
Épisode 8
Theory and practice of clinical trials - Episode 8
N. Mounier*
A
u cours du suivi d’un patient en oncohématologie, il est habituel de collecter
des données longitudinales, comme des
mesures de numération sanguine, de maladie
résiduelle ou encore des indices de qualité de vie.
Ces données font généralement partie des critères
de jugement secondaires ou sont collectées de
manière rétrospective. Chaque série temporelle
est donc rarement complète. C’est pourquoi elle
doit faire l’objet d’un traitement statistique particulier afin de limiter les biais.
DIFFÉRENTS TYPES DE DONNÉES
MANQUANTES
* Département d’onco-hématologie,
hôpital de l’Archet, Nice.
8
Les données manquantes en biologie sont réparties en deux types : elles peuvent être manquantes
de manière intermittente (mesures manquantes à
l’évaluation t, mais disponibles à l’évaluation t+1)
ou de manière définitive (mesures manquantes
au-delà de l’évaluation t).
Trois principaux mécanismes de données manquantes sont à distinguer : complètement aléatoire (MCAR [missing completely at random]),
aléatoire (MAR [missing at random]) et non
aléatoire (MNAR [missing not at random]). Si
les données à l’instant t sont manquantes pour
des raisons indépendantes de l’état de santé du
patient (par exemple, lorsque l’équipe médicale
oublie de faire une mesure ou lorsque le patient
déménage), leur mécanisme est MCAR ou MAR.
Le cas particulier de la censure, où le patient n’a
pas encore atteint le temps d’évaluation, est également considéré comme aléatoire. À l’inverse,
dans les études où le patient peut souffrir d’une
toxicité du traitement ou subir une rechute de la
maladie, un mécanisme de données manquantes
non aléatoire doit être envisagé. Dans ce cas,
si la mesure à l’instant t est liée à la toxicité ou à
l’efficacité du traitement, la mesure des patients
ne faisant pas leur analyse peut être moins bonne
que pour ceux la faisant effectivement (par exemple, mesure du taux d’hémoglobine).
MÉTHODES POUR LA PRISE EN COMPTE
DES DONNÉES MANQUANTES
✔ Analyse univariée
Une première stratégie consiste à n’utiliser que
les données complètes disponibles (completecase analysis). C’est la méthode la plus simple,
mais aussi la moins efficace : non seulement elle
diminue l’effectif et la puissance statistique, mais
surtout elle sélectionne la population. Pour être
non biaisée, cette approche ne peut être appliquée que lorsque les données manquantes sont
complètement aléatoires (MCAR). Une variante
consiste à utiliser toutes les données disponibles
(available-case analysis) : par exemple, estimer
une différence entre chaque point de mesure
séparément (e.g. t2 versus t0 puis t3 versus t0,
etc.). L’effectif des données observées varie alors
selon les points de mesure.
Une deuxième stratégie consiste à compléter les
données manquantes, afin de pouvoir pratiquer
l’analyse sur un jeu complet. De nombreuses
méthodes d’imputation ont été développées,
qui sont très utilisées en raison de leur relative
simplicité mais restent très conservatrices (i.e.
peu de chance de montrer des différences significatives). La plus simple consiste à remplacer la
donnée manquante par la dernière observation
disponible (LVCF [last value carried forward]). Cela
revient à considérer que la mesure est constante
au cours du temps. C’est peu fréquent, mais,
dans certains cas, cette approche est plus utile
Correspondances en Onco-hématologie - Vol. IV - n° 1 - janvier-février-mars 2009
Théorie et pratique des essais thérapeutiques en onco-hématologie
que la précédente. En particulier, si la mesure
des patients ayant une donnée manquante à un
instant t est mauvaise, et que leur mesure précédente (t–1) était déjà basse, reporter la valeur
de la dernière observation constitue un moindre
biais comparativement à une analyse limitée aux
cas complets. Une autre méthode d’imputation
simple consiste à remplacer la donnée manquante
par la moyenne des données observées chez tous
les patients, ou dans un sous-groupe de patients
ayant des caractéristiques proches, ou bien par
la moyenne des données antérieures du patient
(horizontal imputation). Outre la sous-estimation
de la variance, la principale limite de cette approche est qu’elle nécessite des données MCAR pour
être non biaisée.
Des méthodes plus complexes ont été développées pour limiter le problème de la sous-estimation de la variance. Une approche consiste à
imputer les réponses manquantes à partir d’un
modèle de régression tenant compte des données cliniques (indice d’activité, maladie, toxicité
des traitements) et des données précédentes
(regression imputation). Elle sous-estime encore
la variabilité des observations, mais réduit les
biais. Ce modèle peut également être utilisé de
manière non paramétrique, en classant les données à chaque point de mesure et en attribuant le
classement le plus bas aux données manquantes
dues à une progression de la maladie ou à une
toxicité. Une alternative consiste à assigner le
plus mauvais classement à toutes les données
manquantes, l’hypothèse sous-jacente étant que
la mesure est moins bonne pour les données manquantes non aléatoires que pour les données
observées.
Les différences entre les groupes sont ensuite
testées au point t choisi avec un test non paramétrique comme, par exemple, le test de Wilcoxon.
En pratique, si les données manquantes sont peu
nombreuses et équilibrées entre les groupes à
comparer, les résultats varient peu selon les
méthodes. En revanche, en cas de déséquilibre
ou de forte proportion de données manquantes,
le choix du test est difficile.
✔ Analyse de sensibilité
Les méthodes d’imputation peuvent être optimisées par des approches plus lourdes en termes
de calcul. Au lieu d’une seule valeur, plusieurs
valeurs (m) sont calculées afin de refléter les m
distributions possibles (multiple imputation), soit
en utilisant les méthodes décrites plus haut, soit
en sélectionnant au hasard une valeur parmi les
Correspondances en Onco-hématologie - Vol. IV - n° 1 - janvier-février-mars 2009
données des patients avec données complètes
(hot deck imputation). Ensuite, l’analyse est faite
sur chacun des m jeux de données obtenus, et
combinée afin d’obtenir une variance moins
biaisée que celle estimée par imputation simple.
Le principal avantage de cette approche est de permettre la réalisation d’analyses de sensibilité en
modifiant le choix des distributions. On voit alors
si la conclusion reste la même quelles que soient
les conditions initiales (par exemple, lorsque le
pourcentage de données manquantes varie).
✔ Analyse multivariée
Le problème des données manquantes a également un impact sur les méthodes d’analyse
multivariée. Les techniques du type analyse de
variance (ANOVA) pour mesures répétées nécessitent des données complètes, ce qui limite leur
utilisation aux situations où la morbidité est
faible, la compliance haute et le mécanisme de
données manquantes aléatoire. Si les données
ne sont pas complètes, l’analyse est restreinte
à des sous-groupes potentiellement non représentatifs.
✔ Données manquantes de type MCAR et MAR
Les méthodes fondées sur la maximisation de la
vraisemblance sont plus sophistiquées que celles
décrites jusqu’ici, mais permettent d’obtenir des
estimations fiables non plus seulement dans les
cas de données MCAR, mais aussi avec données
manquantes de type MAR.
Pour les données quantitatives normales, la
nécessité d’utiliser un jeu de données complètes
peut être allégée en utilisant des modèles à effets
mixtes.
Le modèle général à effets mixtes s’écrit :
Yi = Xiβ + Zibi + εi
où Yi est le vecteur réponse de dimension ni pour
le sujet i, ni est le nombre de mesures pour le
sujet i, n est le nombre total de sujets 1 ≤ i ≤ n, Xi
et Zi sont des matrices structurées de dimension
(ni x p) et (ni x q), β est le vecteur de dimension p
des paramètres des effets fixes, bi ≈ n(0, D) est
le vecteur de dimension q des paramètres des
effets aléatoires, et εi ≈ n(0, Σi) est le vecteur
de dimension ni des composantes résiduelles ;
b1… bn et ε1… εn sont par hypothèse indépendants. L’effet aléatoire permet de tenir compte
de l’hétérogénéité entre individus.
Si l’hypothèse de données MAR est valide, les
méthodes fondées sur la maximisation de la
vraisemblance permettent de ne pas exclure les
patients présentant des données incomplètes.
9
m é t h o d o l o g i e
De plus, ces méthodes permettent de prendre en
compte les mesures irrégulières et les covariables
dépendant du temps et de tester les changements
au cours du temps.
✔ Données manquantes de type MNAR
Cependant, dans la plupart des cas, l’absence de
mesure est due à la maladie du patient. On entre
alors dans le cadre des données manquantes de
mécanisme non aléatoire (MNAR). Peu de travaux
ont été conduits sur les données catégorielles
de type MNAR. En revanche, le cas des données
100
1-3
4+
1-3
4+
1-3
4+
90
Indice de qualité de vie
80
70
60
50
40
30
20
10
0
Cas complet
Imputation
Imputation/régression
Figure. Effet des méthodes d’imputation sur l’estimation de la qualité de vie (QDV).
Soit une chimiothérapie dont la dose est fonction du score pronostique (1-3 ou 4-5) :
selon les méthodes, les variations de QDV peuvent être de sens opposé.
10
quantitatives normales de type MNAR commence
à être mieux connu.
Deux méthodes, encore expérimentales, cherchent à modéliser de manière conjointe la mesure
et le mécanisme de données manquantes. Il s’agit
des modèles de type sélection et des modèles de
type mélange de profils.
L’idée des modèles de type sélection est de
modéliser directement la manière dont le mécanisme de données manquantes intervient. Une
distribution sous-jacente est modélisée pour les
données longitudinales (par exemple, au moyen
d’un modèle mixte), et le mécanisme de données
manquantes est modélisé en fonction de ces
mesures longitudinales (par exemple, au moyen
d’un modèle de Cox, vu aux chapitres 5 et 6).
La méthode générale des modèles de type
mélange de profils consiste à stratifier les patients
en fonction de leur temps de survenue de données manquantes (par exemple, strate 1 : données
manquantes à partir de t2 ; strate 2 : données
manquantes à partir de t3, etc.). Puis les paramètres du modèle (par exemple, modèle mixte)
sont estimés pour chaque strate. L’avantage des
modèles de type mélange de profils est de ne pas
nécessiter une spécification complète du mécanisme de données manquantes, notamment pas
de modèle à préciser. En revanche, les difficultés
d’estimation sont importantes en raison des nombreuses possibilités de séquences de données
manquantes conduisant à un faible effectif pour
chaque strate.
■
POUR
EN SAVOIR PLUS
…
• Diggle PJ, Heagerty P, Liang KY et al. Analysis of longitudinal data. Oxford University Press, 2002.
Correspondances en Onco-hématologie - Vol. IV - n° 1 - janvier-février-mars 2009
Téléchargement