28. Méta-analyse sur données individuelles

publicité
28.
Méta-analyse sur données individuelles
La méta-analyse sur données individuelles regroupe les fichiers de données des essais. La méta-analyse est donc réalisée directement à partir des informations concernant les individus eux-mêmes et non plus à partir de données résumées relatives à
des groupes de sujets [202, 203].
28.1. Techniques statistiques d’analyses
Les méta-analyses sur données individuelles avec critère de jugement binaire peuvent être réalisées en utilisant différents types de méthodes statistiques. La régression logistique permet de combiner des données d’essais où le critère de jugement est
mesuré sans tenir compte de leur moment de survenue dans le suivi (par exemple la
mortalité à 6 mois regroupe sans distinction des décès survenus à 5 jours ou à 2 mois).
Lorsque l’on souhaite tenir compte de la chronologie de survenue des événements,
une technique d’analyse des données de survie, comme le test du logrank stratifié ou
le modèle de Cox, est utilisable. Quelle que soit la technique choisie, elle peut être
utilisée pour rechercher l’effet traitement (régression univariée) et des interactions
de l’effet traitement avec des covariables (recherche des répondeurs, analyse multivariée). Dans les sections suivantes, nous démontrons tout d’abord que ces techniques permettent bien de combiner des résultats d’essais, en prenant l’exemple de
la régression logistique. Il est aussi montré que, dans ce cas, la régression logistique
sur données individuelles se ramène à la méta-analyse sur données résumées.
A) Régression logistique
La réalisation d’une méta-analyse sur données individuelles avec la régression logistique consiste à faire une analyse stratifiée sur l’essai, afin de prendre en compte
une variabilité du risque de base entre les essais .
La probabilité pG
i de survenue d’un événement dans le groupe de traitement
G 2 (C; T ) du i-ème essai s’exprime à l’aide du modèle logistique par :
pG
i
= exp (¯ i + ¸G)
1 ¡ pG
i
288
Méta-analyse sur données individuelles
¯ i représente une constante caractéristique du i-ème essai, qui s’obtient, en fait, à
l’aide de i variables indicatrices Ei (« dummy variables »); pour le i-ème essai,
Ei = 1 et Ej6=i = 0, donc ¯ i = ¯1 E1 + : : : + ¯ iEi + : : : + ¯ k Ek .
Exemple 28.1 Pour 3 essais, les valeurs des variables indicatrices sont les suivantes :
Essai
1
2
3
E1
1
0
0
E2
0
1
0
E3
0
0
1
et l’équation du modèle s’écrit 40 :
¡
¢
logit pG
E 1;E2 ;E3 = ¯ 1E 1 + ¯ 2E 2 + ¯ 3E 3 + ¸G
En codant l’appartenance au groupe contrôle par G = ¡1=2 et celle au groupe
expérimental par G = 1=2, la probabilité de survenue d’un événement dans le
groupe contrôle et dans le groupe expérimental du i-ème essai sont :
pC
i
= exp (¯ i ¡ ¸=2)
1 ¡ pC
i
pTi
= exp (¯ i + ¸=2)
1 ¡ pTi
(28.1)
(28.2)
En partant de ce modèle, le rapport des cotes s’écrit :
pTi (1 ¡ pTi )
C
pC
i (1 ¡ pi )
exp (¯ i + ¸=2)
=
exp (¯ i ¡ ¸=2)
= exp [(¯ i + ¸=2) ¡ (¯i ¡ ¸=2)]
= exp (¸)
RCi =
Ce résultat bien connu montre qu’il existe une relation étroite entre le coefficient de
la variable codant pour le traitement dans un modèle logistique et le rapport des cotes
calculé à partir de la table 2£2. La régression logistique permettra donc d’estimer
par un rapport des cotes un effet traitement global, supposé identique pour chaque
essai (modèle fixe).
40
La fonction logit(p) est équivalente à p=(1 ¡ p).
289
Techniques statistiques d’analyses
B) Relation entre régression logistique et méthodes pour données
résumées
Dans la régression logistique, l’estimation des coefficients des variables du modèle
s’effectue par le maximum de vraisemblance. En notant, respectivement, par xC
i et
T
xi le nombre d’événements du groupe contrôle et celui du groupe expérimental, et
T
par n C
i et ni les effectifs de ces deux groupes, la vraisemblance du modèle calculée
à partir de k essais est :
V
¡
T
¸; ¯i ; xC
i ; xi
¢
=
k
Y
i=1
=
k
Y
i=1
¡
¢ ¡
¢
T
V ¸; ¯i ; xC
i V ¸; ¯i ; xi
C
x
1
Q
C
n
1
Q
(28.3)
T
exp (¯ i ¡ ¸=2)
1 + exp (¯ i ¡ ¸=2)
x1
Q
T
n
1
Q
exp (¯ i + ¸=2)
(28.4)
1 + exp (¯ i + ¸=2)
(28.4) s’obtient facilement en exprimant la vraisemblance d’une loi binomiale,
à partir d’un échantillon rapportant x événements codés 1 sur un total de n observations [204]. Les événements survenant avec la probabilité p, la vraisemblance de
l’échantillon est la probabilité d’observer x événements et n ¡ x non événements,
soit :
V (p; x) =
x
Y
i=1
p
n
Y
i=x+1
(1 ¡ p)
(28.5)
Dans le modèle logistique p = 1 /1 + exp (À) où À représente la combinaison
linéaire des variables explicatives. En effet, (28.1) est par exemple équivalent à :
pC
i =
exp (¯ i ¡ ¸=2)
1 + exp (¯i ¡ ¸=2)
(28.5) devient donc :
¶
n µ
Y
1
1
V (p; x) =
1¡
1 + exp (À) i=x+1
1 + exp (À)
i=1
,
x
n
Y
Y
=
exp (À)
(1 + exp (À))
x
Y
290
Méta-analyse sur données individuelles
Un peu d’algèbre permet de réécrire (28.4) :
" C
#
" T
#
x1
x1
P
P
exp
(¯ i ¡ ¸=2)
exp
¯i + ¸=2
k
Y
¡
¢
T
V ¸; ¯ i; xC
=
i ; xi
T
nC
i (1 + exp [¯ + ¸=2])ni
i=1 (1 + exp [¯ i ¡ ¸=2])
i
£
¤
k
T
Y
exp xC
i (¯ i ¡ ¸=2) + xi (¯ i + ¸=2)
=
C
T
(1 + exp [¯ i ¡ ¸=2])ni (1 + exp [¯ i + ¸=2])ni
hP ¡¡
¢
¡
¢
¢i
k
T ¯ + xT ¡ xC ¸=2
exp
xC
+
x
i
i
i
i
i
= k h
i
Q
C
T
(1 + exp (¯ i ¡ ¸=2))ni (1 + exp (¯i + ¸=2))ni
=
exp
k
Q
³P £¡
k
xC
i
+ xTi
¢
´
¡ T
¢
C
¯ i + x² ¡ x² ¸=2
C
¤
T
(1 + exp (¯ i ¡ ¸=2))ni (1 + exp (¯ i + ¸=2))ni
Pk C
T
avec xC
² =
i=1 xi (mutatis mutandis pour x² ).
Cox montre que (xT² ¡ xC
² ) est une statistique efficace pour l’estimation de ¸,
et que pour éliminer les ¯ i, qui ont valeur de paramètres de nuisance dans l’estimation de ¸, il est nécessaire d’avoir recours à une expression conditionnelle de
la vraisemblance (équivalant au fait de considérer les totaux marginaux de chaque
table fixés) [145]. Ainsi l’inférence concernant ¸ doit être basée sur la distribuT
C
tion conditionnelle des xTi ¡ xC
i , xi + xi étant fixé. Ce qui revient à étudier la
distribution conditionnelle des xTi . Cette étude est à l’origine des méthodes d’estimation présentées dans le chapitre 19. Ces techniques sur données résumées sont
donc totalement équivalentes à l’analyse des données individuelles par la régression
logistique stratifiée sur l’essai, lorsqu’aucune covariable n’est prise en compte.
C) Stratégies d’analyses
– Dans le cas le plus simple, seul l’effet du traitement est recherché et aucune
covariable n’est envisagée. Le modèle se résume à :
Evénement = Essai + Traitement
Cette notation signifie, par exemple dans la régression logistique, que la
probabilité de survenue de l’événement est déduite d’un modèle associant deux
facteurs, le facteur Essai et le facteur Traitement. Chacun de ces facteurs est
représenté par un coefficient qui est significativement différent de zéro quand
Autres techniques d’analyses
291
le facteur a une influence significative sur la probabilité de l’événement. Le
facteur Essai est systématiquement introduit dans le modèle pour éviter de
faire l’hypothèse que les patients sont semblables dans tous les essais. Ainsi la
méta-analyse sur données individuelles respecte les même principes de base de
la méta-analyse sur données résumées (cf. 3.2). L’écriture détaillée du modèle
fait appel à des variables indicatrices (« Dummy variables ») pour coder le
facteur essai (cf. 28.1.A).
– Des covariables sont introduites dans le modèle lorsqu’elles peuvent constituer
des facteurs de variations du risque de base. Il s’agit alors de réaliser un
ajustement sur ces covariables, dans le but de réduire la variabilité totale et
d’accroître de ce fait la puissance de la recherche. Les modèles prennent la
forme suivante :
Evénement = Essai + Traitement + Covariable 1 + : : : + Covariable n
– Une autre situation où la prise en compte de covariables est potentiellement
intéressante est la recherche de facteurs modifiant la taille de l’effet
traitement. En terminologie statistique, il s’agit d’une interaction entre une
ou des covariables et l’effet traitement. Si ces covariables représentent des
caractéristiques des patients, cette approche débouche sur la recherche des sujets
devant tirer le plus grand bénéfice du traitement (sujets répondeurs) ou devant
subir des effets délétères compensant le bénéfice thérapeutique (situation où le
traitement ne doit pas être prescrit). Un tel modèle fait intervenir l’interaction
Traitement £Covariable :
Evénement = Essai + Trait. + Covariable 1 + Trait. £ Covariable 1 + : : :
– La recherche d’une hétérogénéité de l’effet à travers les essais équivaut à la
recherche d’une interaction entre le facteur Traitement et le facteur Essai :
Evénement = Essai + Trait. + Trait. £ Essai + : : :
Si cette interaction se révèle significative, l’effet du traitement n’est plus
identique pour tous les essais témoignant ainsi d’une hétérogénéité.
28.2. Autres techniques d’analyses
La régression logistique ne représente pas la seule technique d’analyse utilisable
en méta-analyse sur données individuelles. La prise en compte de la dynamique
de survenue des événements s’effectue par les techniques classiques d’analyse des
données de survie. Un test du logrank, stratifié par essai, permet de tester globalement la différence entre les groupes.
292
Méta-analyse sur données individuelles
Le modèle de Cox est aussi utilisable. La prise en compte du facteur essai peut
s’envisager de deux façons : 1) en stratifiant l’analyse sur l’essai, ce qui introduit
une fonction de risque (fonction du risque instantané, « hazard fonction ») différente
pour chaque essai; 2) en considérant le facteur essai comme une simple covariable,
ce qui correspond à l’hypothèse que le rapport des risques instantanés (« hazard
ratio ») est différent d’un essai à l’autre, mais que la fonction de risque est identique.
La construction de courbes de survie, représentant l’ensemble de l’information
apportée par les différents essais, pose des problèmes spécifiques qui ne seront pas
détaillés ici [205].
28.3. Mise en œuvre
La réalisation d’une méta-analyse sur données individuelles est une entreprise extrêmement lourde. Elle nécessite une collaboration active des personnes qui ont réalisé
les essais [206]. Dans ce but, un groupe collaboratif est constitué qui regroupe les
méta-analystes et les responsables des essais. Le rôle de ce groupe sera d’écrire ou
simplement d’avaliser le protocole de la méta-analyse, de proposer des pistes pour
les analyses multivariées, d’assurer le bon déroulement des opérations. L’ensemble
des membres du groupe cosignera les publications issues de ce travail.
En pratique les fichiers sont récupérés sur support informatique (disquette, bande).
Il peut s’agir soit du fichier total d’analyse qui doit être impérativement accompagné
d’un descriptif précis de chaque variable, soit d’un sous-fichier contenant uniquement les données nécessaires à la méta-analyse.
Les variables que doit contenir le fichier au minimum sont les suivantes :
– identification du centre investigateur (pour les essais multicentriques),
– identification du patient (numéro de patient, monogramme),
– date d’inclusion, date de randomisation,
– traitement alloué (numéro du traitement, nature),
– traitement reçu (numéro, nature),
– données de base (date de naissance, sexe, facteurs pronostiques spécifiques de
la maladie),
– pour les critères de jugement binaires ou de survie :
¢ présence ou absence de l’événement (définir soigneusement le codage),
¢ date de survenue,
¢ date de censure (perdu de vue),
293
Mise en œuvre
– pour les critères de jugement continus :
¢ valeur du critère,
¢ date de mesure.
Tous les patients inclus doivent être présents dans le fichier pour permettre l’analyse en « intention de traiter ».
La récupération de tels fichiers pose souvent des problèmes. En premier figure
celui de la propriété des données qui appartiennent au promoteur de l’essai. Dans
la majeure partie des pays les données scientifiques, de surcroît celles des essais
thérapeutiques ne sont pas considérées comme étant d’intérêt général et donc comme
publiques. Une exception existe, les données des essais du National Health Institute
au USA deviennent accessibles à tous après un délai de 3 années environ.
A coté de ces problèmes de propriété, d’autres difficultés apparaissent. Pour les
essais anciens, les fichiers ont pu être perdus. Parfois, ils n’existent plus (ou ils n’ont
jamais existé) sous forme informatique. La saisie des documents papiers s’avère
alors souvent rédhibitoire. Les responsables de l’essai ont pu quitter l’organisme
qui détient les fichiers, posant un problème de recherche d’interlocuteur.
Dans cette tâche, les difficultés qui surviennent peuvent être de toute nature et
une grande diplomatie est de mise.
Le coût et la durée du projet sont importants. Des estimations basées sur plusieurs
expériences réunies lors d’un colloque organisé sous les auspices de la Cochrane
Collaboration sont les suivantes [206]41 :
Phase
Développement
Recueil des données
Analyse et
dissémination des
résultats
41
Durée
minimum
3-6 mois
1 an
6-9 mois
Charge de travail
3-4 personnes.mois
15 personnes.mois (50 essais) ....
4-5 personnes.mois (5 essais)
10-12 personnes.mois (50 essais)
5-6 personnes.mois (5 essais)
Reproduit avec autorisation de John Wiley & Sons Limited.
294
Méta-analyse sur données individuelles
28.4. Intérêts
Quels sont les avantages de la méta-analyse sur données individuelles par rapport
aux méta-analyses sur données résumées de la littérature?
1. Avec les données de survie, la méta-analyse sur données individuelles permet
d’exploiter l’ensemble de l’information et produit des courbes de survie
combinées et non plus une simple estimation de l’effet du traitement mesurée à
un moment donné. De plus, elle permet d’éviter les problèmes liés à des durées
de suivi différentes entre les études (voir le chapitre 32).
2. Elle permet aussi la standardisation des critères de jugement, surtout avec les
critères combinés. A partir des données de chaque patient, il est possible de
générer le même critère de jugement pour toutes les études. Un critère du type
contrôle tensionnel, déduit à partir de la pression artérielle systolique (PAS) et
diastolique (PAD), peut ne pas avoir été défini exactement de la même façon
entre les études (par exemple diastolique sous traitement inférieure à 90 mmHG,
baisse relative de 30% par rapport aux valeurs initiales, etc.). Seul le retour aux
valeurs de PAS et PAD de chaque patient permet d’utiliser le même critère pour
tous les essais.
3. Des analyses multivariées sont réalisables pour étudier l’effet traitement en
fonction de différentes variables explicatives ou après ajustement multiple en
utilisant par exemple la régression logistique, le modèle de Cox, ou bien d’autres
encore.
4. Une ré-analyse en intention de traiter, quand la publication avait porté sur
l’analyse en traitement reçu, est possible.
5. La correction d’erreurs, présentes dans les tableaux de la publication (par
exemple une erreur typographique) est aussi réalisable. Cependant, dans certains
cas, cette procédure produit des résultats plus éloignés de la réalité que ceux
rapportés dans la publication. En effet, si des renseignements sont obtenus au
dernier moment, ces informations peuvent ne pas être intégrées dans le fichier
d’analyse, mais seulement prises en compte manuellement dans les tableaux de
la publication. Par la suite, avec le temps, ces modifications de dernière minute
sont oubliées et se baser à nouveau sur le fichier d’analyse n’est pas plus proche
de la réalité que d’utiliser les tableaux publiés 42 .
6. Analyse de la qualité méthodologique de l’essai. Certains problèmes peuvent
être détectés en étudiant les données individuelles : problèmes de randomisation,
42
Les bonnes pratiques actuelles visent à éviter ce genre de situations qui ne devraient plus
se produire dans les essais actuels. Par contre, avec les essais légèrement plus anciens, ce
phénomène est tout à fait possible.
Comparaison avec les méta-analyses sur données de la littérature
295
Tableau 28.1. — Tableau 2x2xn utilisé pour des analyses univariées multiples sur
données résumées
Sous-groupe
âge <35 ans
36 < âge <45
46< âge <55
56 < âge
Traitement étudié
Traitement contrôle
Effectif
Nb
Effectif
Nb
d’événements
d’événements
-
discontinuité dans les numéros de patients. Cependant, aucun de ces signes n’est
infaillible. Sa constatation n’aboutit qu’à une suspicion et ne permet pas d’avoir
des certitudes.
En fait, bon nombre de ces points peut être obtenu sans faire appel aux données
individuelles, dans un type intermédiaire de méta-analyse où les responsables d’essais sont sollicités pour produire des données résumées au format nécessaire à la
méta-analyse. Par exemple, le Beta Blocker Pooling Project a réalisé de nombreuses
analyses univariées étudiant l’effet du traitement bêtabloquant après infarctus du
myocarde en fonction de différentes caractéristiques des sujets (âge, sexe, antécédents d’infarctus, d’insuffisance cardiaque, fréquence cardiaque, pression artérielle,
etc.) [186]. Ces analyses ont été réalisées uniquement à partir de tableaux 2x2xn
prédéfinis et envoyés aux responsables des essais pour être complétés. Le tableau
28.1 représente un exemple d’un tableau 2x2xn de ce type.
Cette démarche permet aussi de récupérer d’éventuelles erreurs typographiques
présentes dans la publication et des informations complémentaires connues des investigateurs après la parution de la publication.
28.5. Comparaison avec les méta-analyses sur données de la
littérature
Plusieurs travaux ont comparé les résultats obtenus à partir des données individuelles
à ceux obtenus avec les données de la littérature [207–210]. Ces comparaisons montrent que souvent la méta-analyse sur données de la littérature surestime la taille
de l’effet et donne plus facilement un résultat significatif que la méta-analyse sur
données individuelles. Cependant, dans ces travaux, les comparateurs utilisés sont
des méta-analyses basées uniquement sur les données publiées, sans rechercher les
travaux non publiés, pris en compte par la méta-analyse sur données individuelles.
Les différences observées sont donc principalement une matérialisation du biais de
296
Puissance statistique d’une méta-analyse
publication et ne sont pas directement liées à l’utilisation de données résumées à
la place de données individuelles. Il est très vraisemblable qu’une méta-analyse sur
données résumées qui intégrerait les données non publiées donnerait des résultats assez proches de ceux de la méta-analyse sur données individuelles (pour ce qui est de
la simple recherche de l’effet). Bien que la méta-analyse sur données individuelles
présente de nombreux intérêts, cet argument ne peut pas être utilisé pour invalider
la méta-analyse sur données résumées qui, lorsqu’elle est correctement conduite, représente une technique performante (fiabilité statistique et relative facilité de mise
en oeuvre) de synthèse des données pour la recherche de l’effet d’un traitement.
Téléchargement