23. Interprétation clinique des mesures de l`effet

publicité
23.
Interprétation clinique des mesures de l’effet
traitement
23.1. Critères de jugement binaires
Plusieurs mesures (indices) sont utilisables pour quantifier l’effet traitement lors de
l’utilisation d’un critère de jugement binaire. Ces mesures, risque relatif, rapport des
cotes (« odds-ratio ») et différence de risque, auxquelles s’ajoute le nombre de sujets
qu’il faut traiter pour éviter un événement (NST), ne véhiculent pas exactement la
même information clinique [182, 183]. Ainsi, elles ne donnent pas exactement les
mêmes renseignements sur la pertinence clinique de l’effet.
Les deux premières (rapport des cotes, risque relatif) sont des mesures relatives
et estiment un bénéfice relatif, tandis que les deux dernières (différence des risques
et NST) mesurent un bénéfice absolu.
Tableau 23.2. — Terminologie. Relation entre les mesures et le type du bénéfice
Bénéfice
absolu
Bénéfice
relatif
Mesures
Modèle d’effet
Intérêt
différence des
risques,
NST
risque relatif,
rapport des
cotes
additif
(mesure additive)
approche pragmatique
(santé publique,
décision)
approche explicative
(recherche)
multiplicatif
(mesure
multiplicative)
De plus, en méta-analyse, à ce problème d’interprétation clinique se superpose
celui de choix du modèle d’effet (voir chapitre 31).
Une réduction relative de risque de 30% est déjà une réduction conséquente, qui
d’ailleurs n’est que très rarement observée. Malgré cela, la pertinence clinique de
cet effet dépend du risque de base. En effet, réduire en relatif de 30% un événement
fréquent est bien plus intéressant de réduire dans la même proportion un événement
rare. Si le risque de base est de 50%, sous l’effet d’une réduction de 30%, il devient
248
Interprétation clinique des mesures de l’effet traitement
35%, donnant une différence de risque de 15%. Avec un risque initial de 5%, la
même réduction relative aboutit à un risque sous traitement de 3,5%, correspondant
à une différence absolue de 1,5%. En terme d’événements évités pour 1000 sujets
traités, le premier cas de figure correspond à 150 événements évités, tandis que le
second à seulement 15. Aussi bien du point de vue de la santé publique, que du point
de vue individuel, la première situation est plus intéressante que la seconde.
Exemple 23.1 Le tableau présente les résultats obtenus dans 3 essais thérapeutiques : l’essai 4S [20], West of Scotland [15], et ISIS 2 [55]. Les deux premiers
essais étaient des essais de prévention de la morbi-mortalité liée aux maladies cardiaques ischémiques (infarctus) par des médicaments hypocholestérolémiants de la
classe des inhibiteurs de l’HMGCoA réductase (statines). L’essai 4S était un essai
de prévention secondaire dont la population cible est représentée par les sujets qui
ont fait un premier infarctus du myocarde et où le but est de prévenir les récidives.
L’essai West of Scotland était par contre un essai de prévention primaire. Ce type
de prévention s’adresse à des sujets sans antécédents d’infarctus et a pour but de
prévenir la survenue d’un infarctus. Le troisième essai évaluait la fibrinolyse intraveineuse à la phase aiguë de l’infarctus du myocarde. Dans ces trois essais le critère
de jugement était la mortalité de toutes causes et les patients du groupe contrôle
recevaient un placebo.
Nombre de décès (%)
Groupe contrôle Groupe traité
Durée
de suivi
Risque
relatif
DR
NST
4S
Nombre de décès
Effectif
256 (11,5%)
2223
182 (8,2%)
2221
4,9 ans
0.71
3.3%
30
West of Scotland
Nombre de décès
Effectif
135 (4,1%)
3293
106 (3,2%)
3302
5,4 ans
0.78
0.9%
112
(12,0%)
(9,2%)
8592
5 semaines
0.77
2.8%
36
ISIS 2
Nombre de décès
Effectif
8595
Il se trouve que les risques relatifs obtenus dans ces trois études sont similaires.
Cependant, les risques de base observés dans les groupes contrôles étant très différents (4S a un risque de base deux fois supérieur à celui de West of Scotland et proche
de celui d’ISIS2), les valeurs de différence de risque et de nombre de sujets nécessaire qu’il faut traiter sont différentes. En prévention primaire (West of Scotland), il
est nécessaire de traiter un nombre de patients 3,5 fois supérieur à celui nécessaire
en prévention secondaire pour éviter un décès, du fait d’un risque de base trois fois
moindre.
Par contre, le bénéfice de la fibrinolyse à la phase aiguë de l’infarctus possède
une valeur de NST identique à celle de la prévention primaire, car les risques bruts
Critères de jugement continus
249
de base ont la même valeur. Il faut cependant remarquer que la période de référence
du risque de base est de 5 semaines pour ISIS2 tandis qu’elle est de 4,9 ans pour 4S.
Ainsi, malgré des risques relatifs très voisins, le bénéfice obtenu dans ces trois
situations n’est pas du même ordre de grandeur, en terme de pertinence clinique
(apprécié par exemple avec le NST) : le bénéfice de la fibrinolyse est supérieur à
celui de la prévention secondaire, qui est lui-même supérieur à celui de la prévention
primaire.
Pour poursuivre dans la relativisation des bénéfices les uns par rapport aux
autres, il peut être nécessaire dans certains cas de rapporter le NST à la fréquence de
la maladie dans la population. Il s’agit alors d’une approche de santé publique qui
raisonne en terme de nombre de vies (ou d’événements) épargnées sur l’ensemble
de la population. Ainsi, des bénéfices a priori minimes (en terme de NST) peuvent
déboucher sur un nombre d’événements épargnés substantiel, si la fréquence de la
maladie est importante (c’est le cas de l’infarctus du myocarde par exemple).
Avec cet exemple, il apparaît que le risque relatif isolé de son contexte est insuffisant pour apprécier l’ampleur du bénéfice en terme de pertinence clinique ou de
santé publique. Les trois indices : risque relatif, différence des risques et NST ou
l’un d’entre eux associé au risque de base sont nécessaires.
En méta-analyse, il est rarement possible de pouvoir calculer directement à partir des essais ces trois indices. En effet, les risques de base sont souvent variables
d’un essai à l’autre. Dans ces conditions, le risque relatif et la différence de risque ne
peuvent pas être simultanément constants à travers les essais. Si c’est le risque relatif qui est constant, la différence de risque va varier en fonction du risque de base
(et vice versa).Ce phénomène est connu sous le terme d’interaction arithmétique
(cf. 31.3.A). Cependant, il est nécessaire en méta-analyse que la valeur de l’effet
traitement soit identique pour tous les essais, autrement une hétérogénéité apparaît.
Ainsi, cette condition ne peut être remplie à la fois pour une mesure relative et une
différence de risque (sauf si le risque de base varie très peu), ce qui conduit à l’impossibilité d’estimer simultanément ces deux types de mesures, directement à partir
des essais.
Ce problème est contourné de la façon suivante, issue du concept de modèle
d’effet (cf. chapitre 31). La méta-analyse est utilisée pour estimer un des deux indices
en se basant sur l’hétérogénéité. Le plus souvent, il s’agit d’une mesure relative, le
risque relatif RR par exemple. Un risque de base global RC est ensuite estimé, à
partir des risques de bases observés dans les essais. A partir de ces deux éléments,
la différence de risque DR est recalculée par : DR = RC £ RR puis le NST par :
NST = 1 /DR .
250
Interprétation clinique des mesures de l’effet traitement
23.2. Critères de jugement continus
L’effet standardisé est une valeur sans dimension. En effet, la différence des moyennes
est divisée par une grandeur de même unité, l’écart type. Le rapport « perd » donc
l’unité qui était rattachée à la grandeur initiale. En partie à cause de ce point, tous
les effets standardisés, même issues de mesures différentes, sont comparables.
La transformation effectuée permet d’obtenir une nouvelle variable aléatoire
dont l’écart type est égal à 1. Les variables initiales étant supposées distribuées selon une loi gaussienne, l’effet standardisé l’est aussi. L’effet standardisé correspond
donc à un z-score (appelé aussi variable standardisée). L’intérêt de cette standardisation est multiple, mais cette standardisation permet surtout de prendre en compte
des disparités dans les échelles de mesures d’un essai à l’autre (en terme de variance
des mesures).
A) Exemple introductif
Cette propriété est illustrée par l’exemple suivant. Considérons un étudiant qui se
présente à deux épreuves, corrigées par deux professeurs différents.
Epreuve Note de l’étudiant Moyenne Ecart type Ampleur d’effet
A
14/20
10,8/20
5,5/20
0.58
B
12/20
10,2/20
2,25/20
0.80
Sa note obtenue à l’épreuve A laisse présager qu’il est plus performant dans cette
discipline que dans l’autre. Cependant ces deux notes ne sont pas directement comparables, car même si les notes moyennes sur l’ensemble de la classe sont relativement similaires, les écarts type de ces notes sont différents. Un des deux professeurs
utilise une plus grande amplitude de notes pour discriminer les élèves que l’autre. Il
est possible de calculer un effet standardisé qui prend en compte cette différence de
variabilité de la notation et donne une valeur standardisée comparable d’une épreuve
à l’autre. Celui-ci s’obtient en calculant la différence entre la note de l’étudiant et la
moyenne de la classe, puis en divisant ce résultat par l’écart type.
Dans notre exemple, l’effet standardisé rattaché à l’épreuve A est inférieur à
celui de l’épreuve B. Contrairement à la première impression, la performance de
l’étudiant dans l’épreuve A est inférieure à celle de l’épreuve B. Cette interprétation
provient du fait qu’il est possible à partir d’un effet standardisé de positionner le
rang d’un individu dans sa population de référence. Nous avons vu qu’un effet standardisé est une variable gaussienne. Pour une valeur donnée de cette variable il est
possible de calculer quelle est la proportion des individus (percentile) qui ont une
valeur inférieure à cette valeur de référence. C’est la proportion de la distribution
inférieure à la valeur de référence qui correspond aussi à la probabilité pour qu’une
variable aléatoire gaussienne prenne une valeur inférieure à la valeur de référence.
Critères de jugement continus
251
Le percentile correspondant à un effet standardisé s’obtient grâçe à une table de loi
gaussienne (ou avec une calculatrice statistique ou avec un logiciel de statistique).
Fig. 23.1. — Proportion de la distribution normale (79%) correspondant à un
z-score de 0,8.
A un effet standardisé de 0,8, correspond 79% de la population (figure 23.1), tandis qu’un effet standardisé de 0,58 correspond à 72%. Pour l’étudiant de l’exemple,
28% des autres étudiants de la classe ont été plus performants que lui dans l’épreuve
A contre seulement 21% dans l’épreuve B.
B) Application à la comparaison de deux traitements
L’effet standardisé peut être conçu comme étant la différence qui existe entre la distribution des valeurs du critère de jugement dans le groupe contrôle et celle des valeurs
dans le groupe expérimental. Par hypothèse, ces deux distributions sont gaussiennes
et de même écart type. Graphiquement, l’effet standardisé est la distance qui sépare
les deux modes de ces deux distributions. La figure 23.2 illustre un effet standardisé
de 1. Le patient moyen sous traitement (symbolisé par le trait vertical d’abscisse 1)
a la même valeur du critère de jugement que le patient du groupe contrôle situé au
84e percentile de sa distribution35 . C’est-à-dire qu’il occupe un rang où seulement
16% des sujets ont spontanément, avant traitement, une valeur du critère de jugement supérieure. Si, par exemple, le critère de jugement est le périmètre de marche
chez des patients artéritiques, le patient moyen aura une amélioration de ces performances qui l’amènera à un niveau où seulement 16% des sujets ont spontanément
un périmètre de marche supérieur.
35
Valeur correspondant à z = 1 dans une table de loi gaussienne.
252
Hétérogénéité et analyse en sous-groupes
Fig. 23.2. — Interprétation d’un effet standardisé de 1.
Il est aussi possible de dire que le patient moyen qui passe du 50e percentile au
84 a un gain de 34% (= 84 ¡ 50), en terme de distribution de la variable utilisée
comme critère de jugement .
e
C) Signe de l’effet standardisé
Le signe de l’effet standardisé est non standard et dépend étroitement de l’orientation de la variable initiale. Si les valeurs de cette variable sont d’autant plus élevées
que la sévérité de la maladie est importante (valeur de pression artérielle, score de
douleur par exemple), une valeur négative de l’effet standardisé témoignera d’un
effet bénéfique. En effet, l’effet standardisé d a le signe de la différence y¹E ¡ y¹C
(moyenne du groupe expérimental diminuée de celle du groupe contrôle). Si d < 0
alors y¹E ¡ y¹C < 0, c’est à dire y¹E < y¹C , ce qui montre que la valeur obtenue
avec le traitement étudié est inférieure à celle observée sans traitement. Cela correspond donc, pour cette variable, à une sévérité sous traitement inférieure à celle sans
traitement, donc à un effet bénéfique.
Si l’orientation de la variable est inversée, les plus faibles valeurs correspondant
aux plus fortes sévérités de la maladie (par exemple avec un score de performance,
périmètre de marche), un effet standardisé négatif témoigne d’un effet délétère (les
performances sont réduites par le traitement).
Dans tous les cas, une valeur nulle correspond évidemment à l’absence d’effet.
Téléchargement