chapitre 1 - WebCampus

publicité
UNIVERSITE DE NAMUR
Faculté de Médecine
BIOSTATISTIQUE
CLINIQUE
Jacques JAMART
Syllabus partiel du cours « Biostatistique »
1er Baccalauréat en Médecine
Syllabus partiel du cours « Introduction aux Statistiques Médicales »
2ème Baccalauréat en Sciences Biomédicales
2ème Baccalauréat en Sciences Pharmaceutiques
8ème édition
2015
Avant-Propos
Ces notes de Biostatistique Clinique représentent la seconde partie du cours
d’« Introduction aux Statistique Médicales » des deuxièmes Baccalauréats en Sciences
Biomédicales et en Sciences Pharmaceutiques, et celle du cours de « Biostatistique » du
premier Baccalauréat en Médecine de l'Université de Namur, anciennement Facultés
Universitaires Notre Dame de la Paix. Elles supposent connues des notions fondamentales de
statistique descriptive et inférentielle telles que les variables aléatoires, les distributions
d’échantillonnage, le principe de l’estimation statistique et des tests, ainsi que les techniques
d’inférence de base comme les comparaisons de fréquences et de moyennes, la corrélation et
la régression, ces notions étant couvertes par la première partie du cours donnée par le
Professeur Eric Depiereux dont ces notes se veulent le prolongement. L’objet de cet
enseignement de Biostatistique Clinique est en effet de montrer l’application des concepts et
des méthodes statistiques aux problèmes spécifiquement médicaux tels que l’épidémiologie et
la recherche des causes des maladies, l’évaluation d’un test diagnostique, l’analyse des
données de survie, les essais cliniques de médicaments ou d’autres thérapeutiques, la métaanalyse d’un ensemble d’études scientifiques et les applications de biochimie clinique. Son
objectif est de permettre aux futurs médecins, pharmaciens ou chercheurs dans le domaine
biomédical une lecture plus critique de la littérature et une discussion plus nuancée des
informations scientifiques dont ils auront connaissance.
2
CHAPITRE 1
STATISTIQUE
EPIDEMIOLOGIQUE
1. Types de mesures en épidémiologie
2. Mesures de mortalité
3. Mesures de morbidité
4. Mesures d’association et classification des études
5. Etudes de cohorte
6. Enquêtes cas-témoins
7. Biais
8. Facteurs de confusion
9. Comparaison des études de cohorte et des enquêtes castémoins
10. Jugement de causalité
1. Types de mesures en épidémiologie
L'épidémiologie utilise plusieurs types de mesures, qui sont souvent confondues, les
proportions, les ratios, les cotes ou odds et les taux.
Une proportion est un rapport entre le nombre d'éléments d'un groupe et le nombre
d'éléments d'une population plus large contenant ce groupe. C'est une fraction dans laquelle le
numérateur est inclus dans le dénominateur. Elle est souvent multipliée par le facteur d'échelle 100
pour obtenir un pourcentage. Par exemple, dans une population comprenant 60 femmes (f) et 40
hommes (m), la proportion de femmes est évidemment
f
p
f
60
m
60 40
0,6
Un ratio est un rapport des fréquences de deux classes mutuellement exclusives d'une
même variable. Le ratio femmes/hommes est dans l'exemple
f
m
r
60
40
1,5
Si la variable étudiée n'a que deux classes, le ratio est équivalent à la cote ou odd, rapport entre une
proportion et son complémentaire
ψ =
0,6
p
=
= 1,5
1 - 0, 6
1- p
Un taux est, de façon générale, le changement instantané d'une quantité rapporté au
changement unitaire d'une autre quantité. En épidémiologie, c'est le rapport entre un nombre de
sujets présentant un évènement et la population à risque pour cet évènement pendant une période
donnée. L'unité du numérateur est donc un nombre de sujets et celle du dénominateur un nombre
de sujets multiplié par une unité de temps, habituellement des personnes-années. Si, dans une
population de taille N suivie pendant un temps T, n sujets présentent un évènement qui survient
après un délai variable, soit tj pour le sujet j, le nombre de personnes-temps à risque est, de façon
exacte,
n
tj
PT =
(N - n) T
j 1
Si on ne connait pas les délais d'apparition individuels de l'évènement tj et si l'on suppose qu'ils
suivent une distribution uniforme pendant la période considérée, on peut remplacer leur somme par
le nombre de sujets multiplié par le délai moyen d'apparition et calculer PT de façon approchée par
PT ≈
nT
2
(N - n) T = (N -
n
)T
2
En épidémiologie, on étudie 3 types de paramètres, des mesures de mortalité et de morbidité qui
concernent l’épidémiologie descriptive, et des mesures d’association qui font partie de
l’épidémiologie analytique.
4
2. Mesures de mortalité
Selon la définition d'un taux donnée plus haut, un taux de mortalité est le rapport entre un
nombre de décès et le nombre de personnes-temps à risque pour cet évènement. On parle de taux
de mortalité brut lorsque ce paramètre est estimé sur l'ensemble d'une population et de taux de
mortalité spécifique lorsque l'on ne considère que les sujets appartenant à une certaine catégorie
de la population, appelée strate, ou que les décès dus à une maladie particulière. On ne peut
évidemment étudier valablement des taux de mortalité‚ que si les populations dont ils proviennent
sont comparables, c'est-à-dire si les proportions de sujets des différentes strates des populations
sont identiques (sexe, âge, ...). Les taux de mortalité‚ doivent donc être ajustés ou "standardisés" en
fonction d'une population de référence. Il y a deux types d'ajustement possibles.
La standardisation directe (méthode de la population type) consiste à choisir une
population de référence dont on connaît la proportion de sujets pi dans chaque strate i. Le taux
standardisé direct (TSD) est alors la moyenne des taux spécifiques observés dans chaque strate t i,
pondérée selon la population de référence, c'est-à-dire, pour k strates,
k
TSD =
k
pi ti
avec
pi 1
i 1
Classe
0
1-4
5-14
15-24
25-34
35-44
45-54
55-64
65-74
>75
∑
Taux spécifiques
i 1
Proportions par strate
rouge
bleu
rouge
8,01
0,46
0,23
0,87
1,10
2,02
4,88
10,73
23,75
90,58
14,25
0,85
0,41
1,05
1,26
2,13
4,88
10,98
26,71
95,36
1,36
5,43
14,15
15,46
15,25
13,62
10,78
10,74
6,78
6,43
———
100,00
bleu
1,22
5,41
14,80
17,04
14,82
12,25
11,17
10,65
7,65
4,99
———
100,00
référence
1,18
4,84
13,53
16,35
14,47
13,07
11,99
11,03
7,61
5,93
———
100,00
Table 1. Taux de mortalité spécifiques de deux pays fictifs, rouge et bleu.
La table 1 présente des taux annuels de mortalité spécifiques par 1000 habitants de deux pays fictifs
appelés pays rouge et pays bleu, ainsi que les pourcentages correspondants des populations par
strate d’âge. Les taux de mortalité bruts pour les pays rouge et bleu sont respectivement
T = [(8,01 x 1,36) + (0,46 x 5,43) + …. + (90,58 x 6,43) ] / 100 = 9,86
et T = [(14,25 x 1,22) + (0,85 x 5,41) + …. + (95,36 x 4,99 ] / 100 = 9,42.
Les taux standardisés directs basés sur une population de référence pi sont eux, pour le pays rouge,
5
k
TSD =
pi ti = [(8,01 x 1,18) + (0,46 x 4,84) + …. + (90,58 x 5,93) ] / 100 = 9,66
i 1
et, pour le pays bleu,
k
TSD =
pi ti = [(14,25 x 1,18) + (0,85 x 4,84) + …. + (95,36 x 5,93) ] / 100 = 10,38.
i 1
On peut remarquer que si, pour le pays rouge, le taux de mortalité brut est plus élevé, le taux
standardisé direct est au contraire plus bas.
La standardisation indirecte (méthode de la mortalité type) utilise au contraire une
population de référence dont on connaît les taux de mortalité spécifique par strate t i et on calcule le
nombre de décès attendus, c'est-à-dire le nombre de décès que l'on observerait dans la population
étudiée si elle était soumise aux mêmes taux de mortalité spécifiques que la population de
référence. Le ratio standardisé de mortalité (SMR, standardized mortality ratio) est alors le
rapport entre le taux de mortalité observé et celui calculé en utilisant la mortalité de la population
de référence, multiplié par 100 pour obtenir un pourcentage. Il peut aussi être exprimé vis-à-vis
d’une autre population, par exemple celui du pays bleu calculé avec la mortalité spécifique du pays
rouge comme référence qui est dans l’exemple
SMR =
T
k
pi ti
=
(8,01 x 1,22)
9,42
(0,46 x 5,41)
... (90,58 x 4.99)
x 100 =
9,42
x 100 = 108.
8,74
i 1
3. Mesures de morbidité
Les mesures de morbidité dérivent essentiellement des notions de prévalence et d'incidence,
cette dernière s'exprimant par plusieurs paramètres souvent confondus.
La prévalence est le nombre de cas d'une maladie à un moment déterminé. La prévalence
instantanée ou prévalence relative est la proportion de cas dans une population composée de
sujets malades m et non malades n à un moment déterminé t, c'est-à-dire
Pt =
m
m
n
L’incidence est le nombre de nouveaux cas de maladie pendant une période déterminée. Le
taux d'incidence est le rapport entre le nombre de nouveaux cas i et le nombre de sujets à risque
pendant une période (t, t + 1), exprimé en personnes-temps à risque PT, c'est-à-dire
TIt, t+1 =
i
PT
C'est donc une mesure de la vitesse de passage de l'état non malade à l'état malade, c'est-à-dire de la
vitesse de propagation d'une maladie. L'incidence cumulative de la période (t, t + 1) est le rapport
entre le nombre de nouveaux cas i et le nombre Nt de sujets à risque au début de la période
6
considérée t. C'est donc la proportion de sujets qui développeront la maladie pendant cette période,
c'est-à-dire
ICt, t+1 =
i
Nt
Supposons qu'en examinant 1000 sujets au temps t1, on en découvre 130 qui présentent une
certaine maladie. Un an après, soit au temps t2, on réexamine ces sujets et on diagnostique 50
nouveaux cas de l'affection. Les estimations des paramètres de morbidité décrits ci-dessus sont:
a) prévalence instantanée en t1:
Pt =
130
= 0,130
1000
b) nombre de personnes-temps à risque pendant la période (t1, t2), de façon approchée:
PTt1,t2 ≈ ((1000 - 130 ) -
50
) x 1 = 845
2
c) taux d'incidence de la période (t1, t2):
TIt1, t2 =
50
= 0,059
845
d) incidence cumulative de la période (t1, t2):
ICt1, t2 =
50
= 0,057.
1000 - 130
On peut montrer que, pour autant que la population soit stable et la maladie en situation
d'équilibre et de durée moyenne d, il y a une relation entre la prévalence instantanée et le taux
d'incidence ou l’incidence cumulative. En effet, si le nombre m de sujets malades est
m ≈ Nt x ICt,t+1 x d ≈ Nt x TIt,t+1 x d
la prévalence devient
Pt =
m
Nt x TIt, t 1 x d
TIt, t 1 x d
≈
=
m n
( Nt x TIt, t 1 x d) Nt
1 (TIt, t 1 x d)
De plus, si la prévalence instantanée est faible, c'est-à-dire si (1 - Pt) ≈ 1,
TIt, t 1 x d
1 (TIt, t 1 x d)
Pt
Pt ≈
=
1 (TIt, t 1 x d) - (TIt, t
1 - Pt
1 (TIt, t 1 x d)
1
x d)
= TIt,t+1 x d
7
c’est-à-dire qu’en première approximation, la prévalence instantanée est une fonction linéaire de
l’incidence et de la durée moyenne de la maladie.
4. Mesures d’association et classification des études
L'épidémiologie analytique vise à mettre en évidence les facteurs de risque des maladies.
Avant de pouvoir porter un éventuel jugement de causalité, il faut montrer qu'il existe une
association réelle entre la maladie et le facteur de risque supposé, c’est-à-dire le facteur
d'exposition. Les paramètres utilisés pour mesurer une telle association sont le risque relatif, le
rapport des cotes ou odds ratio et le risque attribuable.
Le risque relatif RR d'un facteur quelconque est le paramètre principal que l'on cherche à
estimer dans les études épidémiologiques analytiques. On le définit comme le rapport des
incidences de la maladie étudiée pour les sujets exposés ou non à ce facteur, ou encore comme la
probabilité d'être atteint de l'affection pour les sujets exposés au facteur, divisée par la probabilité
de développer la même maladie pour les sujets non exposés, c'est-à-dire en rappelant que la
notation P (y | x) signifie la probabilité d’observer y si x est présent,
RR =
P ( mal | exp)
P (mal | non exp)
Le risque relatif est donc le rapport des risques absolus de maladie dans les populations de sujets
exposés R1 et de sujets non exposés R0
RR =
R1
R0
L'observation d'un risque relatif RR > 1 au sens statistique, c'est-à-dire statistiquement différent de
1, indique une association entre la maladie et l'exposition, puisque si l'exposition est indépendante
de la survenue de la maladie, R1 = R0, donc RR = 1. De plus le risque relatif quantifie la force de
l'association entre la maladie et l'exposition.
Si on exprime les risques, qui sont des proportions, par leurs cotes R1 / (1 - R1) et R0 / (1 R0), on obtient un paramètre voisin du risque relatif appelé rapport des cotes ou odds ratio OR,
R1
OR = 1 - R1
R0
1 - R0
Si le risque absolu chez les exposés R1 est supérieur au risque chez les non exposés R0,
c’est-à-dire si RR > 1 ou encore (1 – R0) > (1 – R1) ce qui est habituellement le cas dans une étude
épidémiologique, l’odds ratio est supérieur au risque relatif, soit
OR =
R1
1 - R0
1 - R0
x
= RR
> RR
1 - R1
R0
1 - R1
8
Pour autant que l’on connaisse un des deux risques absolus, chez les exposés ou les non exposés,
on peut transformer le risque relatif en odds ratio et vice versa. En effet
RR =
R1
R1
RR - R1
entraîne R0 =
et 1 – R0 =
et donc
R0
RR
RR
R1 (1 - R0 )
OR =
=
R0 (1 - R1)
RR
RR - R1
RR - R1
RR
=
1 - R1
1 - R1
Dès lors,
OR (1 – R1) = RR – R1 ou RR = R1 + OR (1 – R1)
La relation R1 = R0 RR permet d’écrire
OR =
dont on déduit
RR - R1
RR (1 - R0)
=
1 - R1
1 - R0 RR
OR – OR R0 RR = RR – R0 RR
ou RR (1 – R0 + R0 OR) = OR
et RR =
OR
(1 - R0) R0 OR
On peut remarquer que la nullité de R1 ou de R0 entraîne l’égalité OR = RR. De plus, si la maladie
est rare, c’est-à-dire si les risques absolus R1 et R0 sont petits, et donc que les expressions (1 – R1)
et (1 – R0) sont proches de 1, l’odds ratio est proche du risque relatif, une propriété dont nous
verrons plus tard une conséquence importante.
Un dernier paramètre utilisé pour décrire l'importance d'un facteur quelconque est le risque
attribuable appelé aussi fraction étiologique. Cet indice représente la proportion de cas de
maladies survenant en excès dans la population par rapport aux sujets non exposés. En d'autres
termes, il exprime la proportion de cas qui seraient évités si le facteur de risque était absent, ce qui
lui confère un certain intérêt, dans la mesure où la recherche des facteurs étiologiques d'une
affection a pour finalité‚ leur éradication ou du moins la prise de mesures de protection pour en
atténuer les effets. En appelant Rg le risque global de survenue de la maladie dans la population,
donc aussi bien chez les sujets exposés que chez les non exposés, le risque attribuable RA est
Rg - R0
Rg
Ce risque est en relation avec le risque relatif RR et la proportion E de sujets exposés. En effet, le
risque global est la somme pondérée des risques dans les deux sous-populations de sujets exposés
ou non au facteur étudié, c'est-à-dire
RA =
Rg = E R1 + (1 - E) R0 = R0 + E (R1 - R0)
Dès lors,
9
RA =
R0 E (R1 - R0) - R0
R0 E (R1 - R0)
ou en divisant le numérateur et le dénominateur par R0,
RA =
E (RR - 1)
1 E (RR - 1)
Pour mettre en évidence une association éventuelle entre une maladie et un facteur
d'exposition, on peut réaliser trois types principaux d'études étiologiques se distinguant entre elles
par la façon dont est pratiqué l'échantillonnage des sujets. Cette distinction est fondamentale et
conditionne l'analyse statistique des résultats. Les sujets observés peuvent être répartis en 4
catégories formant la table de contingence suivante.
Table 2. Répartition des sujets dans une étude étiologique.
L'étude sur échantillon représentatif est celle dans laquelle on sélectionne des sujets au
hasard dans la population et on observe si ils sont ou non atteints de l'affection et si ils ont été ou
non exposés au facteur de risque étudié. La maladie et l'exposition sont donc tous deux des facteurs
aléatoires.
Dans une étude de cohorte, on sélectionne un groupe de sujets exposés et un groupe de
sujets non exposés au facteur étudié et on observe dans les deux groupes l'apparition éventuelle de
la maladie concernée. L'exposition est donc un facteur contrôlé, c'est-à-dire que le rapport (E1 / E0)
est déterminé arbitrairement, tandis que la maladie est un facteur aléatoire.
Dans une étude cas-témoins ou enquête cas-temoins, on sélectionne un groupe de sujets
malades et un groupe de sujets non malades, dits témoins, et on recherche dans les deux groupes si
les sujets ont été ou non exposés au facteur de risque. C'est donc, dans ce type d'étude, la maladie
qui est le facteur contrôlé, avec fixation arbitraire du rapport (M1 / M0), et l'exposition le facteur
aléatoire.
Il existe deux schémas d’étude intermédiaires entre les études de cohorte et les enquêtes castémoins, par ailleurs assez voisins. Dans ces deux techniques, on suit une cohorte de sujets exposés
ou non au facteur de risque, dont on détecte les cas. Dans le premier schéma appelé étude cascohorte, on compare les cas à des témoins pris au hasard dans la cohorte (sous-cohorte). Dans le
second schéma appelé enquête cas-témoins emboîtée ou enquête cas-témoins nichée ou encore
enquête cas-témoins hiérarchique on compare chaque cas à un ou plusieurs témoins appariés
pour la même durée de suivi et sélectionnés de façon aléatoire dans la cohorte.
10
En pratique, le schéma d'étude sur échantillon représentatif est très peu utilisé car sa
puissance statistique, en d'autres termes sa capacité à déceler un risque relatif significatif, est faible
et il faudra par conséquent un nombre de sujets considérable pour atteindre l'objectif fixé. On lui
préfère habituellement l’étude de cohorte ou l’enquête cas-témoins.
5. Etudes de cohorte
Les résultats d'une étude de cohorte permettent de répartir les sujets observés en 4
catégories, selon la table 2, les effectifs de sujets exposés et non exposés ei étant fixés
arbitrairement, les nombre mi étant aléatoires. On peut donc estimer les risques absolus de maladie
chez les sujets exposés R1 et non exposés R0 par
R1 =
a
e1
et
R0 =
c
e0
et le risque relatif par
RR =
R1
a e0
=
R0
c e1
Supposons qu'une étude de cohorte ait permis d'observer les résultats suivants.
Table 3. Exemple de données d’étude de cohorte.
Les estimations des risques absolus sont alors
R1 = 72 / 900 = 0,080 et R0 = 33 / 690 = 0,048
avec comme risque relatif
RR =
72 x 690
0,080
ou RR =
= 1,67
33 x 900
0,048
Quelle que soit la valeur estimée du risque relatif, l'association entre la maladie et le
facteur d'exposition ne peut être considérée comme réelle que si ce risque relatif est
significativement différent de l'unité, c'est-à-dire si les proportions de sujets malades et non
malades diffèrent significativement entre les groupes d'exposés et de non exposés. L'hypothèse
nulle RR = 1 peut être évaluée contre l'hypothèse alternative RR ≠ 1 par le test du χ² à 1 degré de
liberté. La statistique du test est alors
11
χ2 =
(ad - bc) ² N
[(72 x 657 ) - (828 x 33)] ² x 1590
=
= 6,56
900 x 690 x 105 x1485
e1 e0 m1 m0
Une table de la distribution du χ2 permet de rejeter l'hypothèse nulle RR = 1 et donc de conclure
que le risque relatif est significativement augmenté chez les sujets exposés, avec p < 0,01, puisque
χ² à 1 degré de liberté = 6,635 pour α = 0,01.
Dans la mesure où le risque relatif est significativement différent de 1, il est
intéressant de donner des limites de confiance de cette estimation. Deux procédés permettent de
calculer de façon approchée un intervalle de confiance [RRi ; RRs] autour de l'estimation RR, la
méthode de Miettinen
²)
[RRi ; RRs] = (RR) 1 ± (z /
et la méthode de Katz
[RRi ; RRs] = RR exp (± z
1
a
1
e1
1
c
1
)
e0
z étant la valeur d’une variable normale réduite correspondant à une fonction de répartition de
0,975, pour un intervalle de confiance à 95 %. Dans l'exemple, les intervalles de confiance à 95 %
estimés respectivement par les méthodes de Miettinen et de Katz sont
[RRi ; RRs] = (1,67) 1 ±
(1,96 /
6 , 56 )
et [RRi ; RRs] = 1,67 exp (± 1,96 x
1
72
1
900
= [1,13 ; 2,47]
1
33
1
) = [1,12 ; 2,49]
690
Ce résultat signifie en pratique qu'il y a 95 % de chances que le risque relatif de la population d'où
l'échantillon de sujets a été extrait, soit compris entre 1,13 et 2,47 ou entre 1,12 et 2,49, selon le
procédé de calcul utilisé.
En ce qui concerne le risque attribuable, il faut noter qu'il ne peut pas être estimé d'après les
résultats d'une étude de cohorte puisque la définition de cette mesure d'association fait intervenir la
proportion de sujets exposés E, paramètre qui ne peut évidemment pas être estimé‚ puisqu’il est
fixé arbitrairement dans le schéma de l'étude.
Le nombre de sujets nécessaire N dans une étude de cohorte par rapport à celui qu’il
faudrait dans une étude sur échantillon représentatif N’ est en théorie approximativement
N'
1
=
N
4 E (1 - E)
L’étude de cohorte est donc d’autant plus indiquée par rapport à une étude sur échantillon
représentatif que la proportion de sujets exposés est faible, c’est-à-dire que l’exposition est rare. Par
exemple pour E = 0,01, N’/ N ≈ 25. Le gain est nul si N’/ N = 1, c’est-à-dire si E = 0,5, ce qui en
pratique est exceptionnel.
12
6. Enquêtes cas-témoins
Pour analyser les résultats d'une enquête cas-témoins, on répartit également les sujets en 4
catégories selon la même table de contingence que dans une étude de cohorte mais avec cette fois
les effectifs de malades et de non malades mi qui sont fixés, les nombres ei étant aléatoires. Les cas
recrutés doivent avoir un diagnostic certain et récent, donc être des cas incidents, être recrutés dans
une zone géographique délimitée de façon précise et présenter habituellement des critères
d’éligibilité tels que le sexe et l’âge. Tous les cas d’une région doivent idéalement être recrutés. Les
témoins qui leur sont comparés sont soit des témoins hospitaliers, méthode qui n’est valable que si
le motif d’hospitalisation n’a aucun lien avec la maladie étudiée, soit des témoins de population,
qui sont plus représentatifs si l’échantillonnage est réellement aléatoire.
Contrairement aux études de cohorte, les risques absolus de maladie chez les sujets exposés
R1 et non exposés R0 ne peuvent être estimés dans une enquête cas-témoins, puisque les deux
groupes comparés sont ceux des malades et des non malades, et qu'on ne peut donc connaître que
les fréquences des expositions par rapport à l'état du sujet et non l'inverse. De même le risque relatif
ne peut être estimé directement. Toutefois, puisque l’odds ratio est proche du risque relatif lorsque
R1 et R0 sont petits, on peut, quand l’affection étudiée est rare, approcher le risque relatif par l’odds
ratio, c'est-à-dire
a
d
R1
1 - R0
ad
RR ≈ OR =
x
= e1 x e0 =
≡ψ
b
c
1 - R1
R0
bc
e1
e0
Si les résultats suivants sont observés dans une enquête cas-témoins,
Table 4. Exemple de données d’enquête cas-témoins.
on peut estimer le risque relatif de façon approchée par
RR ≈ ψ =
139 x 101
= 1,67
127 x 66
L'hypothèse nulle RR = 1 peut être testée contre l'hypothèse alternative RR ≠ 1 par le même
test du χ2 que précédemment, soit dans l'exemple
χ2 =
[(139 x 101) - (127 x 66)] ² x 433
= 6,67
266 x 167 x 205 x 228
13
permettant de rejeter l'hypothèse nulle RR = 1 avec p < 0,01 puisque χ² à 1 degré de liberté =
6,635 pour α = 0,01. Quant à l'intervalle de confiance, il peut être estimé de façon approchée soit,
comme dans une étude de cohorte, par la méthode de Miettinen décrite plus haut, soit par la
méthode de Woolf
[RRi ; RRs] = RR exp (± z
1
a
1
b
1
c
1
)
d
Pour les données de l'exemple, les intervalles de confiance à 95 % estimés par les méthodes
de Miettinen et de Woolf sont respectivement
[RRi ; RRs] = (1,67) 1 ±
(1,96 /
et [RRi ; RRs] = 1,67 exp (± 1,96 x
1
139
6 , 67 )
= [1,13 ; 2,46]
1
127
1
66
1
) = [1,13; 2,47]
101
Comme dans une étude cohorte, on peut calculer théoriquement le nombre de sujets
nécessaire N dans une étude cas-témoins par rapport à celui qu’il faudrait dans une étude sur
échantillon représentatif N’. Il est approximativement
N'
1
=
N
4 M (1 - M)
L’étude cas-témoins est donc d’autant plus indiquée par rapport à une étude sur échantillon
représentatif que la proportion de malades est faible, c’est-à-dire que la pathologie est rare. On peut
également remarquer que les exemples choisis pour illustrer la méthodologie d'analyse des études
de cohorte et des enquêtes cas-témoins, aboutissent à des estimations du risque relatif qui sont
similaires et de précision équivalente. Le nombre de sujets est cependant beaucoup plus faible dans
l'enquête cas-témoins (433) que dans l'étude de cohorte (1590). Ce fait ne résulte pas du hasard
mais est au contraire une règle générale que nous rappellerons plus tard.
Contrairement aux études de cohorte, les enquêtes cas-témoins permettent par ailleurs
d'estimer le risque attribuable pour autant que la maladie soit rare. Dans ce cas en effet, la
proportion de sujets exposés dans la population peut être estimée par la proportion de sujets
exposés chez les non malades formant la majeure partie de cette population
b
m0
E ≈
et donc le risque attribuable par
RA =
E (RR - 1)
1 E (RR - 1)
ou directement à partir des valeurs de la table de contingence par
RA = 1 -
c m0
d m1
En effet,
14
E (RR – 1) ≈ E (OR – 1) =
1 + E (RR – 1) =
b
b d
x
ad-bc
ad-bc
=
bc
c (b d)
d m1
b c c d a d - b c d (a c)
c (b d) a d - b c
=
=
=
c m0
c (b d)
c (b d)
c (b d)
Dès lors,
E (RR – 1) = 1 + E (RR – 1) – 1 =
d m1
d m1 - c m0
–1 =
c m0
c m0
et donc
RA =
d m1 - c m0
c m0
c m0
E (RR - 1)
=
x
= 1–
c m0
d m1
d m1
1 E (RR - 1)
Dans l'exemple, les estimations sont respectivement
E = 127 / 228 = 0,56
et donc
RA =
0,56 x (1,67 - 1)
1 [0,56 x (1,67 - 1)]
= 0,27
ou directement
RA = 1 –
66 x 228
= 0,27
101 x 205
Cela signifie en pratique que l'on peut estimer à 27 % le pourcentage de cas de maladie imputables
au facteur d'exposition considéré.
7. Biais
Si on définit un biais comme tout processus tendant à aboutir à des résultats ou à des
conclusions différant systématiquement de la vérité, on peut considérer deux catégories de biais
dans les études épidémiologiques analytiques, les biais de sélection ou biais d'échantillonnage
résultant d'un mauvais choix des sujets appartenant aux deux groupes étudiés, exposés et non
exposés dans les études de cohorte ou malades et non malades dans les enquêtes cas-témoins, et les
biais de classification, biais de mesure, biais d’information ou biais d’observation qui sont la
conséquence d'une appréciation incorrecte de l'état d'un sujet, malade ou non malade dans les
études de cohorte, exposé ou non exposé dans les enquêtes cas-témoins.
Les biais de sélection sont généralement faciles à éviter dans les études de cohorte et sont
donc pratiquement le propre des enquêtes cas-témoins. Six formes principales peuvent en être
individualisées.
1) Le biais de prévalence, dit aussi biais de Neyman, résulte du recrutement de cas
prévalents de la maladie plutôt que de cas incidents, conduisant ainsi à une proportion exagérée de
malades à évolution favorable. Ce biais éventuel est d'autant plus grave que le pronostic de
l'affection étudiée est sombre.
2) Le biais d'admission ou biais de Berkson est une conséquence de l'échantillonnage des
sujets présentant ou non l'affection, parmi des malades hospitalisés. En effet, dans ces conditions,
15
le risque relatif d'un facteur sera biaisé si celui-ci modifie la probabilité‚ qu'un individu soit ou ne
soit pas hospitalisé.
3) Dans l'étude de certaines maladies peu symptomatiques et à évolution lente, des sujets
recrutés comme témoins non malades peuvent en réalité être atteints de l'affection. Ce biais, dit
biais de détection, est peu important dans l'étude des maladies rares mais impose la recherche
systématique de la maladie chez les témoins lorsque la prévalence de la maladie est élevée.
4) Inversement, lorsque l'exposition à un facteur entraîne l'apparition d'un symptôme
conduisant à la recherche systématique d'un diagnostic, l'estimation du risque relatif de ce facteur
peut être biaisée. C’est le biais du signal ou biais de surveillance.
5) Des taux de participation des sujets contactés pour entrer dans l'étude, différents selon
qu'ils sont malades ou non, peuvent aussi entraîner un biais, appelé biais de non-réponses. Il est
fréquent et inévitable car il est habituellement plus délicat de convaincre des sujets bien portants
que des malades de participer à une étude épidémiologique. Cette différence entre les taux de
réponses des deux groupes n'est cependant une source de biais que si les pourcentages d'exposés
diffèrent entre les participants à l'étude et ceux qui ont refusé leur collaboration, et que ces
différences ne sont pas les mêmes pour les cas et pour les témoins.
6) Enfin, il faut signaler que l'utilisation de groupes de sujets témoins appartenant à une
collectivité (profession déterminée, association, abonnés du téléphone, ...) est susceptible de fausser
les résultats, parce que ces sujets présentent une caractéristique commune. C’est le biais de
collectivité.
Les biais de classification des études de cohorte sont constitués par les erreurs diagnostiques
ne permettant pas de classer correctement le sujet en malade ou non malade. Dans les enquêtes
cas-témoins, sa forme principale est le biais de rappel ou biais de mémorisation. Cette distorsion
résulte, en premier lieu, de ce que les sujets malades ont habituellement déjà été questionnés à
plusieurs reprises, et de ce que chaque nouvelle anamnèse peut conduire ces sujets à répondre de
façon de plus en plus complète ou précise. De plus, les sujets malades ont habituellement une plus
grande tendance que les sujets sains à évoquer ou exagérer certaines expositions. Cela est
particulièrement net dans la recherche de facteurs de risque d'origine industrielle, où, souvent pour
des raisons de revendication ou d'indemnisation, les sujets malades essaieront de "trouver une
cause" à leur affection.
Tous les biais entraînent évidemment une estimation erronée du risque relatif, par défaut ou
par excès.
8. Facteurs de confusion
Un facteur de confusion peut être défini comme une variable associée à l'exposition
étudiée sans en être la conséquence, et qui est simultanément un facteur de risque de l'affection. Il
peut exagérer ou diminuer l'estimation du risque relatif d’une exposition. Ainsi, par exemple,
l'alcoolisme peut apparaître comme un facteur de risque dans le cancer du poumon, parce que la
consommation d'alcool est corrélée positivement avec celle du tabac et que le tabagisme est luimême un facteur de risque pour ce cancer. Le tabagisme est, dans ce cas, un facteur de confusion
positif, qui conduit à surestimer le risque relatif de l'alcoolisme.
Il y a deux méthodes d'élimination des facteurs de confusion, la stratification et
l'appariement. La stratification consiste à diviser le facteur de confusion en différentes classes au
moment de la planification de l'étude. Dans l'exemple de l'alcoolisme et du cancer du poumon cité
ci-dessus, on divisera la quantité de tabac fumée en plusieurs catégories, et les sujets seront
16
échantillonnés, non plus dans la population générale, mais dans des sous-populations (strates)
homogènes quant au facteur de confusion. La seconde méthode d'élimination d'une confusion est
l'appariement. Dans une enquête cas-témoins par exemple, elle consiste à choisir pour chaque
sujet malade, un ou plusieurs sujets témoins présentant le facteur de confusion au même niveau.
Ainsi, dans l’exemple de l’alcoolisme comme facteur de risque de cancer du poumon, pour chaque
nouveau cas admis dans l'étude, on recrutera un ou plusieurs sujets indemnes de l'affection et ayant
une consommation de tabac identique. D'une certaine manière, l'appariement peut être considéré
comme une stratification poussée à l'extrême, chaque ensemble formé par un sujet malade et son ou
ses témoins représentant une classe différente du ou des facteurs de confusion.
Les deux méthodes améliorent la précision de l'estimation du risque relatif. L'appariement
permet en outre de considérer simultanément un grand nombre de facteurs de confusion alors que
ce nombre est limité‚ dans la stratification. Il faut cependant noter que dans certaines situations,
l'appariement est non seulement inutile mais nuisible (overmatching). L’estimation du risque relatif
sera en effet incorrecte en cas d’appariement sur un facteur de confusion, non seulement associé à
l’exposition, mais qui en est une conséquence.
Lorsqu'une étude analytique prend en compte un facteur de confusion par stratification ou
appariement, l'analyse de ses résultats devient plus complexe. Supposons d'abord que la
planification de l'étude comprenne une stratification, c'est-à-dire que le facteur de confusion soit
divisé en k classes différentes. Les données se présentent alors sous la forme de k tables de
contingence comme celles décrites précédemment. En utilisant les notations précédentes mais
affectées de l'indice i pour la classe i, le risque relatif peut être estimé de façon simple mais robuste
par la méthode de Mantel-Haenszel, qui suppose que le rapport des cotes est sensiblement
constant d'une classe à l'autre. Ce risque est alors, pour une étude de cohorte
k
RR =
i 1
k
i 1
ai e0i
ni
ci e1i
ni
et pour une enquête cas-témoins
k
RR ≈ OR =
i 1
k
i 1
ai di
ni
bi ci
ni
L'hypothèse nulle d'un risque relatif RR = 1 peut être évaluée contre l'alternative RR ≠ 1 par le test
de Mantel-Haenszel, dont la statistique, qui suit une distribution du χ2 à 1 degré de liberté, est
k
k
e1i m1i
²
ni
i 1
e1i e0i m1i m0i
ni² (ni - 1)
ai χ² =
i 1
k
i 1
Si le ou les facteurs de confusion sont pris en compte par un appariement 1:1, c'est-à-dire si,
pour une étude de cohorte, on fait correspondre à chaque sujet exposé un sujet non exposé ayant
17
le(s) facteur(s) de confusion au même niveau, ou si dans une enquête cas-témoins, on associe
chaque sujet malade à un témoin avec facteur(s) de confusion identique(s), l'information obtenue
sera représentée par 4 nombres de paires de sujets décrivant les 4 situations possibles d'une paire,
soit
Table 5. Répartition des sujets dans une étude étiologique avec appariement 1 :1.
L'estimation du risque relatif est alors, dans les deux types d'étude, le rapport des paires
discordantes
RR = b / c
L'hypothèse nulle RR = 1 peut être évaluée contre RR ≠ 1 par le test de McNemar, pour autant que
(b + c) > 10, dont la statistique qui suit une distribution du χ2 à 1 degré de liberté est
χ2 =
(b - c) ²
.
b c
Pour une enquête cas-témoins par exemple, aboutissant à la répartition des 4 paires de sujets
selon la table
Table 6. Exemple de données d’étude étiologique avec appariement 1 : 1.
l'estimation du risque relatif est
RR = 11 / 6 = 1,83
Ce risque n'est pas significativement différent de 1, puisque
18
χ2 =
(11 - 6)²
= 1,471 < 3,841 pour α = 0,05
11 6
Un intervalle de confiance [RRi; RRs] autour de l'estimation RR peut être calculé‚ de façon
approchée par
1 1
[RRi ; RRs] = RR exp (± z
)
b c
soit, dans l'exemple, pour un niveau de confiance de 95 %,
[RRi ;RRs] = 1,83 exp (± 1,96
1
11
1
) = [0,68; 4,95].
6
On peut remarquer le manque de précision de l'estimation du risque relatif qui résulte de ce que la
méthode ne considère en fait que les paires discordantes.
L'estimation du risque relatif peut être étendue à la situation dans laquelle plusieurs sujets
sont appariés à chaque exposé (étude de cohorte) ou à chaque cas (enquête cas-témoins), à celle
d'une exposition qui n'est plus simplement dichotomique mais est décrite par plusieurs niveaux ou
encore à plusieurs expositions simultanées. Dans ces situations complexes, l’analyse utilise un
modèle de régression pour une variable dépendante dichotomique, le modèle de régression
logistique, qui modélise une proportion p en fonction de k variables xi par
Log
p
= β0 + β1 x1 + β2 x2 + …. + βk xk ≡ z
1- p
ou
p =
exp(z)
1
=
1 exp (z)
1 exp(-z)
Cette méthode permet d'estimer un risque relatif (odds ratio) en tenant compte
simultanément de plusieurs facteurs d'exposition (enquêtes cas-témoins) dichotomiques ou
numériques, d'étudier l'influence éventuelle d'une interaction entre ces expositions et d'établir
éventuellement la forme d'une liaison entre une exposition et le risque de l'affection.
9. Comparaison des études de cohorte et des enquêtes cas-témoins
Il y a aujourd'hui un intérêt croissant pour les enquêtes cas-témoins résultant des avantages
offerts par cette méthodologie surtout par comparaison avec celle des études de cohorte. Quatre
avantages majeurs peuvent être soulignés.
1) Les enquêtes cas-témoins permettent d'évaluer simultanément plusieurs hypothèses
étiologiques ainsi que des interactions éventuelles entre celles-ci, alors que les études de cohorte, en
échantillonnant les sujets en fonction de l'exposition étudiée, doivent évidemment se limiter à
l'étude d'un seul facteur.
2) Elles ne nécessitent pas de suivre les sujets pendant la longue période de latence entre
l'exposition et la survenue de la maladie comme dans les études de cohorte, et leur durée de
réalisation est par conséquent beaucoup plus courte.
19
3) Les enquêtes cas-témoins n'exigent que quelques centaines de sujets, tandis que les études
de cohorte en nécessitent généralement plusieurs milliers pour atteindre une puissance statistique
identique. Plus la maladie étudiée est rare, plus ce gain est important.
4) Il faut enfin remarquer que les enquêtes cas-témoins peuvent être appliquées à l'étude
d'expositions peu fréquentes, pour autant que celles-ci soient susceptibles d'induire une proportion
relativement élevée de cas de l'affection.
Les enquêtes cas-témoins souffrent cependant d'un certain nombre d'inconvénients qui
peuvent limiter la portée de leurs conclusions.
1) Ces études permettent d'estimer les risques relatifs des facteurs considérés mais non les
risques absolus comme dans les études de cohorte.
2) Les enquêtes cas-témoins peuvent souffrir d'un biais de sélection ou d'échantillonnage des
cas ou des témoins.
Enfin, les deux types d'étude sont sensibles aux biais de classification, plus difficiles à éviter
dans les enquêtes cas-témoins, et aux facteurs de confusion. Le tableau ci-après résume de façon
comparative les principales caractéristiques des études de cohorte et des enquêtes cas-témoins. On
pourrait conclure de ce tableau que les enquêtes cas-témoins sont sûrement plus avantageuses que
les études de cohorte, mais qu'elles nécessitent une plus grande rigueur dans leur planification.
ETUDES DE
COHORTE
nombre d’expositions
1
étudiées
réduction du nombre de sujets
oui
par rapport à un échantillon d’autant plus que l’exposition
représentatif
est rare
ENQUETES CASTEMOINS
1 ou plusieurs
oui
d’autant plus que
la maladie est rare
nombre de sujets
généralement élevé
généralement faible
durée de réalisation
longue
courte
biais de sélection ou
d’échantillonnage
biais de classification ou de
mesure
confusion
rare
possible
possible
possible
possible
possible
estimation des risques absolus
possible
impossible
estimation du risque relatif
possible
possible si maladie rare
estimation du risque
attribuable
impossible
possible si maladie rare
Table 7. Caractéristiques comparées des études de cohorte et des enquêtes cas-témoins.
20
10. Jugement de causalité
La mise en évidence d'un risque relatif significatif permet d'affirmer l'association
statistique entre l'exposition concernée et la maladie étudiée ou du moins que cette association n'est
explicable ni par un biais ni par un des facteurs de confusion que l'on a contrôlés. Elle n'autorise
cependant pas à conclure à un effet causal de l'exposition sur l'affection. Le jugement de causalité‚
n'est pas en effet du domaine de l'analyse statistique, mais ne peut être que le résultat d'un ensemble
d'éléments, que l'on pourrait appeler des présomptions de causalité.
1) Un argument souvent considéré comme fondamental est celui de la cohérence, c'est-àdire de l'observation répétée d'une même association, dans les résultats d'études indépendantes
menées par des équipes différentes. Cet argument doit cependant être manié avec prudence, car un
même biais difficilement évitable peut être présent dans plusieurs études.
2) On sait que le risque relatif quantifie l'intensité de l'association entre l'exposition et la
maladie. Une estimation élevée peut donc être d'une certaine façon un argument de causalité. Dans
la mesure où une étude a été menée correctement au point de vue méthodologique, un risque relatif
estimé supérieur à 5 ne peut que rarement être attribué à des biais imperceptibles ou à des facteurs
de confusion inconnus.
3) La relation entre, d'une part, la maladie et, d'autre part, la durée de l'exposition ou une
évaluation quantitative de celle-ci, est un autre élément en faveur du lien étiologique.
4) Le caractère spécifique de l'effet de l'exposition, c'est-à-dire la diminution du risque
relatif après suppression de celle-ci, est peut-être un des arguments de causalité les plus importants.
5) Enfin, l'observation de l'association, soit pour des variantes particulières de la maladie et
non pour d'autres, soit pour certaines catégories de sujets seulement, soit pour certaines modalités
de l'exposition en cause, sont autant d'éléments en faveur de la relation de cause à effet.
* * *
21
CHAPITRE 2
EVALUATION D’UN
TEST DIAGNOSTIQUE
1. Etapes de l’évaluation d’un test diagnostique
2. Index kappa
3. Reproductibilité de deux mesures
4. Validité d’un test diagnostique binaire: paramètres
fondamentaux
5. Validité d’un test diagnostique binaire: paramètres résumés
6. Validité d’un test diagnostique binaire: biais et problèmes
7. Validité d’un test diagnostique quantitatif
1. Etapes de l’évaluation d’un test diagnostique
L’évaluation d’un test diagnostique, que ce soit un symptôme, un signe clinique, un dosage
biologique, une image radiologique ou autre, passe par plusieurs étapes. La première consiste à
réaliser une étude de reproductibilité ou de concordance, pour évaluer dans quelle mesure son
appréciation ou sa mesure reste constante face à un cas précis. En cas de test présentant un
caractère subjectif, il faut étudier la concordance du résultat entre deux lecteurs différents, c’est la
reproductibilité inter-observateur, mais aussi la reproductibilité d’un même lecteur face à deux
répétitions du test, c’est la reproductibilité intra-observateur. Si cette reproductibilité est
satisfaisante, une deuxième étape de l’évaluation d’un test diagnostique consiste à évaluer sa
validité ou efficacité (accuracy) c’est-à-dire sa capacité à discriminer entre un sujet présentant une
maladie précise et un sujet indemne de l’affection. C’est la phase la plus classique de l’évaluation.
Enfin, il faut également considérer tout nouveau test diagnostique parmi l’ensemble des tests
similaires ou concurrents, et étudier dans quelle mesure le test est susceptible de mieux discriminer
que les autres entre les états malade et non malade. Cette troisième étape, l’utilité clinique fait
moins souvent l’objet d’études rigoureuses dans la littérature médicale.
2. Index kappa
La concordance entre deux tests diagnostiques qualitatifs, ou plus généralement entre deux
jugements qualitatifs, peut être évaluée par la proportion de réponses concordantes. Ainsi, si
deux observateurs doivent juger 100 signes comme présents ou absents avec les résultats de la table
8,
Table 8. Exemple de détection d’un signe selon deux observateurs A et B.
la proportion de réponses concordantes est évidemment
po =
45 35
= 0,80.
100
Mais un grand nombre de jugements sont identiques uniquement par chance, dans l’exemple
la moitié. Il est donc plus judicieux de mesurer la concordance par l’index kappa ou index kappa
de Cohen qui corrige la proportion de jugements concordants pour ceux dus à la chance. Si on
appelle pc cette proportion de résultats concordants attendus par chance, l’index kappa est
23
κ =
po - pc
1 - pc
La proportion pc est la somme des produits marginaux pour les deux éléments de la diagonale,
divisée par le carré du nombre total de jugements, soit dans l’exemple de la table 8,
pc =
(60 x 50) (40 x 50)
= 0,50
100 x 100
et donc κ =
0,80 - 0,50
= 0,60.
1 - 0,50
La figure 1 illustre la logique de l’index kappa à partir des différentes proportions.
Figure 1. Représentation des différentes composantes de l’index kappa.
La table 9 montre les valeurs que prend l’index kappa en fonction des différentes
possibilités d’accord des deux juges. On remarquera que si l’accord parfait conduit à un index
kappa de 1, le désaccord total ne conduit à κ = - 1 que si la proportion de résultats concordants
attendus par chance est de ½.
ACCORD
KAPPA
accord parfait
1
accord > chance
>0
accord = chance
0
accord < chance
<0
désaccord total
- pc
1 - pc
Table 9. Valeurs de l’index kappa en fonction des différents types d’accord entre les juges.
24
L’index kappa peut être étendu au cas d’un jugement à plus de deux modalités, comme dans
la table 10. Pour k modalités, les données se présentent alors sous la forme d’une matrice [k x k],
avec nij le nombre d’éléments de la ligne i et de la colonne j, ri le total marginal de la ligne i, cj le
Table 10. Données de concordance pour 2 observateurs et k modalités.
total marginal de la colonne j et N le nombre total de jugements. L’index kappa est
k
N
κ=
k
nij i, j 1
ricj
i, j 1
k
N² -
ricj
i, j 1
Si il n’y a que deux modalités de jugements, comme dans l’exemple initial, répartis comme
dans la table 11,
Table 11. Données de concordance pour 2 observateurs et 2 modalités.
la formule de l’index kappa devient
κ =
2 (ad - bc)
(a b)(b d) (a c)(c d)
soit dans l’exemple de la table 8,
25
κ =
2 [(45 x 35) - (15 x 5)]
= 0,60.
[(45 15) (15 35)] [(45 5)(5 35)]
L’erreur-standard de l’index kappa peut être dérivée de l’erreur-standard d’une proportion
p(1 - p)/n en considérant en première approximation pc comme une constante
po (1 - po)
N (1 - pc)²
SE (κ) =
Sous l’hypothèse nulle d’une concordance due uniquement à la chance, c’est-à-dire κ = 0 ou
po = pc, l’erreur-standard devient
pc
SEHO (κ) =
N (1 - pc)
On peut dès lors tester l’hypothèse d’accord dû uniquement à la chance par un test z dont la
statistique est
κ
z =
SE HO (κ )
La valeur de l’index kappa peut également être interprétée selon des échelles de magnitude comme
celles décrites dans la table 12.
KAPPA
ECHELLE
SCALE
κ<0
mauvaise
poor
0 ≤ κ < 0,2
négligeable
slight
0,2 ≤ κ < 0,4
faible
fair
0,4 ≤ κ < 0,6
moyenne
moderate
0,6 ≤ κ < 0,8
bonne
substantial
κ ≥ 0,8
excellente
almost perfect
Table 12. Echelles de magnitude de l’index kappa en langues française et anglaise.
On peut également comparer deux index kappa estimés dans deux situations différentes, c’est-àdire tester l’égalité (κA = κB) par le test de l’écart-réduit z
Z =
κA - κB
SE²(κA) SE²(κB)
L’index kappa est un indice fort utilisé dans les publications scientifiques médicales pour
étudier la reproductibilité d’un test diagnostique. Son interprétation doit cependant être prudente
car ce paramètre est très sensible, d’une part à la prévalence de la maladie, d’autre part, au
déséquilibre des effectifs marginaux de la table, comme le montre l’exemple de la table 13.
26
Table 13. Exemples de données de concordance avec prévalence et effectifs marginaux différents.
La proportion de résultats concordants observés po est identique dans les trois situations,
avec po = 0,80. Dans la situation 1, on peut admettre que la prévalence de la maladie est d’environ
0,50. Dans la situation 2, puisque chaque juge a comptabilisé 12% de signes présents, on peut
admettre une prévalence de 0,12. Cette différence de prévalence supposée entraîne une chute de
l’index kappa qui diminue de 0,60 en 1 à 0,05 en 2, et ce pour une même proportion de résultats
concordants. Dans la situation 3, les deux juges comptabilisent respectivement 6 et 18% de signes
présents, et si ils ont la même compétence et la même expérience on peut aussi supposer que la
prévalence n’est pas très éloignée de 0,12. Mais le déséquilibre des effectifs marginaux de la
situation 3, c’est-à-dire 6 et 94 versus 18 et 82, modifie la valeur de l’index kappa qui augmente de
0,05 à 0,08.
3. Reproductibilité de deux mesures
La concordance ou reproductibilité entre deux mesures, c’est-à-dire entre deux variables
quantitatives, peut être évaluée par plusieurs paramètres, qui apportent des informations
complémentaires. Ce sont le biais, l’imprécision et l’erreur relative. En plus de ces trois indices,
deux autres méthodes sont souvent utilisées pour étudier la reproductibilité entre deux mesures, le
coefficient de corrélation intraclasse et les limites d’agrément de Bland et Altman.
27
Le biais informe sur l’erreur systématique de l’un des observateurs par rapport à l’autre,
c’est-à-dire sur la tendance de l’un à surestimer ou sous-estimer la mesure. Pour n couples de
mesures de 2 observateurs X et Y, le biais est
n
(xi - yi)
i 1
n
L’imprécision évalue le manque de reproductibilité entre les 2 mesures, quelle que soit la
tendance de l’un ou l’autre des observateurs. Elle est, avec les mêmes notations que précédemment,
n
| xi - yi |
i 1
n
Enfin, l’erreur relative ramène ce manque de précision en proportion ou en pourcentage
par rapport aux valeurs elles-mêmes. C’est donc pour chaque couple de mesures, la différence entre
les 2 mesures en valeur absolue divisée par leur moyenne, ou pour l’ensemble des valeurs,
n
2
n
i 1
| xi - yi |
(xi yi)
Supposons que la tension artérielle de 6 sujets soit mesurée par 2 observateurs X et Y. Le
calcul des paramètres d’après les données de la table 14 est
sujet
X
Y
1
10
12
2
11
13
3
12
14
4
13
15
5
14
16
6
15
17
Table 14. Exemple de tensions artérielles mesurées par 2 observateurs X et Y.
biais
=
imprécision
=
erreur relative =
(10 - 12)
(11 - 13)
(12 - 14)
(13 - 15)
(14 - 16)
(15 - 17)
6
| 10 - 12 | | 11 - 13 | | 12 - 14 | | 13 - 15 | | 14 - 16 | | 15 - 17 |
6
2
6
| 10 - 12 | | 11 - 13 | | 12 - 14 | | 13 - 15 | | 14 - 16 | | 15 - 17 |
+
+
+
+
+
(10 12) (11 13) (12 14) (13 15) (14 16) (15 17)
= -2
= 2
= 0,15
28
Pour interpréter cette reproductibilité, il faut, d’une part, pouvoir conclure à la présence ou à
l’absence de biais, et, d’autre part, pouvoir étudier la concordance entre les 2 observateurs.
L’absence de biais peut être évaluée par un test statistique d’hypothèse, avec comme hypothèse
nulle, biais = 0, contre l’hypothèse alternative, biais ≠ 0. Dans l’exemple on peut rejeter
l’hypothèse nulle et conclure à la présence d’un biais (par exemple, test de Wilcoxon : p = 0,014).
La concordance pourrait être étudiée par le coefficient de corrélation, mais ce n’est pas suffisant car
si la concordance implique la corrélation, la corrélation n’implique pas la concordance. L’exemple
ci-dessus en est la preuve car dans ce cas le coefficient de corrélation vaut 1 (la tension mesurée par
Y est systématiquement plus haute que celle de X de 2), alors que la concordance n’est pas
parfaite, loin s’en faut.
Supposons que l’observateur Y soit remplacé par Z. Les données de la table 15 permettent
sujet
X
Z
1
10
12
2
11
9
3
12
14
4
13
11
5
14
12
6
15
17
Table 15. Exemple de tensions artérielles mesurées par 2 observateurs X et Z.
alors de calculer les paramètres décrits plus haut, c’est-à-dire,
biais = 0
imprécision = 2
erreur relative = 0,16.
L’imprécision est identique, et l’erreur relative voisine, mais cette fois, il n’y a pas de biais. Quant
à la corrélation elle est moins élevée, le parallèle entre les valeurs mesurées par X et Z n’étant plus
parfait, et le coefficient de corrélation vaut 0,60. Les paramètres décrits mesurent donc des aspects
différents.
Le coefficient de corrélation intraclasse est la part de la variabilité totale qui est due à la
variabilité entre sujets, par opposition à la variabilité entre les mesures, soit
ICC =
Var entre sujets
Var entre sujets
=
Var totale
Var entre sujets Var entre mesures
Il varie entre 0 et 1, qu’il atteint lorsque les deux mesures concordent de façon parfaite pour tous
les cas, puisque dans cette situation la variabilité entre les mesures est nulle. Le calcul de ce
coefficient d’après les données de la table 14 est ICC = 0,636 (formule hors cours) . En fait, ce
paramètre est grandement influencé par la dispersion des valeurs. Ainsi si on remplace les dernières
valeurs de la table, soit 15 et 17 par 25 et 27, le biais, l’imprécision et la corrélation restent
identiques, mais l’augmentation de la dispersion des valeurs de X comme de Y entraîne une plus
grande variabilité entre sujets par rapport à la variabilité entre mesures qui reste identique, et donc
29
une nette augmentation du coefficient de corrélation intraclasse, qui passe de 0,636 à 0,938. Le
coefficient de corrélation intraclasse apparaît donc comme un paramètre peu intéressant pour
étudier la concordance entre deux mesures dans l’absolu, car il suffit de rajouter l’un ou l’autre cas
pathologique avec des valeurs très élevées ou très basses de la variable mesurée pour rendre le
coefficient beaucoup plus proche de 1. Il garde cependant sa valeur en cas de comparaison de
reproductibilités, par exemple dans l’étude de plusieurs tests diagnostiques dont on compare la
concordance 2 à 2.
Les limites d’agrément de Bland et Altman (limits of agreement) représentent une
méthode d’évaluation de la reproductibilité entre deux mesures qui est devenue aujourd’hui
incontournable. Son principe est qu’il est irréaliste de décider qu’une valeur minimale ou maximale
d’un indice ou d’un coefficient quelconque est apte à conclure à une reproductibilité suffisante ou
insuffisante entre des mesures, car le niveau de concordance indispensable varie avec le paramètre
mesuré et la décision ne peut donc être considérée qu’en fonction du problème clinique. Le graphe
de Bland et Altman marque en ordonnée les différences entre les couples de mesures di = (xi - yi) en
fonction de leur moyenne (xi + yi)/2 en abscisse, puisque, en l’absence d’une mesure de référence,
cette moyenne est la meilleure estimation de la vraie mesure inconnue. La méthode consiste à
calculer le biais moyen d , sa déviation-standard sd et ensuite les limites d’agrément qui sont égales
à
d ± z sd
habituellement d ± 1,96 sd
Ce sont ces bornes qui constituent les limites à accepter ou à rejeter du point de vue clinique. Elles
figurent également classiquement sur le graphe de Bland et Altman sous la forme de droites
parallèles à l’abscisse présentées sur la figure 2 et entourent la majorité des points croisant (xi – yi)
et (xi + yi)/2. Avant de représenter ce graphique, il faut cependant vérifier l’absence de corrélation
Figure 2. Limites d’agrément de Bland et Altman.
entre (xi – yi) et (xi + yi)/2, soit en calculant le coefficient de corrélation entre ces paramètres, soit
simplement graphiquement. En effet, si il y a une relation entre la différence et la moyenne des
mesures, en d’autres termes si la différence entre deux mesures a tendance à augmenter avec les
mesures elles-mêmes, le biais et les limites de confiance n’auront plus beaucoup de sens puisqu’ils
se rapporteront à une moyenne considérée à tort comme constante. La table 16 détaille les valeurs
de la tension artérielle mesurée à deux reprises chez 10 sujets, permettant de calculer le biais
moyen et sa déviation-standard,
d = 0 et sd = 1,29
et donc les limites d’agrément
30
0 ± (1,96 x 1,29) = ± 2,53
représentées sur la figure 3 .
sujet
X
Y
1
12,0
14,0
2
13,5
14,5
3
13,5
13,0
4
15,0
13,5
5
16,5
15,5
6
12,0
13,5
7
14,0
14,0
8
14,5
13,0
9
13,0
12,0
10
13,0
14,0
Table 16. Exemple de tensions artérielles mesurées par 2 observateurs X et Y.
4,0
3,0
2,0
(x-y)
1,0
0,0
-1,0
-2,0
-3,0
-4,0
12
13
14
15
16
17
(x+y)/2
Figure 3. Limites d’agrément de Bland et Altman pour les données de la table 16.
31
4. Validité d’un test diagnostique binaire: paramètres
fondamentaux
La validation d’un test diagnostique binaire consiste à confronter les résultats du test réalisé
chez N sujets avec l’état réel de ces sujets, malade ou non. La table 17 présente ces résultats, qui
peuvent se répartir, chez les malades, en vrais positifs (a) et en faux négatifs (c), et chez les non
malades, en faux positifs (b) et en vrais négatifs (d).
Table 17. Résultats de la validation d’un test diagnostique binaire.
Une première étape consiste à vérifier par un test statistique, par exemple un test du χ2, si la
proportion de tests positifs est plus élevée chez les malades que chez les non malades. Si c’est le
cas, on peut résumer la valeur diagnostique du test par les paramètres fondamentaux de sensibilité
et de spécificité. La sensibilité (Se) est la probabilité de test positif lorsque l'on est atteint de la
maladie et la spécificité (Sp) est la probabilité que le test soit négatif quand on n'est pas malade. Si
les N sujets de l'échantillon aléatoire d'une population correspondant à une situation clinique
précise sont répartis dans les quatre catégories croisant le résultat du test avec le diagnostic réel,
malade ou non malade, les deux paramètres sont estimés par
Se =
a
a c
et
Sp =
d
b d
En pratique, la classification des sujets comme malades ou non est déterminée par un test de
référence, indépendant du test étudié, et supposé idéal, c'est-à-dire de sensibilité et de spécificité
égales à 1.
Supposons qu’un nouveau test diagnostique étudié chez 50 patients permette de classer les
résultats selon la table 18
Table 18. Exemple de résultats d’un test diagnostique binaire.
32
Les proportions de résultats positifs dans les deux groupes de sujets, malades et non
malades, sont respectivement 20/25 et 10/25, soit 0,80 et 0,40. On peut vérifier par un test du χ 2
que ces proportions diffèrent de façon statistiquement significative et que la proportion plus élevée
de résultats positifs dans le groupe malade n’est donc probablement pas le fait du hasard (χ 2 à 1
degré de liberté = 8,33 ; p = 0,004). La sensibilité et la spécificité du test diagnostique sont
respectivement
Se =
20
= 0,80
20 5
et
Sp =
15
= 0,60.
10 15
On peut calculer un intervalle de confiance pour ces estimations, qui est, pour la sensibilité et la
spécificité respectivement,
[Sei ; Ses] = Se ± z
Se (1 - Se)
a c
et
[Spi ; Sps] = Sp ± z
Sp (1 - Sp)
b d
z étant la valeur de la variable normale réduite correspondant à une fonction de répartition de 0,975.
Dans l’exemple de la table 18, les intervalles de confiance à 95% des estimations sont
[Sei ; Ses] = 0,80 ± 1,96
0,80 (1 - 0,80)
= [0,64 ; 0,96]
20 5
[Spi ; Sps] = 0,60 ±1,96
0,60 (1 - 0,60)
= [0,41 ; 0,79]
10 15
L’intervalle de confiance des estimations renseigne sur leur précision qui sera d’autant meilleure
que l’échantillon de sujets est grand. Ainsi, si les données sont celles de la table 19, obtenue en
multipliant par 10 les 4 fréquences de la table 18, la sensibilité et la spécificité seront inchangées,
Table 19. Exemple de résultats d’un test diagnostique binaire.
Se = 0,80 et Sp = 0,60, mais avec des intervalles de confiance à 95 % égaux à
[Sei ; Ses] = 0,80 ± 1,96
0,80 (1 - 0,80)
= [0,75 ; 0,85]
200 50
[Spi ; Sps] = 0,60 ±1,96
0,60 (1 - 0,60)
= [0,54 ; 0,66]
100 150
33
Si l’on souhaite comparer les performances de deux tests diagnostiques différents sur les
mêmes sujets, on comparera les sensibilités chez les malades et les spécificités chez les non
malades par le test de McNemar décrit au chapitre 1 (page 18), c’est-à-dire pour les données
présentées dans la table 20,
(a - b)²
χ2 =
a b
Table 20. Données de 2 tests diagnostiques chez les sujets malades ou non malades.
Si la sensibilité et la spécificité sont deux paramètres permettant d’évaluer la valeur d’un
test diagnostique, ils n’apportent aucune information au médecin praticien. En effet celui-ci
préférera connaître, non la probabilité de résultat positif quand on est malade, mais plutôt la
probabilité d’être malade en cas de résultat positif. On décrit dès lors deux autres paramètres, les
valeurs prédictives. La valeur prédictive positive (VPP) est la probabilité d’être malade en cas de
test positif, et la valeur prédictive négative (VPN) est la probabilité de ne pas être atteint de
l’affection étudiée en cas de test négatif. Si les N sujets de l'échantillon aléatoire d'une population
correspondant à une situation clinique précise sont répartis dans les quatre catégories croisant le
résultat du test et l’état réel du malade, comme dans la table 17 ci-dessus, les valeurs prédictives
peuvent être estimées par
VPP =
a
a
b
et
VPN =
d
c d
Les intervalles de confiance se calculent par
[VPPi ; VPPs] = VPP ± z
VPP (1 - VPP)
a b
et
[VPNi ; VPNs] = VPN ± z
VPN (1 - VPN)
c d
Pour l’exemple de la table 18, les estimations et leurs intervalles de confiance à 95% sont,
VPP =
20
= 0,67 avec [VPPi ; VPPs] = 0,67 ± 1,96
20 10
0,67 (1 - 0,67)
= [0,50 ; 0,84]
20 10
VPN =
15
5 15
0,75 (1 - 0,75)
= [0,56 ; 0,94]
5 15
= 0,75 avec [VPNi ; VPNs] = 0,75 ± 1,96
Si nous multiplions les fréquences des non malades de la table 18 par 5, nous obtenons la
table 21 qui se différencie de la table 18 par le rapport entre les nombres de malades et de non
34
Table 21. Exemple de résultats d’un test diagnostique binaire.
malades, c’est-à-dire que la prévalence est différente, 25/50 soit 0,50 dans la table 18 et 25/150 soit
0,17 dans la table 21. La sensibilité et la spécificité calculées dans les deux tables sont identiques
(Se = 0,80 et Sp = 0,60), mais les valeurs prédictives ne le sont pas. La valeur prédictive positive
diminue de 0,67 à 0,29 entre les tables 18 et 21, alors que la valeur prédictive négative augmente de
0,75 à 0,94. Contrairement à la sensibilité et à la spécificité, les valeurs prédictives dépendent donc
de la prévalence de la maladie dans l’échantillon étudié. On peut démontrer cette relation par des
manipulations algébriques de la table de contingence ou en appliquant le théorème des
probabilités conditionnelles ou théorème de Bayes. En notant M et M pour l’état malade on non
malade respectivement, la probabilité d’être malade en cas de test positif T est
P (M si T) =
P (M) P(T si M)
P(M) P(T si M) P(M ) P(T si M )
qui devient, en remplaçant les probabilités par leurs estimations, et en notant p pour la prévalence,
VPP =
p Se
p Se (1 - p) (1 - Sp)
VPN =
(1 - p) Sp
(1 - p) Sp p (1 - Se)
De même,
Les valeurs prédictives sont donc fonction de 3 paramètres, la sensibilité, la spécificité mais
aussi et surtout la probabilité a priori, c’est-à-dire, en l’absence d’autre information, la prévalence.
La figure 4 montre l’évolution des valeurs prédictives positive et négative en fonction de la
prévalence pour un test diagnostique de sensibilité et de spécificité respectivement égales à 0,80 et
0,60.
35
1,0
,8
,6
,4
,2
0,0
0,0
,2
,4
,6
,8
1,0
prévalence
Figure 4. Variations des valeurs prédictives positive (●) et négative(▲) en fonction de la
prévalence.
L’énorme influence de la prévalence sur les valeurs prédictives est illustrée par l’exemple
suivant. La prévalence du SIDA en Belgique est estimée à 0,001 soit 10000 cas pour 10 millions
d’habitants. Le test ELISA permet de mettre en évidence le virus HIV du SIDA avec une sensibilité
de 0,999 et une spécificité de 0,99. Le test se révèle positif chez un sujet sans symptômes
particuliers et non suspect a priori d’être malade, par exemple en cas de recherche systématique
pour un bilan préopératoire. La probabilité que ce sujet soit réellement séropositif est
VPP =
0,001 x 0,999
= 0,091.
[0,001 x 0,999] [(1 - 0,001) x (1 - 0,990)]
Cette probabilité peut être vérifiée en considérant les données présentées sous la forme d’une table
de contingence comme la table 22,
Table 22. Application à la population belge du test ELISA dans le diagnostic du SIDA.
36
On peut calculer directement la valeur prédictive positive par
VPP =
9990
= 0,091
109890
probabilité qui se révèle étonnamment faible compte tenu de la sensibilité et de la spécificité
excellentes du test ELISA. Supposons ensuite que surpris par le résultat positif observé chez ce
patient, le médecin demande un second test à titre de confirmation. Si celui-ci se révèle à nouveau
positif, et compte tenu du fait que la probabilité a priori n’est désormais plus la prévalence mais la
valeur prédictive positive du premier test, la valeur prédictive positive après ce second test est
VPP =
0,091 x 0,999
= 0,909.
[0,091 x 0,999] [(1 - 0,091) x (1 - 0,990)]
On peut cette fois affirmer avec une probabilité supérieure à 0,90 que le patient est porteur du virus
HIV. Le premier test ELISA a donc modifié la probabilité d’être séropositif pour le virus HIV, de
0,001 à 0,091, soit un gain de 9% et le second test de 0,091 à 0,909 soit un gain de 82%.
Le tableau ci-dessus résume de façon comparative les principales caractéristiques, d’une part, de la
sensibilité et de la spécificité, et, d’autre part, des valeurs prédictives d’un test diagnostique.
SENSIBILITE
SPECIFICITE
VALEURS
PREDICTIVES
indices descriptifs
indices prédictifs
approche rétrospective
approche prospective
indépendants de la prévalence
dépendants de la prévalence
applicables à toute population
applicables seulement à la population étudiée
EVALUATION DES
CARACTERISTIQUES INTRINSEQUES
D’UN TEST DIAGNOSTIQUE
EVALUATION DE L’UTILITE CLINIQUE
D’UN TEST DIAGNOSTIQUE
Table 23. Caractéristiques comparées des paramètres d’un test diagnostique binaire.
37
5. Validité d’un test diagnostique binaire: paramètres résumés
On peut vouloir résumer la validité d’un test diagnostique binaire par un seul paramètre
combinant la sensibilité et la spécificité, étant entendu que cette attitude revient à considérer de la
même façon les résultats faussement positifs et ceux faussement négatifs, attitude qui n’est
acceptable que pour certaines maladies. Le rapport de vraisemblance est défini comme le rapport
entre les probabilités d’un certain résultat X chez les malades M et les non malades M , c’est-à-dire
RV =
P (X si M)
P (X si M)
Pour un test binaire, on définit dès lors le rapport de vraisemblance positif pour un résultat positif
T
P (T si M)
Se
RV(+) =
=
P (T si M ) 1 - Sp
et le rapport de vraisemblance négatif pour un résultat négatif T
RV(-) =
1 - Se
P (T si M)
=
Sp
P (T si M)
Pour les données de la table 18, les rapports de vraisemblance sont
RV(+) =
0,80
= 2
1 - 0,60
RV(–) =
1 - 0,80
= 0,33
0,60
La signification du rapport de vraisemblance positif est d’être le facteur multiplicatif entre
la probabilité d’être malade avant le test, c’est-à-dire la prévalence, et celle de l’être après le test,
c’est-à-dire la valeur prédictive positive, les probabilités étant exprimées sous la forme de cote ou
odd, en rappelant que la relation entre l’odd et la probabilité est
odd =
P
1- P
et
P=
odd
odd 1
En appelant P la probabilité d’être malade (p étant la prévalence),
P avant
P après
=
x RV
1 - P avant
1 - P après
ou
odd après = odd avant x RV
ce qui devient, en considérant les paramètres fondamentaux d’un test diagnostique,
38
VPP
p
Se
=
x
1 - VPP
1- p
1 - Sp
1 - VPN
1 - Se
p
=
x
VPN
Sp
1- p
Ainsi pour la table 18, connaissant p = 0,50 et VPP = 0,67 calculés plus haut, on a bien pour
odd après = odd avant x RV(+)
0,67
0,50
=
x 2
1 - 0,50
1 - 0,67
soit 2 = 1 x 2
Il est important de constater que, comme la sensibilité et la spécificité dont il est fonction, le
rapport de vraisemblance est indépendant de la prévalence. Ainsi dans l’exemple du test ELISA
pour diagnostiquer le virus HIV décrit plus haut,
RV(+) =
0,999
= 99,9
1 - 0,99
et on peut vérifier que, pour le premier test,
0,091
0,001
=
x 99,9
1 - 0,091
1 - 0,001
et pour le second (la valeur prédictive positive du premier test remplaçant la prévalence),
0,909
0,091
=
x 99,9
1 - 0,909
1 - 0,091
Figure 5. Nomogramme de Fagan.
39
Un nomogramme représenté à la figure 5, appelé nomogramme de Fagan, permet de
calculer grossièrement la probabilité a posteriori (valeur prédictive positive) en fonction de la
probabilité a priori (prévalence) et du rapport de vraisemblance positif. Il est appliqué aux données
du test ELISA à la figure 6, la diagonale descendante étant la droite du premier test, l’ascendante
celle du second test et les probabilités exprimées sous forme de pourcentages.
Figure 6. Nomogramme de Fagan appliqué aux données du test ELISA.
La validité d’un test diagnostique binaire peut encore être résumée par l’efficacité
diagnostique et l’index de Youden. L’efficacité diagnostique est la proportion de résultats corrects,
vrais positifs et vrais négatifs, dans l’ensemble des résultats. C’est donc, d’après les notations de la
table 17,
a d
E=
a b c d
ou pour l’exemple de la table 18,
E=
20 15
= 0,70
20 10 5 15
Ce paramètre peut paraître un résumé intéressant de la valeur diagnostique d’un test. Il faut
cependant le considérer avec beaucoup de prudence, car sa dépendance vis-à-vis de la prévalence
peut le rendre totalement absurde, par exemple dans un test de dépistage pour lequel la population
malade est très restreinte. L’exemple de la table 24 est celui d’un test de dépistage avec une
efficacité diagnostique presque parfaite de 0,99, alors que l’examen de la table montre que ce test
Table 24. Exemple d’un test de dépistage sans valeur.
40
ne diagnostique jamais rien ! Il faut lui préférer l’index de Youden, qui pondère de la même façon
la sensibilité et à la spécificité et est indépendant de la prévalence. On le définit par
Y = Se + Sp –1
Dans l’exemple de la table 18, il vaut
Y = 0,80 + 0,60 – 1 = 0,40
et rend bien compte de l’inutilité du test de dépistage de la table 24, avec
Y=0+1–1=0
6. Validité d’un test diagnostique binaire: biais et problèmes
Si l’évaluation de la validité d’un test diagnostique binaire peut paraître assez facile sur le
plan conceptuel dans la mesure où l’on raisonne sur une simple table 2 x 2, l’interprétation peut
cependant en être délicate car beaucoup de biais ou de problèmes peuvent venir compliquer le
schéma théorique. Nous envisagerons les principaux biais, à savoir le biais du spectre, celui de non
indépendance et le biais de vérification, ainsi que les problèmes posés par les tests avec des
résultats incertains et par les tests de référence imparfait ou absent.
Le biais du spectre résulte de la non représentativité de l’échantillon de patients par rapport
au problème diagnostique réel. Si les malades sont des cas très avancés du processus pathologique
(« sickest of the sick ») alors que les non malades à qui on les compare sont des sujets parfaitement
sains (« wellest of the well »), la sensibilité et la spécificité du test étudié seront probablement
excellentes artificiellement. Le dosage de l’antigène prostatique spécifique (PSA), par exemple, est
utilisé pour détecter le cancer de la prostate, pathologie survenant chez l’homme âgé. Si l’on étudie
la valeur diagnostique de ce dosage dans le cancer de la prostate en sélectionnant comme non
malades des individus jeunes et en excellente santé, on conclura à la grande valeur du test. Mais si
le dosage du PSA est testé avec comme sujets non malades, c’est-à-dire ne souffrant pas de cancer
de la prostate, des sujets âgés souffrant d’hyperplasie bénigne de la prostate ou de prostatite, les
performances du test se révèleront probablement beaucoup moins bonnes, alors que c’est en réalité
pour discriminer entre ces différentes pathologies prostatiques que se pose le problème
diagnostique.
Le second biais dit biais de non indépendance survient lorsque le diagnostic de référence
qui est utilisé pour classer les sujets étudiés en malades et non malades tient compte du test
diagnostique évalué. Si la présence de ce test suffit à affirmer le diagnostic, sa valeur prédictive
positive est évidemment toujours erronément de 1.
Enfin, le biais de vérification est un biais extrêmement fréquent, et qui peut être
quantitativement important. Il est la conséquence de ce que les résultats du test étudié n’entraînent
pas nécessairement de vérification par le test de référence de la même façon pour les tests positifs
et négatifs. Supposons que l’on étudie la valeur diagnostique d’un nouveau signe
électrocardiographique dans la détection de la maladie coronarienne, le diagnostic de référence
étant posé par angiographie coronarienne, examen invasif et non exempt de complications. Il est
évident que les sujets positifs au nouveau test subiront plus fréquemment l’angiographie que ceux
qui sont négatifs. Pour les données de la table 25, avec t1 = a + b et t0 = c + d,
41
Table 25. Résultats d’un test diagnostique avec biais de vérification.
on peut montrer que, si la réalisation du test de référence ne dépend que du test étudié, les
paramètres de sensibilité et de spécificité sont
Se =
(t1
(t1 u1) t0 a
u1) t0 a (t0 u0) t1 c
et
Sp =
(t0
(t0 u0) t1 d
u0) t1 d (t1 u1) t0 b
Table 26. Exemple de résultats d’un test diagnostique avec biais de vérification.
La partie gauche de la table 26 illustre les résultats de 200 sujets qui ont eu un test de référence
après le test étudié, alors que le test de référence n’a pas été réalisé chez 300 autres patients décrits
dans la partie droite de la table. Les estimations apparentes de la sensibilité et de la spécificité,
calculées sans tenir compte des sujets non vérifiés sont
Se = 0,86 et Sp = 0,90
En réalité, les estimations corrigées sont
Se =
(96 4) x 104 x 86
= 0,62 < Se apparente
(96 4) x 104 x86 (104 296) x 96 x14
Sp =
(104 296) x 96 x 90
= 0,97 > Sp apparente
(104 296) x 96 x 90 (96 4) x 104 x 10
42
montrant que le biais de vérification surestime la sensibilité et sous-estime la spécificité.
Le premier problème que nous envisagerons en-dehors des biais est celui des résultats
incertains. Dans un certain nombre de cas, les résultats ne sont ni positifs, ni négatifs, soit parce que
on ne peut se prononcer, soit parce que l’examen a échoué pour des raisons techniques. Ces cas ne
peuvent être éliminés parce que leur suppression surestimerait la sensibilité et la spécificité du test
étudié. La table 27 est un exemple de cette situation avec 20 résultats incertains, 10 chez les
malades et 10 chez les non malades.
Table 27. Exemple de test diagnostique avec résultats incertains.
La sensibilité apparente est de 86 / 100, soit 0,86 et la spécificité apparente de 90 / 100, soit 0,90.
Plusieurs attitudes sont alors possibles pour éviter des estimations erronées. La première est de
considérer la situation la plus défavorable, c’est-à-dire que les cas incertains sont considérés
comme négatifs chez les malades donc dans le calcul de la sensibilité, et comme positifs chez les
non malades donc dans l’estimation de la spécificité. En suivant cette attitude les paramètres de la
table 27 sont
Se =
86
= 0,78
86 10 14
et
Sp =
90
= 0,82
10 10 90
Une seconde attitude consiste à estimer les paramètres en considérant à la fois la situation la plus
défavorable et la plus favorable, donc en retenant les résultats incertains une fois comme positifs et
une fois comme négatifs. Les sensibilité et spécificité sont alors estimées par un intervalle entre
deux bornes. Pour l’exemple de la table 27, les estimations dans la situation la plus favorable étant
Se =
86 10
10 90
= 0,87 et Sp =
= 0,91,
86 10 14
10 10 90
on conclut par les inégalités
0,78 < Se < 0,87 et 0,82 < Sp < 0,91
Une troisième attitude consiste à estimer les paramètres sans tenir compte des résultats incertains,
mais en y ajoutant la notion de rendement diagnostique, c’est-à-dire la proportion de résultats
certains. Dans la table 27, le rendement d’un test positif est
43
Y(+) =
86 14
= 0,91
86 10 14
avec une sensibilité de 0,86
et le rendement d’un test négatif
Y(-) =
90 10
= 0,91
90 10 10
avec une spécificité de 0,90.
Enfin une quatrième et dernière attitude consiste à transformer le résultat binaire du test en variable
ordinale, les résultats incertains étant considérés comme intermédiaires entre les résultats négatifs
et positifs, avec éventuellement la définition de plusieurs degrés d’incertitude. On peut alors étudier
la validité du test diagnostique par les courbes ROC que nous étudierons au paragraphe 7 de ce
chapitre.
Un autre problème fréquent dans l’évaluation de la validité d’un test diagnostique est
l’imperfection du test de référence qui est utilisé pour classer les sujets en malades ou non malades,
théoriquement avec certitude. Schématisée dans la table 28, avec N = a + b + c + d,
Table 28. Validation d’un test diagnostique par rapport à un test de référence.
on peut montrer que la sensibilité du test étudié est fonction de la spécificité du test de référence
(SpR ) et la spécificité du test fonction de la sensibilité du test de référence (SeR), les estimations
corrigées étant
Se =
(a b) SpR - b
N SpR - (b d)
et
Sp =
(c d) SeR - c
N SeR - (a c)
Table 29. Exemple de résultats d’un test diagnostique par rapport à un test de référence.
44
Ainsi, pour l’exemple de la table 29, la sensibilité apparente est de 0,80 et la spécificité apparente
de 0,90, mais cela suppose que le test de référence est parfait, c’est-à-dire que SeR = SpR = 1. La
table 30 présente les estimations corrigées pour d’autres valeurs des paramètres du test de
référence.
Table 30. Sensibilités et spécificités corrigées pour les données de la table 29 et diverses valeurs
des paramètres du test de référence.
On peut constater que pour SeR = SpR = 0,95 par exemple, la sensibilité et la spécificité sont de
0,882 et 0,919 respectivement, et donc que l’absence de correction pour l’imperfection du test de
référence sous-estime les paramètres du test étudié. Cela en fait n’est vrai qu’en cas
d’indépendance entre le test étudié et le test de référence, car les paramètres du test étudié peuvent
être au contraire surestimés en cas de corrélation entre les deux tests.
Enfin, dans certains cas il n’y a pas de test de référence disponible, par exemple dans
certaines maladies infectieuses où l’exclusion de l’affection n’est pas toujours possible. Lorsque
l’on étudie la validité de plusieurs tests simultanément, on peut malgré tout déterminer leur
sensibilité et leur spécificité sous certaines conditions, en utilisant des méthodes particulières. Il ne
s’agit pas de calculer les paramètres d’un test en considérant l’autre ou un autre comme test de
référence – on parle alors de copositivité ou de conégativité – mais d’estimer réellement la
sensibilité et la spécificité de chaque test étudié en fonction de l’état du sujet, malade ou non,
pourtant inconnu.
7. Validité d’un test diagnostique quantitatif
Supposons que l’on étudie la validité d’un marqueur biologique en cas de tumeur. Le
dosage du marqueur est réalisé chez 30 sujets, 15 malades présentant la tumeur et 15 sujets
indemnes de l’affection. La table 31 détaille les résultats des 30 dosages, représentés sur la figure 7,
les dosages de gauche étant ceux des sujets présentant une tumeur.
45
TUMEUR
SANS TUMEUR
7,8
4,2
8,4
4,9
10,2
5,1
10,4
5,2
10,5
5,3
11,3
6,3
12,5
7,1
13,8
8,1
14,0
8,5
14,3
8,6
15,8
9,2
16,1
9,7
16,4
10,0
18,0
10,6
19,2
11,1
Table 31. Dosages d’un marqueur biologique selon la présence ou l’absence d’une tumeur.
20
18
16
14
12
10
8
6
4
2
0
Figure 7. Dosages d’un marqueur biologique selon la présence ou l’absence d’une tumeur.
Les moyennes et déviations-standards des dosages du marqueur chez les sujets malades et
non malades sont 13,2 ± 3,5 et 7,6 ± 2,3 respectivement. Un test statistique confirme que le
marqueur est significativement plus élevé chez les patients présentant la tumeur que chez les sujets
témoins (test t de Student ou test W de Wilcoxon: p<0,001). Pour quantifier la valeur diagnostique
du dosage, en considérant par exemple le seuil de 8 comme indicatif de la présence d’une tumeur,
on peut répartir les sujets dans la table 32A et estimer la sensibilité et la spécificité à 0,93 et 0,47.
46
Tables 32. Répartition des sujets de la table 31 selon le seuil utilisé pour définir la présence
d’une tumeur.
Les seuils de 10 et de 12 entraînent les répartitions des tables 32B et 32C, avec les sensibilité et
spécificité de 0,87 et 0,80 pour le seuil de 10, et de 0,60 et 1 pour celui de 12. Le choix d’un seuil
de plus en plus élevé diminue la sensibilité et augmente la spécificité. On peut dès lors dessiner le
graphique de la sensibilité en fonction de (1 - spécificité), paramètres variant dans le même sens,
pour tous les seuils possibles du dosage. C’est la courbe ROC (receiver operating characteristic
curve) qui représente la validité du test quel que soit le seuil de positivité choisi.
1,0
SENSIBILITE
,8
,6
,4
,2
0,0
0,0
,2
,4
,6
,8
1,0
1 - SPECIFICITE
Figure 8. Courbe ROC pour les données de la table 32.
La figure 8 montre la courbe ROC empirique pour les 3 seuils choisis 8, 10 et 12 de la table 32, et
la figure 9 la courbe pour tous les seuils possibles du dosage du marqueur.
47
1,0
SENSIBILITE
,8
,6
,4
,2
0,0
0,0
,2
,4
,6
,8
1,0
1 - SPECIFICITE
Figure 9. Courbe ROC pour les données de la table 31.
Un paramètre mesurant la validité d’un test diagnostique quantitatif indépendamment du
seuil de positivité est alors la surface sous la courbe ROC, notée habituellement AUC (area under
the curve). Celle-ci correspond à la probabilité de choix correct devant les résultats de deux tests,
sachant que l’un est celui d’un sujet malade et l’autre d’un non malade. Plusieurs modèles ont été
décrits pour dessiner la courbe et estimer la surface de façon paramétrique, le plus utilisé étant le
modèle binormal. La surface sous la courbe ROC peut aussi être estimée par une méthode non
paramétrique en rapport avec le test de Wilcoxon de comparaison de deux moyennes. Si on classe
toutes les valeurs observées du test diagnostique par ordre croissant et que l’on note W 1 la somme
des rangs correspondant aux n1 sujets malades, n0 étant le nombre de sujets non malades, la surface
sous la courbe est
W1 AUC =
n1 (n1 1)
2
n1 n0
Dans l’exemple des marqueurs biologiques de la table 31, la somme des rangs pour les dosages
correspondant à des sujets avec tumeur est W1 = 324 et donc
15 (15 1)
2
= 0,907
15 x 15
324 AUC =
La surface peut aussi être calculée par la méthode trapézoïdale, c’est-à-dire par la sommation de
figures géométriques élémentaires, triangles, rectangles ou trapèzes.
La méthodologie des courbes ROC est utilisée largement dans les publications médicales,
non seulement pour mesurer la validité d’un test diagnostique quantitatif, mais également pour
étudier un test binaire dont on relativise le degré de certitude par 5 catégories ordinales, comme
définies dans la table 33. Ce dernier procédé est très souvent employé dans les études de validation
d’un test diagnostique en imagerie (radiologie, médecine nucléaire, résonance magnétique, …).
48
GRADATION
APPRECIATION DU RESULTAT
1
certainement négatif
2
probablement négatif
3
incertain
4
probablement positif
5
certainement positif
Table 33. Gradation de l’appréciation subjective d’un test.
* * *
49
CHAPITRE 3
DONNEES DE
SURVIE
1. Caractéristiques des données de survie
2. Recueil des informations
3. Distributions et fonctions de survie
4. Estimation non paramétrique par la méthode de KaplanMeier
5. Estimation non paramétrique par la méthode actuarielle
6. Comparaison non paramétrique de deux courbes de survie
7. Modèles de survie paramétriques
8. Modèle de survie exponentiel
9. Modèle de survie de Weibull
10. Modèle de survie de Cox
1. Caractéristiques des données de survie
On peut définir le taux de survie à un temps t comme le rapport entre, d’une part, le nombre
de sujets vivants après t , et, d’autre part, la somme de ce paramètre et du nombre de sujets décédés
avant t. Les taux de survie définis de cette façon sont donc des proportions, éventuellement
exprimées en pourcentages, que l’on peut estimer et comparer par les méthodes statistiques
habituelles pour ce type de variable. Une telle estimation, appelée survie directe présente
cependant un inconvénient majeur. Elle oblige en effet à consentir une perte d’information qui peut
être importante, puisque tous les sujets vivants au moment de l’analyse mais dont la survie n’atteint
pas le temps t ne peuvent être comptabilisés. Si on étudie, par exemple, la survie à 5 ans après un
certain type d’intervention chirurgicale, tous les sujets encore vivants au moment de l’analyse mais
opérés depuis moins de 5 ans seront exclus du calcul du taux de survie. La table 34 détaille le recul
MOIS
0,5
3,0
5,0
10,0
11,5
16,0
24,5
24,5
25,0
25,5
25,5
27,0
DECES
1
0
1
1
0
0
0
0
0
0
0
0
Table 34. Recul en mois de 12 sujets après intervention chirurgicale.
en mois de 12 sujets après une intervention chirurgicale particulière, avec leur état le plus récent,
décédé (1) ou non (0). La survie directe est exprimée dans la table 35 et représentée par la figure
10.
TEMPS (MOIS)
1
6
12
24
26
NUMERATEUR
11
9
7
6
1
DENOMINATEUR
12
11
10
9
4
SURVIE DIRECTE
91,7
81,8
70,0
66,7
25,0
Table 35. Survie directe des données de la table 34, exprimée en pourcentages.
L’inconvénient cité plus haut entraîne une aberration, à savoir que la survie chute de 67 à 25%
entre 24 et 26 mois, alors qu’il n’y a aucun décès pendant cette période. Le caractère particulier des
données de survie impose par conséquent l’utilisation de méthodes spécifiques.
Le caractère fondamental des données de survie est le fait que la variable « survie depuis
une certaine date » ne peut en fait être observée que pour certains sujets. Au moment de l’analyse
51
on ne pourra noter une réalisation de la variable que pour les sujets décédés. Pour les sujets encore
vivants à ce moment, on n’observera qu’une borne inférieure de la variable. Une telle donnée est
Figure 10. Survie directe en mois des données de la table 34.
appelée censurée à droite. De façon générale, une donnée peut être censurée à gauche si on sait
seulement que l’évènement étudié est survenu avant une certaine date. Les censures sont en fait un
cas particulier de troncatures, c’est-à-dire de données toujours non observables parce que
inférieures (donnée tronquée à gauche) ou supérieures (donnée tronquée à droite) à un seuil. De
plus les censures peuvent être aléatoires ou non.
Par ailleurs, les méthodes d’analyse des données de survie peuvent être étendues à d’autres
situations. On peut étudier par exemple la survie relative, c’est-à-dire la survie par rapport à une
cause précise de décès. Dans ce cas les sujets ne sont comptabilisés comme morts que si la cause du
décès est l’affection étudiée. De même la rechute d’une maladie ou la survenue d’une de ses
complications, ou encore le rejet d’un organe greffé pourront être étudiés par des méthodes
identiques. En fait, la méthodologie d’analyse des données de survie peut être étendue à tout
événement en tout ou rien unique et irréversible dont la survenue est fonction du temps, cet
événement étant l’analogue du décès dans la terminologie des données de survie.
2. Recueil des informations
Il implique la définition de trois dates, la date d’origine, la date de point et la date des
dernières nouvelles. Pour un sujet i, la date d’origine Oi est la date à partir de laquelle on souhaite
étudier la survie, par exemple, une intervention chirurgicale ou l’établissement d’un diagnostic. La
date de point est la date à laquelle on collecte les informations. Une date de point unique P pour
tous les sujets caractérise la méthode de l’information unique à date fixe, par opposition à la
méthode des anniversaires dans laquelle l’information est collectée un temps constant après la
date d’origine et varie donc d’un sujet à l’autre. Enfin, la date des dernières nouvelles est celle de
l’information la plus récente pour chaque sujet. A cette date le sujet peut être décédé (Di), ou vivant
(Vi), soit parce que à partir de cette date plus aucune information n’est disponible – ce sont les
52
perdus de vue – soit parce que le sujet est encore vivant au moment de l’analyse, c’est-à-dire que
la date des dernières nouvelles est identique à la date de point, ce sont les exclus vivants.
Chaque sujet peut être caractérisé par un temps de participation. Pour un sujet décédé, le
temps de participation est la durée de vie Ti, c’est-à-dire la période Oi → Di, tandis que pour un
sujet vivant, le temps de participation est la durée d’observation Li, soit la période Oi → Vi, soit
Oi → P selon que c’est la date des dernières nouvelles ou la date de point qui est
chronologiquement la première. La figure 11 illustre ces dates et ces périodes pour trois patients,
un décédé, un perdu de vue et un exclu vivant.
Figure 11. Exemple de temps de participation de différents sujets dans une étude de survie.
L’information concernant chaque sujet i nécessaire à l’analyse des données de survie est donc en
pratique un couple de variables, avec une variable continue ti qui est le temps de participation Ti ou
Li, et une variable dichotomique indiquant l’état du sujet, vivant ou décédé.
3. Distributions et fonctions de survie
Considérons la durée de vie T comme une variable aléatoire continue et non négative. Sa
fonction de densité de probabilité est la probabilité de décès au temps t, c’est-à-dire,
P (t
f(t) = "P ( T = t )" = lim Δt→0
T t
t
t)
tandis que sa fonction de répartition représente la probabilité de décès avant t, soit
t
F(t) = P ( T ≤ t ) =
f(T) dT
0
Nous nous intéresserons à trois fonctions dérivées de ces distributions de probabilité, la
fonction de survie, la fonction de risque et la fonction de risque cumulé. La fonction de survie,
fonction monotone décroissante, est la probabilité de survie jusqu’au temps t, donc
S(t) = P ( T > t ) = 1 - F(t)
53
ou en dérivant les deux membres de l’égalité par rapport à t,
d[S(t)]
= - f(t)
dt
La fonction de risque ou risque instantané de décès ou encore force de mortalité est la
probabilité de décès en t conditionnellement au fait d’avoir survécu jusqu’en t, soit
h(t) = lim Δt→0
P (t
T t
t|T
t)
t
Cette probabilité conditionnelle est
h(t) =
- d [Log S(t)]
f(t)
f(t)
=
=
dt
1 - F(t)
S(t)
Enfin la fonction de risque cumulé, fonction monotone croissante, est la somme de tous les
risques instantanés de décès aux temps antérieurs à t,
t
h(T) dT = - Log S(t)
H(t) =
0
permettant donc d’écrire la relation inverse
S(t) = exp [- H(t)]
Les fonctions de survie et de risque peuvent être estimées par deux types d’approche.
L’approche non paramétrique, qui suppose que la distribution de la variable aléatoire T n’est pas
spécifiée, comprend la méthode de Kaplan-Meier et la méthode actuarielle. Si au contraire on peut
supposer une distribution définie de la variable aléatoire T, les fonctions de survie et de risque
peuvent être estimées par une approche paramétrique avec des modèles variés, tels le modèle
exponentiel et celui de Weibull. Une approche intermédiaire dite semi-paramétrique, comme le
modèle de Cox, est utilisée pour comparer des survies sous certaines conditions.
4. Estimation non paramétrique par la méthode de Kaplan-Meier
La méthode de Kaplan-Meier est un procédé d’estimation non paramétrique d’une
fonction de survie et donc d’une courbe de survie. Son principe est de considérer le temps comme
divisé en intervalles infiniment petits. Si on note Qj la probabilité de survie au temps j
conditionnellement au fait d’être exposé au risque de décès en j, c’est-à-dire d’être encore vivant
« juste avant j », la fonction de survie au temps t est le produit des probabilités élémentaires de
survie Qj,
t
S(t) = Q1 Q2 Q3 … Qj … Qt =
Qj
j 1
Les tables 36 et 37 montrent le calcul, à différents temps, de la survie d’un échantillon de
100 patients par la méthode directe que l’on a montré peu logique et par celle de Kaplan-Meier.
54
Table 36. Survie de 100 patients estimée par la méthode directe.
Table 37. Survie de 100 patients estimée par la méthode de Kaplan-Meier.
En pratique, on classe les sujets par ordre croissant de leur temps de participation ti et on
note leur état en ti, vivant ou décédé. En appelant dj le nombre de décès en j et ej le nombre de
perdus de vue ou d’exclus vivants de (j-1) à j, le nombre nj de sujets exposés au risque en j est, avec
n0 le nombre de sujets au temps 0,
j-1
nj = n0 -
j
dk k 1
ek
k 1
avec comme estimation de la fonction de survie
t
t
S(t) =
Qj =
j 1
j 1
nj - dj
nj
Si il n’y a pas de décès en j, dj = 0 entraîne Qj = 1, ce qui signifie qu’en pratique le calcul de
l’estimation de survie S(t) ne devra tenir compte que des temps j correspondant à des décès. Par
ailleurs si il n’y a pas de perdus de vue ni d’exclus vivants, la fonction de survie devient
55
t
n1 - d1 - d2 - .... - dt
n1 - d1 (n1 - d1) - d2 (n1 - d1 - d2) - d3

S(t) =
=
n1 - d1 - d2 - .... - dt - 1
n1
(n1 - d1)
(n1 - d1 - d2)
n1 -
dj
j 1
n1
c’est-à-dire la survie directe, dont l’estimation de Kaplan-Meier est donc bien une généralisation.
La variance de cette estimation est donnée par une relation décrite sous le nom de formule de
Greenwood pour l’estimation actuarielle
Var [S(t)] = [S(t)]2
t
j 1
dj
nj (nj - dj)
Nous illustrerons l’estimation de la survie de Kaplan-Meier par les données classiques de Freireich
et al. (Blood, 1963, 21, 699-716) décrivant l’évolution de deux groupes de sujets souffrant de
leucémie aiguë en rémission due aux glucocorticoïdes et traités par 6-mercaptopurine ou par
placebo. La table 38 présente les temps de participation en semaines des sujets du groupe
expérimental, les rechutes étant considérées du point de vue méthodologique comme des décès, les
exclus sans rechute comme des exclus vivants. Lorsque des décès et des exclus vivants ont le même
temps de participation, le calcul est réalisé en supposant les décès comme antérieurs aux exclus
vivants.
RECHUTES
6 6 6 7 10 13
16 22 23
EXCLUS SANS
RECHUTE
6 9 10 11 17 19
20 25 32 32 34 35
Table 38. Temps de participation en semaines des leucémiques traités par 6-mercaptopurine.
La table 39 détaille pour chaque temps j le calcul du nombre dj de décès, du nombre ej d’exclus
vivants, du nombre nj de sujets exposés au risque, des probabilités élémentaires de survie Qj et de la
fonction de survie S(t).
Table 39. Calcul de la fonction de survie de Kaplan-Meier pour les données de la table 38.
Quant à la variance de l’estimation, elle est pour la survie à 6 et 7 semaines, par exemple,
Var [S(6)] = (0,857)2
3
= 0,006
21 (21 - 3)
56
Var [S(7)] = (0,807)2
3
1
+
= 0,008
21 (21 - 3) 17 (17 - 1)
La courbe de survie est illustrée par la figure 12.
Figure 12. Courbe de survie de Kaplan-Meier pour les données des tables 38 et 39.
On peut remarquer que chaque sujet est représenté sur la courbe, soit par une descente de celle-ci
pour un ou plusieurs sujets décédés, soit par une petite barre verticale pour un ou plusieurs sujets
perdus de vue ou exclus vivants. La courbe de survie de Kaplan-Meier des sujets de l’exemple
introductif de ce chapitre, avec les 12 sujets après intervention chirurgicale (table 34), est
représentée par la figure 13, en surimpression sur la survie directe décrite précédemment. On y
remarque que l’aberration constatée avec la survie directe disparaît avec la méthode de KaplanMeier.
Figure 13. Survie directe et courbe de survie de Kaplan-Meier des données de la table 34.
57
Le risque cumulé de décès peut être estimé de deux façons, soit par l’estimateur de
Kaplan-Meier
H(t) = - Log S(t)
soit par l’estimateur de Nelson
t
H(t) =
j 1
dj
nj
La table 40 montre les résultats obtenus par les deux méthodes pour estimer le risque cumulé de
rechute des sujets leucémiques traités par 6-mercaptopurine étudiés plus haut.
j
dj
nj
6
7
10
13
16
22
23
3
1
1
1
1
1
1
21
17
15
12
11
7
6
estimateur de
Kaplan-Meier
0,154
0,214
0,284
0,371
0,467
0,620
0,803
estimateur de
Nelson
0,143
0,202
0,268
0,352
0,443
0,585
0,752
Table 40. Estimations du risque cumulé de rechutes pour les données des tables 38 et 39.
5. Estimation non paramétrique par la méthode actuarielle
La méthode actuarielle est un procédé approché d’estimation d’une fonction de survie. Son
principe est de diviser le temps en intervalles fixés a priori, d’estimer la probabilité Qj à la fin de
chaque intervalle j, conditionnellement au fait d’être exposé au risque dans cet intervalle, c’est-àdire d’être vivant à la fin de l’intervalle précédent, et d’estimer la survie par le produit des
probabilités Qj. On divise donc le temps depuis la date d’origine en intervalles, égaux ou inégaux,
et on classe chaque sujet dans l’intervalle j correspondant à son temps de participation selon son
état, décédé ou vivant. On définit ainsi pour chaque intervalle le nombre de sujets décédés dj et le
nombre de sujets perdus de vue ou exclus vivants ej dans cet intervalle. Le nombre de sujets vivants
au début de l’intervalle (j-1, j) est alors
mj = mj-1 - dj-1 - ej-1
avec pour le premier intervalle m0 = n, effectif total de sujets. Le nombre de sujets exposés au
risque de décès de chaque intervalle dépend de la méthode de recueil des données. Lorsque
l’information concernant l’état des sujets est obtenue à chaque date anniversaire de la date d’origine
(méthode des anniversaires), c’est-à-dire quand la date de point est différente pour tous les sujets, la
date des dernières nouvelles correspond habituellement au début d’un intervalle et le nombre de
sujets exposés au risque de décès est
nj = mj - ej
58
Si au contraire comme c’est fréquemment le cas la date de point est unique (méthode de
l’information unique à date fixe), la date des dernières nouvelles correspondra à un moment
quelconque de l’intervalle. Les sujets perdus de vue ou exclus vivants étant exposés une fraction
variable de l’intervalle seront considérés comme ayant été exposés en moyenne la moitié de
l’intervalle et on estimera le nombre de sujets exposés au risque de décès par
nj = mj -
ej
2
Cette approximation suppose en fait que la répartition des temps de participation des perdus de vue
et des exclus vivants est uniforme dans chaque intervalle. On peut estimer la probabilité de survie
de l’intervalle j par
Qj =
nj - dj
nj
et la fonction de survie par, comme pour la méthode de Kaplan-Meier,
t
t
S(t) =
Qj =
j 1
j 1
nj - dj
nj
ou en remplaçant nj par sa valeur
t
S(t) =
1j 1
t
1-
S(t) =
j 1
dj
ej
mj 2
dj
mj - ej
dans la méthode des anniversaires
dans la méthode de l’information unique à date fixe.
La variance étant estimée par la formule de Greenwood décrite précédemment,
Var [S(t)] = [S(t)]2
t
j 1
dj
nj (nj - dj)
on peut calculer l’intervalle de confiance de façon approchée par
S(t) ± z
Var [S(t)]
z étant la valeur de la variable normale réduite correspondant à une fonction de répartition de 0,975
pour un intervalle de confiance à 95%.
L’estimation actuarielle d’une survie est donc en fait une approximation de l’estimation de
Kaplan-Meier qui n’est valide qu’aux conditions suivantes:
1. Effectif total de sujets suffisamment grand;
59
2. Répartition uniforme des temps de participation des perdus de vue et des exclus vivants dans
chaque intervalle, et donc régularité dans le temps des dates d’origine de chaque sujet;
3. Mortalité faible de chaque intervalle;
4. Risque de décès constant à l’intérieur de chaque intervalle.
Nous illustrerons la méthode actuarielle par l’estimation de la survie de 100 patients ayant
bénéficié d’une seconde transplantation rénale après échec ou rejet d’une première greffe. Le temps
après la date de transplantation est divisé en intervalles inégaux et les données sont recueillies selon
la méthode de l’information unique à date fixe. Les temps de participation des 100 sujets sont
classés dans l’intervalle correspondant, selon leur état décédé ou vivant. La table 41 détaille la
façon pratique de calculer l’estimation aux différents temps de la survie ± son erreur-standard.
Table 41. Estimation actuarielle de la survie de 100 patients après une seconde transplantation
rénale.
La figure 14 est une représentation de la survie actuarielle, estimations ± erreurs-standards,
avec les nombres de sujets exposés notés classiquement au-dessus de l’abscisse.
Figure 14. Courbe de survie actuarielle des patients après une seconde transplantation rénale.
60
6. Comparaison non paramétrique de deux courbes de survie
La comparaison de deux fonctions de survie estimées de façon non paramétrique peut être
effectuée par les tests de Mantel-Haenszel ou du log rank. Le principe du test de Mantel-Haenszel
dérivé de la version décrite au chapitre 1 (page 17) est de comparer, pour l’un des deux groupes, le
nombre de décès observé au nombre attendu sous l’hypothèse nulle d’égalité des deux fonctions de
survie et ce, dans tous les intervalles constitués pour estimer ces fonctions de survie. On peut en
effet considérer que, dans chaque intervalle j, les nombres de sujets décédés et vivants forment,
pour les deux groupes A et B, une table de contingence comme dans la table 42.
Table 42. Table de contingence des données de survie d’un intervalle.
Le nombre attendu de décès pour le groupe k, avec k = (A, B), dans l’intervalle j est
Tjk =
dj njk
nj
La variance de la différence entre les nombres observé et attendu de décès étant
Vj =
njA njB dj (nj - dj)
nj² (nj - 1)
la statistique du test est
t
t
djk -
χ² =
Tjk ²
j 1
j 1
t
Vj
j 1
qui suit sous l’hypothèse nulle d’égalité des deux survies une distribution du χ² à 1 degré de liberté.
Le test du log rank est une forme approchée du test de Mantel-Haenszel, défini par la
statistique
t
t
djA -
χ² =
j 1
t
TjA ²
j 1
t
t
djB -
+
j 1
t
TjA
j 1
TjB ²
j 1
TjB
j 1
61
de même distribution de probabilité, le calcul étant en pratique facilité par la relation
TjB
=
djA + djB - TjA
On peut noter que la statistique du log rank est toujours inférieure ou égale à celle de
Mantel-Haenszel, la version approchée étant donc conservatrice. Par ailleurs les tests de MantelHaenszel et du log rank n’ont de sens que si les courbes de survie ne se croisent en aucun point. En
outre, si le test est significatif, c’est-à-dire si il démontre que les courbes de survie diffèrent de
façon statistiquement significative, on peut quantifier la différence en estimant le risque relatif de
décès, rapport entre les risques de décès de chaque groupe. Ce paramètre est égal au rapport entre
les quotients des nombres totaux de décès observés et attendus dans chaque groupe, soit pour le
risque relatif du groupe B par rapport au groupe A
t
t
djB
RR =
j 1
djA
j 1
t
t
TjB
j 1
TjA
j 1
La table 43 présente les données de survie de greffons de 133 enfants transplantés avec
deux types d’organes, soit des reins de cadavres (A), soit des reins de donneur vivant apparenté (B),
et détaille le calcul du nombre attendu de pertes de greffon pour le groupe transplanté avec un rein
de cadavre,
Table 43. Données de survie de greffons chez des enfants transplantés rénaux.
soit, pour le premier intervalle,
TjA =
Vj =
dj njA 17 x 65,5
=
= 8,404
nj
132,5
njA njB dj (nj - dj)
65,5 x 67 x 17 x (132,5 - 17)
=
= 3,732
nj² (nj - 1)
132,5 x 132,5 x (132,5 - 1)
Après avoir calculé les paramètres et avoir additionné leurs valeurs pour tous les intervalles, la
statistique du test de Mantel-Haenszel est
62
χ² =
27 - 20,999 ²
= 3,79 correspondant à p = 0,052
9,501
et, après avoir calculé,
TjB = 27 + 16 - 20,999 = 22,001
celle du log rank
χ² =
(27 - 20,999) ²
(16 - 22,001) ²
+
= 3,35 correspondant à p = 0,067.
20,999
22,001
En admettent que les courbes de survie diffèrent de façon statistiquement significative, on peut
estimer le risque relatif de perte du greffon du groupe « rein de cadavre » par rapport à celui du
groupe « rein de donneur vivant apparenté » par
RR =
27
20,999
16
= 1,77
22,001
7. Modèles de survie paramétriques
Dans l’approche paramétrique de l’analyse statistique des données de survie, on suppose
que la variable aléatoire durée de vie T suit une distribution dont on connaît la densité de
probabilité f(t) et qui dépend d’un certain nombre de paramètres. Les fonctions de survie S(t), de
risque instantané de décès h(t) et de risque cumulé H(t) dépendront également du ou des paramètres
définis par la densité de probabilité. Si la distribution caractérisant le modèle paramétrique choisi
correspond effectivement à la distribution réelle de la variable aléatoire dans la population,
l’estimation de la survie et des risques donnés par le modèle sera la meilleure possible. Dans le cas
contraire, elles sera évidemment biaisée. L’utilisation d’un modèle paramétrique suppose donc
habituellement que, d’une part, on dispose d’arguments théoriques en faveur de la distribution
choisie, et que, d’autre part, on vérifie la bonne adéquation du modèle aux données observées.
Parmi les nombreux modèles proposés nous nous limiterons à décrire le modèle exponentiel
et à introduire le modèle de Weibull.
8. Modèle de survie exponentiel
Le modèle exponentiel est défini par la distribution exponentielle de la variable aléatoire T,
dépendant d’un seul paramètre λ et de densité de probabilité
f(t) = λ exp(-λt)
Dès lors la fonction de survie est
S(t) = 1 - F(t) = 1 -
t
0
exp(- T) dT = exp(-λt)
et la fonction de risque instantané
63
h(t) =
f(t)
=λ
S(t)
Le modèle exponentiel est donc caractérisé par un risque instantané de décès constant au cours du
temps. L’estimation des fonctions de survie S(t) et de risque instantané h(t) reviennent à estimer le
paramètre λ, dont l’estimation classique du maximum de vraisemblance est, avec d nombre total de
décès,
λ=
d
n
ti
i 1
La fonction de survie du modèle S(t) = exp(-λt) permettant d’écrire
- Log S(t) = λ t
l’adéquation au modèle peut être vérifiée par régression linéaire. En effet en estimant S(t) par une
méthode non paramétrique, Kaplan-Meier ou actuarielle, le graphe de [- Log S(t)] en fonction de t
sera dans ce cas une droite passant par l’origine. La propriété de linéarisation du modèle
exponentiel fournit également une méthode d’estimation du paramètre λ, par la pente de la droite de
régression passant par l’origine de [-Log S(t)] en fonction de t,
n
ti Log S(t i)
λ =
i 1
n
t i²
i 1
Cette estimation n’est cependant qu’une approximation dans la mesure où les valeurs S(t)
considérées ne sont pas indépendantes et n’ont pas la même précision. Par exemple, l’estimation de
la fonction de survie des patients souffrant de leucémie aiguë traités par 6-mercaptopurine (temps
de participation de la table 38) est, pour l’estimation du maximum de vraisemblance,
λ =
9
= 0,025
359
tandis que l’estimation par régression linéaire est 0,026. La fonction de survie est donc
S(t) = exp(- 0,025 t) ≈ exp(- 0,026 t)
La figure 15 illustre, pour cet exemple, le graphe de [- Log S(t)] en fonction de t, S(t) étant estimé
par la méthode non paramétrique de Kaplan-Meier, avec la droite de régression par l’origine qui en
résulte. On peut y constater la bonne adéquation du modèle.
64
1,0
0,8
0,6
-Log(S(t))
0,4
0,2
0,0
0
10
20
30
40
semaines
Figure 15. Régression de [-Log S(t)] en fonction de t pour les données de la table 38.
1,0
0,8
0,6
S(t)
0,4
0,2
0,0
0
10
20
30
40
semaines
Figure 16. Courbe de survie exponentielle et estimation de Kaplan-Meier des données de la table
38.
La courbe de survie exponentielle qui dérive de cette estimation est représentée sur la figure 16, en
surimpression de l’estimation de Kaplan-Meier.
65
Outre son utilisation pour estimer une fonction de survie, le modèle exponentiel permet de
comparer facilement deux courbes, puisque l’hypothèse nulle
SA(t) = SB(t)
revient à
λA = λB
ou
Log
λB
=0
λA
et permet également d’étudier l’influence indépendante de plusieurs covariables sur la fonction de
survie.
9. Modèle de survie de Weibull
Le modèle de Weibull est une généralisation du modèle exponentiel, défini par une
distribution à deux paramètres λ et γ de la variable aléatoire T, de densité de probabilité
f(t) = λ γ tγ-1 exp(-λ tγ )
Les fonctions de survie et de risque instantané sont donc
t
S(t) = 1 - F(t) = 1 - λ γ Tγ-1 exp(-λ Tγ ) dT = exp(-λ tγ )
0
h(t) =
f(t)
= λ γ tγ-1
S(t)
Le risque instantané de décès augmente ou diminue dans le temps selon que γ > 1 ou γ < 1. Il est
constant pour γ = 1, situation pour laquelle le modèle de Weibull se réduit au modèle exponentiel.
L’adéquation des données peut être vérifiée par régression linéaire, le graphe de Log [- Log S(t)] en
fonction de t étant une droite définie par
Log [- Log S(t)] = Log λ + γ Log t
10. Modèle de survie de Cox
Le modèle de Cox ou modèle des risques proportionnels est un modèle de survie semiparamétrique, c’est-à-dire un modèle dans lequel on paramétrise la relation qui existe entre les
fonctions de survie de plusieurs populations, sans que les distributions des variables aléatoires T ne
soient elles-mêmes spécifiées. Une telle approche ne concerne donc que l’estimation simultanée de
plusieurs populations en vue de leur comparaison.
Nous considérons les fonctions de survie et de risque de deux populations A et B. Les deux
variables aléatoires Tk, avec k = (A, B), suivent une distribution quelconque mais identique, et les
fonctions de survie et de risque ne peuvent être paramétrisées. On suppose cependant que les
risques instantanés de décès des deux populations sont liés par une fonction dépendant d’un
paramètre β,
66
hB (t)
= f (β) = exp (β)
hA (t)
ou hB (t) = hA (t) exp (β)
En considérant que l’appartenance au groupe k, par exemple un traitement, est une covariable z,
avec z = 0 pour k = A et z = 1 pour k = B, l’équation précédente s’écrit de façon équivalente
h (t,z) = h0 (t) exp (β z)
expression dans laquelle h0 (t) représente un risque de référence, arbitraire et inconnu, et [exp (β z)]
la relation entre les risques des deux groupes, dépendant du paramètre β. Le modèle de Cox
suppose donc, d’une part, la proportionnalité des risques, c’est-à-dire que le rapport entre les
risques instantanés de décès soit constant au cours du temps,
hB (t)
h (t,1)
=
= exp (β z)
hA (t)
h (t,0)
et, d’autre part, l’effet loglinéaire des covariables sur le risque, donc que le logarithme du risque
soit en relation linéaire avec chaque covariable z,
Log [h (t,z)] = Log h0 (t) + β z
Lorsque l’on définit comme ci-dessus z comme une covariable indicatrice de l’appartenance à un
groupe, la seconde condition se confond avec la première. Ce n’est cependant pas vrai lorsque l’on
considère des covariables quantitatives.
Par ailleurs la relation entre les fonctions de risque entraîne une relation similaire entre les
fonctions de survie. En effet on peut définir une survie de référence S0(t), arbitraire et inconnue,
S0 (t) = exp [- H0 (t)]
et considérer la survie en fonction de la covariable z par
S (t,z) = exp [- H0 (t) exp (β z)] = { exp [- H0 (t) ] } exp (β z) = [S0 (t)] exp (β z)
ou de façon équivalente
SB (t) = [SA (t)] exp (β)
expression dans laquelle [exp (β z)] définit la relation entre les survies des deux groupes, dépendant
du paramètre β.
Le modèle de Cox permet d’estimer les fonctions de survie en tenant compte simultanément
de plusieurs covariables, supposées être des facteurs pronostiques et dont on cherche à connaître la
réalité de l’effet. Supposons que la fonction de survie dépende comme précédemment du traitement
A ou B mais en outre d’un second facteur noté X ou Y selon sa présence ou son absence.
Considérant les deux variables de façon indépendante, on peut écrire
hB (t) = hA (t) exp (β1)
hY (t) = hX (t) exp (β2)
67
Dès lors le risque instantané de décès des sujets traités par B et ayant le second facteur au niveau
Y est
hBY (t) = hAY (t) exp (β1) = hAX (t) exp (β2) exp (β1) = hAX (t) exp (β1 + β2)
Si on note le traitement comme une covariable z1, avec z1 = 0 pour A et z1 = 1 pour B, et le second
facteur comme une autre covariable z2, avec z2 = 0 pour X et z2 = 1 pour Y, l’expression précédente
peut s’écrire
h (t,z1,z2) = h0 (t) exp (β1 z1 + β2 z2)
En généralisant à k facteurs, et en appelant Z le vecteur-ligne des covariables zi et β le vecteurcolonne des paramètres inconnus βi, c’est-à-dire
1
Z = [z1, z2, ….., zk]
β=
et
2
...
k
le risque instantané de décès d’un sujet présentant les k covariables au niveau Z est
h(t, Z) = h0 (t) exp (β1 z1 + β2 z2 + ….. + βk zk)
ou
h(t, Z) = h0 (t) exp(β Z)
Il faut remarquer que l’hypothèse des risques proportionnels dont dépend la validité du
modèle de Cox concerne chaque covariable zi introduite dans le modèle. L’adéquation devra donc
être vérifiée pour toutes les covariables ou toutes les combinaisons de celles-ci. Plusieurs tests ont
été décrits dans ce but, mais une validation graphique peut être considérée comme suffisante. En
effet, la relation SB (t) = [SA (t)] exp (β) entraîne
Log SB (t) = exp (β) Log SA (t)
et donc Log [- Log SB (t)] = β + Log [- Log SA (t)]
c’est-à-dire que les courbes de Log [- Log S(t)] pour A et B sont distantes d’une constante β. On
divise alors la variable en classes et on apprécie le parallélisme des courbes de Log [- Log S(t)] en
fonction de t, pour toutes les classes de la variable. Les figures 17 et 18 montrent deux de ces
graphiques d’adéquation dans un essai clinique de radiothérapie avec ou sans chimiothérapie pour
des tumeurs de la tête et du cou réparties en 4 régions distinctes, et entraînant donc la réalisation de
6 graphiques, la survie des 4 régions pour chacun des 2 traitements et celle des 2 traitements pour
chacune des 4 régions (Kalbfleisch & Prentice, The Statistical Analysis of Failure Time Data,
Wiley, New York, 1980). Si la proportionnalité des risques instantanés de décès ne peut être admise
pour l’une ou l’autre covariable, il faudra ajuster un modèle pour chaque classe de cette variable,
procédé connu sous le nom de modèle de Cox stratifié, avec un risque de référence différent hm(t)
pour chaque classe m, c'est-à-dire.
hm (t, Z) = hm (t) exp(β Z)
68
Figure 17. Courbes de Log [- Log S(t)] en fonction de t pour les 4 régions de tumeurs de la tête et
du cou avec traitement standard.
Figure 18. Courbes de Log [- Log S(t)] en fonction de t pour les traitements expérimental et
standard de la région 1.
Le modèle des risques proportionnels de Cox est aujourd’hui largement utilisé dans
l’analyse des données de survie, pour étudier la valeur pronostique d’un paramètre, pour tester
l’influence d’un nouveau paramètre compte tenu de facteurs de risque connus ou pour rechercher la
valeur prédictive d’un ensemble de variables sur la survie. En particulier dans les essais
thérapeutiques dont le critère de jugement est la survie, il permet d’étudier l’efficacité d’un
traitement après ajustement à des facteurs de risque ou de gravité connus.
* * *
69
CHAPITRE 4
ESSAIS
CLINIQUES
1. Définition et formulation de l’objectif
2. Traitements comparés
3. Critères de jugement
4. Sélection des sujets
5. Détermination du nombre de sujets nécessaire
6. Attribution des traitements entre les groupes
7. Conduite d’un essai
8. Comparabilité des groupes
9. Analyse des résultats
10. Essais avec contrôles historiques
11. Essais croisés
12. Essais avec plan expérimental
13. Essais d’équivalence et essais de non-infériorité
14. Essais de bioéquivalence
15. Essais préventifs et études épidémiologiques d’intervention
16. Essais séquentiels
17. Essais adaptatifs
18. Essais pragmatiques
1. Définition et formulation de l’objectif
Une méthodologie rigoureuse basée sur la théorie statistique a progressivement vu le
jour pour étudier l’efficacité d’une nouvelle molécule ou d’un geste thérapeutique. Ce
sont les essais cliniques ou essais cliniques contrôlés ou essais thérapeutiques. Dans
la recherche pharmacologique, plusieurs étapes sont indispensables dans l'expérimentation
d'une nouvelle substance. Après avoir étudié celle-ci en laboratoire sur les cellules et sur
plusieurs espèces animales et avoir déterminé une dose létale, l'expérimentation humaine
passe habituellement par plusieurs phases. La phase I est une étude de la toxicité de la
substance, dans laquelle les doses sont progressivement augmentées jusqu'à atteindre une
dose maximale tolérable par l'organisme humain. La phase II est une étude d'efficacité avec
recherche de la dose optimale, généralement d’abord chez des volontaires sains (phase IIa),
puis chez des malades (phase IIb) dans une série d'affections susceptibles de réagir
favorablement à l'administration de la nouvelle substance. Si cette étape permet de découvrir
l'une ou l'autre affection sensible à la nouvelle molécule, une étude de phase III, c'est-àdire un essai clinique comparatif, peut alors être entreprise. C’est dans cette catégorie que
l’on considère habituellement les essais concernant un mode d'administration particulier
d'un médicament connu ou toute autre thérapeutique nouvelle non médicamenteuse, telle
qu’une technique physiothérapique, endoscopique ou chirurgicale. Les études de phase IV
sont des études de recherche d’effets secondaires généralement effectuées après la mise sur le
marché d’une substance nouvelle, appelées aussi études de pharmacovigilance. Dans la suite
de ce chapitre nous ne considérerons plus que les essais cliniques comparatifs de stade III.
Lorsque l'on désire étudier un traitement dans un essai clinique, il n'est pas
possible de répondre à la fois aux nombreuses questions que l'on peut se poser, telles que la
valeur du traitement dans différentes affections, la durée de son administration ou sa
posologie. Il faut définir une question unique en fonction de laquelle sera élaboré l'essai.
En effet, si les questions sont multiples, il sera très difficile de déterminer le type de
recrutement des sujets, les modalités d'administration du traitement, les critères de jugement,
le nombre de sujets nécessaire et d'autres paramètres techniques dont le choix dépend de
la question posée et qui peuvent dès lors nécessiter une méthodologie différente voire
contradictoire. En outre, le risque de découvrir une différence significative sur le plan
statistique par le seul jeu du hasard augmente avec le nombre de questions posées. Si de
plus ces questions ne sont pas indépendantes, le calcul des probabilités n'est pratiquement
plus possible. Des questions accessoires, telles que la tolérance, peuvent bien sûr être envisagées mais il est toujours préférable d'organiser l'essai autour d'une seule question
principale. Par ailleurs, celle-ci doit toujours être déterminée a priori pour ne pas tricher
avec l'unicité de la question posée. En effet le choix d'une question a posteriori implique
que l'on procède plus ou moins inconsciemment à une sélection entre plusieurs questions
en fonction des résultats, ce qui enlève toute valeur à l'analyse statistique basée sur un
calcul de probabilités.
La question posée doit être la plus précise possible, car elle conditionne tous les aspects
du protocole depuis le choix du traitement contrôle jusqu'à l'analyse finale des résultats. Le
contexte est aussi important car la notion d'essais cliniques contrôlés recouvre deux
types de problèmes, fondamentalement différents, les essais explicatifs et les essais
pragmatiques, qui sont souvent confondus, avec comme conséquence qu'un certain nombre
d'essais publiés ne répondent pas à la question posée. L'essai explicatif est une comparaison
dirigée essentiellement vers la recherche fondamentale. Son but est d'apporter une réponse sur
le plan de la compréhension ou de la connaissance de la thérapeutique. Il peut en apporter une
71
de surcroît sur le plan de l'application pratique mais cette extrapolation n'est nullement
assurée. L'essai pragmatique est au contraire défini comme un essai dirigé avant tout vers
l'application pratique. Il peut certes contribuer à une meilleure connaissance de la
thérapeutique, mais son but premier est de déterminer le choix entre deux traitements et ce
dans tous les cas, c'est-à-dire que quels que soient les résultats, il permet toujours de
décider. En pratique, la distinction entre ces deux attitudes théoriques n'est pas toujours
facile et un essai peut souvent être mené selon l'une ou l'autre des deux approches, ou
être considéré comme intermédiaire entre les deux concepts. Sauf mention contraire,
c’est l’essai explicatif, plus classique, que nous étudierons dans la suite de ce chapitre, la
méthodologie des essais pragmatiques étant décrite à la fin du chapitre (§18).
2. Traitements comparés
La première étape de la rédaction d'un protocole est le choix des traitements à
comparer et de leurs modalités, tant en ce qui concerne la thérapeutique nouvelle que l'on se
propose d'expérimenter que le traitement contrôle qu'on lui opposera pour la comparaison.
Le traitement expérimental doit être administré selon des conditions définies de façon
rigoureuse, les plus objectives et les plus contrôlables possibles, dans la mesure où l'on a
intérêt à vérifier si nécessaire que le malade a effectivement suivi la thérapeutique prescrite.
S'il s'agit de l'essai d'un nouveau médicament, la posologie doit suivre des conditions
d'administration fixes, soit identiques pour tous les sujets (conditions standard), soit adaptées
en fonction de certaines caractéristiques du sujet, telles que le poids (conditions ajustées).
Les conditions d'administration variables en fonction de l'évolution de la maladie doivent
être évitées dans la mesure du possible dans un essai clinique contrôlé de type explicatif .
Le traitement contrôle doit être un traitement classique ou plus généralement
dans un essai explicatif un traitement placebo, c'est-à-dire un traitement absolument
inactif administré en lieu et place d'un traitement actif à un malade ignorant cette
substitution. C'est en grande partie au placebo que pendant des millénaires la médecine a dû
son efficacité. Une médication placebo possède en effet beaucoup de caractéristiques
communes avec une molécule biologiquement active. Son efficacité peut dépendre de la
posologie, elle peut potentialiser une substance active et peut même provoquer des effets
secondaires indésirables voisins de ceux des médicaments actifs, connus sous le nom
d'effet nocebo. L'efficacité d'un placebo est parfois remarquable et dans certaines
pathologies l’efficacité peut être de 30 à 35 %. Cette efficacité n’est d’ailleurs pas
nécessairement due au malade, elle peut résulter d’un « effet médecin ». Il est par
conséquent évident que toute thérapeutique possédant une composante placebo, l'activité
propre d'un nouveau traitement ne pourra être appréciée qu'après avoir éliminé cette
composante, c'est-à-dire en la comparant à une thérapeutique dont l'efficacité toute relative ne
résulte que de cette composante placebo. Cette règle est impérative dans tout essai explicatif
même en cas de thérapeutique non médicamenteuse et des exemples d'effet placebo en
chirurgie ont été décrits. En pratique, il faudra donc traiter le groupe contrôle par une
médication inactive mais dont les caractères physiques sont semblables à ceux du traitement
expérimenté tant en ce qui concerne la forme que la couleur ou le goût, par un simulacre
d'opération ou de toute autre thérapeutique, c'est-à-dire par un procédé mimant le traitement
actif ou supposé tel de la manière la plus parfaite possible et en tout cas indiscernable de la
thérapeutique réelle aux yeux du malade, voire du médecin dans certains types d’essais.
Par ailleurs, le simple fait pour un patient de se savoir inclus dans un essai
72
clinique entraîne souvent une amélioration de ses résultats. Cette con statation connue
sous le nom d’effet Hawthorne doit être distinguée de l’effet placebo. Ce phénomène
n’est d’ailleurs pas le propre des essais cliniques et est observé dans d’autres domaines
d’expérimentation humaine, par exemple en sociologie du travail dans lequel il a été
décrit initialement. En fait l'amélioration de l'état d'un malade dans un essai clinique
résulte de la combinaison de plusieurs effets qui sont l'évolution naturelle de la maladie,
l'effet spécifique du traitement, son effet placebo et l'effet Hawthorne.
Le contexte dans lequel les deux traitements seront administrés doit également être
strictement précisé dans le protocole. Les thérapeutiques adjuvantes ou symptomatiques,
interdites ou permises, les régimes ou soins éventuels doivent être définis et surtout être
identiques dans les deux groupes. Ceux-ci ne peuvent différer que par les traitements,
expérimental et placebo, que l'on souhaite effectivement comparer.
3. Critères de jugement
Les critères de jugement qui permettront la comparaison des traitements doivent
être peu nombreux et il faut même si possible choisir un critère unique. Un trop grand
nombre de variables est en effet désavantageux parce qu'il complique l'organisation pratique
de l'essai, qu'il tend à diminuer le soin que les cliniciens mettront à les estimer et enfin que le
risque de significations statistiques par le seul jeu du hasard est augmenté. De plus le but
d'un essai clinique contrôlé de type explicatif est de tester l'efficacité d'un traitement sur le plan
de la connaissance ou de la compréhension. Un seul critère, judicieusement choisi, ou un
petit nombre de critères seront par conséquent plus aptes à répondre à la question posée de l'efficacité réelle de la thérapeutique, qu'un grand nombre de variables, qui si elles peuvent
paraître importantes dans l'appréciation globale du traitement en termes de bénéfice pour le
malade, n'apportent rien au jugement d'efficacité. D'une manière générale, le choix d'un petit
nombre de critères est la marque d'une hypothèse bien formulée.
Le ou les critères choisis doivent être les plus objectifs possibles. La distinction entre
critères objectifs et subjectifs n'est pas toujours aussi tranchée qu'on ne le croit. Beaucoup
d'examens objectifs, tels qu'une radiographie ou une analyse histologique, ont en fait une
interprétation subjective. De plus, une part de subjectivité existe pratiquement toujours
dans des mesures objectives et on admet que les erreurs de mesure sont faites
inconsciemment plus souvent dans le sens souhaité par l'expérimentateur que dans l'autre
sens. En outre, la pratique qui consiste à recommencer des examens considérés comme
douteux parce que trop déviants, fait aussi entrer une part d'arbitraire dans l'évaluation de
critères dits objectifs puisqu'elle entraîne la vérification de résultats inattendus sans contrôler de
la même façon les résultats attendus. Les critères de jugement doivent être sensibles, c'est-àdire aptes à détecter des modifications peu importantes et être spécifiques, c'est-à-dire ne pas
déceler à tort de fausses améliorations dues par exemple à des facteurs extérieurs, étant
entendu que ces deux exigences sont contradictoires et qu'un compromis est par conséquent
nécessaire. Enfin, toute appréciation ou toute mesure doit être reproductible.
Beaucoup de critères sont fonction d'un facteur temps. Une diminution de la
glycémie ou la régression du volume d'une tumeur dépendent de façon étroite du moment
choisi pour leur estimation. Néanmoins, il est recommandé de ne pas multiplier ces moments
pour les mêmes raisons que celles qui conduisent à limiter le nombre de critères. De toute
façon, la ou les périodes choisies devront toujours l'être a priori et le fait de retenir sur deux
73
courbes d'évolution d'une variable en fonction du temps, le moment où celles-ci divergent le
plus pour essayer d'atteindre une différence statistiquement significative n'a aucun sens et
enlève toute valeur au test statistique ainsi réalisé. Par ailleurs l’évolution peut souvent être
prise en compte dans l'appréciation d'un critère de jugement. La mesure d'une variable avant
et après traitement permet dans certains cas d'utiliser comme critère la différence des
mesures, ce qui diminuera la variance des résultats et par conséquent le nombre de sujets
nécessaire à l'essai. Cependant, si l'amélioration dépend du niveau initial, les résultats
peuvent être faussés. De même l'utilisation d'un rapport des mesures pratiquées avant et
après traitement équivaut à l'utilisation de la différence des logarithmes, ce qui postule qu'une
amélioration d'une certaine quantité n'a pas la même signification en haut et en bas de la
gamme des valeurs possibles.
Enfin un cas important est celui où l'appréciation concerne un événement en tout ou
rien, tel que guérison ou décès, survenant seulement chez certains sujets et après un délai
variable. Deux modalités de mesure sont possibles dans ces cas, soit la mesure à délai donné,
qui consiste à compter le nombre de malades ayant présenté l'événement après une période
déterminée à l'avance, soit la mesure à événement donné, où le critère est le temps écoulé
depuis le début de l'essai jusqu'à la survenue de l'événement si celui-ci s'est produit,
paramètre qui doit être étudié par les méthodes d’analyse des données de survie décrites au
chapitre 3.
4. Sélection des sujets
Dans un essai clinique contrôlé de type explicatif, dont le but est de mettre en évidence
un phénomène précis, l'exigence fondamentale est de choisir un groupe homogène et sensible.
Certains auteurs estiment que l'échantillon de malades doit être le plus représentatif
possible de la population générale, de façon à permettre une meilleure extrapolation des résultats obtenus. Cette exigence est évidemment contradictoire par rapport à celle d'homogénéité
et ne doit en fait être prise en considération qu'en cas de formulation pragmatique. Le but
d'un essai explicatif n'est pas de choisir entre deux traitements que l'on pourrait appliquer au
tout-venant des sujets souffrant d'une affection donnée mais de juger des effets précis d'une
thérapeutique. La sélection d'un groupe homogène entraînera une diminution de la
variabilité des réponses aux traitements et par conséquent du nombre de sujets nécessaire.
Le protocole de sélection des malades contient habituellement une série de critères
d'inclusion et d'exclusion. Les critères d'inclusion sont une délimitation très précise du
cadre nosologique. L'affection doit pouvoir être définie sans ambiguïté et un diagnostic de
certitude posé sur des éléments objectifs et reproductibles. De même le sexe, les limites d'âge,
le lieu de recrutement doivent être prévus de façon claire. Une série de critères d'exclusion
doit également être définie. Ainsi on peut éliminer de l'étude les malades ayant reçu telle
thérapeutique antérieure ou ceux dont on pense qu'ils ne suivront pas le traitement
prescrit ou qui ne pourront être suivis. Les abandons de traitement, gênent en effet
considérablement l'analyse des résultats, ce qui impose une sélection sévère.
La clause d'ambivalence est impérative. Elle stipule que des malades ne peuvent
entrer dans l'essai que s'ils sont justiciables de l'un et l'autre des traitements à comparer.
Ainsi si l'une des deux thérapeutiques est contre-indiquée, le sujet ne peut être retenu. En
d'autres termes, toute contre-indication ou tout refus d'un malade de suivre le traitement
expérimental ne peut en aucune manière le faire entrer dans le groupe contrôle. Le
74
recrutement d'un malade ne peut évidemment se faire qu'en dehors de toute connaissance du
traitement qui lui serait attribué en cas d'inclusion dans l'essai
Enfin, il faut assurer un recrutement réaliste et savoir que celui-ci est habituellement
surestimé. On s'aperçoit souvent que la maladie que l'on croyait fréquente l'est beaucoup
moins quand il s'agit de recruter ceux qui en sont atteints. C'est le phénomène décrit parfois
sous le nom de loi de Lasagna. Il s'explique en partie par les limitations nécessairement
rigoureuses des critères d'inclusion et d'exclusion. Il faut cependant résister à la tentation
d'élargir la sélection étant, consciemment ou inconsciemment, moins strict en ce qui
concerne le respect des clauses d'inclusion et d'exclusion définies dans le protocole sous peine
d'introduction d'un biais.
5. Détermination du nombre de sujets nécessaire
Avant de réaliser un essai clinique contrôlé, il est indispensable de fixer le nombre
de sujets qu'il sera nécessaire de recruter. Cet aspect paraît souvent secondaire ou inutile au
clinicien non familiarisé avec la méthodologie de ces essais, mais il est en fait capital si
l'on veut être sûr de pouvoir conclure valablement quel soit le résultat de la comparaison.
L’analyse des résultats d'un essai clinique contrôlé repose en effet sur des tests
statistiques d’hypothèses, dont le but n'est pas de prouver une hypothèse mais bien de
l'admettre par rejet d'une hypothèse opposée considérée comme peu probable. La comparaison de deux traitements A et B entraîne la formulation de deux hypothèses
mutuellement exclusives, qui sont A = B ou A – B = 0, c'est l'hypothèse nulle H0, et A ≠ B
ou A – B ≠ 0 qui est l'hypothèse alternative H1 ou HA. Le test statistique va déterminer si les
résultats observés sont compatibles ou non avec l'hypothèse nulle. Si les données ne
correspondent que de façon peu vraisemblable avec cette hypothèse nulle, celle-ci sera rejetée
et la différence entre A et B déclarée significative. Dans le cas contraire, l'hypothèse nulle ne
pourra être rejetée et la différence sera dite non significative. Cette dernière éventualité ne
signifie absolument pas que les traitements sont équivalents, mais simplement qu'une
différence entre eux n'a pu être mise en évidence. Ce manque de conclusion peut bien sûr
être dû à une équivalence vraie des deux traitements comparés, mais également à un
manque de puissance du test statistique utilisé dû à un trop petit nombre de malades. Le
fait d'utiliser un nombre suffisant de sujets fixé à l'avance permettra par contre de
conclure à une équivalence des traitements si le test aboutit à l'affirmation d'une
différence non significative.
Deux risques d'erreur existent dans un test statistique. Le risque de première espèce
ou risque α ou erreur de type I est la probabilité de rejeter l'hypothèse nulle alors que celleci est vraie, c'est-à-dire le risque de conclure à tort à une différence significative. Cette
probabilité calculée a posteriori est appelée seuil de signification ou valeur p. Le risque de
deuxième espèce ou risque β ou erreur de type II est au contraire la probabilité de ne pas
rejeter l'hypothèse nulle alors qu'elle est fausse et que par conséquent c'est l'hypothèse alternative qui est vraie. C'est donc le risque de ne pas conclure à une différence significative, encore appelé manque de puissance du test. Dans une comparaison de deux
traitements, il faut donc non seulement fixer une limite au risque α en dessous de laquelle
la différence sera considérée comme significative (généralement α = 0,05) mais aussi
minimiser le risque β de ne pas conclure à une différence significative. La table 44 résume
schématiquement le problème des risques d’erreur dans un test statistique d’hypothèses.
75
Table 44. Risques d’erreur α et β dans un test statistique d’hypothèses.
Plus les deux risques seront choisis petits, c'est-à-dire plus les exigences seront grandes,
plus le nombre de sujets nécessaire sera élevé. Un troisième paramètre doit être fixé pour
le calcul du nombre de sujets. Le risque β est en effet basé sur la situation où l'hypothèse
nulle est fausse, c'est-à-dire A – B ≠ 0. Il y a évidemment une infinité de valeurs possibles
qui vérifient cette hypothèse alternative et si β est calculé a posteriori, il dépendra de la différence (A – B) effectivement constatée, ce qui est discutable. Dans le cas où le risque de
deuxième espèce doit être fixé a priori, il ne peut l'être qu'en fonction d'une différence Δ
qu'il faut déterminer à l'avance. Le risque β sera donc défini comme celui de laisser
échapper une différence au plus égale à Δ. Le nombre minimal de sujets requis pour
l'essai sera par conséquent fonction des trois paramètres α, β et Δ.
La fixation du risque α ne pose aucun problème si ce n'est celui de son caractère
arbitraire. C'est le niveau de signification classique égal à 0,05. On fixe aussi arbitrairement β,
les valeurs acceptables étant 0,05 ou 0,10 voire même 0,20. Le choix de Δ est plus difficile car
ce paramètre est directement fonction d'un critère clinique. Il faut déterminer Δ comme la
différence minimale du critère de jugement choisi que l'on considère comme cliniquement
significative, c’est-à-dire en-dessous de laquelle on estime qu’il y a équivalence en pratique
ou que cette différence n’a aucun intérêt clinique. Si on compare deux médicaments
hypoglycémiants et que le critère de jugement choisi est la valeur de la glycémie au temps t, on
peut estimer par exemple qu'une différence inférieure à 15 mg/100 ml est négligeable, par
exemple parce qu’elle n’a pas de répercussion clinique. Le nombre de sujets nécessaire qui
sera ensuite calculé constituera dès lors le nombre minimal de malades permettant
d'effectuer la comparaison entre les deux hypoglycémiants avec un risque au plus égal à α
de conclure à tort à une différence significative et un risque au plus égal à β de laisser échapper
une différence au plus égale à 15 mg/100 ml. Une façon de résoudre partiellement la
difficulté du choix de Δ consiste à inverser la démarche. Au lieu de fixer arbitrairement Δ
pour aboutir à un nombre de sujets N peut-être hors d'atteinte en pratique, on peut partir
de diverses valeurs de N dans la gamme des possibilités de recrutement, calculer les valeurs
correspondantes de Δ et décider si elles sont acceptables compte tenu de leur signification
clinique.
Un quatrième et dernier paramètre est nécessaire au calcul des effectifs selon le type de
variable. Si le critère de jugement est qualitatif (comparaison en termes de proportions), il
faut connaître au moins approximativement le niveau de pourcentages P du critère retenu.
Si la variable est quantitative (comparaison en termes de moyennes ou de médianes), une
estimation de sa variance ou de sa déviation-standard σ est nécessaire. Ces paramètres
pourront, soit être déduits de travaux antérieurs portant sur des traitements similaires, soit
76
être estimés par un essai préliminaire. Si la variance est mal connue, une solution consistera à
fixer Δ non pas en valeur absolue mais par rapport à la variance. Les exigences α, β, Δ, et P ou
σ étant fixées, le nombre de sujets nécessaire peut être déterminé par calcul, tables, abaques
ou simulation. Il dépend du mode de comparaison choisi, unilatéral ou plus généralement
bilatéral, selon que l'on s'intéresse à une différence entre A et B dans un sens déterminé à
l'avance ou quelconque, de l'égalité ou de l'inégalité d'effectifs voulue entre les deux groupes
à comparer et enfin du test statistique choisi pour la comparaison. Ainsi, un essai
thérapeutique entre deux traitements utilisant un critère quantitatif et un test bilatéral
exige par groupe,
n = (z α + z 2β)²
2 ²
²
avec z k , la valeur d’une variable normale réduite correspondant à une fonction de
répartition de (1 – k/2). De même, si la comparaison porte sur deux proportions, celle
du traitement classique étant supposée égale à P, le nombre de sujets par groupe est
n=
(z
z2 )²
2 [arc sin (P
) arc sin P ] ²
Calculons le nombre de sujets nécessaire à la comparaison de deux médicaments
hypoglycémiants comme décrit plus haut. Le critère de jugement est la valeur de la glycémie au
temps t et on estime qu'une différence inférieure à 15 mg/100 ml est négligeable car elle n’a
pas de répercussion clinique. Les risques α et β sont fixés à 0,05 et 0,10 respectivement, donc
une table de la distribution normale réduite fournit zα = 1,960 et z2β = 1,282. Une revue de la
littérature montre que la déviation-standard de la glycémie dans les conditions de l'essai est
σ = 40 mg/100ml. Le nombre de sujets nécessaire pour les exigences fixées est alors par
groupe
n = (1,960 + 1,282)²
2 x (40) ²
≈ 150
(15)²
Plutôt que de choisir la glycémie comme critère de jugement on peut considérer la proportion
de succès, qui est de 0,50 pour le traitement contrôle. Les risques α et β sont cette fois fixés à
0,05 et 0,20 respectivement, donc zα = 1,960 et z2β = 0,842. La différence en-dessous de
laquelle on considère le résultat sans intérêt clinique est 0,20, c’est-à-dire 20 % de succès
supplémentaires. L’estimation du nombre de sujets nécessaire par groupe est dans ce cas
n=
(1,960
0,842 )²
2 [arc sin (0,5 0,2) arc sin 0,5 ] ²
≈ 93
Il faut cependant se souvenir que l'estimation du nombre de sujets nécessaire à la
réalisation d'un essai clinique contrôlé n'est au mieux qu'une approximation et que certains facteurs tel l'abandon d'un traitement par certains malades, obligent à recruter un
nombre de sujets plus élevé que celui estimé. Certaines méthodes de calcul tiennent compte
de cette déperdition de sujets. D'autre part lorsque les effectifs des deux traitements à
comparer ne sont pas choisis égaux, par exemple lorsque le traitement expérimental est
particulièrement coûteux, le nombre total de sujets nécessaire à l'essai est toujours plus élevé
77
que si la comparaison avait été décidée sur deux groupes égaux. Ainsi si au lieu de recruter n
sujets par groupe, on veut recruter nA et nB malades pour les groupes A et B respectivement
dans le rapport λ = nB / nA, il faut calculer n comme précédemment et puis ajuster
nA =
n
1
(1
)
2
λ
et
n
( 1 λ)
2
nB =
c’est-à-dire que le nombre total de sujets sera par conséquent
nA + nB =
n
2
λ
1
λ
2
≥ 2n
La table 45 exprime les effectifs exigés et l’augmentation du nombre total selon
quelques rapports λ pour un essai avec n = 100.
rapport entre les
nombres de
sujets
nombre de sujets
du
groupe A
nombre de sujets
du
groupe B
nombre total de
sujets
facteur d’
augmentation
λ
nA
nB
nA + nB
(nA+nB–2n)/2n
1
½
1/3
¼
1/5
1/10
1/20
…
0
100
150
200
250
300
550
1050
100
75
67
62
60
55
52
200
225
267
312
360
605
1102
0
0,12
0,33
0,56
0,80
2,02
4,51
∞
50
∞
∞
Table 45. Nombre de sujets pour des groupes inégaux selon le rapport désiré des 2 effectifs.
Enfin, lorsque un traitement contrôle est comparé à plusieurs traitements expérimentaux
nouveaux, le nombre de sujets du groupe contrôle doit toujours être plus élevé que celui des
autres groupes.
6. Attribution des traitements entre les groupes
La population des malades inclus dans l'essai ayant été définie et l'effectif nécessaire
ayant été déterminé, il faut ensuite répartir les sujets entre les groupes qui recevront les
traitements à comparer. De nombreux procédés systématiques ont été envisagés dans le but
d'éviter un tirage au sort, méthode vis-à-vis de laquelle certains cliniciens gardent encore une
certaine réticence. Ils sont en fait tous condamnables. En effet pour permettre une conclusion
valide, l'attribution des traitements dans un essai thérapeutique doit éviter deux biais, dits de
sélection et de répartition. Le biais de sélection se produit quand on choisit, consciemment ou
inconsciemment, d'exclure de l'essai un sujet dont on sait que le pronostic est défavorable et
qu'il va recevoir le traitement dont on souhaite démontrer l'efficacité. C'est ainsi que
l'attribution alternative des traitements, celle qui est réalisée selon le jour, le mois ou l'année
de naissance, ou selon le numéro de dossier du patient, sont des procédés qui conduisent tous
à un biais de sélection, car un simple coup d'oeil sur le dossier suffit à connaître le traitement
qui serait attribué en cas d'inclusion du patient dans l'essai. Le second biais, dit biais de
78
répartition, est le déséquilibre, entre les groupes comparés, du nombre de sujets présentant
un facteur pouvant avoir une valeur pronostique. Un éventuel meilleur résultat enregistré dans
un groupe ayant un plus grand nombre de patients de pronostic a priori favorable ne pourra
dès lors plus être imputé à la seule thérapeutique. Un biais de répartition peut être la
conséquence de différents procédés systématiques d'attribution des traitements, comme la
répartition des thérapeutiques selon les hôpitaux concernés par l'étude, dont la population
mais aussi les conditions de diagnostic et de soins peuvent être différentes, l'attribution du
traitement contrôle aux sujets refusant le traitement expérimental, car le refus peut être lié à
certains facteurs psychologiques susceptibles d'influencer le résultat, ou encore l'attribution
des traitements selon la première lettre du patronyme, car celui-ci dépend du groupe ethnique,
et un facteur racial, par lui-même ou par ses conséquences alimentaires ou environnementales
par exemple, peut éventuellement modifier l'efficacité d'une thérapeutique. C’est dans le but
d'éviter ces biais qu'ont été décrites différentes méthodes rigoureuses d'attribution des
traitements qui font intervenir le hasard à un degré plus ou moins important.
La randomisation complète qui consiste à donner les traitements aux sujets de façon
totalement aléatoire est justifiée classiquement par trois arguments de valeur inégale. Le premier est l'imprévisibilité. Le tirage au sort est un procédé d'attribution dont on ne peut par
définition prévoir le résultat et la randomisation complète est donc une garantie absolue contre
le biais de sélection. Un deuxième argument est l'indépendance vis-à-vis du résultat. La
randomisation est une méthode dont on est sûr qu'elle n'a aucune relation avec une
caractéristique du sujet et donc avec un facteur pronostique éventuel susceptible d'influencer
le résultat. Dans la mesure où beaucoup de facteurs pronostiques seront généralement
distribués de façon similaire entre les groupes, et ce d'autant plus que leurs effectifs sont
élevés, la randomisation complète est une garantie contre un biais de répartition, mais celle-ci
n'est que relative. Enfin, l'accord avec l'inférence statistique est un troisième argument parfois
invoqué pour justifier la randomisation. En fait, la randomisation n’est pas une condition
nécessaire à l'utilisation des tests statistiques dans l'analyse des résultats, mais les tests
supposent que les sujets présents dans les groupes comparés sont un échantillon aléatoire de la
population à laquelle on souhaite extrapoler les résultats. Le caractère aléatoire se situe donc
au niveau de la sélection des patients, mais pas au niveau de leur répartition entre les groupes
étudiés. Cependant, certains tests non paramétriques particuliers, dits de permutation, dont
l'inférence est justement basée sur la randomisation, ne pourront pas être utilisés lorsque les
patients ont été répartis entre les groupes thérapeutiques par un procédé autre que celui-ci.
La randomisation complète entraîne cependant certains inconvénients qui sont la
possibilité, d'une part, d'inégalité des effectifs des groupes, et, d'autre part, d'un biais de répartition dont nous avons écrit plus haut que la garantie de prévention n'était que relative. Par
son caractère totalement aléatoire, la randomisation complète peut évidemment aboutir à la
constitution de groupes thérapeutiques d'effectifs inégaux et ce risque est d'autant plus élevé
que le nombre de traitements comparés est plus grand et que les effectifs de chaque groupe
sont plus petits. Ainsi, si on répartit 30 sujets en deux groupes par randomisation complète, il
n'y a que 14 % de chance d'obtenir deux groupes de 15 patients. Des répartitions aussi
disproportionnées que 10 et 20, 9 et 21 ou 8 et 22 seront obtenues dans respectivement 5, 3 et
1 % des cas. Cette inégalité entre les effectifs se révèle un inconvénient en diminuant la puissance des tests statistiques qui seront utilisés dans l'analyse des résultats. Un biais de répartition est également possible pour certains facteurs. Il est en effet évident que si beaucoup de
caractéristiques des patients sont susceptibles d'influencer le résultat, toutes ne seront pas
réparties de façon équilibrée entre les groupes thérapeutiques. On peut noter que, d'un point
de vue théorique, une répartition disproportionnée d'un facteur quelconque n'est pas à
79
proprement parler un biais si c'est le hasard qui en est l'origine: c'est une composante de la
variabilité qui fait partie intégrante des risques d'erreur des tests statistiques. En pratique
cependant, si un facteur pronostique important est inégalement réparti entre les groupes
thérapeutiques, la conclusion de l'essai restera douteuse et les cliniciens difficiles à convaincre
de la démonstration de l’efficacité du traitement.
Techniquement, la randomisation d'un patient dans un essai clinique doit toujours avoir
lieu le plus tard possible, toutes les clauses d'éligibilité du sujet ayant été examinées et son
consentement éventuel ayant été obtenu au préalable. Elle peut être réalisée par des moyens
mécaniques (dés), des générateurs physiques de nombres aléatoires, des programmes
informatiques générant des nombres pseudo-aléatoires ou en consultant des tables.
Pour obtenir des groupes d'effectifs égaux, différentes variantes de la randomisation
complète ont été développées, parmi lesquelles la randomisation par bloc est sûrement la
méthode la plus utilisée. Elle consiste à diviser le nombre total prévu de patients en sousgroupes appelés blocs formés séquentiellement selon l'ordre d'entrée des sujets dans l'essai. La
randomisation, préparée à l'avance par les procédés cités plus haut ou par des tables de
permutations aléatoires, est telle que le nombre de sujets recevant chacun des traitements
comparés est identique dans chaque bloc. Les effectifs des groupes thérapeutiques seront donc
toujours égaux à la fin de chaque bloc et la technique protège en outre contre le biais que
constituerait un éventuel changement des caractéristiques de la population recrutée au cours
du temps. Cette méthode peut cependant être à l'origine d'un biais de sélection si la taille du
bloc est connue des cliniciens réalisant l'étude. On pourra en effet connaître à l'avance le
traitement au moins du dernier patient du bloc, parfois de plusieurs. Si une randomisation par
bloc de taille 4 est utilisée pour la répartition de deux traitements par exemple, et que les trois
premiers sujets d'un bloc ont reçu successivement les traitements B, A et A, on peut deviner
que c'est le traitement B qui sera attribué au dernier patient du bloc. Il est donc toujours
conseillé de définir des blocs de taille variable lorsque l'on souhaite utiliser ce procédé.
Il faut enfin noter que de nombreuses méthodes visant à réaliser un compromis entre le
choix aléatoire des traitements et le meilleur équilibre possible entre les effectifs sont
regroupées sous le nom de randomisation adaptée. Leur principe est de donner à chaque
entrée d'un patient dans l'essai une plus grande chance d'attribution au traitement le moins
bien représenté à ce moment, et ce avec des règles d'attribution diverses. Si après avoir réparti
au hasard un certain nombre de malades, le groupe A contient plus de sujets que le groupe B,
le tirage au sort donnera une chance p > 0,50 d'attribution de B au malade suivant. La valeur
de p la plus souvent choisie est 2/3 mais 3/5 ou 5/9 seraient des solutions plus optimales. Par
ailleurs, pour éviter le déséquilibre de certains facteurs en relation avec le critère d'évaluation
choisi, on peut aussi répartir les traitements par des procédés prenant en compte les variables
potentiellement pronostiques de façon à les équilibrer au mieux. Les deux techniques
principales sont la randomisation stratifiée et la minimisation.
Le principe de la randomisation stratifiée ou stratification a priori est de diviser
l'effectif total de sujets en sous-groupes selon les facteurs pronostiques et d'attribuer les
traitements de façon aléatoire dans chaque strate ainsi réalisée, habituellement par la
technique de randomisation par bloc. Cette méthode offre les avantages d'une comparabilité
meilleure entre les groupes thérapeutiques, mais également ceux d'une comparaison plus
sensible entre les traitements, à condition d'utiliser des techniques adéquates dans l'analyse
des résultats. Certains auteurs ont nié l'intérêt de la randomisation stratifiée en lui opposant
une stratification a posteriori réalisée au moment de l'analyse. En fait, si le gain en
80
efficacité, c'est-à-dire la réduction du nombre de sujets pour atteindre une puissance
statistique équivalente, de la randomisation stratifiée par rapport aux techniques d'ajustement
a posteriori est souvent minime, il n'est jamais nul. Ce procédé est donc toujours plus efficace
que l'ajustement a posteriori. La limite essentielle de la méthode réside en fait dans le petit
nombre de facteurs pronostiques qui peuvent être pris en considération puisqu'il y aura autant
de strates que de combinaisons possibles des variables. Ainsi, considérer par exemple trois
facteurs comme le sexe (deux classes), l'âge (trois classes) et l'état général (deux classes) entraîne la définition de 2 x 3 x 2 = 12 strates, c'est-à-dire en réalité 12 sous-groupes dont
certains ne contiendront vraisemblablement qu'un petit nombre de sujets. Pour être efficace, la
randomisation stratifiée ne permet donc en pratique que la prise en compte d'un nombre réduit
de variables que l'on choisira comme ayant réellement une valeur pronostique.
La minimisation est un procédé d'attribution des traitements en fonction d'un certain
nombre de variables qualitatives, en vue d'obtenir une répartition équilibrée de celles-ci entre
les groupes thérapeutiques. Son principe est de mesurer, pour chaque nouveau sujet admis
dans l'étude, le déséquilibre de répartition de chaque facteur qui résulterait de l'attribution à ce
patient de chacun des traitements possibles, puis de mesurer de façon globale le déséquilibre
de tous les facteurs, la probabilité d'attribution de chaque traitement étant d'autant plus élevée
que le déséquilibre correspondant à l'attribution de ce traitement sera plus petit. La
minimisation apparaît donc comme une technique générale recouvrant une multitude de
variantes possibles selon la manière dont on choisit la mesure du déséquilibre individuel de
chaque facteur pronostique (étendue, variance, déviation-standard,...), la mesure du
déséquilibre global, habituellement la somme des mesures des déséquilibres individuels, et les
probabilités d'attribution des traitements en fonction de la mesure du déséquilibre global
(constantes, fonctions mathématiques des mesures de déséquilibre,...). L'attribution des traitements dépend partiellement du hasard et partiellement du déséquilibre entre les facteurs
pronostiques. Le choix des probabilités découlera donc de la part relative de ces deux
éléments que l'on désire obtenir, les deux situations extrêmes étant l'attribution du traitement
dépendant seulement du hasard (randomisation complète) et une attribution uniquement
fonction du déséquilibre entre les facteurs pronostiques (procédé déterministe).
Le choix déterministe est le procédé le plus simple. Le traitement attribué y est
toujours celui qui entraîne le déséquilibre global minimal entre les facteurs pronostiques, une
randomisation étant éventuellement effectuée entre des traitements entraînant un déséquilibre
identique. Le procédé déterministe présente donc l'avantage d'une répartition des variables
pronostiques la mieux équilibrée possible. Cependant, l'absence de facteur aléatoire
systématique entraîne deux inconvénients. Le premier est une critique de principe. Le choix
des traitements étant déterminé uniquement par les caractéristiques des patients, l'essai n'est
plus à proprement parler « randomisé », du moins pour tous les sujets. En fait, cet argument
est très théorique car on peut admettre que c'est l'ordre d'entrée des sujets dans l'essai,
dépendant du seul hasard, qui est d'une certaine manière l'élément aléatoire. L'autre
inconvénient est un biais de sélection possible puisque l'attribution peut être prévue au vu des
facteurs pronostiques. Cette critique est également théorique, car pour pouvoir prévoir
l'attribution du traitement, il faudrait mémoriser ou consulter les caractéristiques de tous les
sujets déjà entrés dans l'étude et calculer le déséquilibre global éventuel de chacun des traitements. La table 46 illustre une minimisation avec calcul des déséquilibres basé sur l'étendue,
dans un essai thérapeutique sur l’anastomose porto-cave avec ou sans artérialisation portale,
dans le traitement de la cirrhose. Les colonnes A et B montrent la répartition des 15 premiers
patients, artérialisés (A) ou non (B), selon les différentes classes des facteurs pronostiques, la
colonne C les caractéristiques du patient numéro 16, et les colonnes D et F la nouvelle
répartition des sujets à laquelle conduirait l’inclusion du patient numéro 16 dans le groupe
81
artérialisé (D) ou le groupe non artérialisé (F). Les colonnes E et G calculent les différences
entre les groupes qu’entraînerait l’inclusion dans le groupe artérialisé (E) ou non artérialisé
(G), éventuellement multipliées par le facteur de pondération (Jamart, Louvain Méd., 1983,
102, 317-331).
Table 46. Exemple de minimisation dans un essai thérapeutique sur l’anastomose porto-cave.
La patient numéro 16 recevra donc le traitement B, puisque la mesure du déséquilibre
global est plus importante avec l’attribution éventuelle du traitement A (déséquilibre de 11)
que celle du traitement B (déséquilibre de 7).
Quatre avantages de la minimisation peuvent être individualisés.
1) Cette méthode permet de tenir compte dans l'attribution des traitements d'un grand
nombre de facteurs pronostiques éventuels. Le nombre de variables n'est pas limité comme
dans une randomisation stratifiée, ce qui donne la possibilité, dans un essai multicentrique par
exemple, de prendre en compte le centre comme s'il s'agissait d'une variable pronostique.
2) La minimisation permet éventuellement de considérer les interactions entre plusieurs facteurs pronostiques, en définissant les associations possibles des classes de certains
facteurs comme des classes différentes d'une seule variable. Ainsi, k facteurs à n classes
peuvent être remplacés par une variable unique à k x n classes.
3) On peut prendre en compte le caractère prédominant de certains facteurs par rapport
aux autres en choisissant des poids différents pour ces variables, comme dans l’exemple de la
table 46, le caractère urgent ou électif de l’intervention chirurgicale.
4) Enfin, plusieurs études de simulation ou les répartitions observées dans des essais
réels ont démontré l'efficacité de la minimisation pour équilibrer les facteurs pronostiques
entre les groupes thérapeutiques. La table 47 montre la répartition remarquablement
équilibrée de cinq critères potentiellement pronostiques entre quatre groupes thérapeutiques,
pour 417 sujets d'un essai d'angioplastie coronarienne comparant quatre protocoles différents
82
de gonflage du ballon.
FACTEURS
âge
CLASSES
<50
50 à 60
60 à 70
>70
sexe
masculin
féminin
type d’angor
stable
instable
type de sténose
A
B
C
artère
interventriculaire antérieure
circonflexe
coronaire droite
A
B
C
D
21
29
39
16
81
24
42
63
28
64
13
38
30
37
20
30
40
14
82
22
41
63
29
64
11
39
27
38
18
30
39
17
82
22
42
62
29
64
11
39
28
37
18
31
40
15
80
24
42
62
28
64
12
40
27
37
Table 47. Résultats de la répartition par minimisation des patients dans un essai
d’angioplastie coronarienne.
La minimisation n'est cependant pas dénuée d'inconvénients, même si ceux-ci semblent mineurs par rapport aux avantages offerts par la méthode.
1) Nous avons déjà évoqué la critique de principe de l'absence de caractère aléatoire
constant de certaines variantes, argument en fait plus théorique que réel.
2) La minimisation est évidemment plus complexe à mettre en oeuvre qu'une simple
randomisation et requiert pratiquement l'informatisation des calculs nécessaires.
3) L'analyse statistique des résultats des essais ayant utilisé la minimisation comme
procédé d'attribution des traitements ne peut théoriquement faire appel aux techniques
d'inférence basées sur la randomisation, ce qui exclut par exemple les tests de permutation
dans leur forme classique.
7. Conduite d’un essai
Sous ce titre, nous envisagerons le caractère aveugle ou non de l'étude, l'évaluation du
respect des traitements prescrits et le problème de l'arrêt prématuré de l'essai.
Les essais cliniques contrôlés dits à l'aveugle, simple, double ou triple aveugle, insu ou
anonymat, sont des essais menés de telle façon que, soit le malade, soit le médecin jugeant le
résultat, soit les deux, voire le statisticien, ignorent le traitement reçu. Ces essais sont justifiés
par l'effet placebo qui concerne le malade mais également l'expérimentateur. En effet celui-ci
n'est jamais totalement objectif et même s'il est impartial au début de l'essai, les premiers
résultats vont immanquablement influencer ses jugements ultérieurs. De plus les erreurs de
mesure et d'interprétation sont plus fréquentes dans le sens favorable au traitement préféré.
Cela est démontré par la plus grande variabilité des mesures lorsque l'on oeuvre en aveugle
que lors des essais ouverts, c'est-à-dire non aveugles. Plusieurs types d'essais comportant une
part aveugle peuvent être réalisés
83
La mesure à l'aveugle est celle dans laquelle le malade et le médecin connaissent le
traitement attribué mais l'appréciation du résultat est faite par une tierce personne, c'est-à-dire
un médecin observateur autre que le médecin prescripteur. L'intérêt d'un tel procédé réside
dans les cas où il est matériellement impossible d'attribuer au malade un traitement placebo
indiscernable du traitement expérimental. Le risque d'abolition du secret est cependant grand
car le malade même prévenu peut laisser échapper devant le médecin jugeant les résultats, des
renseignements permettant à ce dernier d'identifier le traitement reçu.
Dans l'essai en simple aveugle ou essai en simple insu ou encore essai en simple
anonymat, le malade est seul dans l'ignorance du traitement réellement reçu. Cette méthode
est justifiée lorsque le malade est lui-même juge de l'efficacité d'une thérapeutique, dans
l'appréciation d'une douleur par exemple. Ses avantages sont d’éliminer l’inégalité de mesure
de l’évolution de la maladie quand le critère de jugement repose sur une appréciation du
malade, d’éliminer l’inégalité d’évolution elle-même due à la connaissance qu’a le malade de
son traitement et de rendre la situation plus favorable en ce qui concerne les manquants et les
abandons de traitement. Les inconvénients concernent les difficultés matérielles, les
problèmes éthiques et l’obligation du placebo indiscernable du traitement expérimental.
Dans l'essai en double aveugle ou essai en double insu ou encore essai en double
anonymat le malade et le médecin ignorent le traitement attribué. C'est la technique la plus
sûre. Dans les essais médicamenteux les traitements sont alors généralement fournis sous
forme de lots individuels numérotés dont une tierce personne seule connaît l'identité. Ses
avantages sont identiques à ceux des essais en simple aveugle, mais permettent en plus
d’éliminer l’inégalité de mesure de l’évolution de la maladie quand le critère de jugement
repose sur une appréciation subjective du médecin, d’éliminer l’inégalité d’évolution ellemême due à la connaissance qu’a le médecin du traitement et d’éviter des impressions qui
peuvent gêner la conduite de l’essai. En ce qui concerne les inconvénients, il faut ajouter à
ceux des essais en simple aveugle le danger de la méconnaissance d’un traitement
potentiellement toxique. Le médecin doit toujours pouvoir lever l’anonymat en cas de besoin.
Enfin le terme d'essai en triple aveugle est parfois utilisé pour désigner un essai dans
lequel l’analyse statistique s’effectue sans avoir connaissance de la nature des traitements.
Ceux-ci sont identifiés par un code et ce n’est qu’une fois l’analyse terminée que la nature
exacte des traitements est révélée. Cette procédure a pour but d’éviter une certaine
subjectivité dans le choix des analyses statistiques ou de leur interprétation.
Il faut savoir que les modalités d'application pratique des essais à l’aveugle doivent
être très rigoureuses pour que le secret de l'attribution des traitements soit réellement préservé
jusqu'à la fin de l'étude. Si les malades se savent participants à un essai clinique contrôlé, ils
chercheront généralement à connaître la nature du traitement reçu. De même les cas où les
membres de l'équipe soignante s'attachent à deviner le traitement administré sont très
fréquents.
Lorsque l'on entreprend un essai clinique médicamenteux, on postule au moins
implicitement que les prescriptions seront bien suivies par le malade. En fait cela n'est pas
vrai et certains estiment que 30 à 50 % des malades ne prennent pas convenablement le
traitement prescrit. C'est le problème de l'adhérence au traitement, encore appelée observance
ou compliance. Parmi les nombreux facteurs qui influencent l'observance on peut citer la
nature plus ou moins grave de l'affection, la motivation du sujet et la confiance qu'il porte à la
thérapeutique, la complexité et la durée du traitement, l'environnement du malade et l'intensité
84
de la relation médecin-malade. Différents procédés ont dès lors été proposés pour tenter
d'évaluer l'observance de chaque malade. Ils comportent bien sûr l'interrogatoire mené avec
tact et compréhension mais également la surveillance des prises médicamenteuses, le compte
des médicaments restants dans les traitements ambulatoires ─ le seul fait que les malades
ramènent ou oublient les flacons de médicaments peut être considéré comme une mesure
satisfaisante de l'observance ─ ou le dosage dans le plasma ou les urines de la substance active, d'un de ses métabolites ou d'un marqueur introduit dans la médication, ce qui ne
renseignera par ailleurs que sur la dernière prise. L'incorporation d'un marqueur susceptible
d'être dosé dans les cheveux a également été suggérée pour évaluer l'observance sur une
longue période.
Dans un essai explicatif, il est capital de chercher à restreindre au maximum la
fréquence des abandons de traitement ou de leur non respect. En effet si l'observance n'est pas
la même dans les groupes comparés, l'analyse des résultats sera biaisée. De plus, même en cas
de degré identique de non observance, le traitement le moins efficace sera favorisé. Il faudra
par conséquent éviter les schémas thérapeutiques trop complexes, au besoin remettre au
malade un aide-mémoire facile à utiliser et exclure à l'avance de l'essai les sujets peu
coopérants dont on pense qu'ils ne suivront pas correctement les prescriptions. Cette sélection
pose le problème de la représentativité des sujets retenus mais n'est cependant aucunement
gênante en cas d'attitude explicative où le souci majeur de sélection est l'homogénéité.
Dans certains cas se pose le problème de l'arrêt prématuré d'un essai. Quand un des
traitements semble meilleur que les autres sans que la différence puisse être prouvée
statistiquement, est-il éthique de poursuivre l'essai? Un essai commencé ne doit pas être interrompu sans décision mûrement réfléchie, sauf bien sûr problème toxique ou effet secondaire
imprévu grave, car la publication de l'essai avec la conclusion que A est vraisemblablement
meilleur que B sans pour autant atteindre un niveau suffisant de signification statistique,
entraînera immanquablement l'organisation d'essais analogues par d'autres équipes. Le
nombre de malades recevant le traitement considéré comme le moins efficace sera par
conséquent bien plus grand que si le premier essai avait été poursuivi jusqu'à terme. Certes, le
point de vue éthique doit toujours être considéré indépendamment pour chaque malade, c’est
l’éthique individuelle classique, mais également pour l'ensemble des malades susceptibles
d'être traités de façon plus efficace, suivant donc aussi une éthique collective.
.
8. Comparabilité des groupes
La randomisation n'étant pas capable d'assurer une répartition équilibrée de tous les
facteurs pronostiques éventuels entre les groupes thérapeutiques, il est habituel dans les
publications de résultats d'essais cliniques contrôlés de commencer leur description par un
tableau montrant la répartition de différentes variables (sexe, âge,...) dans les groupes
comparés. Si cette description est intéressante, beaucoup d'auteurs y ajoutent
malheureusement les résultats de tests statistiques destinés à leurs yeux à montrer que les
caractéristiques présentées ne diffèrent pas de façon significative entre les groupes thérapeutiques et ne biaisent donc pas les conclusions de l'essai. Cette attitude est condamnable à
plus d'un titre. Elle est d'abord inutile, que l'étude soit ou non randomisée, car, d'une part, des
résultats non significatifs de comparaisons statistiques ne permettent en aucune manière de
conclure que les variables étudiées sont identiques dans les groupes comparés, et, d'autre part,
ce n'est pas un éventuel déséquilibre entre les variables qui importe en définitive, mais leur
relation éventuelle avec le critère utilisé comme résultat. Un léger déséquilibre pour un fac-
85
teur pronostique important est plus préjudiciable à l'interprétation des résultats de l'essai qu'un
déséquilibre important d'une variable n'ayant que peu d'influence sur le devenir du patient. De
plus, si l'étude est randomisée, la démarche devient absurde. En effet, un test statistique vise à
déterminer si, compte tenu des valeurs observées dans des échantillons, les variables étudiées
peuvent être considérées comme différentes ou non dans les populations d'où les échantillons
ont été extraits. Dans un essai clinique randomisé, les groupes ne sont pas des échantillons de
populations différentes, mais au mieux des échantillons d'une seule population puisque c'est le
hasard qui répartit les sujets entre les groupes thérapeutiques. Toute différence statistiquement
significative ne peut donc être due par définition qu'à la chance. En d'autres termes, cette
attitude revient à tenter de répondre par un test statistique, et donc en termes de probabilité, à
une question dont la réponse est connue avec certitude !
9. Analyse des résultats
L’analyse des résultats d’un essai clinique contrôlé comporte évidemment une
description et une comparaison des groupes qui implique l'utilisation de tests statistiques
d'hypothèses. Le choix du test le plus adéquat dépend d’un certain nombre de conditions. La
première est le type de la variable rencontrée, qualitative, continue ou ordinale, c’est-à-dire
définie par un classement en plusieurs catégories graduées comme par exemple résultat
excellent, bon, moyen, médiocre, nul. Les autres critères déterminant le choix du test sont la
forme de la distribution d’une variable continue, normale ou non, le nombre de groupes
thérapeutiques, l’indépendance ou la non indépendance entre les groupes, le nombre de sujets
dans les différents groupes ou encore le caractère unilatéral ou bilatéral de la comparaison,
selon que l’on s’intéresse à une différence dans un seul sens ou dans les deux sens.
Lorsque dans un essai clinique contrôlé, on compare beaucoup de variables différentes
et qu'on effectue donc un grand nombre de tests statistiques indépendants, la probabilité de
conclusions significatives augmente très rapidement. Si le risque α, c'est-à-dire le risque de
conclure à tort à une différence significative est 0,05, cela équivaut à dire que sur 100 tests
effectués il y en aura en moyenne 5 qui entraîneront une différence statistiquement
significative par le seul fait du hasard. Si par ailleurs les tests réutilisent plusieurs fois les
mêmes variables, le risque est encore plus élevé. C'est pourquoi en cas de comparaisons
multiples, il est indispensable d'utiliser les tests appropriés qui tiennent compte de cette
modification du risque.
Quelques problèmes particuliers qui se posent au moment de l'analyse des résultats
méritent d'être quelque peu explicités.
Il a été écrit plus haut qu'il était possible de réaliser une stratification a posteriori et de
diviser les différents groupes à comparer en sous-groupes sur la base d'une caractéristique du
sujet ou d’un facteur pronostique. Supposons par exemple que l'âge soit considéré comme un
facteur pronostique et que sa répartition dans les groupes thérapeutiques ne soit pas la même,
c’est-à-dire que l’âge soit un défaut de comparabilité. L'analyse serait donc plus correcte si la
comparaison était effectuée à âge égal. Elle serait également plus puissante puisqu'elle
utiliserait non plus la variance globale du critère de jugement retenu, mais sa variance à âge
donné (variance liée) qui est toujours plus faible, et ce d'autant plus que la corrélation entre
l'âge et le critère de jugement est meilleure. Certaines techniques statistiques permettent ainsi
de prendre en compte un facteur concomitant, telles que les tests d’ajustement, l’analyse de
covariance ou la régression logistique selon le type de variables et les situations. Mais il n'est
86
raisonnable d'employer ces méthodes que lorsque la puissance du test et par conséquent son
résultat sont susceptibles d'être modifiés de façon appréciable. Il n'en est en fait ainsi que pour
des facteurs concomitants, soit très fortement pronostiques même s'il n'y a pas de défaut de
comparabilité, soit avec moins de valeur pronostique mais un défaut de comparabilité
important.
Les malades qui n'ont pas respecté correctement le traitement prescrit ou qui l'ont
abandonné mais pour lesquels on dispose du critère de jugement final posent un problème au
moment de l'analyse des résultats. Les sujets pour lesquels on estime que l'abandon est sans
rapport avec l'évolution de la maladie ou l'efficacité de la thérapeutique peuvent être exclus
sans biais. Cette hypothèse n'est malheureusement que fort peu souvent plausible, les malades
abandonnant généralement le traitement parce qu'ils l'estiment inefficace. De toute façon,
l'observance est toujours un problème délicat à résoudre au moment de l'analyse d'un essai et
il est par conséquent recommandé de tenter de réduire le nombre des abandons de traitement
par les mesures envisagées plus haut et prévoir un effectif supérieur au nombre estimé de
sujets nécessaire pour tenir compte de l'observance.
Les manquants sont les sujets qui ont ou non suivi leur traitement de façon complète
mais pour lesquels le jugement final fait défaut. Leur élimination de l'essai pose dès lors un
problème si les manquants sont en nombre différent dans les groupes comparés. On peut
essayer de classer les manquants en fonction de la raison de leur défection. Les seuls cas où
l'exclusion entraîne un biais sont ceux où la raison de la défection concerne le traitement et
son résultat. Il s'agit donc en pratique de séparer cette catégorie des autres causes d’arrêt dont
tous les malades peuvent être exclus sans biais. Une solution est alors l'hypothèse du biais
maximum où les manquants non exclus seront considérés comme tous guéris dans un groupe
et non guéris dans l'autre. Deux analyses différentes seront dès lors effectuées et la vérité
considérée comme intermédiaire entre ces deux hypothèses extrêmes. De nombreuses autres
solutions ont été proposées à ce problème des manquants et il est parfois possible d'utiliser les
observations incomplètes de façon optimale. En définitive, comme pour le problème de
l'observance, il faut répéter que dans un essai thérapeutique explicatif, c'est au moment de la
sélection des sujets que la question des manquants doit être présente à l'esprit pour tenter de
réduire leur nombre au maximum. On peut décider de considérer dans l’analyse statistique
uniquement les sujets qui ont suivi le protocole de façon complète et jusqu’à la fin de l’étude,
c’est l’analyse par protocole (PP, per protocol), ou au contraire de tenir compte de tous les
patients entrés dans l’étude quelle que soit la façon dont ils ont respecté le traitement et les
consignes, c’est l’analyse en intention de traiter (ITT, intention to treat). Cette dernière
solution s’apparente à la méthodologie des essais pragmatiques et ne doit pas être considérée
dans un essai de type explicatif.
10. Essais avec contrôles historiques
Le principe des essais thérapeutiques avec contrôles historiques consiste à administrer
un traitement expérimental à un groupe de nouveaux malades et à comparer les résultats à
ceux d'un groupe de sujets ayant reçu un autre traitement auparavant. Ce procédé est
principalement utilisé en cancérologie, l'argument essentiel étant la diminution du nombre de
sujets nécessaire. Si au lieu de traiter les malades par les traitements A et B de façon
randomisée, on attribue B à tous les sujets pour les comparer à un groupe antérieur ayant reçu
A, on diminue évidemment l'effectif nécessaire et on aboutit plus rapidement à une conclusion. Par ailleurs si on administre B à un même nombre de malades que celui nécessité par
87
une étude randomisée comparant A et B, on augmente la précision de l'estimation des
résultats. D'autre part, un essai randomisé oblige souvent à tenir compte de certains facteurs
pronostiques soit a priori par la randomisation stratifiée, soit a posteriori par les techniques
d'ajustement. Dans la mesure où la comparabilité des deux groupes d'un essai randomisé n'est
réelle qu'après un ajustement en fonction des facteurs pronostiques réalisé a posteriori, cet
ajustement peut aussi bien être effectué dans le groupe expérimental et le groupe historique
servant de contrôle. Dans les essais ayant recours à une stratification a posteriori, l'avantage
de la randomisation est donc diminué par rapport aux essais avec contrôles historiques.
Les essais avec contrôles historiques sont cependant rejetés par beaucoup d'auteurs. En
effet le recrutement des malades peut varier dans le temps, les critères diagnostiques peuvent
évoluer ou s'affiner et l'équipe soignante peut acquérir une meilleure expérience dans l'approche diagnostique de l'affection. La tendance des essais avec contrôles historiques est
d'exagérer les effets du nouveau traitement. Dans la mesure où des biais ont déjà été décrits
dans des études randomisées portant sur une longue période, ceux-ci existent a fortiori dans
les essais avec contrôles historiques. Enfin, on peut estimer qu'à partir du moment où il s'agit
de distinguer entre une absence d'efficacité et une efficacité modérée d'un nouveau traitement
– si celle-ci était évidente un essai clinique contrôlé ne serait ni nécessaire ni éthique – l'égalité absolue des groupes est indispensable.
La méthode des contrôles historiques constitue néanmoins une solution satisfaisante
dans certaines conditions. Il faut que le groupe contrôle ait été traité par la même équipe et
dans un autre essai thérapeutique, qu'il ne soit pas trop éloigné dans le temps et que les conditions diagnostiques ou les thérapeutiques adjuvantes n'aient pas été améliorées. Les facteurs
pronostiques principaux doivent être connus de façon indiscutable sur la base de plusieurs
études différentes. On peut dès lors, soit comparer le nouveau traitement B au traitement
ancien A en tenant compte des facteurs pronostiques par stratification ou par un autre procédé,
soit réaliser un appariement entre chaque sujet recevant B et un malade choisi au hasard parmi
ceux ayant les mêmes caractéristiques et les mêmes facteurs pronostiques et ayant reçu A.
Les essais avec contrôles historiques semblent donc représenter une solution
admissible dans certaines affections comme le cancer où de nouvelles substances et de
nouveaux schémas d'associations médicamenteuses sont régulièrement proposés et peuvent
par conséquent être expérimentés dans les mêmes conditions par les cliniciens d'un même
centre de façon successive en utilisant comme contrôle le meilleur résultat des groupes
précédents.
11. Essais croisés
Un essai croisé (cross-over) consiste à administrer les différents traitements à
comparer à chaque malade dans un ordre aléatoire. Chaque sujet est alors considéré comme
son propre témoin. Ce type de plan expérimental comporte plusieurs avantages mais n’est pas
dénué d’inconvénients.
Le premier avantage est la réduction du nombre de sujets nécessaire qui résulte de
deux causes, l’une purement arithmétique, l’autre statistique. D'une part, il est évident que le
fait de comparer deux traitements en les administrant successivement à chaque malade
diminue déjà l'effectif global de moitié. Mais d'autre part, la méthode réalise un appariement
parfait puisque personne ne peut être plus semblable à un sujet que ce sujet lui-même. Dès
88
lors, si N est le nombre de sujets nécessaire avec 2 groupes de patients, N’ le nombre pour un
essai croisé et ρ le coefficient de corrélation entre les réponses d’un même sujet aux deux
traitements,
N’ =
N
(1 – ρ)
2
avec N’ ≤ N , l’égalité n’étant atteinte que pour ρ = -1, résultat peu probable. Un autre intérêt
des essais croisés est de permettre l'utilisation d'une préférence comme critère de jugement.
Dans certains essais portant par exemple sur un critère subjectif tel que la douleur, il peut être
plus facile de demander au malade d'exprimer une préférence pour un des traitements
comparés plutôt que de tenter de classer la douleur en termes relativement imprécis de faible,
modérée ou forte.
Comme pour toute technique, ces avantages sont néanmoins limités par un certain
nombre d'inconvénients dus à la nature de l'affection et à l'efficacité possible des traitements.
La maladie étudiée ne peut en effet être qu'une affection chronique non évolutive puisque le
traitement administré en premier lieu ne peut guérir le malade sous peine de devoir le retirer
de l'essai. De même, des critères tels que la survie ou la survenue d'un événement en tout ou
rien sont exclus. Par ailleurs la durée d'action des traitements doit être limitée, car il faut
obligatoirement que l'effet du premier traitement administré ait disparu pour pouvoir juger
valablement de l'efficacité du second. Cette limitation est en fait l'inconvénient majeur des
essais croisés. Une période de sevrage entre les deux traitements est indispensable mais il peut
être difficile de fixer sa durée et d'être assuré que le malade est revenu complètement à son
état antérieur (carry-over). L'ordre d'administration des traitements est aussi un facteur
important car en recevant la seconde thérapeutique, le sujet peut être conditionné par le
résultat de la première. Il est donc indispensable de changer la séquence des traitements de
façon aléatoire. L'effet éventuel de l'ordre devra toujours être testé a posteriori, mais si on a
des raisons de penser que ce facteur est important, un plan plus complexe doit être envisagé.
On peut, soit administrer à tous les sujets une seconde fois le premier traitement donné (essai
croisé avec retour), soit attribuer une seconde fois les deux traitements dans le même ordre
ou dans l'ordre inverse (essai croisé avec double retour). Quelle que soit la façon dont
l’ordre d’administration des traitements est considéré dans la planification de l’essai, l'analyse
des résultats d'un essai croisé devra évidemment utiliser des tests statistiques qui tiennent
compte de l’appariement.
12. Essais avec plan expérimental
De nombreux plans expérimentaux ont été décrits pour permettre de comparer
plusieurs traitements en tenant compte d'un facteur concomitant mais également de faire
intervenir simultanément plusieurs facteurs contrôlés. Ils ont été mis au point pour
l'expérimentation agronomique et ont ensuite été appliqués à l'expérimentation biologique.
Leur objectif est de planifier et de rationaliser le mieux possible une expérience avec un
minimum de sujets. Leur adaptation aux essais cliniques contrôlés est cependant plus délicate
dans la mesure où ces schémas, assez rigides, ne tolèrent généralement pas les défections de
malades sous peine d'en rendre l'analyse statistique extrêmement difficile. Il existe deux
grandes variétés de plans selon qu'ils ne sont pas ou qu'ils sont dits factoriels.
Les plans non factoriels sont destinés à comparer plusieurs traitements mais en tenant
compte d'un facteur de classification supplémentaire, dit facteur concomitant, que l'on désire
89
contrôler et qui peut être une caractéristique du sujet, un élément pronostique, etc. Le principe
est identique à celui des essais avec stratification a posteriori (ajustement) mais ici la prise en
compte du facteur concomitant obéit à des règles bien précises en ce qui concerne l'effectif
des sujets dans chaque sous-groupe, ce qui diminue encore l'effectif nécessaire et augmente la
puissance de la comparaison.
Les plans factoriels ont pour objectif de comparer simultanément plusieurs facteurs.
Contrairement aux schémas précédents où il existait un facteur principal, le traitement, et un
facteur concomitant destiné uniquement à rendre la comparaison plus sensible, ces plans sont
appelés factoriels parce qu'ils accordent la même importance à tous les facteurs. Supposons
par exemple que l'on désire comparer l'effet de deux hypocholestérolémiants A et B mais
également celui de deux régimes R et S. Le tirage au sort répartira les malades en quatre
groupes AR, AS, BR et BS et le plan permettra de comparer de façon indépendante l'effet des
deux hypocholestérolémiants et l'effet des deux régimes de la même façon que si deux essais
différents avaient été réalisés. Mais il pourra conclure avec beaucoup moins de sujets qu'en
cas d'essais distincts et pourra en outre étudier la possibilité d'une interaction
hypocholestérolémiant-régime.
Il existe une multitude de plans expérimentaux différents et de nombreux ouvrages ont
été consacrés à leur organisation et à l'analyse statistique de leurs résultats. Celle-ci peut être
complexe mais est toujours basée sur une analyse de la variance, son principe étant de
décomposer la variance globale du critère de jugement en ses différents constituants. Il faut
cependant se souvenir que ces schémas supposent toujours le caractère additif des effets des
différents facteurs.
13. Essais d’équivalence et essais de non-infériorité
Les essais d’équivalence ou essais à contrôle positif ou essais d’équivalence à
contrôle actif ont pour but de montrer l’équivalence entre deux traitements, habituellement
deux molécules de la même classe thérapeutique, une nouvelle substance en développement et
une ancienne considérée comme la meilleure actuellement. La méthodologie usuelle basée sur
un test statistique visant à tester l’hypothèse nulle d’absence de différence et qui aboutit à ne
pas rejeter cette hypothèse ne permet en aucune manière de conclure à l’équivalence. Ce
résultat peut en effet être secondaire à un manque de puissance dû à des effectifs trop petits ou
une grande variabilité du critère de jugement. De plus les biais méthodologiques tendent
souvent à égaliser les effets et donc à générer des pseudo-équivalences. Une différence non
significative ne signifie pas une absence de différence. Inversément, une différence détectée
par le test peut n’avoir aucune signification clinique et correspondre en pratique à une
équivalence.
La méthodologie de ces essais nécessite de définir une zone d’équivalence, qui est un
intervalle [-δ;+δ]. Le choix de la valeur δ est un problème qui peut se révéler difficile et qui
doit être réalisé a priori, sous peine de nullité. L’analyse, qui doit être menée par protocole et
non en intention de traiter, sera basée sur l’intervalle de confiance de la différence observée
entre les critères de jugement de chaque groupe. Si celle-ci se situe entièrement dans
l’intervalle [-δ;+δ], l’équivalence sera considérée comme démontrée. Ce processus correspond
en fait à réaliser un test d’hypothèses particulier, dans lequel les hypothèses sont inversées.
L’hypothèse nulle est qu’il existe une différence d’au moins δ entre les traitements, et
l’hypothèse alternative est que cette différence n’existe pas et donc que les traitements sont
équivalents. Les risques d’erreur de ce test statistique, nécessaires pour calculer le nombre de
90
sujets nécessaire, sont habituellement α = 0,05 pour correspondre à un intervalle de confiance
à 95%, et β = 0,10 ou 0,20. La figure 19 montre les différentes conclusions d’un essai
d’équivalence en fonction des étendues possibles de l’intervalle de confiance de la différence
observée, ainsi que le résultat du test d’hypothèse classique, qui peut entraîner une toute autre
conclusion. (Jones et al., Brit. Med. J., 1996, 313, 36-39).
Figure 19. Conclusions d’un test d’équivalence.
Les essais de non-infériorité sont des cas particuliers d’essais d’équivalence, qui ne
s’intéressent qu’à un seul côté de la différence. C’est en fait la version unilatérale du test
d’équivalence. L’hypothèse nulle est que le nouveau traitement est inférieur au traitement
contrôle, l’hypothèse alternative qu’il est égal ou supérieur. La méthodologie est par ailleurs
similaire et l’analyse basée également sur l’intervalle de confiance de la différence observée.
Enfin on utilise aussi dans ce type d’essais, un schéma à trois traitements, qui, en plus
des deux traitements dont on veut prouver l’équivalence, inclut un troisième groupe traité par
un placebo. Le but est de montrer l'efficacité réelle des deux traitements dont on souhaite par
ailleurs démontrer l'équivalence. De plus, ce troisième groupe traité par un placebo apportera
en cas de différence significative avec les deux groupes avec traitement actif, la preuve que
l’essai possède une puissance suffisante que pour déceler des différences entre des traitements
différents, car la conclusion d’équivalence peut résulter d’une situation de vraie équivalence
mais aussi d’une étude avec une puissance discriminante trop faible. L'efficacité du nouveau
traitement peut également être estimée à partir de la relation d'équivalence avec le traitement
classique et de la relation connue entre le traitement classique et le traitement placebo.
14. Essais de bioéquivalence
La démonstration de l’équivalence thérapeutique nécessite en principe la conduite
d’essais cliniques coûteux impliquant de nombreux patients comme nous venons de le décrire.
Quand l’équivalence ne concerne que deux formes galéniques différentes, ou une molécule
générique à comparer au traitement traditionnel, on peut éventuellement se contenter d’une
démonstration de ce que les traitements comparés ont la même biodisponibilité. Si celle-ci,
qui est le pourcentage de la dose d’un principe actif qui atteint la circulation sous forme
inchangée, est identique, les deux médications sont dites bioéquivalentes. Si on démontre la
bioéquivalence d’une nouvelle forme thérapeutique par rapport à une forme pharmaceutique
de référence dont les effets thérapeutiques et indésirables ont été documentés selon la
91
méthodologie des essais cliniques classiques, on admet que cela peut constituer une
démonstration indirecte de l’équivalence thérapeutique des deux formulations
Les essais de bioéquivalence sont donc des essais dans lesquels les deux substances
ou formes à comparer sont administrées à des sujets, généralement des volontaire sains, dans
le but d’étudier leurs concentrations plasmatiques en fonction du temps, représentées à la
figure 20 (Senn, Statistical Issues in Drug Development, Wiley, Chichester, 1997). Les
paramètres comparés sont l’aire sous la courbe (AUC), la concentration plasmatique
maximale (Cmax) et le délai entre l'absorption et la survenue de la concentration
maximale (Tmax).
Figure 20. Concentrations plasmatiques d’un traitement test et d’un traitement de référence
en fonction du temps dans un essai de bioéquivalence.
Si n mesures de la concentration plasmatique yi sont collectées aux temps ti, la surface sous la
courbe calculée par la règle trapézoïdale, est
AUC =
(y0
y1) (t1 - t0)
(y1 y2) (t2 - t1 )
(yn - 1 yn) (tn - tn - 1)
+
+…+
2
2
2
qui, si toutes les concentrations sont collectées à des intervalles de temps égaux ti+1 – ti = t, se
réduit à
AUC = t
y0 yn
2
y1 y2 ... yn - 1
La concentration maximale est simplement la concentration la plus élevée,
Cmax = max (yi)
qui, toutes autres choses étant égales, sera d’autant plus haute que le nombre de mesures sera
grand et ce, pour deux raisons, d’une part, parce que plus il y a de mesures plus on sera prêt
du vrai pic, et, d’autre part, parce que si on dispose de n mesures et que l’on ajoute une
mesure supplémentaire, la valeur maximale des (n+1) mesures de ce nouvel ensemble ne peut
92
être qu’égale ou supérieure à la valeur maximale des n premières. Le délai entre l'absorption
et la survenue de la concentration maximale Tmax est un paramètre qui peut montrer une
grande variabilité. En effet, si la concentration augmente rapidement pour atteindre, par
exemple, un plateau en t3 et se maintient approximativement jusque t7, il n’y aura pas
beaucoup de différences entre les mesures C3 à C7. Le choix d’une de ces mesures influencera
peu la concentration plasmatique maximale, mais énormément le délai entre l'absorption et la
survenue de la concentration maximale chez le sujet considéré.
Il est habituel d'accepter dans ce type d’essais une variabilité de plus ou moins 20 %
sur ces trois paramètres pour accepter la bioéquivalence entre les deux formes thérapeutiques
étudiées. Cela signifie que l’intervalle de confiance à 95% ou plus généralement 90% de la
moyenne des rapports des aires sous les courbes doit être compris entre 0,8 et 1,25 (et non 0,8
et 1,2 comme longtemps admis, à cause de l’absence d’invariance de ces limites selon le sens
du rapport). En pratique, on calcule chez chaque sujet Log (AUC) pour les deux traitements
ou formes thérapeutiques, et les limites de confiance de la moyenne des différences doivent
être comprises entre (- 0,223) et ( + 0,223). La même méthodologie et des limites identiques
sont utilisées pour la concentration plasmatique maximale Cmax et le délai entre l'absorption et
la survenue de la concentration maximale Tmax.
15. Essais préventifs et études épidémiologiques d’intervention
Deux approches sont possibles pour étudier l’efficacité d’un nouveau vaccin, ou de
tout autre agent protecteur, destiné à prévenir la survenue d’une maladie. La première, idéale,
est de réaliser un essai clinique, dit essai préventif, comparant la survenue de la maladie dans
deux groupes de sujets, vaccinés ou non. Ce type d’étude est l’équivalent d’une étude de
cohorte en épidémiologie analytique, la classification entre protégés et non protégés se
substituant à la classification entre les exposés et les non exposés d’une étude de cohorte. Elle
s'en différencie cependant par le fait que l'on peut ici contrôler totalement le facteur de
protection, c'est-à-dire décider de l'appartenance d'un sujet à l'un ou l'autre groupe et non plus
seulement l'observer. Pour éviter tout biais, les deux groupes seront donc habituellement
randomisés. Néanmoins, ce type d'essai souffre des mêmes inconvénients que ceux décrits
dans les études de cohorte, à savoir le nombre élevé de sujets qu'ils nécessitent et leur
longueur de réalisation. C'est d'ailleurs parce que le critère de jugement ne peut être évalué
qu'à long terme que ces études s'apparentent plus aux études épidémiologiques qu'aux essais
cliniques. La deuxième approche, qualifiée d’étude épidémiologique d’intervention est
l’enquête cas-témoins dans laquelle on sélectionne des sujets présentant ou non l'affection et
on recherche ensuite si ils ont ou non été vaccinés, ce type d’études ne pouvant cependant pas
être considéré comme un essai clinique.
Les résultats d’un essai préventif ou d’une étude épidémiologique d’intervention dans
le domaine vaccinal se présentent sous la forme de la table 48. Dans un essai préventif, les
effectifs n1 et n0 sont fixés tandis que m1 et m0 sont aléatoires, dans une étude
épidémiologique d’intervention, ce sont au contraire les effectifs m1 et m0 qui sont déterminés
par le schéma de l'étude et les nombres n1 et n0 qui sont aléatoires. L'efficacité éventuelle de
l'agent protecteur pourra être évaluée par deux ou trois paramètres, selon le type d’étude.
93
Table 48. Répartition des sujets dans un essai préventif ou une étude épidémiologique
d’intervention dans le domaine vaccinal.
L'efficacité relative est le rapport entre les risques de survenue de la maladie chez les sujets
non protégés R0 et les protégés R1. C'est donc l'inverse du risque relatif RR des études
épidémiologiques, soit
ER =
R0
1
=
R1
RR
Pour des raisons identiques à celles décrites en statistique épidémiologique, ce paramètre peut
être estimé dans un essai préventif par
ER =
c n1
a n0
et dans une étude épidémiologique d’intervention, pour autant que l'affection étudiée soit rare,
par
ER ≈
bc
ad
Une efficacité relative supérieure à l'unité ne pourra être considérée comme réelle que si elle
est significativement différente de 1, l'hypothèse nulle ER = 1 étant évaluée par le test du χ² à
1 degré de liberté comme dans une étude épidémiologique analytique.
La fraction prévenue chez les protégés, ou efficacité vaccinale, mesure la proportion
de cas de l'affection qui ont pu être évités par l'action du vaccin, c'est-à-dire
FP =
R0 - R1
ER - 1
=
= 1 - RR
R0
ER
La fraction prévenue totale ou fraction prévenue de population ou encore fraction
évitable est la proportion de nouveaux cas de maladie qui ont été prévenus par l'utilisation de
l'agent protecteur dans une partie de la population. Comme le risque attribuable, son
homologue dans les études épidémiologiques, ce paramètre ne peut être estimé‚ que dans les
études d’intervention. En appelant Rg le risque global de survenue de l'affection dans la
population, la fraction prévenue totale est
94
FT =
R0 - Rg
R0
Le risque global étant la somme pondérée des risques dans les deux sous-populations de sujets
vaccinés et non vaccinés, c'est-à-dire, avec V proportion globale de sujets vaccinés
Rg = V R1 + (1 – V) R0 = R0 + V (R1 – R0)
on peut écrire
FT =
R0 - R0 - V (R1 - R0)
R0
ou en divisant le numérateur et le dénominateur par R1,
FT =
V (ER - 1)
= V (1 - RR) = V x FP
ER
La fraction prévenue totale est donc logiquement le produit de la fraction de sujets vaccinés
par l’efficacité vaccinale. Par ailleurs, on peut aussi estimer la fraction prévenue totale, si l’on
connaît uniquement la proportion de sujets vaccinés parmi les malades Vm = (a/m1) au lieu de
la proportion globale de sujets vaccinés V. En effet, les relations
R1 =
peuvent s’écrire
n1 =
a
c
et R0 =
n1
n0
c
a
et n0 =
R0
R1
et donc la proportion globale de sujets vaccinés est
a
n1
a
R1
V=
=
=
a
c
n1 n0
a c RR
R1 R0
ou en divisant le numérateur et le dénominateur par m1
a
Vm
Vm
m1
V=
=
=
a c RR
Vm ( 1 - RR) RR
Vm (1 - Vm) RR
m1
m1
La fraction prévenue totale est alors
Vm (1 - RR)
FT = V (1 - RR) =
=
Vm (1 - RR) RR
ER - 1
ER
ER - 1 1
Vm
ER
ER
Vm
95
ou
FT =
Vm (ER - 1)
1 Vm (ER - 1)
Nous illustrerons ces notions par l'exemple d'une étude épidémiologique d’intervention
ou enquête cas-témoins étudiant l'efficacité de la vaccination néonatale par le BCG dans la
population indienne de la province canadienne du Manitoba (Young & Hershfield, Amer. J.
Publ. Hlth, 1986, 76, 783-786). Il s'agit d'une étude ayant recruté tous les nouveaux cas de
tuberculose survenus entre 1979 et 1983 chez des sujets âgés de moins de 15 ans de la
population concernée. Pour chacun des 71 cas ainsi collectés, on a choisi 3 témoins au hasard
dans le Registre de la Population Indienne, soit au total 213 témoins. Les risques relatifs et
leurs intervalles de confiance à 95 % estimés de façon globale et par une analyse prenant en
compte deux classes d'âge par stratification sont respectivement de 0,30 [0,17; 0,52] et 0,39
[0,22; 0,69]. On peut dès lors estimer les paramètres décrits ci-dessus en utilisant l'estimation
du risque relatif par stratification et la proportion de sujets vaccinés parmi les tuberculeux Vm
= 35/71 = 0,49. L’efficacité relative, la fraction prévenue chez les sujets protégés et la fraction
prévenue totale sont respectivement
ER =
1
= 2,56
0,39
FP =
2,56 - 1
= 1 – 0,39 = 0,61
2,56
FT =
0,49 ( 2,56 - 1)
= 0,43
1 0,49 (2,56 - 1)
16. Essais séquentiels
Les essais séquentiels ou essais progressifs sont des essais cliniques contrôlés permettant l'analyse des résultats au fur et à mesure de leur disponibilité. Le nombre de sujets
nécessaire n'est pas fixé à l'avance comme dans une analyse classique. La méthode consiste à
faire le point pour chaque nouveau résultat comptabilisé de façon à permettre l'arrêt de l'essai
dès que la différence est significative en faveur d'un des traitements comparés au risque α ou
dès que le nombre de sujets fixé pour garantir le risque β de laisser échapper une différence
déterminée est atteint. Bien entendu une telle démarche ne permet pas d'utiliser les tests
statistiques habituels qui sont établis pour une seule comparaison et ne sont donc pas valables
pour une série de comparaisons non indépendantes, comme c'est le cas lorsque l'on réexamine
les résultats chaque fois qu'un nouveau est disponible. Le risque d'erreur serait alors beaucoup
plus élevé que le risque nominal lu dans la table. On peut d'ailleurs montrer que la répétition
d'un test statistique classique sur des données non indépendantes aboutit toujours à la mise en
évidence d'une différence significative, que celle-ci existe réellement ou non.
L'analyse séquentielle est basée sur un théorème appelé test séquentiel du rapport
des probabilités ou théorème de Wald, appliqué aux essais cliniques, avec deux types
principaux, selon que l'on ne fixe pas (test ouvert) ou que l'on fixe (test fermé) un nombre
maximal de sujets à ne pas dépasser.
Le principe des essais séquentiels est de choisir des paires de sujets aussi semblables
96
que possible. Ils peuvent être appariés en fonction d'une caractéristique importante ou mieux
encore être pris comme leur propre témoin (essai croisé). A défaut d'appariement logique, les
sujets sont groupés par paires selon l'ordre d'entrée dans l'essai. Les deux traitements sont
administrés de façon aléatoire aux membres de chaque paire. Dans les tests séquentiels
ouverts, on calcule la pente et l'ordonnée à l'origine de droites – ou les paramètres définissant
des courbes dans certaines situations – définies comme des limites de non signification ou de
signification et appelées frontières, telles que A, B, C et D sur la figure 21.
6
4
A
2
B
0
C
-2
-4
D
-6
0
1
2
3
4
5
6
Figure 21. Test séquentiel ouvert.
Ces droites dépendent bien sûr d'exigences qui sont identiques à celles définies dans le
calcul du nombre de sujets nécessaire dans un test classique. En cas de critère de jugement
quantitatif on calcule ensuite, pour chaque paire de malades, la différence d entre les valeurs
de la variable choisie et on construit une ligne brisée appelée chemin, dont les points ont
comme abscisse le nombre de paires de sujets examinées et comme ordonnée la somme
cumulée des différences Σd recueillies sur ces paires. Le chemin finira par rencontrer une
frontière et la conclusion, différence significative ou non, sera portée en fonction de la ou des
frontières rencontrées. Sur la figure 21 la différence est significative en faveur de l’un des
traitements si le chemin coupe la droite A ou la droite D, elle est non significative quand le
chemin franchit successivement les deux droites B et C dans n'importe quel ordre.
Si le critère de jugement est qualitatif, les paires correspondant à des réponses toutes
deux favorables ou défavorables seront éliminées. Seules seront portées sur le graphique les
paires dites utiles, c'est-à-dire ayant entraîné une réponse différente entre les sujets. La différence d sera alors cotée (+1) ou (–1) selon que le résultat favorable est obtenu avec l'un ou
l'autre traitement. En cas d'essai croisé il est particulièrement avantageux d'utiliser comme
critère de jugement la notion de préférence pour un traitement, puisque cette méthode permet
d'utiliser toutes les paires.
Le nombre de paires de sujets nécessaire à la rencontre du chemin avec une frontière,
est une variable aléatoire dont on ne peut prédire que l'espérance mathématique, laquelle est
toujours inférieure au nombre de paires que nécessiterait une analyse par un test statistique
habituel. Néanmoins pour un test particulier, le nombre de sujets nécessaire peut très bien être
supérieur à celui qu'aurait demandé l'analyse classique pour les mêmes exigences. C'est pour
remédier à ce défaut qu'ont été décrits les tests séquentiels fermés, comme sur la figure 22,
97
7
5
A
3
1
C
-1
-3
B
-5
-7
0
1
2
3
4
5
Figure 22. Test séquentiel fermé.
dans lesquels on fixe à l'avance un nombre maximal de paires à ne pas dépasser NL, cette
valeur pouvant être déterminée par des formules ou par des tables en fonction des différentes
situations. La droite verticale C est donc dans ce cas la frontière de non signification
correspondant au couple (B, C) du test ouvert.
Enfin, les essais séquentiels par groupe représentent une autre approche,
intermédiaire entre les analyses classique et séquentielle. Elle consiste à examiner les résultats
de la comparaison de deux traitements non plus après chaque paire d'observations mais après
chaque multiple d'un nombre de malades déterminé à l'avance. L'analyse peut être réalisée par
des tests statistiques classiques mais avec des limites de signification plus exigeantes données
par des tables ou des formules particulières. Elle peut aussi être menée selon une
méthodologie de type séquentiel comme le test triangulaire illustré par la figure 23
(Whitehead, Sequential Clinical Trials, Ellis Horwood, Chichester, 1983).
Figure 23. Test séquentiel triangulaire
98
La figure 24 illustre un essai séquentiel fermé étudiant l'efficacité de la stimulation
électrique peropératoire du mollet dans la prévention des thromboses veineuses
postopératoires (Browse & Negus, Brit. Med. J.,1970, 3, 615-618).
Figure 24. Essai séquentiel fermé de la stimulation électrique peropératoire du mollet dans la
prévention des thromboses veineuses postopératoires.
Chaque malade est son propre témoin, une seule jambe étant stimulée (S+), et le critère de
jugement choisi est la captation du fibrinogène radioactif. Le plan est construit pour ne pas
manquer une amélioration de 15 % à partir d'un résultat favorable d'absence de thrombose
évalué a priori à 80 % sans stimulation, avec des risques α et β de 0,05. Ces exigences
permettent de calculer l'ordonnée à l'origine et la pente des frontières de signification A et B
(figure 22), ainsi que le nombre maximal de paires utiles (NL = 31). La droite verticale du test
fermé (figure 22) est remplacée par deux droites inclinées à 45° par rapport à la ligne de base.
En effet, le critère qualitatif choisi entraîne que chaque paire utile augmente ou diminue Σd de
1 et donc que franchir une de ces droites signifie qu’obligatoirement la verticale de non
signification (figure 22) le sera également. Les résultats étant portés sur le graphique dès leur
disponibilité, l'essai permet de conclure à la supériorité de la stimulation électrique du mollet
avec les risques définis ci-dessus après seulement 17 paires utiles de sujets, c'est-à-dire les
thromboses unilatérales, parmi 110 patients.
Quels sont les avantages et les inconvénients des essais séquentiels ? Leur intérêt
essentiel réside dans la diminution du nombre de sujets nécessaire, du moins en moyenne. A
cela s'ajoute un avantage psychologique puisque l'examen des résultats au fur et à mesure de
leur disponibilité permet au clinicien de voir se dessiner une tendance. Mais l'analyse
séquentielle présente de sérieuses limitations. Elle suppose d'abord que la durée d'observation
des malades soit brève par rapport à leur période de recrutement, ce qui la rend difficilement
applicable aux affections chroniques. Par ailleurs elle impose le critère unique et l'analyse de
groupes totaux, sans possibilité d'études de sous-groupes. Si les frontières ne peuvent être
déterminées qu'en fonction des exigences, de la même manière que le nombre de sujets
nécessaire en analyse classique, la démarche inversée utilisable dans ce type d'essais n'est ici
plus possible. Enfin, les essais séquentiels posent un problème éthique. Si nous considérons
sur la figure 24 le point correspondant par exemple à la 12ème paire utile, nous voyons que le
99
chemin ne pourra plus franchir la frontière inférieure, c'est-à-dire qu'il ne restera plus que
deux conclusions possibles, soit (S+) meilleur que (S-), soit (S+) = (S-). Il devient dès lors
gênant de continuer le traitement (S-) et pourtant en cas d'arrêt de l'essai, le risque d'erreur ne
serait plus celui fixé a priori et donc aucune conclusion ne serait valable. Il n'en reste pas
moins que si les essais séquentiels ont été peu utilisés jusqu'à ce jour dans la littérature
médicale, leur efficacité paraît très intéressante dans certains cas bien choisis.
17. Essais adaptatifs
Le terme d’essais adaptatifs regroupe des essais cliniques contrôlés dans lesquels
l'attribution des traitements entre deux groupes de sujets est fonction des résultats déjà
obtenus. Leur objectif est de donner le traitement qui se révélera progressivement le meilleur
à un plus grand nombre de malades. La répartition sera donc délibérément biaisée en fonction
de la thérapeutique la plus efficace dans un but éthique.
Plusieurs modèles de plans à plusieurs étapes ont été proposés. Un modèle à deux
étapes consiste, dans une première phase, à répartir les deux traitements de façon égale parmi
n sujets, et dans une seconde étape à attribuer aux (N - n) malades restants le traitement qui
s'est révélé le meilleur à l'issue de la première phase. Des modèles à trois étapes ont également été décrits. Un premier modèle, dit de Colton, randomise les malades en deux groupes
égaux dans une première phase, attribue ensuite le meilleur traitement à tous les sujets
restants, comme dans le plan à deux étapes, mais à la condition que la différence entre les
deux groupes à l'issue de la première phase dépasse une certaine valeur, tandis que dans le cas
contraire, les sujets sont encore répartis pendant une phase intermédiaire entre les deux
traitements, avant l'attribution de la meilleure thérapeutique dans une troisième phase, à tous
les malades selon les résultats des deux premières. Dans un second modèle, dit de ColtonFinney, on attribue à tous les sujets de la deuxième phase le traitement qui paraît le meilleur à
l'issue de la première, de façon à confirmer ou infirmer les résultats et donner respectivement
ce même traitement ou l'autre à tous les malades de la troisième phase.
Parmi les autres procédés adaptatifs proposés dans les essais cliniques, on peut citer le
jeu sur le gagnant (play-the-winner), méthode qui suppose que l’on dispose du résultat d'un
traitement avant l'entrée dans l'essai du malade suivant. Dans sa version originale, la règle est
d’attribuer à chaque sujet le même traitement que celui du précédent si celui-ci a entraîné un
succès et l'autre traitement lorsque le résultat fut un échec. Si pA et pB désignent respectivement les probabilités de succès avec les traitements A et B, on peut démontrer que le rapport
entre le nombre attendu de sujets qui recevront A et celui des malades qui seront traités par B
est identique au rapport (1 - pB)/(1 - pA).
Plusieurs versions modifiées du jeu sur le gagnant ont été proposées pour tenir compte
de réponses thérapeutiques différées. Chaque succès avec un traitement n’entraîne pas
nécessairement l’attribution de ce traitement au patient suivant, mais augmente la probabilité
d’attribution en faveur de ce traitement. Ces méthodes peuvent être décrites par un modèle
d’urne. Dans le schéma appelé jeu sur le gagnant randomisé ou méthode de Wei et
Durham l’urne contient au début αA boules du traitement A et αB boules du traitement B.
Pour chaque nouveau patient on tire une boule au hasard, on attribue à ce sujet le traitement
correspondant et on replace la boule dans l’urne. Lorsque le résultat est connu, l’urne est mise
à jour en ajoutant une ou plusieurs (β) boules correspondant au traitement reçu si celui-ci fut
100
un succès ou une ou β boules correspondant à l’autre traitement si le résultat fut un échec. Un
autre schéma appelé drop-the-loser utilise une urne contenant au début αA boules du
traitement A, αB boules du traitement B et α0 boules sans traitement dites boules
d’immigration. Pour chaque nouveau patient on tire une boule au hasard, on attribue à ce sujet
le traitement correspondant si il s’agit d’une boule A ou B et on replace la boule si il s’agit
d’une boule d’immigration. Dans ce dernier cas, on ajoute deux boules, une A et une B, et on
tire une autre boule.dans l’urne. Lorsque le résultat est connu, l’urne est mise à jour en
replaçant la boule A ou B si le traitement fut un succès, mais pas si ce fut un échec.
La thérapeutique d’un nouveau malade peut aussi être choisie non pas en fonction du
résultat du dernier traitement attribué comme dans les procédés précédents, mais en tenant
compte des résultats de tous les sujets déjà inclus dans l'essai. Enfin on peut encore
compliquer le schéma en tenant compte non seulement des résultats des sujets précédents
mais également des différentes situations possibles pour tous les suivants. Les solutions de ce
problème connu sous le nom de bandit à deux bras sont difficiles. On peut cependant noter
que si les pourcentages de succès avec chacun des traitements sont indépendants, ces procédés
se caractérisent généralement par le fait que chaque succès entraîne l'attribution du même
traitement au malade suivant, comme dans le jeu en fonction du gagnant, mais qu'un échec
n'entraîne pas obligatoirement un changement de thérapeutique. Dans la mesure où leur
objectif est de donner le traitement qui se révélera progressivement le meilleur à un plus grand
nombre de malades, les plans à plusieurs étapes, le jeu sur le gagnant et ses variantes et les
solutions du bandit à deux bras représentent donc une stratégie de l’éthique collective.
Une autre démarche dite stratégie de l’éthique individuelle a été proposée. Tant
qu'on ne dispose sur les deux traitements d'aucune autre information que la connaissance a
priori, on les attribue par tirage au sort s'ils sont équivalents et on donne le meilleur a priori
dans le cas contraire. Dès que les renseignements disponibles indiquent une probabilité a
posteriori de bons résultats plus élevée pour un des traitements, on l'adopte jusqu'à ce que de
nouveaux résultats viennent renverser la tendance. En fait les deux traitements à comparer ne
sont jamais totalement équivalents a priori, et si on entreprend un essai clinique, c'est bien
parce qu'on pense que le nouveau traitement est susceptible d'apporter des résultats supérieurs
à ceux de l'ancien, c'est-à-dire que l'on estime a priori que ce traitement sera plus efficace. Il
va donc être expérimenté jusqu'à ce que les résultats, c'est-à-dire une estimation a posteriori,
confirment ou infirment sa supériorité supposée. C'est en fait la démarche habituelle de tout
médecin devant un nouveau traitement. Cette stratégie possède la caractéristique d’un procédé
optimal définie plus haut, c'est-à-dire qu'un succès entraîne l'attribution du même traitement
au malade suivant mais que l'inverse n'est pas vrai.
Les essais adaptatifs ont été à ce jour peu utilisés, car leurs inconvénients sont
nombreux. Dans la plupart des méthodes le délai de réponse au traitement doit être court pour
que le résultat de celui-ci soit disponible avant l'entrée dans l'essai du malade suivant ou du
moins peu après. De plus, la population doit absolument être homogène au cours du temps
puisque la répartition des sujets entre les groupes sera modifiée avec le temps. La complexité
de certains schémas rend leur acceptation par les cliniciens malaisée. Si on peut considérer ces
inconvénients comme de simples limites de ces techniques, des critiques majeures sur les
plans scientifique et même éthique ont été formulées à leur encontre. D'une part, les procédés
tels que le jeu en fonction du gagnant entraînent un biais de sélection évident puisque le
traitement du malade sera connu avant son entrée dans l'essai. D'autre part, il faut remarquer
que si l'objectif de ces méthodes est de diminuer le nombre de sujets qui recevront le traitement le moins favorable, ce but ne peut être atteint qu'en augmentant l'effectif total et par
101
conséquent la durée de l'essai. Cela signifie que les malades traités dans tous les autres centres
ne participant pas à l'essai attendront plus longtemps une conclusion sûre et le nombre de
sujets, ayant ou non participé à l'essai, qui auront reçu le traitement le moins bon, risque dès
lors d'être augmenté. L'avantage éthique qui est la raison fondamentale de ces procédés est
ainsi annihilé.
18. Essais pragmatiques
Les essais pragmatiques sont des essais cliniques contrôlés dirigés avant tout vers
l'application pratique et dont le principe diffère entièrement de celui des essais explicatifs.
Selon la méthodologie developpée par Schwartz et Lellouch, les essais pragmatiques comparent deux traitements dans le but d'en rejeter un des deux sans être sûr que le traitement choisi
soit nécessairement le meilleur mais en étant certain qu'il ne soit pas inférieur au traitement
rejeté. Ce type d'essais entraîne donc toujours une décision en faveur de l'un ou l'autre traitement, décision qui est prise sans test statistique, après avoir atteint le nombre de sujets
nécessaire, calculé obligatoirement au début de l’essai.
Puisqu'il s'agit d'une comparaison entre deux thérapeutiques en vue d'aboutir à un
choix, le traitement contrôle de type placebo n'y a évidemment pas sa place. Le traitement
expérimental doit être comparé à la thérapeutique classique de référence et les deux
traitements doivent être administrés dans les meilleures conditions possibles pour chacun
d'eux, même si celles-ci diffèrent. Ainsi, si par exemple le traitement A s'accompagne
obligatoirement d'une autre thérapeutique qui n'est pas nécessaire à l'efficacité du traitement
B, cette thérapeutique doit être ajoutée à A mais non à B. De même dans un essai
médicamenteux, la posologie peut être réduite en fonction de l'apparition de certains effets
secondaires sans introduire de biais, alors qu'une telle attitude fausserait immanquablement
les résultats en cas d'essai explicatif. Contrairement aux essais de ce type, il ne s'agit donc pas
de rendre les conditions strictement identiques dans les deux groupes, mais de tendre vers
l'optimum pratique pour chacun d'entre eux. En définitive, plutôt que d'étudier deux
traitements au sens strict du terme, les essais pragmatiques visent essentiellement à comparer
deux attitudes thérapeutiques. Le but des essais pragmatiques étant de choisir entre deux
traitements, les critères de jugement doivent non seulement concerner l'évolution de la
maladie mais également les inconvénients tels que les effets secondaires ou la servitude représentée par le traitement. Mais comme la décision à prendre en fin d'essai est une, les critères
choisis ne peuvent pas être considérés isolément mais doivent au contraire être regroupés dans
un bilan global du pour et du contre. Deux solutions sont dès lors envisageables. La première
est l'utilisation d'un résumé exhaustif essayant de grouper tous les critères en une combinaison
pondérée par des facteurs arbitraires variant en fonction de l'importance accordée à chaque
critère. Cette solution doit être choisie si l'on dispose de plusieurs critères dont aucun n'est
prépondérant. L'autre alternative est l'utilisation d'un critère privilégié, comme par exemple la
survie dans les affections graves. En ce qui concerne la sélection des sujets, les essais
pragmatiques doivent être réalisés sur un échantillon représentatif de la population à laquelle
les résultats sont destinés, sans chercher à rendre cet échantillon homogène et sensible comme
dans les essais explicatifs classiques.
Si l'estimation préalable de l'effectif nécessaire est importante en cas d'essai explicatif
pour permettre une conclusion valable même en l'absence de différence significative, ce
calcul est indispensable dans un essai pragmatique puisque la décision d'adopter l'un ou l'autre
des traitements comparés sera prise sans effectuer de test statistique, dès que le nombre
102
minimal estimé de sujets aura été atteint. Les paramètres dont dépend ce calcul sont cependant
différents avec cette méthode, puisque les notions de risques statistiques sont modifiées. Le
but de tels essais est en effet de choisir un des traitements comparés, non parce qu'il est
nécessairement supérieur, mais parce qu'il n'est pas inférieur à l'autre. On accepte donc que si
les deux traitements sont équivalents, le choix puisse résulter du hasard. Si A = B, il n'est
aucunement gênant en pratique de choisir A plutôt que B. Le risque α (valeur p) de conclure à
tort à une différence significative, motivation essentielle d'un test statistique, n'a donc plus
aucune importance. Il est dès lors illogique de le minimiser. Au contraire, puisque plus le
risque α est grand, moins il faudra de sujets, on a évidemment intérêt à le choisir maximal,
c'est-à-dire égal à 1. Il n'y a à ce moment plus de test statistique à proprement parler puisque
toute différence est significative à ce risque. Le meilleur des deux traitements sera donc
adopté quelle que soit la différence constatée entre eux. Cette attitude entraîne
obligatoirement une décision, ce qui signifie que le manque de puissance β du test est nul. Le
nombre de sujets nécessaire est dès lors calculé en fonction d’un risque supplémentaire,
appelé risque de troisième espèce ou risque γ ou erreur de type III, celui de conclure à une
différence significative en faveur d'un des deux groupes, alors qu'il existe en réalité une
différence en faveur de l'autre groupe. Dans un essai pragmatique, le seul risque de la
méthode consiste en effet à adopter A si B est en fait le meilleur des traitements. En dehors du
risque γ, qui remplace les risques α et β de la méthodologie classique des tests d’hypothèse,
les autres paramètres dont dépend le calcul du nombre de sujets nécessaire sont similaires à
ceux de l’attitude classique. Pour des exigences équivalentes, ce nombre sera cependant
quatre fois moindre que pour un essai explicatif classique.
Nous avons écrit ci-dessus que dans un essai pragmatique les traitements devaient être
administrés dans les meilleures conditions possibles pour chacun d'eux, même si celles-ci
diffèrent, ce qui peut entraîner dans certains cas la suppression du caractère aveugle de
l'étude. Cette conséquence est cependant beaucoup moins gênante que dans un essai explicatif
dans la mesure où l'effet placebo ne doit pas être égalisé dans les deux groupes. En effet la
composante placebo, qu'on le veuille ou non, fait partie intégrante du traitement et si un
médicament A exerce, de par son mode d'administration par exemple, un effet placebo plus
important que B, il n'y a aucune raison d'essayer de l'éliminer, puisque dans la pratique
courante cette composante placebo existera toujours. Dès lors, si le caractère aveugle est
souhaitable en cas de traitements d'apparence identique, sa recherche doit être secondaire par
rapport à celle de l'attribution des traitements sous leurs formes les plus efficaces.
L'attitude est similaire en ce qui concerne l'observance au traitement. Si un des deux
traitements entraîne un plus grand nombre d'abandons que l'autre, ce fait doit être considéré
comme faisant partie intégrante du risque de la thérapeutique. Par conséquent les sujets
n'ayant pas poursuivi le traitement jusqu'à son terme ne doivent pas être éliminés de l'essai
mais considérés comme des membres à part entière de leur groupe thérapeutique.
Si les essais pragmatiques s’apparentent aux essais avec analyse en intention de traiter,
la méthodologie pure des essais pragmatiques développée par Schwartz et Lellouch avec son
principe d’analyse fort controversé a été peu suivie à ce jour. La table 49 résume les
différences essentielles entre les essais explicatifs classiques et les essais pragmatiques.
La distinction entre les caractères explicatif et pragmatique d’un essai peut sembler
quelque peu théorique, et en réalité rares sont les essais qui sont totalement l’un ou l’autre.
Néanmoins, cette distinction est utile à la réflexion et il est souvent extrêmement bénéfique de
se poser la question du choix explicatif ou pragmatique à chaque étape de la rédaction d’un
protocole.
103
ESSAIS EXPLICATIFS
ESSAIS PRAGMATIQUES
traitement expérimental
traitement contrôle
population
conditions identiques
placebo
homogène
conditions optimales
traitement classique
représentative
critère(s) de jugement
objectif(s)
eventuellement plusieurs
α et β
nécessaire
éliminés
TESTER L’EFFICACITE
clinique
unique
γ
secondaire
pris en compte
TESTER L’UTILITE
risques statistiques
caractère aveugle
abandons de traitement
OBJECTIF
Table 49. Caractéristiques comparées des essais explicatifs et pragmatiques.
Les essais adaptatifs et les essais pragmatiques définissent une approche décisionnelle,
encore imparfaite, des essais cliniques. Considérées comme théoriques, voire utopiques par
certains, ces techniques nous semblent cependant intéressantes parce que leur objectif est de
mieux tenir compte des impératifs imposés par la recherche thérapeutique clinique. Ainsi les
essais adaptatifs visent généralement à donner la thérapeutique la plus favorable à un
maximum de malades tandis que les essais pragmatiques obligent à un choix entre deux
traitements quel que soit le résultat de leur comparaison. On peut dans une certaine mesure
considérer que si la méthodologie classique des essais cliniques contrôlés s'est limitée à
appliquer au problème particulier de l'expérimentation humaine la théorie statistique conçue
initialement pour d'autres domaines, l'approche décisionnelle tente au contraire de définir un
raisonnement statistique original dérivant des impératifs imposés par cette expérimentation
humaine et intégrant ou au moins tentant d’intégrer à la fois l’éthique collective et l’éthique
individuelle de cette expérimentation.
* * *
104
CHAPITRE 5
META-ANALYSE
1. But et principes de la méta-analyse
2. Recherche et sélection des essais
3. Biais de publication
4. Principe de l’analyse statistique d’une méta-analyse
5. Analyse statistique d’un critère de jugement binaire
6. Analyse statistique d’un critère de jugement continu
7. Analyse statistique d’un critère de jugement mixte
8. Représentation graphique des résultats d’une méta-analyse
9. Détection d’un biais de publication
1. But et principes de la méta-analyse
Le nombre d’études scientifiques réalisées dans le domaine médical et spécialement
d’essais thérapeutiques ne cesse de croître et les médecins ou les décideurs en santé
publique ont de plus en plus besoin de données de synthèse. Or les résultats des différentes
études ne sont pas nécessairement concordants, et il est parfois difficile de résumer d’une
façon claire l’effet d’une substance dans une situation donnée. Le but de la méta-analyse est
de combiner les résultats de plusieurs études pour en faire une synthèse objective et
quantifiée, qui va au-delà de la simple revue de la littérature. Elle n’est d’ailleurs pas limitée
aux essais cliniques, mais peut également s’appliquer, parfois avec des techniques
particulières, aux études épidémiologiques, études de cohorte ou enquêtes cas-témoins, ou
encore aux évaluations de tests diagnostiques.
Si la synthèse des données est un acte traditionnel de la pratique scientifique, celle-ci
échappe paradoxalement à toute méthode et aucune règle n’est établie. La première critique
que l’on peut faire à la simple revue de la littérature est l’absence de recherche de
l’exhaustivité dans les données qu’elle exploite. Il est fréquent que seuls les essais favorables
à la thèse défendue soient retenus. Par exemple, les essais favorables à l’effet d’un nouveau
traitement sont plus souvent cités que ceux qui sont en sa défaveur, sans qu’il n’y ait pour
autant de malhonnêteté intellectuelle dans la démarche. Cela a été mis en évidence, par
exemple, dans une analyse de la fréquence des citations en fonction de leurs résultats, de 22
essais d’interventions hypocholestérolémiantes en prévention des maladies cardiaques
(Ravnskov, Brit. Med. J., 1992, 305, 15-19). En utilisant la base de données Science Citation
Index, l’auteur a calculé la fréquence annuelle moyenne de citations pour les différents essais.
Les essais favorables sont cités en moyenne 40 fois par an, tandis que les essais non
favorables ne le sont que 7 fois. Cette différence flagrante ne peut être reliée ni à la taille des
essais, ni à la renommée des revues dans lesquelles ils ont été publiés. En effet, si nous
considérons deux essais particuliers publiés dans le Journal of the American Medical
Association, on remarque que l’essai « favorable » est cité 109, 121, et 202 fois dans les trois
années suivant sa publication tandis que pour celui « non favorable », les fréquences de
citation ne sont que de 6, 5 et 3 fois. Cet exemple illustre le fait que la majorité des revues de
la littérature ne rapportent que des résultats sélectionnés. Un autre problème de la simple
revue de la littérature est la façon dont la décision finale sur l’existence d’un effet du
traitement est prise. Au mieux, même si les arguments pour et contre étaient présentés de
façon exhaustive, le jugement final ne pourrait être que fondé sur la règle de la majorité. Or
cela ne tiendrait pas compte de la nature probabiliste des conclusions individuelles des essais
et du risque de conclusions erronées uniquement dues au hasard.
Nous illustrerons le problème par un exemple dans le domaine cardiologique. Un
Essai
OMS clofibrate (1978)
LRC Trial (1984)
Helsinki Heart Study (1987)
WOSCOPS (1995)
Evènements
coronariens
↓ NS
↓ NS
?
↓ p < 0,01
Mortalité
coronarienne
↑ NS
↓ NS
↓ p = 0,02
↓ p = 0,13
Mortalité
totale
↑ p< 0,05
→ NS
→ NS
↓ p = 0,051
Table 50. Résultats des essais de prévention primaire d’hypocholestérolémiants dans la
maladie coronarienne.
106
des facteurs de risque de la maladie coronarienne est l’élévation du taux sérique de
cholestérol ou de sa fraction LDL. On peut dès lors supposer qu’un traitement diminuant le
taux de cholestérol pourrait diminuer aussi le risque de coronaropathie. La table 50 résume
l’information provenant des essais de prévention primaire d’hypocholestérolémiants dans la
maladie coronarienne (Cucherat et al., Manuel Pratique de Méta-analyse des Essais
Thérapeutiques, publication électronique, 1997). Aucune tendance nette ne se dégage de ces
essais et une conclusion définitive semble hasardeuse.
La méta-analyse se propose donc de faire une synthèse objective et si possible
quantifiée à partir de toute l’information disponible. Il s’agit d’une démarche scientifique
qui doit être vérifiable et reproductible. Les principes de la méta-analyse sont donc:
1) Une analyse portant sur toute l’information disponible obtenue par une recherche
exhaustive de tous les essais du domaine étudié;
2) Une réalisation selon un protocole strict établi a priori, pour éviter les choix
influencés par les résultats;
3) L’utilisation de techniques statistiques prenant en compte la nature probabiliste
des résultats des essais qui peuvent être différents uniquement par le fait du hasard et essai
de quantification de l’effet du traitement.
Pour résoudre le problème posé par la synthèse des résultats de plusieurs essais, la
première idée qui vient à l’esprit est de combiner directement les effectifs et les nombres
d’événements de tous les essais, par sommation des résultats (pooling). Les effectifs des
groupes sont additionnés, ainsi que les nombres d’événements. A partir de ces totaux, une
mesure d’effet telle que le risque relatif ou l'odds ratio est calculée pour représenter
globalement l’effet du traitement. La table 51 montre les résultats de deux essais dans lesquels
le traitement semble nettement réduire la fréquence des complications. Pourtant le résultat
combiné par sommation conclut exactement à l’inverse (Cucherat et al., op. cit.).
essai
groupe
effectif
A
traitement
contrôle
traitement
contrôle
traitement
contrôle
112
61
52
119
164
180
B
sommation
nombre de
complications
68
43
11
35
79
78
pourcentage de
complications
61
70
21
29
48
43
risque
relatif
odds
ratio
0,86
0,65
0,72
0,64
1,11
1,22
Table 51. Résultats de deux essais et de leur combinaison par sommation.
Cette situation illustre bien les dangers de cette approche. Une méthode appropriée de métaanalyse permet d’estimer un risque relatif commun de 0,84 ou un odds ratio commun de 0,65,
beaucoup plus satisfaisants. De plus, la sommation des effectifs pose des problèmes
conceptuels. Elle conduit en effet à considérer que les patients de tous les essais sont
similaires et que l’on peut ainsi les regrouper. Les techniques de méta-analyse évitent de faire
cette hypothèse et combinent les effets traitements et non pas les patients, en faisant
seulement l’hypothèse de la constance de l’effet traitement d’un essai à l’autre. En fait, elles
décomposent l’information contenue dans un essai en une partie commune à tous les essais et
en une partie spécifique de cet essai, et estiment cette partie commune par des techniques
statistiques.
107
On peut distinguer trois types de méta-analyse en fonction du type des données
utilisées. La méta-analyse des données résumées de la littérature utilise exclusivement les
données des essais publiés, à l’exclusion de toute autre source d’information, en particulier les
essais non publiés. Cette forme déroge donc à l’un des principes énoncés ci-dessus qui est
celui de l’exhaustivité des informations et expose au biais de publication. Elle est cependant
souvent la seule possible. La méta-analyse exhaustive sur données résumées utilise des
données résumées, mais les sources d’information ne se limitent pas aux essais publiés et
comprennent aussi les travaux non publiés (résumés de communications à des congrès,
compte-rendus de conférences, communications personnelles, etc...). Ainsi ce type d’approche
suit tous les principes énoncés précédemment. Enfin la méta-analyse sur données
individuelles se base sur les données de tous les patients inclus dans les essais pris en
considération. Ce type de méta-analyse est beaucoup plus difficile à réaliser, mais sera sans
doute à l’avenir la méthode de choix.
2. Recherche et sélection des essais
La recherche des essais doit être la plus exhaustive possible. Tous les moyens doivent
donc être utilisés, comme les bases de données bibliographiques informatisées, les
bibliographies des articles déjà connus et les actes des congrès. Les critères de sélection des
études doivent être définis au préalable dans le protocole de la méta-analyse. Deux domaines
de sélection existent, d’une part, le domaine d’intérêt qui comprend des définitions précises de
la maladie, de la population étudiée, des critères de jugement et des traitements et, d’autre
part, le domaine de la qualité méthodologique, qui ne doit retenir que les essais dont la qualité
méthodologique est suffisante pour permettre une méta-analyse correcte. Il est possible de
montrer qu’une relation existe entre la qualité des essais et la taille de l’effet traitement qu’ils
montrent. Pour faire cette sélection, une façon de procéder est de classer les essais en fonction
de leur qualité méthodologique, par exemple, en trois classes. Pour effectuer cette
classification, le respect de chaque principe méthodologique est noté de la façon suivante, en
trois catégories également, avec une note A si le principe est entièrement respecté et réalisé de
façon satisfaisante, une note B si le principe est partiellement respecté ou décrit de manière
insuffisante et une note C si le principe n’est pas appliqué ou réalisé de façon erronée. Tous
les principes méthodologiques vus au chapitre 3 peuvent ainsi être notés. Par sommation des
scores, les essais sont classés en trois catégories, essais de bonne qualité, essais de qualité
moyenne et essais de qualité insuffisante. Les essais dont la qualité est insuffisante sont
exclus. Les essais des deux premières catégories sont pris en considération pour la métaanalyse et une analyse de sensibilité teste les conséquences de l’éventuelle inclusion d’essais
de qualité moyenne aux cotés de ceux de bonne qualité. Il existe aussi plusieurs échelles de
mesure publiées dans la littérature qui débouchent sur un score global. En outre certains ont
proposé d’utiliser un coefficient de pondération en fonction de ces indices de qualité. Il faut
enfin prendre soin d’éliminer les publications multiples.
3. Biais de publication
Par principe, la méta-analyse doit regrouper la totalité des essais qui ont été réalisés
dans le domaine. Cette exhaustivité est cependant difficile à atteindre, en particulier du fait de
l’existence de travaux non publiés, qui aboutit à introduire un biais appelé biais de
publication. En effet, les essais thérapeutiques ont d’autant plus de chance d’être publiés que
108
leurs résultats s’avèrent statistiquement significatifs et plusieurs études ont démontré ce
phénomène, d’autant plus important que le nombre d’essais augmente le risque de résultats
faussement significatifs. Pour illustrer ce problème, considérons une situation fictive où un
traitement sans effet est évalué par plusieurs essais randomisés. Du fait du risque de première
espèce α, généralement de 0,05, la réalisation de 100 essais produira en moyenne 5 essais
conclusifs à tort. Si uniquement ces essais sont publiés, la littérature sur le sujet sera en faveur
de l’effet du traitement de façon totalement erronée, puisqu’en réalité le traitement n’a aucun
effet. En fait la probabilité d’obtenir avec le même traitement au moins un essai conclusif à
tort sur n essais est
p = 1 - ( 1 - α )n
Avec α = 0,05, p = 0,23 pour n = 5, p = 0,40 pour n = 10 et p = 0,92 pour n = 50. La
probabilité de 0,50 est atteinte pour n = 14 et celle de 0,95 pour n = 59. Il est donc très
probable d’observer au moins 1 essai statistiquement significatif par le seul fait du hasard si
un tel nombre d’essais ont été réalisés.
Les causes de la publication sélective des résultats significatifs sont multiples: autocensure des auteurs qui considèrent d’emblée que leur résultat est sans intérêt pour la
communauté scientifique parce que non significatif, sélection par les comités de lecture qui
ont tendance à rejeter un article dont le résultat est non significatif, publication de certains
résultats d’essais commandités par l’industrie pharmaceutique non souhaitée pour des raisons
de secret industriel ou lorsque les résultats sont défavorables à la substance étudiée. Il semble
qu’actuellement la cause principale de cette non publication sélective est l’autocensure des
investigateurs eux-mêmes devant des résultats qu’ils jugent non publiables, vue dans de
nombreux cas comme une simple anticipation de la décision que prendraient inévitablement
les éditeurs des revues dont la politique est généralement de ne publier que les articles qui
rapportent des essais « positifs » et donc proposent une avancée dans la thérapeutique.
La prévention du biais de publication oblige à rechercher les travaux non publiés en
combinant différents moyens potentiellement capables de récupérer quelques essais non
publiés:
– la consultation d’experts dans le domaine,
– la lecture des revues générales déjà réalisées sur le sujet, qui peuvent mentionner des essais
en cours et qui n’auraient pas abouti à publication par la suite,
– la consultation des investigateurs des essais connus,
– l’interrogation des firmes ayant développé le médicament,
– la consultation de registres,
– la consultation des autorités réglementaires.
La robustesse d’un résultat de méta-analyse vis à vis du biais de publication peut
s’évaluer en recherchant le nombre d’essais ne montrant pas d’effet traitement qu’il faudrait
rajouter à la méta-analyse pour obtenir un résultat compatible avec l’absence d’effet
traitement, c’est à dire non significatif. Supposons par exemple qu’une méta-analyse de 5
petits essais, regroupant 303 sujets, conclut à l’existence d’un effet traitement avec un odds
ratio de 0,49 significativement différent de 1 (p = 0,01). Un calcul de simulation montre qu’il
faudrait rajouter seulement 3 essais de 30 patients avec un risque de base de 0,23, c’est-à-dire
la moyenne des essais inclus, pour obtenir un résultat non significatif avec un odds ratio de
0,65 correspondant à p = 0,053 (Cucherat et al., op. cit.). Dans la mesure où il est probable
qu’il puisse exister au moins trois essais de petites tailles non significatifs et non publiés, le
résultat de cette méta-analyse est donc à considérer avec précaution.
109
4. Principe de l’analyse statistique d’une méta-analyse
Le problème statistique posé par la méta-analyse est double. Il s’agit tout d’abord de
quantifier les effets traitement grâce à une mesure appropriée, puis de combiner en un seul
indice les effets traitement issus d’une série d’essais thérapeutiques. Les solutions apportées à
ces deux points varient en fonction de la nature du critère de jugement utilisé, binaire ou
continu. Pour un critère binaire, les mesures d’effet sont la différence des risques, le risque
relatif ou l’odds ratio. Pour un critère continu, c’est l’effet standardisé qui est généralement
utilisé. Quel que soit le critère choisi, deux modèles sont proposés. Le modèle fixe suppose
que l’effet du traitement est une constante, et donc que les variations observées dans la réalité
ne résultent que des fluctuations aléatoires. Le modèle aléatoire considère que le résultat
d’un essai, est composé d’une partie fixe, commune à l’ensemble des essais, à laquelle
s’ajoute une partie propre à cet essai et donc variable.
L’analyse statistique d’une méta-analyse comprend donc (1) une estimation de l’effet
traitement combinant l’ensemble de l’information, accompagnée d’un intervalle de confiance
généralement à 95 %, (2) un test d’hétéro/homogénéité qui étudie si les résultats de tous les
essais peuvent être considérés comme similaires, et (3) un test statistique de l’existence de cet
effet traitement éventuel. Si le test d’hétéro/homogénéité est significatif, c’est-à-dire s’il
rejette l’hypothèse nulle d’homogénéité, il existe au moins un essai dont le résultat ne peut
pas être considéré comme identique aux autres, ce qui pose le problème du recours au modèle
aléatoire.
Le modèle fixe suppose qu’il existe k essais comparant un traitement expérimental E à
un traitement contrôle C, avec θi l’effet traitement de l’essai i, de variance σ²i. L’effet
traitement commun θ est alors estimé par la moyenne des estimations de chaque essai,
pondérées par l’inverse de leur variance, soit
k
θ=
wi θ i
i 1
k
avec wi =
wi
1
σ² i
i 1
Les estimations les plus précises, donc avec une faible variance, contribuent plus fortement à
l’estimation commune que les estimations moins précises avec une variance plus grande.
L’homogénéité des k estimations est vérifiée par la statistique Q
k
Q=
wi (θi - θ)²
i 1
qui suit une distribution du χ² à (k-1) degrés de liberté. Cette statistique permet en outre de
quantifier l'hétérogénéité éventuelle par l'index d'hétérogénéité I2, qui mesure le
pourcentage de la variabilité inter-études dans la variabilité totale, c'-est-à-dire celui de
l'hétérogénéité vraie,
I2 =
100 ( Q - k 1)
Q
si
Q > (k - 1)
ou
110
I2 = 0
si
Q < (k - 1).
Si l’homogénéité des essais n’est pas rejetée, on peut tester l’effet traitement par la statistique
U, soit
k
U=
wi θi ²
i 1
k
wi
i 1
qui suit aussi une distribution du χ², mais à 1 degré de liberté. Si l’homogénéité est rejetée, il
faut, soit procéder à l’analyse de cette hétérogénéité et rechercher des facteurs explicatifs,
éventuellement en éliminant certaines études, soit considérer le modèle aléatoire à la place du
modèle fixe.
5. Analyse statistique d’un critère de jugement binaire
Si le traitement est évalué par un critère binaire, comme succès ou échec, survenue
d’un évènement clinique ou non, décès ou survie pour une période de suivi fixée, les résultats
de chaque essai se présentent comme dans la table 52.
Table 52. Présentation des résultats d’un essai avec critère binaire.
Si on considère le risque d’échec comme une mesure de l’effet du traitement, on peut calculer
pour chaque essai une différence de risques DR, un risque relatif RR ou un odds ratio OR, qui
sont respectivement
DR =
a
a
b
-
c
c d
de variance σ² =
a
a (c d)
RR = a b =
c
c (a b)
c d
et
ab
cd
+
(a b)³
(c d)³
a
ad
OR = b =
c
bc
d
Ainsi, pour un essai de deux traitements dont les résultats sont jugés comme succès ou échecs
et présentés dans la table 53, ces paramètres sont
DR =
70
110
= - 0,26
70 130 110 70
avec σ² =
110 x 70
70 x 130
+
= 0,002
(70 130 )³ (110 70)³
111
Table 53. Résultats d’un essai avec critère binaire.
RR =
70 x (110 70)
= 0,57
110 x (70 130)
et
OR =
70 x 70
= 0,34
130 x 110
Si l’on s’intéresse à la différence des risques, un estimateur de la différence de risque
commune est obtenu par application de la formule générale décrite plus haut,
k
θ=
wi θ i
i 1
k
avec wi =
wi
1
σ² i
i 1
la différence de risque de l’essai i étant θi. Le risque relatif commun peut être obtenu à partir
d’un estimateur du logarithme du risque relatif commun, qui est la moyenne pondérée des
logarithmes des risques relatifs de chaque essai Φi. Le risque relatif commun est alors
k
θ = exp
wi log Φi
i 1
avec
k
wi
1
1
1
1
1
=
+
wi
ai ai bi
ci ci di
i 1
La table 54 présente les résultats de 4 essais qui comparent un traitement expérimental
E à un traitement contrôle C, en termes d’évènements qui sont des échecs thérapeutiques,
tandis que la table 55 détaille les calculs nécessaires pour estimer une différence de risque
commune et un risque relatif commun.
essai
1
2
3
4
effectifs du
traitement E
138
100
300
200
effectifs du
traitement C
142
100
300
200
évènements du
traitement E
18
12
38
28
évènements du
traitement C
22
14
47
30
Table 54. Résultats de quatre essais comparant les échecs de deux traitements.
112
essai Risque
E
1
0,13
2
0,12
3
0,13
4
0,14
Σ
Risque
C
0,15
0,14
0,16
0,15
θi
wi θi
wi
Φi
-0,024 573,42 -14,05
-0,020 442,48 -8,85
-0,030 1235,87 -37,08
-0,010 806,78 -8,07
3058,55 -68,04
0,84
0,86
0,81
0,93
Log(Φi)
-0,172
-0,154
-0,213
-0,069
wi
wi Log(Φi)
11,531
7,420
24,435
16,935
60,322
-1,984
-1,144
-5,194
-1,168
-9,491
Table 55. Calculs nécessaires à l’estimation de la différence de risque commune et au risque
relatif commun des essais de la table 54.
On peut dès lors estimer la différence de risque commune par
θ =
- 68,04
= - 0,022
3058,55
et le risque relatif commun par
θ = exp
- 9,491
60,322
= 0,854
Plusieurs estimateurs de l’odds ratio commun ont été décrits. Pour k essais
aboutissant à k tables comme la table 52, l’estimateur de Mantel-Haenszel est
k
θ=
i 1
k
i 1
ai d i
ni
b i ci
ni
tandis que l’estimateur de Woolf, basé sur l’estimation du logarithme de l’odds ratio
commun par la moyenne pondérée des logarithmes des odds ratio de chaque essai ψi, est
k
wi log
θ = exp
i 1
i
avec
k
wi
1
1
1
1
1
=
+
+
+
wi
ai
bi
ci
di
i 1
La table 56 détaille les calculs nécessaires pour estimer l’odds ratio commun par les méthodes
de Mantel-Haenszel et Woolf, pour les essais de la table 54.
essai
1
2
3
4
Σ
aidi / ni
7,71
5,16
16,02
11,90
40,80
bici / ni
9,43
6,16
20,52
12,90
49,01
ψi
0,818
0,838
0,781
0,922
Log(ψi)
- 0,20
- 0,18
- 0,25
- 0,08
wi
8,50
5,63
18,06
12,38
44,57
Log(ψi) wi
- 1,71
- 1,00
- 4,47
- 1,00
- 8,17
113
Table 56. Calculs nécessaires à l’estimation de l’odds ratio commun des essais de la table 54.
L’odds ratio commun est alors selon l’estimateur de Mantel-Haenszel
θ =
40,80
= 0,832
49,01
et selon celui de Woolf
- 8,17
= 0,833
44,57
Quel que soit le paramètre choisi, on peut ensuite tester l’homogénéité des estimations
par la statistique Q et l’effet traitement par la statistique U, dont les principes ont été décrits
plus haut (§4) et qui peuvent être adaptés à chacun des paramètres et à leurs méthodes
d’estimation.
θ = exp
Peu d’arguments existent pour déterminer, a priori, que dans telle ou telle situation, le
modèle d’effet est plutôt additif (différence des risques) ou plutôt multiplicatif (risque relatif
ou odds ratio). Il est donc difficile de faire ce choix en se basant sur la nature des critères de
jugement ou de la situation étudiée. Un élément peut orienter ce choix, le modèle le plus
adapté est celui qui donne la plus faible valeur de la statistique Q d’hétéro/homogénéité. Avec
le modèle multiplicatif, deux choix de mesure sont possibles, le risque relatif et l’odds ratio.
Le risque relatif est le plus parlant et le plus simple. L’odds ratio est d’interprétation difficile,
mais approche le risque relatif quand le risque de base est faible. De plus, les méthodes de
calcul basées sur l’odds ratio sont plus rigoureuses que celles utilisant le risque relatif.
En pratique, le schéma suivant proposé par Cucherat et al. (op.cit.) peut être adopté. Si
le risque de base est faible, l’odds ratio peut être utilisé sans inconvénient majeur, l’estimation
qu’il donne du risque relatif étant satisfaisante. Si le risque de base est élevé (> 0,2), le risque
relatif peut être préféré si le problème est précisément l’estimation de ce paramètre, mais si le
problème est simplement une recherche d’effet, les méthodes basées sur l’odds ratio apportent
l’avantage de leur adéquation statistique. Par ailleurs peu d’arguments existent quant au choix
entre les différentes méthodes décrites pour estimer l’odds ratio commun. Le choix peut, par
exemple, retenir la méthode la plus conservatrice. Une approche pragmatique plus simple peut
aussi être proposée, celle d’utiliser dans un premier temps toutes les méthodes, basées sur un
modèle additif ou multiplicatif utilisant le risque relatif ou l’odds ratio, si cela est possible,
puis de choisir la méthode qui donne le moins facilement des résultats significatifs, c’est à
dire donnant les plus fortes valeurs du degré de signification p. Cette attitude protège contre
une conclusion erronée en faveur d’un effet lié uniquement aux problèmes d’approximation
d’une technique particulière.
En fait, l’interprétation des résultats d’une méta-analyse n’est pas toujours facile. Il
n’est en effet que rarement possible d’estimer tous les indices à partir des essais. Le fait que
les risques de base sont souvent variables d’un essai à l’autre signifie que la différence de
risques et le risque relatif ne peuvent pas être simultanément constants à travers les essais. Si
c’est le risque relatif qui est constant, la différence de risque va varier en fonction du risque de
base et vice versa. Ainsi une différence de risque de 0,2 entraîne un risque relatif de 2 pour un
risque de base de 0,2 mais de 1,5 pour un risque de base de 0,4. Inversemént, si le risque
relatif est 2, un risque de base de 0,2 entraîne une différence de risque de 0,2 alors que pour
un risque de base de 0,4 elle est de 0,4. Or il est nécessaire dans une méta-analyse que la
114
valeur de l’effet traitement soit identique pour tous les essais, pour éviter l’apparition d’une
hétérogénéité. Cette condition ne pouvant être remplie à la fois pour les deux mesures citées
conduit souvent à l’impossibilité d’estimer simultanément ces deux types de mesures.
6. Analyse statistique d’un critère de jugement continu
Lorsque le critère de jugement est une variable continue, la technique de méta-analyse
repose sur la notion d’effet standardisé (effect size). Le modèle statistique utilisé dans cette
situation suppose que les valeurs du critère de jugement dans le groupe expérimental E et dans
le groupe contrôle C suivent une loi normale de moyennes μE et μC respectivement et de
même variance σ². L’effet standardisé δ est défini comme la différence des moyennes divisée
par la déviation-standard commune aux deux groupes,
μE - μC
σ
δ =
L’estimateur d de Cohen de cet effet standardisé est
d =
mE - mC
s
avec mE et mC les moyennes observées et s une estimation de la déviation-standard commune.
Celle-ci est, en notant nE et nC les effectifs des groupes expérimental et contrôle
respectivement,
s=
(nE - 1) s²E (nC - 1) s²C
nE nC - 2
ou
si nE = nC
s=
s²E s²C
2
L’estimateur g de Hedges, estimateur non biaisé de l’effet standardisé est, si N ≥ 12
g = 1-
3
4N- 9
mE - mC
s
avec N = nE + nC
La correction apportée par l’estimateur de Hedges est faible dès que N augmente. Le facteur
correctif est en effet de 0,958 pour N = 20, 0,992 pour N = 100 et 0,999 pour N = 500. Les
variances de ces estimateurs sont respectivement pour d et g
s²d =
N
d²
+
nE nC
2N
et
s²g =
N
g²
+
nE nC
2N
permettant de calculer l’intervalle de confiance de l’effet standardisé par
d ± z sd ou g ± z sg
avec z, valeur d’une variable normale réduite correspondant à une fonction de répartition de
0,975 pour un intervalle de confiance à 95 %. L’effet standardisé est une valeur sans
dimension puisque la différence des moyennes est divisée par la déviation-standard de même
115
unité. Dès lors, tous les effets standardisés, même provenant de mesures différentes, sont
comparables.
L’interprétation de l’effet standardisé peut considérer que cet effet est faible pour δ =
0,2, moyen pour δ = 0,5 et élevé pour δ = 0,8. On peut aussi l’interpréter par le percentile du
groupe contrôle correspondant à la moyenne du groupe expérimental, ou au pourcentage de
non recouvrement entre les scores des deux traitements. Ainsi, la table 57 montre qu’un effet
standardisé de 0,8 implique que la moyenne du groupe expérimental correspond au 79ème
percentile des scores du groupe contrôle et que le pourcentage de non recouvrement des deux
distributions est de 47.
effet standardisé
percentile groupe C
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
1,2
1,4
1,6
1,8
2,0
50
54
58
62
66
69
73
76
79
82
84
88
92
94
96
98
% de non
recouvrement
0
8
15
21
27
33
38
43
47
52
55
62
68
73
77
81
Table 57. Interprétation d’un effet standardisé.
Supposons qu’il existe k essais comparant un traitement expérimental E à un
traitement contrôle C, avec di l’effet standardisé de l’essai i, de variance s²di. L’effet
standardisé commun d* est estimé en appliquant la méthodologie générale décrite plus haut
(§4) avec d* remplaçant θ, c’est-à-dire
k
wi di
*
d =
i 1
avec wi =
k
wi
1
s²di
i 1
L‘intervalle de confiance de cet effet standardisé commun est alors
d* ±
z
k
wi
i 1
116
L’homogénéité des k estimations est vérifiée par
k
Q=
wi (di - d*)²
i 1
qui suit une distribution du χ² à (k-1) degrés de liberté. Si l’homogénéité des essais n’est pas
rejetée, on peut tester l’effet traitement par la statistique z qui suit une distribution normale
réduite
z = d*
k
wi
i 1
On peut noter qu’il est possible d’obtenir la valeur absolue de l’estimation de l’effet
standardisé directement à partir de la valeur de la statistique t d’un test de Student. Cette
relation est intéressante en pratique car toutes les données nécessaires au calcul direct de
l’effet standardisé ne sont pas toujours disponibles.
d=
mE - mC
= t
s
N
nE nC
La table 58 présente les résultats de 5 essais qui comparent un traitement expérimental
E à un traitement contrôle C, en termes de moyenne et de déviation-standard du critère de
jugement.
TRAITEMENT E
essai
effectifs
moyenne
du critère
1
2
3
4
5
100
220
130
80
100
110
145
96
122
98
TRAITEMENT C
déviationstandard
du critère
20
26
20
25
19
effectifs
moyenne
du critère
100
218
130
80
96
103
142
100
120
85
déviationstandard
du critère
18
26
22
29
21
Table58. Résultats de cinq essais comparant deux traitements par les moyennes des critères
de jugement.
Les calculs nécessaires pour réaliser cette méta-analyse sont détaillés dans la table 59.
essai
1
2
3
4
5
Σ
N
200
438
260
160
196
s
19,03
26,00
21,02
27,07
20,00
d
0,367
0,115
- 0,190
0,074
0,647
s²d
0,0203
0,0091
0,0155
0,0250
0,0215
wi
49,17
109,32
64,71
39,97
46,54
309,72
w i di
18,02
12,59
-12,28
2,94
30,13
51,41
Table 59. Calculs nécessaires à l’estimation de l’effet standardisé des essais de la table 58.
Ceux-ci permettent d’estimer l’effet standardisé
117
d* =
51,41
= 0,166
309,72
et son intervalle de confiance à 95 %
0,166 ±
1,96
309,72
= [0,055 ; 0,277]
On peut tester l’homogénéité des essais par
Q = 49,17 (0,367 - 0,166)² + 109,32 (0,115 - 0,166)² + 64,71 (-0,190 - 0,166)²
+ 39,97 (0,074 - 0,166)² + 46,54 (0,647 - 0,166)² = 21,57
statistique qui, comparée à une table de la distribution du χ² à (5-1) degrés de liberté dont la
valeur est 9,49 pour une probabilité de 0,975 (α = 0,05), rejette l’homogénéité des différents
essais, avec p < 0,001. De plus, l'index d'hétérogénéité est, en pourcentage,
I2 =
100 ( 21,57 - 5 1)
= 81,5
21,57
Il n’y a donc pas lieu de tester l’effet traitement comme tel, en tout cas pas en utilisant le
modèle fixe. On peut soit procéder à l’analyse de cette hétérogénéité et rechercher des
facteurs explicatifs, soit considérer le modèle aléatoire à la place du modèle fixe. Néanmoins,
si on admettait l’homogénéité des essais, la statistique du test de l’effet traitement serait
z = 0,166
309 ,72 = 2,92
7. Analyse statistique d’un critère de jugement mixte
Il est parfois nécessaire de regrouper des variables de type quantitatif avec des
variables binaires. Par exemple, l’effet d’un traitement antihypertenseur peut être évalué en
comparant entre le groupe expérimental et le groupe contrôle, soit la moyenne de la pression
artérielle, soit la proportion de sujets qui ont leur pression artérielle maintenue en dessous
d’un certain seuil. Dans le premier cas, l’effet du traitement se mesure par un effet
standardisé, dans le second par une différence de risques, un risque relatif ou un odds ratio.
Pour combiner ces deux types de mesures il est nécessaire de convertir l’une de ces deux
mesures en une grandeur comparable à l’autre. Un odds ratio peut être converti en une
grandeur comparable à un effet standardisé δ ou inversement par les relations
δ =
3 Log(OR)
π
et
OR = exp
π
3
mE - mC
s
Si le but de la méta-analyse est uniquement de tester un éventuel effet traitement, on
peut également combiner les degrés de signification pi des différents essais, qui sont tous le
reflet d’une même hypothèse nulle, très générale et envisagée dans chaque essai, celle que le
traitement expérimental n’est pas différent du traitement contrôle. Dans la combinaison des
118
degrés de signification, l’hypothèse nulle, appelée souvent dans ce cas hypothèse omnibus,
est que l’effet traitement n’existe dans aucun des essai, l’hypothèse alternative que dans au
moins un essai l’effet du traitement n’est pas nul. Il s’agit donc autant d’un test
d’homogénéité des essais que d’un test de l’absence de l’effet traitement. La portée limitée de
ses conclusions restreint l’intérêt de cette procédure.
La distribution des degrés de signification pi sous l’hypothèse nulle est uniforme sur
l’intervalle [0,1]. Parmi les différents tests qui dérivent de cette propriété, on peut citer le test
de Fisher, dont la statistique est
χ² =
k
[ - 2 Log (pi) ]
i 1
et suit sous l’hypothèse nulle omnibus une distribution du χ² à (2k) degrés de liberté, ou le test
z de la moyenne des valeurs p, dans laquelle la quantité
k
1
z = 12 k
–
pi k
2
i 1
est distribuée comme une variable normale réduite.
Supposons par exemple une méta-analyse regroupant 5 essais comparant un nouveau
traitement E à un traitement classique C. Les données ne permettent pas d’estimer un effet
traitement, et seuls les résultats des tests statistiques sont disponibles et reproduits dans la
table 60 montrant un essai numéro 5 avec une valeur p voisine de la signification statistique.
résultats des
tests statistiques
p = 0,542
p = 0,235
p = 0,322
p = 0,373
p = 0,072
essai
1
2
3
4
5
Table 60. Résultats des tests statistiques de cinq essais, sous forme de valeur p.
Les statistiques des deux tests décrits sont
χ² = – 2 Log(0,542) – 2 Log(0,235) – 2 Log(0,322) – 2 Log(0,373) – 2 Log(0,072) = 13,62
et z = 12 x 5
1 0,542
–
2
0,235
0,322
5
0,373
0,072
= 1,48
correspondant à des valeurs p non significatives de 0,191 et 0,139 respectivement, ne
permettant pas de rejeter l’hypothèse omnibus d'absence d'effet traitement.
8. Représentation graphique des résultats d’une méta-analyse
Les résultats d’une méta-analyse sont classiquement représentés par un graphique en
119
ligne (forest plot), comme illustré sur la figure 25, décrivant une méta-analyse de l’effet de
l’acétylcystéine dans la prévention de la néphropathie induite par les produits de contraste
utilisés en angiographie (Bagshaw & Ghali, BMC Med., 2004, 2, 38). Les effets traitements
de chaque essai sont représentés sous la forme de carrés, prolongés par leur intervalle de
confiance à 95% sous la forme d’un trait horizontal. La contribution relative de chaque essai
au résultat global est aussi représentée, d’une part, sous forme chiffrée par le poids relatif de
chaque essai et, d’autre part, sous forme graphique, la taille du carré étant proportionnelle au
poids de l’essai. L’effet commun est représenté en bas de la figure, par un losange ou diamant
dont la longueur représente l’intervalle de confiance. L’échelle du graphique dessinée en bas
dépend de la mesure de l’effet traitement, différence de risques, risque relatif, odds ratio ou
effet standardisé. Un trait vertical continu matérialise l’absence d’effet traitement. Pour une
représentation utilisant la différence de risque ou l’effet standardisé, l’absence d’effet
traitement a lieu pour la valeur 0. Cette absence d’effet correspond par contre à la valeur 1
pour le risque relatif ou l’odds ratio. Ce trait vertical permet de positionner les effets
traitements de chaque essai et de la méta-analyse en termes d’effet bénéfique à gauche du trait
vertical et d’effet délétère à droite du trait vertical, ou l’inverse selon le critère choisi. Leur
degré de signification statistique peut être aussi directement visible. Si l’intervalle de
confiance coupe ce trait vertical, c’est à dire englobe la valeur caractérisant l’absence d’effet
(0 ou 1), le résultat n’est pas statistiquement significatif. Par contre, si l’intervalle de
confiance est complètement détaché de ce trait vertical, le résultat est statistiquement
significatif, comme sur la figure 25.
Figure 25. Exemple de graphique en ligne.
Lorsque les risques relatifs et les odds ratios sont représentés sur une échelle linéaire,
leurs intervalles de confiance sont dissymétriques, c’est à dire que leur bras droit est plus long
que leur bras gauche. Cette propriété provient de ce que l’intervalle de confiance du risque
relatif ou de l’odds ratio est habituellement déduit de celui de son logarithme. Si celui-ci est
symétrique, celui de son exponentielle ne l’est plus. L’échelle linéaire entraîne un autre
inconvénient. Des odds ratios de ½ et de 2 sont symétriques par rapport à l’absence d’effet,
puisqu’ils représentent une division ou une multiplication par 2 du risque de base de 1.
Cependant, sur une échelle linéaire, la valeur 2 sera plus éloignée de 1 que la valeur ½. Pour
120
supprimer cet inconvénient, on peut adopter, pour les risques relatifs et les odds ratios, une
échelle logarithmique qui symétrise les intervalles de confiance et rétablit la proportionnalité
des distances. Ainsi, dans l’exemple ci-dessus, les valeurs de ½ et 2 non symétriques de 1 sur
l’échelle linéaire deviendront (- 0,693) et (+ 0,693) symétriques de 0 au contraire sur l’échelle
logarithmique.
9. Détection d’un biais de publication
Il existe des techniques permettant de rechercher et éventuellement de quantifier un
biais de publication, bien que les conclusions de ces méthodes ne soient jamais certaines et
restent purement indicatives.
Une méta-analyse peut être considérée comme un phénomène d’échantillonnage
aléatoire au sein de l’ensemble de tous les résultats possibles obtenus avec l’effet traitement
tel qu’il est. Le résultat d’un essai est alors une estimation de l’effet traitement, soumise aux
fluctuations aléatoires d’échantillonnage, et donc tous les résultats observés sont distribués
autour du vrai effet traitement selon une loi normale. S’il n’existe aucune sélection
systématique à la publication, l’ensemble des résultats publiés devra donc suivre la
distribution d’échantillonnage d’une variable normale, centrée sur la valeur du vrai effet
traitement. Ainsi si le nombre de points est relativement important, l’histogramme de la
distribution doit être symétrique et d’allure normale. En cas de biais de publication, la
distribution de l’échantillon est donc tronquée et l’histogramme est dissymétrique. Cependant
lorsque la mesure de l’effet traitement est un risque relatif ou un odds ratio, la distribution de
ces mesures est en fait naturellement dissymétrique et, pour vérifier sa symétrie supposée,
l’histogramme doit être réalisé avec les logarithmes du risque relatif ou de l’odds ratio.
Figure 26. Exemple de graphe en entonnoir montrant les résultats significatifs (points noirs)
et non significatifs (points blancs).
Un biais de publication peut aussi être identifié par un graphique en entonnoir
(funnel plot) qui consiste à représenter, pour chaque essai, la valeur estimée de l’effet
traitement (en abscisse) en fonction de la taille de l’échantillon ou d’une mesure de sa
121
précision comme la déviation-standard de l’effet traitement (en ordonnée). En l’absence de
biais de publication, les différentes estimations vont se répartir de façon homogène et
symétrique autour de la vraie valeur de l’effet traitement, les estimations qui correspondent
aux études de plus faible effectif variant autour de cette valeur avec une plus grande
amplitude que celles qui comportent les plus grands effectifs. Ainsi, la figure 26 montre une
étude de simulation réalisée avec un odds ratio de 1,5 et des tailles d’effectif différentes, les
point noirs représentant les résultats significatifs au niveau α = 0,05 et les points blancs les
résultats non significatifs (Phillips, BMC Med. Res. Methodol., 2004, 4, 20). En l’absence de
biais de publication, ce graphique apparaîtra comme sur la figure 27, évoquant un entonnoir,
alors qu’en présence de biais ne rapportant que les résultats significatifs, l’image deviendra
celle de la figure 28, avec une amputation d’une partie de l’entonnoir.
Enfin, il existe des méthodes permettant de quantifier la probabilité d’existence d’un
biais de publication dans une méta-analyse, mais elles nécessitent un grand nombre d’essais
pour être fiables.
Figure 27. Graphe en entonnoir de la figure 26 en l’absence de biais de publication.
122
Figure 28. Graphe en entonnoir de la figure 26 en présence de biais de publication.
* * *
123
CHAPITRE 6
STATISTIQUE EN
BIOCHIMIE CLINIQUE
1. Détermination de valeurs de référence
2. Contrôle de qualité interne
3. Contrôle de qualité externe
4. Stabilité des produits pharmaceutiques
1. Détermination de valeurs de référence
Les valeurs de référence sont définies par l’intervalle entre deux percentiles,
habituellement au laboratoire de biochimie et en médecine, les 2,5ème et 97,5ème percentiles,
délimitant ainsi un intervalle de référence à 95 %. Le terme de valeurs normales souvent utilisé
devrait être banni, pour plusieurs raisons. D’abord il suppose que les valeurs en-dehors de
l’intervalle de référence sont des valeurs anormales, donc pathologiques. Cette logique implique
dès lors que, en considérant par exemple les valeurs de référence du nombre de globules rouges
par mm³, 2,5 % des sujets sont anémiques et 2,5 autres polyglobuliques! Par ailleurs le terme de
valeurs normales suggère que ces valeurs sont obtenues en modélisant les données par une
distribution normale, ce qui est certes souvent le cas mais n’est en aucune manière obligatoire. La
normalité au sens médical, c’est-à-dire l’état non pathologique, ne doit pas être confondue avec la
normalité au sens statistique, c’est-à-dire en rapport avec une distribution de Laplace-Gauss.
La population chez laquelle on mesure les valeurs de référence d’un nouveau dosage
biologique doit être une population saine, ne présentant aucune caractéristique ou habitude
particulière (alimentaire, comportementale,…) qui pourrait influencer son résultat. On y associe
habituellement des critères d’exclusion tels que l’absence d’affection chronique, l’absence de
maladie ayant entraîné un alitement les 15 jours précédant le dosage, ainsi que dans les dernières
48 heures l’absence de prise médicamenteuse, d’absorption d’alcool et une consommation de
tabac limitée à 50 cigarettes.
L’approche paramétrique de la détermination des valeurs de référence suppose
habituellement que les résultats suivent une distribution normale. Si la moyenne et la déviationstandard des dosages sont respectivement m et s, les limites de référence inférieure et supérieure
pour un intervalle de référence à 95 % sont alors
lim inf = m - 1,96 s
et
lim sup = m + 1,96 s
25
20
15
10
5
2
4
6
Figure 29. Histogramme de données dissymétriques aplaties à droite.
125
Si les données ne suivent pas une distribution normale, ce qui peut être étudié par une simple
représentation graphique, une transformation peut être utilisée pour normaliser ou tenter de
normaliser les résultats. Pour des données dissymétriques aplaties à droite, telles que les données
simulées de la figure 29 (N = 200, distribution gamma) des transformations simples telles que la
racine carrée ou la fonction logarithmique peuvent être suffisantes,
y=
x
ou
y = Log (x)
Les figures 30 et 31 illustrent ces deux transformations pour les données de la figure 29.
20
25
20
15
15
10
10
5
5
0
0,5
1,0
1,5
2,0
2,5
-2,0
-1,0
0,0
1,0
Figures 30 et 31. Histogrammes de la distribution des données de la figure 29, après
transformation racine carrée (à gauche) et logarithmique (à droite).
Parmi les autres transformations proposées pour corriger la dissymétrie, on peut citer la
transformation exponentielle de Manly, recommandée par la Fédération Internationale de
Chimie Clinique (IFFC, International Federation of Clinical Chemistry)
exp( x) - 1
0
y
x
0
le paramètre γ étant estimé par les moments centrés mr autour de la moyenne m
γ ≈
6 m3
(3 m2² - 7 m4 )
avec mr =
ou
1
n
γ ≈
n
2 m3
3 (m2² - m4 )
( xi - m ) r
i 1
126
Si la distribution est symétrique ou a été rendue telle par une transformation précédente, le
curtosis (ou kurtosis) peut être supprimé ou réduit par la transformation sinus hyperbolique
inverse
y = sinh-1(x) = Log ( x +
x² 1 )
L’application de la transformation exponentielle de Manly aux données de la figure 29 est
représentée à la figure 32. La transformation sinus hyperbolique inverse de ces données
transformées est illustrée par la figure 33.
15
15
10
10
5
5
0
0
1,0
2,0
3,0
4,0
0,5
1,0
1,5
2,0
2,5
Figures 32 et 33. Histogrammes de la distribution des données de la figure 29, après
transformation exponentielle de Manly (à gauche) et sinus hyperbolique inverse après cette
dernière (à droite).
D’autres transformations ont été décrites, mais elles comprennent souvent un ou plusieurs
paramètres dont l’estimation n’est pas explicite. Par ailleurs, pour toutes les fonctions décrites,
l’estimation des percentiles est obtenue par la transformation inverse de la moyenne et de la
déviation-standard de la variable transformée vers l’échelle originale.
En l’absence d’une transformation permettant de normaliser la distribution des données,
une approche non paramétrique peut être utilisée. La méthode la plus simple consiste à classer les
n résultats par ordre croissant et à définir le pème percentile par la valeur dont le rang est égal à
p (n 1)
100
Lorsque le rang ainsi calculé n’est pas un nombre entier, une interpolation est utilisée.
En ce qui concerne le nombre de sujets nécessaire pour estimer un intervalle de
127
référence, les avis divergent mais une centaine de cas semble un minimum indispensable. Il faut
également tenir compte des sous-groupes possibles pour lesquels les valeurs de référence seront
différentes, tels que le sexe, la classe d’âge ou l’ethnie. Une règle empirique est de considérer
séparément les intervalles de référence de deux sous-groupes si la différence entre leurs
moyennes est au moins 25 % de l’intervalle de référence à 95 % du groupe combiné.
2. Contrôle de qualité interne
Au laboratoire, il est indispensable que les dosages soient exacts et précis. Cela peut se
vérifier en dosant à intervalles réguliers un échantillon étalon comprenant la même concentration
de la substance étudiée. En admettant que les résultats soient indépendants et suivent une
distribution normale de moyenne µ et de variance ² constante au cours du temps, le contrôle de
qualité peut être réalisé par des cartes de contrôle de Shewhart, utilisées dans l’industrie, et
rebaptisées ultérieurement par les biologistes cartes de Levey-Jennings. La carte de contrôle est
un graphique représentant l’évolution du dosage en fonction du temps, ainsi que les limites de
contrôle entre lesquelles le dosage peut varier, son but étant de tester si le résultat de chaque
dosage est dans les limites prévues. Le graphique comprend donc une ligne centrale
correspondant à la moyenne, qui peut être une valeur cible fixe µ ou la moyenne estimée sur les
premiers échantillons m ou x lorsque le processus est supposé sous contrôle, et une ou plusieurs
limites inférieures et supérieures d’ordonnée fonction de la déviation-standard théorique ou
observée sous contrôle s
µ±k
ou
m±ks
Une carte de contrôle se comporte comme un test statistique d’hypothèse, les limites de
contrôle délimitant des régions d’acceptation et de rejet du test. Si le résultat observé est à
l’intérieur des limites, on en déduit que le processus est toujours sous contrôle, si le résultat est
en-dehors des limites on conclut qu’il ne l’est plus. Comme pour un test statistique, il y a donc
deux risques d’erreur possibles, le risque de première espèce ou risque α, et le risque de deuxième
espèce ou risque β. Le risque α est celui de la fausse alarme, le risque β celui de l’absence
d’alarme. La fréquence des erreurs est influencée par le choix du paramètre k. Si celui-ci est
grand, le risque de fausse alarme est faible mais celui d’absence d’alarme est élevé. Si le
paramètre k est petit, c’est évidemment la situation inverse qui est observée. Habituellement k =
3, entraînant un risque α de 0,003 ou 0,3 %. On ajoute souvent aux limites de contrôle, des
limites de surveillance situées à des distances plus faibles de la valeur centrale que les limites de
contrôle, souvent avec k = 2. Les figures 34 à 37 (Bakes-Martin, Quality Assurance. In:
Anderson & Cockayne, Clinical Chemistry. Concepts and Applications, Saunders, Philadelphia,
1993: 38-71) montrent des cartes de Levey-Jennings avec les limites suivantes:
- limite de contrôle inférieure
m–3s
- limite de surveillance inférieure
m–2s
- ligne centrale
m
- limite de surveillance supérieure
m+2s
- limite de contrôle supérieure
m+3s
Elles illustrent la précision correcte d’un dosage (figure 34), son imprécision (figure 35), une
dérive progressive (figure 36) et un changement brutal (figure 37).
128
Figure 34. Carte de Levey-Jennings montrant la précision correcte d’un dosage.
Figure 35. Carte de Levey-Jennings montrant l’imprécision d’un dosage.
Figure 36. Carte de Levey-Jennings montrant la dérive progressive d’un dosage.
129
Figure 37. Carte de Levey-Jennings montrant le changement brutal de la valeur d’un dosage.
La détection d’une dérive ne se limite en général pas à la survenue d’un résultat en dehors
des limites de contrôle. On y ajoute souvent des règles d’apparition de séquences qui ont peu de
chances d’être observées si le processus est sous contrôle. Ainsi on décrit plusieurs ensembles de
règles, comme les règles de Western Electric (Western Electric rules) utilisées surtout dans
l’industrie et les règles de Westgard communes en biochimie clinique.
REGLES DE WESTERN ELECTRIC
1 point en dehors des limites de contrôle à ± 3
2 points sur 3 consécutifs en dehors des limites à ± 2
4 points sur 5 consécutifs en dehors des limites à ± 1
8 points consécutifs du même côté de la ligne centrale
Table 61. Régles de Western Electric pour cartes de contrôle.
REGLES DE WESTGARD
REJET
1 point en dehors des limites de contrôle à ± 3
2 points consécutifs en dehors des limites à ± 2
ALARME 1 point en dehors des limites à ± 2
► REJET
si
4 points consécutifs du même côté en dehors des limites à ± 1
ou
différence entre 2 points consécutifs > 4
ou
10 points consécutifs du même côté de la ligne centrale
Table 62. Régles de Westgard pour cartes de contrôle.
130
3. Contrôle de qualité externe
Le principe du contrôle de qualité externe est de fournir un même échantillon étalon à
différents laboratoires pour vérifier que les dosages de chacun d’entre eux ne s’écartent pas de la
vraie valeur ou des résultats des autres de manière significative. Plusieurs approches sont
possibles pour tester ainsi le résultat du dosage d’un laboratoire, qui peut être comparé soit à
l’ensemble des résultats des autres laboratoires, soit à une valeur cible avec un écart maximal fixe
ou basé sur la variabilité biologique.
La première approche consiste à comparer le résultat x à l’ensemble des autres
laboratoires. Le score z utilise la moyenne m et la déviation-standard s de l’ensemble des
laboratoires
z =
x-m
s
La méthode déclare un résultat hors-limites si
z
3
avec, si la distribution est normale,une probabilité de 0,003. On conclut à un résultat aberrant si
z
4
ce qui survient 6 fois sur 100000. La méthode de Tukey est une approche non paramétrique qui
utilise les 25ème et 75ème percentiles pour définir
- une limite externe inférieure
P25 – 3 (P75 – P25)
- une limite interne inférieure
P25 – 1,5 (P75 – P25)
- une limite interne supérieure
P75 + 1,5 (P75 – P25)
- une limite externe supérieure
P75 + 3 (P75 – P25)
Le résultat est alors déclaré acceptable s’il est compris entre les limites internes inférieure et
supérieure, douteux s’il se situe entre les limites externe et interne inférieures, ou interne et
externe supérieures, et enfin aberrant s’il est plus petit que la limite externe inférieure ou plus
grand que la limite externe supérieure.
La seconde approche utilise une valeur cible µ et considère le résultat comme inacceptable
si
100
x-
> d
L’écart maximal d peut être une valeur fixe, déterminée pour chaque substance dosée. Ainsi, pour
le glucose, d = 10 % aux Etats-Unis, 14 % en Belgique, 15 % en Allemagne et 20 % en France
(Albert, Méthodes statistiques appliquées à l’évaluation externe de la qualité des laboratoires de
biologie clinique, 1996). Cet écart peut aussi être basé sur la variabilité biologique en utilisant les
coefficients de variation intra-individuel CVI et inter-individuel CVG, exprimés en pourcentages
131
d=
3,3 CVI
CVI² CVG²
4
Ainsi, sur base de certaines études, les coefficients de variation intra-individuel et inter-individuel
des dosages de glucose sont 7,6 % et 12,4 % respectivement, ce qui détermine l’écart maximal
d=
(3,3 x 7,6)
(7,6)²
4
(12,4)²
= 9,91
proche de l’écart fixe utilisé aux Etats-Unis.
4. Stabilité des produits pharmaceutiques
Les produits pharmaceutiques se dégradent avec le temps et une substance est considérée
comme stable tant que sa concentration est d’au moins 90 % de la concentration initiale. Cette
limite de stabilité doit donc être connue pour garantir l’efficacité du médicament. Cela est
particulièrement important pour les produits injectables qui sont en général reconstitués en
mélangeant un principe actif avec un soluté pour injection ou perfusion, et dont la période de
stabilité est généralement relativement courte.
La méthodologie habituelle d’évaluation de cette stabilité consiste à mesurer les
concentrations successives de 5 échantillons au cours du temps, 3 au minimum pour
l’administration américaine des denrées alimentaires et des médicaments (FDA, Food and Drug
Administration). L’analyse statistique des résultats utilise le modèle de régression linéaire
yij =
i
+ βi xij +
ij
avec yij la concentration de l’échantillon i au temps j, xij le temps correspondant à cette mesure,
i l’effet de l’échantillon i, βi la pente de la droite de régression de l’échantillon i et ij l’erreur
aléatoire de la concentration yij. On ajuste les droites de régression de chaque échantillon et on
compare les pentes des différentes droites. Si celles-ci ne sont pas statistiquement différentes, et
l’administration américaine exige p > 0,25 pour conclure à cette absence de différence, on estime
la pente commune et on teste si elle est significativement différente de 0. Dans ce cas, on peut
calculer l’intervalle de confiance de cette droite. La substance active est dès lors considérée
comme stable tant que la limite unilatérale inférieure de confiance à 95 % de l’estimation (donc
la limite bilatérale inférieure à 90 %) reste au-dessus de 90 % de la concentration initiale. Si la
comparaison des pentes entraîne p < 0,25, seuil fixé par l’administration américaine mais
discutable, on peut, soit porter un jugement d’équivalence des échantillons et estimer une pente
commune comme ci-dessus, soit plutôt conclure à une différence et estimer deux ou plusieurs
pentes selon le regroupement des droites similaires et ne considérer ensuite que la pente la plus
forte pour estimer la limite inférieure la plus basse et donc le délai de stabilité le plus court. Les
figures 38 et 39 montrent les résultats d’une étude de stabilité de la ceftriaxone en solution,
congelée pendant 14 semaines puis décongelée au four à micro-ondes (Hecq et al., Eur. J. Hosp.
Phar. Sci., 2006, 12, 52-56). La figure 38 détaille les concentrations mesurées ainsi que les
132
Figure 38. Concentrations mesurées de 5 échantillons de ceftriaxone en fonction du temps (jours)
avec estimation des droites de régression de chaque échantillon.
120
115
110
105
100
95
90
85
80
0
10
20
30
40
50
60
Figure 39. Concentrations mesurées de 5 échantillons de ceftriaxone en fonction du temps (jours)
avec estimation de la droite de régression commune et de son intervalle de confiance bilatéral à
90 %.
133
droites de régression de chaque échantillon, dont les pentes ne diffèrent pas entre elles de façon
significative (p = 0,883), et la figure 39 illustre la droite de régression commune, de pente
significativement différente de 0 (p < 0,001) et dont la limite unilatérale inférieure de confiance
à 95 % est de 89,96 soit 90 % à 51 jours, permettant de déterminer cette période comme limite de
stabilité.
* * *
134
CHAPITRE 7
PARADOXES, BIAIS ET
PROBLEMES DIVERS
1. Analyse des résultats et normalité des distributions
2. Analyse des résultats et appariement
3. Paradoxe de Simpson
4. Corrélation avec couplage mathématique
5. Régression vers la moyenne
6. Estimation subjective d’une probabilité
1. Analyse des résultats et normalité des distributions
L’analyse des résultats d’une étude fait appel à des tests statistiques dits paramétriques
on non paramétriques selon qu’ils exigent que la distribution de la variable suive ou non une
distribution spécifiée, habituellement la distribution normale de Laplace-Gauss. Un test
paramétrique donne donc théoriquement un résultat faux lorsqu’il est appliqué à une variable
qui ne suit pas une distribution normale, et ce d’autant plus que la distribution s’éloigne de
celle-ci. Néanmoins tous les tests paramétriques ne sont pas également sensibles à la nonnormalité, et on appelle robustesse d’un test sa capacité à rester acceptable en pratique quand
on s’éloigne de ses conditions théoriques de validité. Il y a par ailleurs plusieurs types de nonnormalité, et la forme la plus grave du point de vue de l’emploi des tests paramétriques paraît
être l’asymétrie extrême et la bimodalité. Une distribution unimodale et symétrique est
rarement un problème pour la condition de normalité d’un test paramétrique, d’autant plus
que le nombre d’observations est élevé. Il est cependant impossible de fixer un nombre audelà duquel on peut faire abstraction de la forme de la distribution, car cette limite dépend du
degré de non-normalité.
Il existe des tests de normalité que l’on peut être tenté d’utiliser pour justifier l’emploi
on non d’un test paramétrique. Cette démarche est en réalité absurde car ces tests sont peu
sensibles si les effectifs sont peu nombreux, et au contraire vont rejeter presque toujours
l’hypothèse de normalité quand ils sont appliqués à de grands échantillons. Dès lors la
démarche aboutit au paradoxe suivant: la probabilité de rejeter l’hypothèse de normalité, et
donc l’emploi d’un test paramétrique, est d’autant plus grande que les observations sont plus
nombreuses, c’est-à-dire dans les cas où la non-normalité est la moins gênante. Si la
distribution de la variable est fort éloignée d’une distribution normale, un effectif faible ne
permettra pas de rejeter l’hypothèse de normalité et on sera tenté d’utiliser à tort un test
paramétrique, un effectif élevé rejettera cette hypothèse et on sera alors tenté de ne pas utiliser
le test paramétrique, également à tort puisque l’effectif élevé permet en pratique de faire
abstraction de la normalité.
La seule attitude logique consiste à vérifier graphiquement l’allure de la distribution
pour décider de l’emploi ou non d’un test paramétrique, et éventuellement de transformer la
variable par les méthodes décrites précédemment pour la détermination de valeurs de
référence, si on souhaite malgré tout utiliser une méthode paramétrique.
2. Analyse des résultats et appariement
Les tests statistique de comparaison, par exemple de proportions ou de moyennes,
qu’ils soient paramétriques on non paramétriques, existent souvent dans deux versions,
applicables, d’une part, à des échantillons dans lesquels les groupes sont indépendants, et,
d’autre part, à des échantillons où les données sont appariées. Cette condition d’indépendance
ou d’appariement doit toujours être respectée sous peine de conclusion erronée.
Supposons que l’on étudie l’effet d’une nouvelle substance A sur la glycémie de
patients diabétiques. On dispose des glycémies de 5 sujets avant et après traitement, décrites
dans la table 63. Le médicament semble assez efficace puisque la glycémie diminue chez tous
les sujets, et ce de façon assez uniforme. Supposons que l’on essaie alors chez ces patients
une seconde substance B. Les glycémies avant traitement sont identiques, mais après
traitement on observe les résultats présentés dans la table 64. Au vu de la différence entre les
136
SUJET
1
2
3
4
5
GLYCEMIE AVANT
TRAITEMENT
1,8
2,2
2,8
1,5
2,9
GLYCEMIE APRES
TRAITEMENT
1,4
1,8
2,5
1,4
2,7
DIFFERENCE
(AVANT - APRES)
0,4
0,4
0,3
0,1
0,2
Table 63. Glycémies avant et après traitement de sujets traités par un médicament A.
SUJET
1
2
3
4
5
GLYCEMIE AVANT
TRAITEMENT
1,8
2,2
2,8
1,5
2,9
GLYCEMIE APRES
TRAITEMENT
1,4
2,7
1,4
2,5
1,8
DIFFERENCE
(AVANT - APRES)
0,4
- 0,5
1,4
- 1,0
1,1
Table 64. Glycémies avant et après traitement de sujets traités par un médicament B.
glycémies avant et après traitement, l’efficacité de ce deuxième médicament semble douteuse.
Or, l’application d’un test de comparaison de moyennes pour échantillons indépendants, tels
que le test z ou le test t de Student par exemple, aboutirait à une conclusion identique pour les
deux substances puisque les 5 glycémies après traitement considérées globalement sont
exactement les mêmes dans les deux situations. On négligerait alors le fait que chacune des
glycémies après traitement correspond en réalité à une mesure avant traitement bien précise et
n’est donc pas un échantillon aléatoire d’une population traitée par la substance A ou B. Le
test utilisé doit donc tenir compte de l’appariement.
3. Paradoxe de Simpson
Le paradoxe de Simpson est une conséquence de l’omission d’une variable dans la
relation entre deux autres. Supposons un essai clinique comparant deux traitements A et B en
termes de succès ou d’échecs, avec les résultats de la table 65.
Table 65. Paradoxe de Simpson: comparaison globale des traitements A et B.
137
Le traitement B semble un peu supérieur au traitement A, avec 80 et 77 % de succès
respectivement. Si nous nous intéressons aux résultats pour le sexe masculin, nous obtenons
les données de la table 66.
Table 66. Paradoxe de Simpson: comparaison des traitements A et B dans le sexe masculin.
Le traitement A est supérieur au traitement B, 93 versus 86 %. Dès lors, si B est globalement
supérieur mais que A est meilleur chez l’homme, on peut logiquement s’attendre à l’inverse
chez la femme et y constater une supériorité du traitement B.
Table 67. Paradoxe de Simpson: comparaison des traitements A et B dans le sexe féminin.
Les données de la table 67 pour le sexe féminin montrent en fait le contraire et le traitement A
y est supérieur au traitement B, 71 et 62 % respectivement. La conclusion apparente est donc
que le traitement A est supérieur au traitement B chez l’homme et chez la femme, mais est
globalement inférieur ! Ce résultat absurde est appelé paradoxe de Simpson et survient quand
deux conditions sont réunies, une répartition déséquilibrée d’une variable entre les groupes, et
un impact différent de cette variable sur le résultat. Dans l’exemple, 86 hommes et 264
femmes reçoivent le traitement A, soit 25 et 74 % de chaque groupe thérapeutique, versus 260
et 90 pour le traitement B, c’est-à-dire 75 et 26 %. De plus, les traitements sont globalement
plus efficaces chez l’homme que chez la femme, avec 88 versus 69 %. En fait, la simple
arithmétique montre que
a c
t x
et
b d
u y
n’implique pas nécessairement que
a t c x
b u d y
138
soit dans l’exemple 0,93 > 0,86 et 0,71 > 0,62 mais 0,77 < 0,80.
Le paradoxe de Simpson illustre le danger d’additionner des sous-groupes définis par
une caractéristique particulière et donc justifie la nécessité de tenir compte d’un facteur de
confusion dans une étude épidémiologique, d’utiliser la technique de stratification ou de
minimisation pour des variables potentiellement pronostiques dans un essai clinique ou encore
d’éviter de sommer simplement les résultats d’une méta-analyse.
4. Corrélation avec couplage mathématique
La recherche d'une corrélation entre deux variables suppose que les mesures de cellesci soient indépendantes et qu'il n'y ait pas de corrélation artificielle induite par la simple
définition des variables que l'on compare. Ce couplage mathématique survient lorsque l'on
compare par exemple la valeur initiale d'une variable avec une modification de celle-ci. Si Xl
et X2 représentent un paramètre mesuré avant et après traitement, et que l'on souhaite étudier
si l'amélioration de ce paramètre est liée à sa valeur initiale, la corrélation entre Xl et (X2-X1)
est une corrélation artificielle sans valeur puisque la présence de X1 de chaque côté de la
comparaison rend la corrélation automatique quelle que soit la valeur de X2. Les données des
variables X, Y et Z de la table 68, par exemple, sont des nombres au hasard, simulés
indépendamment par une distribution uniforme sur l'intervalle [0 ; 1000]. Leurs coefficients
X
687
464
987
696
15
451
381
463
313
870
123
778
175
859
422
Y
31
734
268
255
144
228
510
885
88
785
894
647
436
246
844
Z
93
368
13
411
171
7
1
653
928
410
26
463
541
822
399
Table 68. Nombres au hasard simulés par une distribution uniforme.
de corrélation 2 à 2 sont donc théoriquement 0, avec les coefficients observés
rx,y = - 0,081
rx,z = 0,084
ry,z = 0,010
Si l'on considère par contre les corrélations entre chaque différence et un des deux termes de
la différence, par exemple X avec (X - Y) ou Y avec (X - Y), les coefficients calculés sont
139
X-Y
X-Z
Y-Z
X
0,718
0,665
Y
- 0,752
0,713
Z
- 0,688
- 0,694
X+Y
- 0,056
X+Z
Y+Z
- 0,028
0,028
Table 69. Coefficients de corrélation entre X, Y, Z, leurs différences et leurs sommes.
élevés et proches de leur coefficient théorique, comme le détaille la table 69. On peut montrer
en effet que, si X et Y sont des variables indépendantes de même variance, le coefficient de
corrélation entre X et (X - Y) est
1
0,707
2
Une solution à ce problème, connue sous le nom de méthode de Oldham, consiste à
tester l'hypothèse d'une corrélation, non pas entre X et (X - Y) mais entre (X + Y) et (X - Y),
car, si X et Y sont des variables indépendantes de même variance, le coefficient de corrélation
théorique entre (X + Y) et (X - Y) est nul. La table 69 détaille ces coefficients observés pour
les données de la table 68, lesquels sont effectivement proches de 0 pour les trois corrélations
possibles.
5. Régression vers la moyenne
Le phénomène de régression vers la moyenne survient lorsque l'on étudie les
modifications d'une variable, par exemple avant et après traitement, et que l'amélioration
apparente de la mesure finale résulte des fluctuations de la valeur initiale ou de ses
conséquences. Supposons que dans un essai clinique sur l'hypertension artérielle on incorpore
tous les sujets chez qui on diagnostique une tension artérielle supérieure à 15. La tension
artérielle étant un phénomène qui peut varier significativement d'un moment à l'autre, on peut
très facilement recruter des patients avec une tension artérielle supérieure à 15 au moment de
l’inclusion dans l’essai mais qui ont habituellement des valeurs inférieures à 15. Globalement,
cette différence entre les mesures n'existe pas dans la population générale car les variations
dans le sens négatif équilibrent celles dans le sens positif. Au contraire, dans la situation
décrite de l'essai sur l'hypertension, les patients qui ont une tension artérielle supérieure à leur
valeur habituelle ne seront pas compensés par ceux dont la tension artérielle est inférieure à
leur valeur habituelle, puisque ces sujets ne seront évidemment pas considérés comme
hypertendus et donc non incorporés dans l'essai. Ce biais dit de régression vers la moyenne
entraînera donc dans ce cas une amélioration apparente mais non réelle de la tension artérielle
quel que soit le traitement étudié. Il peut d'ailleurs être perçu à tort comme un effet placebo,
cet effet placebo apparent combinant alors en réalité l'effet placebo vrai et l'effet de régression
vers la moyenne.
Le phénomène de régression vers la moyenne survient lorsque la sélection d’un sujet
pour une étude résulte de l’application d’une valeur seuil d’un paramètre, et que l’une ou
plusieurs des circonstances suivantes sont présentes:
1) Quand le paramètre mesuré est soumis à de fortes fluctuations biologiques, comme la
tension artérielle, variable d'un jour à l'autre et même d'un moment à l'autre;
2) Quand la mesure du paramètre est difficile ou subjective et donc fréquemment erronée;
140
3) Quand certaines valeurs du paramètre ne peuvent varier que dans un seul sens, comme par
exemple pour des scores lorsque la première détermination est maximale.
Dans des comparaisons susceptibles d'être sensibles à la régression vers la moyenne, il
est possible de tenter, sinon de l'éviter, du moins d'en atténuer l'ampleur, soit en basant la
sélection des patients sur une mesure répétée du paramètre, soit en utilisant deux mesures
différentes pour la sélection des sujets et l'évaluation de l'effet. Ainsi, dans l'exemple de la
tension artérielle, on ne sélectionne un sujet que si sa tension artérielle est supérieure à 15 au
cours de deux ou trois mesures successives, ou on mesure la tension artérielle du patient à
deux reprises, la première servant à sa sélection éventuelle pour l'étude, la seconde à
l'évaluation initiale de la tension artérielle qui sera comparée à la valeur après traitement.
Lorsque l’on souhaite estimer l’effet d’un traitement conditionnellement à la valeur
initiale d’un paramètre, on peut utiliser la formule de Blomqvist qui corrige pour les erreurs
de mesure des valeurs initiales. La pente bt de la vraie droite de régression de l'amélioration
du paramètre en fonction des valeurs initiales, est en relation avec la pente observée b par
bt =
b-k
1- k
avec
k=
s²e
s²x
s2x étant la variance observée de x, et s²e la variance de l'erreur de mesure de x, obtenue si
possible indépendamment sur un nombre restreint de sujets.
Considérons, par exemple, les données de 5000 sujets simulés (Tu & Gilthorpe, Stat.
Med., 2007, 26, 443-457) présentant une vraie tension artérielle X = 150 ± 15 mm Hg.
Supposons qu’il y ait un vrai effet traitement D = X – Y = 20 mm Hg, entraînant une vraie
tension artérielle après traitement Y = 130 ± 15 mm Hg. Il n’y a par conséquent aucune
relation entre l’amélioration et la valeur initiale du paramètre. En ajoutant aux valeurs avant et
après traitement des erreurs de mesure ex et ey suivant une distribution normale de moyenne 0
et de déviation-standard 10 mm Hg, nous obtenons les tensions artérielles observées avant et
après traitement x et y, avec d = x – y. La corrélation entre l’amélioration d et les valeurs
initiales x sera donc une corrélation entre d = D + ex – ey et x = X + ex, c’est-à-dire que
l’erreur de mesure ex sera un exemple du couplage mathématique décrit ci-dessus. Cette
corrélation et donc cette régression artificielle est illustrée par la figure 40, avec un coefficient
de régression b = 0,302 manifestement biaisé, puisqu’il devrait être nul de par l’absence de
relation entre l’amélioration et la valeur initiale du paramètre. Avec
k=
10²
= 0,308
15² 10 ²
l’application de la formule de Blomqvist permet de corriger la pente
bt =
0,302 - 0,308
= - 0,009
1 - 0,308
ne différant pas significativement de 0 et montrant effectivement l’absence de relation entre le
vrai effet traitement et la valeur initiale de la tension artérielle. Cet effet de régression vers la
moyenne est encore aggravé par le choix du seuil, puisque si on sélectionne des patients avec
141
Figure 40. Régression de d en fonction de x pour des données simulées de tension artérielle
dans 4 situations de sélection des patients.
des tensions artérielles observées x de 160, 165 et 170 mm Hg, les pentes b des droites de
régression deviennent 0,341, 0,360 et 0,376 respectivement.
6. Estimation subjective d’une probabilité
La notion de probabilité est souvent séparée en deux concepts, d’une part, la
probabilité de l’aléatoire, c’est-à-dire la prédiction d’évènements futurs, et, d’autre part, la
probabilité de la connaissance, qui représente l’incertitude d’une affirmation. Le premier
concept est en médecine la notion de pronostic, le second correspond à celle de diagnostic.
Tversky et Kahneman (Science, 1974, 185, 1124-1131) ont avancé l’idée que l’être humain
s´aide d´un nombre limité de principes heuristiques, (Larousse: qui a une utilité dans la
recherche, qui aide à la découverte) permettant de réduire l’estimation subjective d’une
probabilité à de plus simples opérations de jugement. Ils décrivent trois heuristiques
employées inconsciemment dans la prise de décision sous incertitude: la représentativité, la
disponibilité et l´ajustement-ancrage. D’une manière générale, ces heuristiques sont
vraisemblablement assez utilisées, mais elles mènent à des biais systématiques sévères.
Lorsqu’il s’agit de déterminer quelle est la probabilité qu´un événement X provienne
du processus Y, on s´appuie souvent sur l´heuristique de représentativité ou degré de
similarité. Cette heuristique suppose que l´on évalue les probabilités par le degré avec lequel
X est représentatif de Y, c´est-à-dire, par le degré de similarité entre X et Y. C’est
extrêmement fréquent dans le processus de diagnostic quand on essaie d’évaluer si le
symptôme X provient de la maladie Y. Cette approche d’estimation de la probabilité mène
cependant à des biais. En effet, la référence à la similitude, d’une part, néglige les probabilités
à priori qui devraient affecter les jugements, et, d’autre part, elle entraîne une croyance en la
142
représentativité locale, c’est-à-dire qu’elle suppose qu’une séquence d´événements générée
par un processus est représentative des caractéristiques essentielles de ce processus. Une des
conséquences de la croyance en une représentativité locale est la bien connue illusion du
joueur. Après l´observation d´une longue suite de cases rouges à la roulette, par exemple, la
plupart des gens croient erronément que les cases noires vont maintenant arriver,
probablement parce que l´occurrence des noires aboutira à une séquence plus représentative
que la survenue d’une case rouge supplémentaire.
L’heuristique de disponibilité caractérise la facilité avec laquelle des situations
identiques au cas à juger viennent à l´esprit. Par exemple, un médecin peut évaluer la
probabilité d’une maladie en fonction de certains signes en se rappelant des cas similaires vus
auparavant dans sa pratique. Cette heuristique est utile parce qu´en général, les exemples les
plus courants sont plus facilement rappelés que les exemples plus rares, mais ce n’est pas
toujours le cas et cette heuristique mène aussi à des biais prévisibles. Ainsi les occurrences
récentes sont probablement plus disponibles que les faits plus anciens. D’autre part, les
exemples plus rares ont pu impressionner et entraîner discussions et recherche d’information,
les rendant paradoxalement aussi plus disponibles.
L’heuristique de représentativité exprime une relation entre un modèle et une donnée
associée à ce modèle tandis que l´heuristique de disponibilité tente d’estimer la probabilité
d´un événement par l´évocation d´exemples. Ces deux heuristiques reposent en fait sur le
même principe de la force associative. Dans le domaine médical, pour l´heuristique de
représentativité, c´est la force associative entre le symptôme et le modèle, et pour
l´heuristique de disponibilité, c´est la force associative du symptôme avec les signes similaires
que l´on a en mémoire.
On parle d’heuristique d’ajustement et d’ancrage lorsque des estimations sont faites
en partant d´une valeur initiale ou ancre qui est modifiée en fonction des caractéristiques de la
situation actuelle pour obtenir une évaluation révisée. Le théorème de Bayes postule ainsi la
révision d’un jugement a priori en tenant compte d’une information supplémentaire, pour
aboutir à une estimation a posteriori. L’exemple de la probabilité d’être atteint du SIDA après
découverte d’un résultat positif au test ELISA étudiée au chapitre 2 est un exemple des biais
qui peuvent découler de cette heuristique. Par ailleurs, l’esprit humain a tendance à surestimer
la probabilité des événements conjonctifs et à sous-estimer celle des événements disjonctifs.
En définitive l’estimation subjective d’une probabilité est un exercice qui se révèle
extrêmement difficile et le médecin devra rester conscient du caractère souvent fallacieux de
cette estimation.
* * *
143
BIBLIOGRAPHIE SOMMAIRE
CHAPITRE 1
C. RUMEAU-ROUQUETTE, B. BLONDEL, M. KAMINSKI & G. BREAT.
Epidémiologie. Méthodes et Pratique.
Médecine-Sciences Flammarion, Paris, 1993, 312 pages.
CHAPITRE 2
B. GRENIER.
Décision Médicale.
Masson, Paris, 1990, 246 pages.
CHAPITRE 3
C. HILL, C. COM-NOUGUE, A KRAMAR, T. MOREAU, J. O’QUIGLEY, R. SENOUSSI
& C. CHASTANG.
Analyse Statistique des Données de Survie.
Editions de l’INSERM & Médecine-Sciences Flammarion, Paris, 1990, 204 pages.
J.D. KALBFLEISCH & R.L. PRENTICE.
The Statistical Analysis of Failure Time Data.
John Wiley & Sons, New York, 1980, 321 pages.
R. MALLER & X. ZHOU.
Survival Analysis with Long-Term Survivors.
John Wiley & Sons, Chichester, 1996, 278 pages.
E. MARUBINI & M.G. VALSECCHI.
Analysing Survival Data from Clinical Trials and Observational Studies.
John Wiley & Sons, Chichester, 1995, 414 pages.
CHAPITRE 4
S. PIANTADOSI.
Clinical Trials. A Methodological Perspective.
John Wiley & Sons, New York, 1997, 590 pages.
D. SCHWARTZ, R. FLAMANT & J. LELLOUCH.
L’Essai Thérapeutique chez l’Homme.
Médecine-Sciences Flammarion, Paris, 1970, 297 pages.
S. SENN.
Statistical Issues in Drug Development.
John Wiley & Sons, Chichester, 1997, 423 pages.
A SPRIET & P. SIMON.
Méthodologie des Essais Cliniques des Médicaments.
Editions de la Prospective Médicale, Paris, 1980, 224 pages.
144
CHAPITRES 1 à 4
A. LAPLANCHE, C. COM-NOUGUE & R. FLAMANT.
Méthodes Statistiques Appliquées à la Recherche Clinique.
Médecine-Sciences Flammarion, Paris, 1987, 168 pages.
CHAPITRE 5
M. CUCHERAT, J.P. BOISSEL & A. LEIZOROVICZ.
Manuel Pratique de Méta-Analyse des Essais Thérapeutiques.
Livre électronique, 1997.
http://www.spc.univ-lyon1.fr/livreMA/frame.htm
* * *
145
TABLE DES MATIERES
Avant-Propos
2
Chapitre 1. Statistique Epidémiologique
1. Types de mesure en épidémiologie
2. Mesures de mortalité
3. Mesures de morbidité
4. Mesures d’association et classification des études
5. Etudes de cohorte
6. Enquêtes cas-témoins
7. Biais
8. Facteurs de confusion
9. Comparaison des études de cohorte et des enquêtes cas-témoins
10. Jugement de causalité
4
5
6
8
11
13
15
16
19
21
Chapitre 2. Evaluation d’un Test Diagnostique
1. Etapes de l’évaluation d’un test diagnostique
2. Index kappa
3. Reproductibilité de deux mesures
4. Validité d’un test diagnostique binaire: paramètres fondamentaux
5. Validité d’un test diagnostique binaire: paramètres résumés
6. Validité d’un test diagnostique binaire: biais et problèmes
7. Validité d’un test diagnostique quantitatif
23
23
27
32
38
41
45
Chapitre 3. Données de Survie
1. Caractéristiques des données de survie
2. Recueil des informations
3. Distributions et fonctions de survie
4. Estimation non paramétrique par la méthode de Kaplan-Meier
5. Estimation non paramétrique par la méthode actuarielle
6. Comparaison non paramétrique de deux courbes de survie
7. Modèles de survie paramétriques
8. Modèle de survie exponentiel
9. Modèle de survie de Weibull
10. Modèle de survie de Cox
51
52
53
54
58
61
63
63
66
66
Chapitre 4. Essais Cliniques
1. Définition et formulation de l’objectif
2. Traitements comparés
3. Critères de jugement
4. Sélection des sujets
5. Détermination du nombre de sujets nécessaire
6. Attribution des traitements entre les groupes
7. Conduite d’un essai
8. Comparabilité des groupes
9. Analyse des résultats
10. Essais avec contrôles historiques
71
72
73
74
75
78
83
85
86
87
146
11. Essais croisés
12. Essais avec plan expérimental
13. Essais d’équivalence et essais de non-infériorité
14. Essais de bioéquivalence
15. Essais préventifs et études épidémiologiques d’intervention
16. Essais séquentiels
17. Essais adaptatifs
18. Essais pragmatiques
88
89
90
91
93
96
100
102
Chapitre 5. Méta-Analyse
1. But et principes de la méta-analyse
2. Recherche et sélection des essais
3. Biais de publication
4. Principe de l’analyse statistique d’une méta-analyse
5. Analyse statistique d’un critère de jugement binaire
6. Analyse statistique d’un critère de jugement continu
7. Analyse statistique d’un critère de jugement mixte
8. Représentation graphique des résultats d’une méta-analyse
9. Détection d’un biais de publication
106
108
108
110
111
115
118
119
121
Chapitre 6. Statistique en Biochimie Clinique
1. Détermination de valeurs de référence
2. Contrôle de qualité interne
3. Contrôle de qualité externe
4. Stabilité des produits pharmaceutiques
125
128
131
132
Chapitre 7. Paradoxes, Biais et Problèmes Divers
1. Analyse des résultats et normalité des distributions
2. Analyse des résultats et appariement
3. Paradoxe de Simpson
4. Corrélation avec couplage mathématique
5. Régression vers la moyenne
6. Estimation subjective d’une probabilité
136
136
137
139
140
142
Bibliographie Sommaire
Table des Matières
144
146
Mes remerciements à Marie-Paule Heylens et à Christian Deneffe, de l’Unité de Support
Scientifique du CHU Dinant Godinne (Université Catholique de Louvain), pour l’aide
technique apportée à la réalisation de ce syllabus et des document projetés au cours.
Janvier 2015
* * *
147
Téléchargement