UNIVERSITE DE NAMUR Faculté de Médecine BIOSTATISTIQUE CLINIQUE Jacques JAMART Syllabus partiel du cours « Biostatistique » 1er Baccalauréat en Médecine Syllabus partiel du cours « Introduction aux Statistiques Médicales » 2ème Baccalauréat en Sciences Biomédicales 2ème Baccalauréat en Sciences Pharmaceutiques 8ème édition 2015 Avant-Propos Ces notes de Biostatistique Clinique représentent la seconde partie du cours d’« Introduction aux Statistique Médicales » des deuxièmes Baccalauréats en Sciences Biomédicales et en Sciences Pharmaceutiques, et celle du cours de « Biostatistique » du premier Baccalauréat en Médecine de l'Université de Namur, anciennement Facultés Universitaires Notre Dame de la Paix. Elles supposent connues des notions fondamentales de statistique descriptive et inférentielle telles que les variables aléatoires, les distributions d’échantillonnage, le principe de l’estimation statistique et des tests, ainsi que les techniques d’inférence de base comme les comparaisons de fréquences et de moyennes, la corrélation et la régression, ces notions étant couvertes par la première partie du cours donnée par le Professeur Eric Depiereux dont ces notes se veulent le prolongement. L’objet de cet enseignement de Biostatistique Clinique est en effet de montrer l’application des concepts et des méthodes statistiques aux problèmes spécifiquement médicaux tels que l’épidémiologie et la recherche des causes des maladies, l’évaluation d’un test diagnostique, l’analyse des données de survie, les essais cliniques de médicaments ou d’autres thérapeutiques, la métaanalyse d’un ensemble d’études scientifiques et les applications de biochimie clinique. Son objectif est de permettre aux futurs médecins, pharmaciens ou chercheurs dans le domaine biomédical une lecture plus critique de la littérature et une discussion plus nuancée des informations scientifiques dont ils auront connaissance. 2 CHAPITRE 1 STATISTIQUE EPIDEMIOLOGIQUE 1. Types de mesures en épidémiologie 2. Mesures de mortalité 3. Mesures de morbidité 4. Mesures d’association et classification des études 5. Etudes de cohorte 6. Enquêtes cas-témoins 7. Biais 8. Facteurs de confusion 9. Comparaison des études de cohorte et des enquêtes castémoins 10. Jugement de causalité 1. Types de mesures en épidémiologie L'épidémiologie utilise plusieurs types de mesures, qui sont souvent confondues, les proportions, les ratios, les cotes ou odds et les taux. Une proportion est un rapport entre le nombre d'éléments d'un groupe et le nombre d'éléments d'une population plus large contenant ce groupe. C'est une fraction dans laquelle le numérateur est inclus dans le dénominateur. Elle est souvent multipliée par le facteur d'échelle 100 pour obtenir un pourcentage. Par exemple, dans une population comprenant 60 femmes (f) et 40 hommes (m), la proportion de femmes est évidemment f p f 60 m 60 40 0,6 Un ratio est un rapport des fréquences de deux classes mutuellement exclusives d'une même variable. Le ratio femmes/hommes est dans l'exemple f m r 60 40 1,5 Si la variable étudiée n'a que deux classes, le ratio est équivalent à la cote ou odd, rapport entre une proportion et son complémentaire ψ = 0,6 p = = 1,5 1 - 0, 6 1- p Un taux est, de façon générale, le changement instantané d'une quantité rapporté au changement unitaire d'une autre quantité. En épidémiologie, c'est le rapport entre un nombre de sujets présentant un évènement et la population à risque pour cet évènement pendant une période donnée. L'unité du numérateur est donc un nombre de sujets et celle du dénominateur un nombre de sujets multiplié par une unité de temps, habituellement des personnes-années. Si, dans une population de taille N suivie pendant un temps T, n sujets présentent un évènement qui survient après un délai variable, soit tj pour le sujet j, le nombre de personnes-temps à risque est, de façon exacte, n tj PT = (N - n) T j 1 Si on ne connait pas les délais d'apparition individuels de l'évènement tj et si l'on suppose qu'ils suivent une distribution uniforme pendant la période considérée, on peut remplacer leur somme par le nombre de sujets multiplié par le délai moyen d'apparition et calculer PT de façon approchée par PT ≈ nT 2 (N - n) T = (N - n )T 2 En épidémiologie, on étudie 3 types de paramètres, des mesures de mortalité et de morbidité qui concernent l’épidémiologie descriptive, et des mesures d’association qui font partie de l’épidémiologie analytique. 4 2. Mesures de mortalité Selon la définition d'un taux donnée plus haut, un taux de mortalité est le rapport entre un nombre de décès et le nombre de personnes-temps à risque pour cet évènement. On parle de taux de mortalité brut lorsque ce paramètre est estimé sur l'ensemble d'une population et de taux de mortalité spécifique lorsque l'on ne considère que les sujets appartenant à une certaine catégorie de la population, appelée strate, ou que les décès dus à une maladie particulière. On ne peut évidemment étudier valablement des taux de mortalité‚ que si les populations dont ils proviennent sont comparables, c'est-à-dire si les proportions de sujets des différentes strates des populations sont identiques (sexe, âge, ...). Les taux de mortalité‚ doivent donc être ajustés ou "standardisés" en fonction d'une population de référence. Il y a deux types d'ajustement possibles. La standardisation directe (méthode de la population type) consiste à choisir une population de référence dont on connaît la proportion de sujets pi dans chaque strate i. Le taux standardisé direct (TSD) est alors la moyenne des taux spécifiques observés dans chaque strate t i, pondérée selon la population de référence, c'est-à-dire, pour k strates, k TSD = k pi ti avec pi 1 i 1 Classe 0 1-4 5-14 15-24 25-34 35-44 45-54 55-64 65-74 >75 ∑ Taux spécifiques i 1 Proportions par strate rouge bleu rouge 8,01 0,46 0,23 0,87 1,10 2,02 4,88 10,73 23,75 90,58 14,25 0,85 0,41 1,05 1,26 2,13 4,88 10,98 26,71 95,36 1,36 5,43 14,15 15,46 15,25 13,62 10,78 10,74 6,78 6,43 ——— 100,00 bleu 1,22 5,41 14,80 17,04 14,82 12,25 11,17 10,65 7,65 4,99 ——— 100,00 référence 1,18 4,84 13,53 16,35 14,47 13,07 11,99 11,03 7,61 5,93 ——— 100,00 Table 1. Taux de mortalité spécifiques de deux pays fictifs, rouge et bleu. La table 1 présente des taux annuels de mortalité spécifiques par 1000 habitants de deux pays fictifs appelés pays rouge et pays bleu, ainsi que les pourcentages correspondants des populations par strate d’âge. Les taux de mortalité bruts pour les pays rouge et bleu sont respectivement T = [(8,01 x 1,36) + (0,46 x 5,43) + …. + (90,58 x 6,43) ] / 100 = 9,86 et T = [(14,25 x 1,22) + (0,85 x 5,41) + …. + (95,36 x 4,99 ] / 100 = 9,42. Les taux standardisés directs basés sur une population de référence pi sont eux, pour le pays rouge, 5 k TSD = pi ti = [(8,01 x 1,18) + (0,46 x 4,84) + …. + (90,58 x 5,93) ] / 100 = 9,66 i 1 et, pour le pays bleu, k TSD = pi ti = [(14,25 x 1,18) + (0,85 x 4,84) + …. + (95,36 x 5,93) ] / 100 = 10,38. i 1 On peut remarquer que si, pour le pays rouge, le taux de mortalité brut est plus élevé, le taux standardisé direct est au contraire plus bas. La standardisation indirecte (méthode de la mortalité type) utilise au contraire une population de référence dont on connaît les taux de mortalité spécifique par strate t i et on calcule le nombre de décès attendus, c'est-à-dire le nombre de décès que l'on observerait dans la population étudiée si elle était soumise aux mêmes taux de mortalité spécifiques que la population de référence. Le ratio standardisé de mortalité (SMR, standardized mortality ratio) est alors le rapport entre le taux de mortalité observé et celui calculé en utilisant la mortalité de la population de référence, multiplié par 100 pour obtenir un pourcentage. Il peut aussi être exprimé vis-à-vis d’une autre population, par exemple celui du pays bleu calculé avec la mortalité spécifique du pays rouge comme référence qui est dans l’exemple SMR = T k pi ti = (8,01 x 1,22) 9,42 (0,46 x 5,41) ... (90,58 x 4.99) x 100 = 9,42 x 100 = 108. 8,74 i 1 3. Mesures de morbidité Les mesures de morbidité dérivent essentiellement des notions de prévalence et d'incidence, cette dernière s'exprimant par plusieurs paramètres souvent confondus. La prévalence est le nombre de cas d'une maladie à un moment déterminé. La prévalence instantanée ou prévalence relative est la proportion de cas dans une population composée de sujets malades m et non malades n à un moment déterminé t, c'est-à-dire Pt = m m n L’incidence est le nombre de nouveaux cas de maladie pendant une période déterminée. Le taux d'incidence est le rapport entre le nombre de nouveaux cas i et le nombre de sujets à risque pendant une période (t, t + 1), exprimé en personnes-temps à risque PT, c'est-à-dire TIt, t+1 = i PT C'est donc une mesure de la vitesse de passage de l'état non malade à l'état malade, c'est-à-dire de la vitesse de propagation d'une maladie. L'incidence cumulative de la période (t, t + 1) est le rapport entre le nombre de nouveaux cas i et le nombre Nt de sujets à risque au début de la période 6 considérée t. C'est donc la proportion de sujets qui développeront la maladie pendant cette période, c'est-à-dire ICt, t+1 = i Nt Supposons qu'en examinant 1000 sujets au temps t1, on en découvre 130 qui présentent une certaine maladie. Un an après, soit au temps t2, on réexamine ces sujets et on diagnostique 50 nouveaux cas de l'affection. Les estimations des paramètres de morbidité décrits ci-dessus sont: a) prévalence instantanée en t1: Pt = 130 = 0,130 1000 b) nombre de personnes-temps à risque pendant la période (t1, t2), de façon approchée: PTt1,t2 ≈ ((1000 - 130 ) - 50 ) x 1 = 845 2 c) taux d'incidence de la période (t1, t2): TIt1, t2 = 50 = 0,059 845 d) incidence cumulative de la période (t1, t2): ICt1, t2 = 50 = 0,057. 1000 - 130 On peut montrer que, pour autant que la population soit stable et la maladie en situation d'équilibre et de durée moyenne d, il y a une relation entre la prévalence instantanée et le taux d'incidence ou l’incidence cumulative. En effet, si le nombre m de sujets malades est m ≈ Nt x ICt,t+1 x d ≈ Nt x TIt,t+1 x d la prévalence devient Pt = m Nt x TIt, t 1 x d TIt, t 1 x d ≈ = m n ( Nt x TIt, t 1 x d) Nt 1 (TIt, t 1 x d) De plus, si la prévalence instantanée est faible, c'est-à-dire si (1 - Pt) ≈ 1, TIt, t 1 x d 1 (TIt, t 1 x d) Pt Pt ≈ = 1 (TIt, t 1 x d) - (TIt, t 1 - Pt 1 (TIt, t 1 x d) 1 x d) = TIt,t+1 x d 7 c’est-à-dire qu’en première approximation, la prévalence instantanée est une fonction linéaire de l’incidence et de la durée moyenne de la maladie. 4. Mesures d’association et classification des études L'épidémiologie analytique vise à mettre en évidence les facteurs de risque des maladies. Avant de pouvoir porter un éventuel jugement de causalité, il faut montrer qu'il existe une association réelle entre la maladie et le facteur de risque supposé, c’est-à-dire le facteur d'exposition. Les paramètres utilisés pour mesurer une telle association sont le risque relatif, le rapport des cotes ou odds ratio et le risque attribuable. Le risque relatif RR d'un facteur quelconque est le paramètre principal que l'on cherche à estimer dans les études épidémiologiques analytiques. On le définit comme le rapport des incidences de la maladie étudiée pour les sujets exposés ou non à ce facteur, ou encore comme la probabilité d'être atteint de l'affection pour les sujets exposés au facteur, divisée par la probabilité de développer la même maladie pour les sujets non exposés, c'est-à-dire en rappelant que la notation P (y | x) signifie la probabilité d’observer y si x est présent, RR = P ( mal | exp) P (mal | non exp) Le risque relatif est donc le rapport des risques absolus de maladie dans les populations de sujets exposés R1 et de sujets non exposés R0 RR = R1 R0 L'observation d'un risque relatif RR > 1 au sens statistique, c'est-à-dire statistiquement différent de 1, indique une association entre la maladie et l'exposition, puisque si l'exposition est indépendante de la survenue de la maladie, R1 = R0, donc RR = 1. De plus le risque relatif quantifie la force de l'association entre la maladie et l'exposition. Si on exprime les risques, qui sont des proportions, par leurs cotes R1 / (1 - R1) et R0 / (1 R0), on obtient un paramètre voisin du risque relatif appelé rapport des cotes ou odds ratio OR, R1 OR = 1 - R1 R0 1 - R0 Si le risque absolu chez les exposés R1 est supérieur au risque chez les non exposés R0, c’est-à-dire si RR > 1 ou encore (1 – R0) > (1 – R1) ce qui est habituellement le cas dans une étude épidémiologique, l’odds ratio est supérieur au risque relatif, soit OR = R1 1 - R0 1 - R0 x = RR > RR 1 - R1 R0 1 - R1 8 Pour autant que l’on connaisse un des deux risques absolus, chez les exposés ou les non exposés, on peut transformer le risque relatif en odds ratio et vice versa. En effet RR = R1 R1 RR - R1 entraîne R0 = et 1 – R0 = et donc R0 RR RR R1 (1 - R0 ) OR = = R0 (1 - R1) RR RR - R1 RR - R1 RR = 1 - R1 1 - R1 Dès lors, OR (1 – R1) = RR – R1 ou RR = R1 + OR (1 – R1) La relation R1 = R0 RR permet d’écrire OR = dont on déduit RR - R1 RR (1 - R0) = 1 - R1 1 - R0 RR OR – OR R0 RR = RR – R0 RR ou RR (1 – R0 + R0 OR) = OR et RR = OR (1 - R0) R0 OR On peut remarquer que la nullité de R1 ou de R0 entraîne l’égalité OR = RR. De plus, si la maladie est rare, c’est-à-dire si les risques absolus R1 et R0 sont petits, et donc que les expressions (1 – R1) et (1 – R0) sont proches de 1, l’odds ratio est proche du risque relatif, une propriété dont nous verrons plus tard une conséquence importante. Un dernier paramètre utilisé pour décrire l'importance d'un facteur quelconque est le risque attribuable appelé aussi fraction étiologique. Cet indice représente la proportion de cas de maladies survenant en excès dans la population par rapport aux sujets non exposés. En d'autres termes, il exprime la proportion de cas qui seraient évités si le facteur de risque était absent, ce qui lui confère un certain intérêt, dans la mesure où la recherche des facteurs étiologiques d'une affection a pour finalité‚ leur éradication ou du moins la prise de mesures de protection pour en atténuer les effets. En appelant Rg le risque global de survenue de la maladie dans la population, donc aussi bien chez les sujets exposés que chez les non exposés, le risque attribuable RA est Rg - R0 Rg Ce risque est en relation avec le risque relatif RR et la proportion E de sujets exposés. En effet, le risque global est la somme pondérée des risques dans les deux sous-populations de sujets exposés ou non au facteur étudié, c'est-à-dire RA = Rg = E R1 + (1 - E) R0 = R0 + E (R1 - R0) Dès lors, 9 RA = R0 E (R1 - R0) - R0 R0 E (R1 - R0) ou en divisant le numérateur et le dénominateur par R0, RA = E (RR - 1) 1 E (RR - 1) Pour mettre en évidence une association éventuelle entre une maladie et un facteur d'exposition, on peut réaliser trois types principaux d'études étiologiques se distinguant entre elles par la façon dont est pratiqué l'échantillonnage des sujets. Cette distinction est fondamentale et conditionne l'analyse statistique des résultats. Les sujets observés peuvent être répartis en 4 catégories formant la table de contingence suivante. Table 2. Répartition des sujets dans une étude étiologique. L'étude sur échantillon représentatif est celle dans laquelle on sélectionne des sujets au hasard dans la population et on observe si ils sont ou non atteints de l'affection et si ils ont été ou non exposés au facteur de risque étudié. La maladie et l'exposition sont donc tous deux des facteurs aléatoires. Dans une étude de cohorte, on sélectionne un groupe de sujets exposés et un groupe de sujets non exposés au facteur étudié et on observe dans les deux groupes l'apparition éventuelle de la maladie concernée. L'exposition est donc un facteur contrôlé, c'est-à-dire que le rapport (E1 / E0) est déterminé arbitrairement, tandis que la maladie est un facteur aléatoire. Dans une étude cas-témoins ou enquête cas-temoins, on sélectionne un groupe de sujets malades et un groupe de sujets non malades, dits témoins, et on recherche dans les deux groupes si les sujets ont été ou non exposés au facteur de risque. C'est donc, dans ce type d'étude, la maladie qui est le facteur contrôlé, avec fixation arbitraire du rapport (M1 / M0), et l'exposition le facteur aléatoire. Il existe deux schémas d’étude intermédiaires entre les études de cohorte et les enquêtes castémoins, par ailleurs assez voisins. Dans ces deux techniques, on suit une cohorte de sujets exposés ou non au facteur de risque, dont on détecte les cas. Dans le premier schéma appelé étude cascohorte, on compare les cas à des témoins pris au hasard dans la cohorte (sous-cohorte). Dans le second schéma appelé enquête cas-témoins emboîtée ou enquête cas-témoins nichée ou encore enquête cas-témoins hiérarchique on compare chaque cas à un ou plusieurs témoins appariés pour la même durée de suivi et sélectionnés de façon aléatoire dans la cohorte. 10 En pratique, le schéma d'étude sur échantillon représentatif est très peu utilisé car sa puissance statistique, en d'autres termes sa capacité à déceler un risque relatif significatif, est faible et il faudra par conséquent un nombre de sujets considérable pour atteindre l'objectif fixé. On lui préfère habituellement l’étude de cohorte ou l’enquête cas-témoins. 5. Etudes de cohorte Les résultats d'une étude de cohorte permettent de répartir les sujets observés en 4 catégories, selon la table 2, les effectifs de sujets exposés et non exposés ei étant fixés arbitrairement, les nombre mi étant aléatoires. On peut donc estimer les risques absolus de maladie chez les sujets exposés R1 et non exposés R0 par R1 = a e1 et R0 = c e0 et le risque relatif par RR = R1 a e0 = R0 c e1 Supposons qu'une étude de cohorte ait permis d'observer les résultats suivants. Table 3. Exemple de données d’étude de cohorte. Les estimations des risques absolus sont alors R1 = 72 / 900 = 0,080 et R0 = 33 / 690 = 0,048 avec comme risque relatif RR = 72 x 690 0,080 ou RR = = 1,67 33 x 900 0,048 Quelle que soit la valeur estimée du risque relatif, l'association entre la maladie et le facteur d'exposition ne peut être considérée comme réelle que si ce risque relatif est significativement différent de l'unité, c'est-à-dire si les proportions de sujets malades et non malades diffèrent significativement entre les groupes d'exposés et de non exposés. L'hypothèse nulle RR = 1 peut être évaluée contre l'hypothèse alternative RR ≠ 1 par le test du χ² à 1 degré de liberté. La statistique du test est alors 11 χ2 = (ad - bc) ² N [(72 x 657 ) - (828 x 33)] ² x 1590 = = 6,56 900 x 690 x 105 x1485 e1 e0 m1 m0 Une table de la distribution du χ2 permet de rejeter l'hypothèse nulle RR = 1 et donc de conclure que le risque relatif est significativement augmenté chez les sujets exposés, avec p < 0,01, puisque χ² à 1 degré de liberté = 6,635 pour α = 0,01. Dans la mesure où le risque relatif est significativement différent de 1, il est intéressant de donner des limites de confiance de cette estimation. Deux procédés permettent de calculer de façon approchée un intervalle de confiance [RRi ; RRs] autour de l'estimation RR, la méthode de Miettinen ²) [RRi ; RRs] = (RR) 1 ± (z / et la méthode de Katz [RRi ; RRs] = RR exp (± z 1 a 1 e1 1 c 1 ) e0 z étant la valeur d’une variable normale réduite correspondant à une fonction de répartition de 0,975, pour un intervalle de confiance à 95 %. Dans l'exemple, les intervalles de confiance à 95 % estimés respectivement par les méthodes de Miettinen et de Katz sont [RRi ; RRs] = (1,67) 1 ± (1,96 / 6 , 56 ) et [RRi ; RRs] = 1,67 exp (± 1,96 x 1 72 1 900 = [1,13 ; 2,47] 1 33 1 ) = [1,12 ; 2,49] 690 Ce résultat signifie en pratique qu'il y a 95 % de chances que le risque relatif de la population d'où l'échantillon de sujets a été extrait, soit compris entre 1,13 et 2,47 ou entre 1,12 et 2,49, selon le procédé de calcul utilisé. En ce qui concerne le risque attribuable, il faut noter qu'il ne peut pas être estimé d'après les résultats d'une étude de cohorte puisque la définition de cette mesure d'association fait intervenir la proportion de sujets exposés E, paramètre qui ne peut évidemment pas être estimé‚ puisqu’il est fixé arbitrairement dans le schéma de l'étude. Le nombre de sujets nécessaire N dans une étude de cohorte par rapport à celui qu’il faudrait dans une étude sur échantillon représentatif N’ est en théorie approximativement N' 1 = N 4 E (1 - E) L’étude de cohorte est donc d’autant plus indiquée par rapport à une étude sur échantillon représentatif que la proportion de sujets exposés est faible, c’est-à-dire que l’exposition est rare. Par exemple pour E = 0,01, N’/ N ≈ 25. Le gain est nul si N’/ N = 1, c’est-à-dire si E = 0,5, ce qui en pratique est exceptionnel. 12 6. Enquêtes cas-témoins Pour analyser les résultats d'une enquête cas-témoins, on répartit également les sujets en 4 catégories selon la même table de contingence que dans une étude de cohorte mais avec cette fois les effectifs de malades et de non malades mi qui sont fixés, les nombres ei étant aléatoires. Les cas recrutés doivent avoir un diagnostic certain et récent, donc être des cas incidents, être recrutés dans une zone géographique délimitée de façon précise et présenter habituellement des critères d’éligibilité tels que le sexe et l’âge. Tous les cas d’une région doivent idéalement être recrutés. Les témoins qui leur sont comparés sont soit des témoins hospitaliers, méthode qui n’est valable que si le motif d’hospitalisation n’a aucun lien avec la maladie étudiée, soit des témoins de population, qui sont plus représentatifs si l’échantillonnage est réellement aléatoire. Contrairement aux études de cohorte, les risques absolus de maladie chez les sujets exposés R1 et non exposés R0 ne peuvent être estimés dans une enquête cas-témoins, puisque les deux groupes comparés sont ceux des malades et des non malades, et qu'on ne peut donc connaître que les fréquences des expositions par rapport à l'état du sujet et non l'inverse. De même le risque relatif ne peut être estimé directement. Toutefois, puisque l’odds ratio est proche du risque relatif lorsque R1 et R0 sont petits, on peut, quand l’affection étudiée est rare, approcher le risque relatif par l’odds ratio, c'est-à-dire a d R1 1 - R0 ad RR ≈ OR = x = e1 x e0 = ≡ψ b c 1 - R1 R0 bc e1 e0 Si les résultats suivants sont observés dans une enquête cas-témoins, Table 4. Exemple de données d’enquête cas-témoins. on peut estimer le risque relatif de façon approchée par RR ≈ ψ = 139 x 101 = 1,67 127 x 66 L'hypothèse nulle RR = 1 peut être testée contre l'hypothèse alternative RR ≠ 1 par le même test du χ2 que précédemment, soit dans l'exemple χ2 = [(139 x 101) - (127 x 66)] ² x 433 = 6,67 266 x 167 x 205 x 228 13 permettant de rejeter l'hypothèse nulle RR = 1 avec p < 0,01 puisque χ² à 1 degré de liberté = 6,635 pour α = 0,01. Quant à l'intervalle de confiance, il peut être estimé de façon approchée soit, comme dans une étude de cohorte, par la méthode de Miettinen décrite plus haut, soit par la méthode de Woolf [RRi ; RRs] = RR exp (± z 1 a 1 b 1 c 1 ) d Pour les données de l'exemple, les intervalles de confiance à 95 % estimés par les méthodes de Miettinen et de Woolf sont respectivement [RRi ; RRs] = (1,67) 1 ± (1,96 / et [RRi ; RRs] = 1,67 exp (± 1,96 x 1 139 6 , 67 ) = [1,13 ; 2,46] 1 127 1 66 1 ) = [1,13; 2,47] 101 Comme dans une étude cohorte, on peut calculer théoriquement le nombre de sujets nécessaire N dans une étude cas-témoins par rapport à celui qu’il faudrait dans une étude sur échantillon représentatif N’. Il est approximativement N' 1 = N 4 M (1 - M) L’étude cas-témoins est donc d’autant plus indiquée par rapport à une étude sur échantillon représentatif que la proportion de malades est faible, c’est-à-dire que la pathologie est rare. On peut également remarquer que les exemples choisis pour illustrer la méthodologie d'analyse des études de cohorte et des enquêtes cas-témoins, aboutissent à des estimations du risque relatif qui sont similaires et de précision équivalente. Le nombre de sujets est cependant beaucoup plus faible dans l'enquête cas-témoins (433) que dans l'étude de cohorte (1590). Ce fait ne résulte pas du hasard mais est au contraire une règle générale que nous rappellerons plus tard. Contrairement aux études de cohorte, les enquêtes cas-témoins permettent par ailleurs d'estimer le risque attribuable pour autant que la maladie soit rare. Dans ce cas en effet, la proportion de sujets exposés dans la population peut être estimée par la proportion de sujets exposés chez les non malades formant la majeure partie de cette population b m0 E ≈ et donc le risque attribuable par RA = E (RR - 1) 1 E (RR - 1) ou directement à partir des valeurs de la table de contingence par RA = 1 - c m0 d m1 En effet, 14 E (RR – 1) ≈ E (OR – 1) = 1 + E (RR – 1) = b b d x ad-bc ad-bc = bc c (b d) d m1 b c c d a d - b c d (a c) c (b d) a d - b c = = = c m0 c (b d) c (b d) c (b d) Dès lors, E (RR – 1) = 1 + E (RR – 1) – 1 = d m1 d m1 - c m0 –1 = c m0 c m0 et donc RA = d m1 - c m0 c m0 c m0 E (RR - 1) = x = 1– c m0 d m1 d m1 1 E (RR - 1) Dans l'exemple, les estimations sont respectivement E = 127 / 228 = 0,56 et donc RA = 0,56 x (1,67 - 1) 1 [0,56 x (1,67 - 1)] = 0,27 ou directement RA = 1 – 66 x 228 = 0,27 101 x 205 Cela signifie en pratique que l'on peut estimer à 27 % le pourcentage de cas de maladie imputables au facteur d'exposition considéré. 7. Biais Si on définit un biais comme tout processus tendant à aboutir à des résultats ou à des conclusions différant systématiquement de la vérité, on peut considérer deux catégories de biais dans les études épidémiologiques analytiques, les biais de sélection ou biais d'échantillonnage résultant d'un mauvais choix des sujets appartenant aux deux groupes étudiés, exposés et non exposés dans les études de cohorte ou malades et non malades dans les enquêtes cas-témoins, et les biais de classification, biais de mesure, biais d’information ou biais d’observation qui sont la conséquence d'une appréciation incorrecte de l'état d'un sujet, malade ou non malade dans les études de cohorte, exposé ou non exposé dans les enquêtes cas-témoins. Les biais de sélection sont généralement faciles à éviter dans les études de cohorte et sont donc pratiquement le propre des enquêtes cas-témoins. Six formes principales peuvent en être individualisées. 1) Le biais de prévalence, dit aussi biais de Neyman, résulte du recrutement de cas prévalents de la maladie plutôt que de cas incidents, conduisant ainsi à une proportion exagérée de malades à évolution favorable. Ce biais éventuel est d'autant plus grave que le pronostic de l'affection étudiée est sombre. 2) Le biais d'admission ou biais de Berkson est une conséquence de l'échantillonnage des sujets présentant ou non l'affection, parmi des malades hospitalisés. En effet, dans ces conditions, 15 le risque relatif d'un facteur sera biaisé si celui-ci modifie la probabilité‚ qu'un individu soit ou ne soit pas hospitalisé. 3) Dans l'étude de certaines maladies peu symptomatiques et à évolution lente, des sujets recrutés comme témoins non malades peuvent en réalité être atteints de l'affection. Ce biais, dit biais de détection, est peu important dans l'étude des maladies rares mais impose la recherche systématique de la maladie chez les témoins lorsque la prévalence de la maladie est élevée. 4) Inversement, lorsque l'exposition à un facteur entraîne l'apparition d'un symptôme conduisant à la recherche systématique d'un diagnostic, l'estimation du risque relatif de ce facteur peut être biaisée. C’est le biais du signal ou biais de surveillance. 5) Des taux de participation des sujets contactés pour entrer dans l'étude, différents selon qu'ils sont malades ou non, peuvent aussi entraîner un biais, appelé biais de non-réponses. Il est fréquent et inévitable car il est habituellement plus délicat de convaincre des sujets bien portants que des malades de participer à une étude épidémiologique. Cette différence entre les taux de réponses des deux groupes n'est cependant une source de biais que si les pourcentages d'exposés diffèrent entre les participants à l'étude et ceux qui ont refusé leur collaboration, et que ces différences ne sont pas les mêmes pour les cas et pour les témoins. 6) Enfin, il faut signaler que l'utilisation de groupes de sujets témoins appartenant à une collectivité (profession déterminée, association, abonnés du téléphone, ...) est susceptible de fausser les résultats, parce que ces sujets présentent une caractéristique commune. C’est le biais de collectivité. Les biais de classification des études de cohorte sont constitués par les erreurs diagnostiques ne permettant pas de classer correctement le sujet en malade ou non malade. Dans les enquêtes cas-témoins, sa forme principale est le biais de rappel ou biais de mémorisation. Cette distorsion résulte, en premier lieu, de ce que les sujets malades ont habituellement déjà été questionnés à plusieurs reprises, et de ce que chaque nouvelle anamnèse peut conduire ces sujets à répondre de façon de plus en plus complète ou précise. De plus, les sujets malades ont habituellement une plus grande tendance que les sujets sains à évoquer ou exagérer certaines expositions. Cela est particulièrement net dans la recherche de facteurs de risque d'origine industrielle, où, souvent pour des raisons de revendication ou d'indemnisation, les sujets malades essaieront de "trouver une cause" à leur affection. Tous les biais entraînent évidemment une estimation erronée du risque relatif, par défaut ou par excès. 8. Facteurs de confusion Un facteur de confusion peut être défini comme une variable associée à l'exposition étudiée sans en être la conséquence, et qui est simultanément un facteur de risque de l'affection. Il peut exagérer ou diminuer l'estimation du risque relatif d’une exposition. Ainsi, par exemple, l'alcoolisme peut apparaître comme un facteur de risque dans le cancer du poumon, parce que la consommation d'alcool est corrélée positivement avec celle du tabac et que le tabagisme est luimême un facteur de risque pour ce cancer. Le tabagisme est, dans ce cas, un facteur de confusion positif, qui conduit à surestimer le risque relatif de l'alcoolisme. Il y a deux méthodes d'élimination des facteurs de confusion, la stratification et l'appariement. La stratification consiste à diviser le facteur de confusion en différentes classes au moment de la planification de l'étude. Dans l'exemple de l'alcoolisme et du cancer du poumon cité ci-dessus, on divisera la quantité de tabac fumée en plusieurs catégories, et les sujets seront 16 échantillonnés, non plus dans la population générale, mais dans des sous-populations (strates) homogènes quant au facteur de confusion. La seconde méthode d'élimination d'une confusion est l'appariement. Dans une enquête cas-témoins par exemple, elle consiste à choisir pour chaque sujet malade, un ou plusieurs sujets témoins présentant le facteur de confusion au même niveau. Ainsi, dans l’exemple de l’alcoolisme comme facteur de risque de cancer du poumon, pour chaque nouveau cas admis dans l'étude, on recrutera un ou plusieurs sujets indemnes de l'affection et ayant une consommation de tabac identique. D'une certaine manière, l'appariement peut être considéré comme une stratification poussée à l'extrême, chaque ensemble formé par un sujet malade et son ou ses témoins représentant une classe différente du ou des facteurs de confusion. Les deux méthodes améliorent la précision de l'estimation du risque relatif. L'appariement permet en outre de considérer simultanément un grand nombre de facteurs de confusion alors que ce nombre est limité‚ dans la stratification. Il faut cependant noter que dans certaines situations, l'appariement est non seulement inutile mais nuisible (overmatching). L’estimation du risque relatif sera en effet incorrecte en cas d’appariement sur un facteur de confusion, non seulement associé à l’exposition, mais qui en est une conséquence. Lorsqu'une étude analytique prend en compte un facteur de confusion par stratification ou appariement, l'analyse de ses résultats devient plus complexe. Supposons d'abord que la planification de l'étude comprenne une stratification, c'est-à-dire que le facteur de confusion soit divisé en k classes différentes. Les données se présentent alors sous la forme de k tables de contingence comme celles décrites précédemment. En utilisant les notations précédentes mais affectées de l'indice i pour la classe i, le risque relatif peut être estimé de façon simple mais robuste par la méthode de Mantel-Haenszel, qui suppose que le rapport des cotes est sensiblement constant d'une classe à l'autre. Ce risque est alors, pour une étude de cohorte k RR = i 1 k i 1 ai e0i ni ci e1i ni et pour une enquête cas-témoins k RR ≈ OR = i 1 k i 1 ai di ni bi ci ni L'hypothèse nulle d'un risque relatif RR = 1 peut être évaluée contre l'alternative RR ≠ 1 par le test de Mantel-Haenszel, dont la statistique, qui suit une distribution du χ2 à 1 degré de liberté, est k k e1i m1i ² ni i 1 e1i e0i m1i m0i ni² (ni - 1) ai χ² = i 1 k i 1 Si le ou les facteurs de confusion sont pris en compte par un appariement 1:1, c'est-à-dire si, pour une étude de cohorte, on fait correspondre à chaque sujet exposé un sujet non exposé ayant 17 le(s) facteur(s) de confusion au même niveau, ou si dans une enquête cas-témoins, on associe chaque sujet malade à un témoin avec facteur(s) de confusion identique(s), l'information obtenue sera représentée par 4 nombres de paires de sujets décrivant les 4 situations possibles d'une paire, soit Table 5. Répartition des sujets dans une étude étiologique avec appariement 1 :1. L'estimation du risque relatif est alors, dans les deux types d'étude, le rapport des paires discordantes RR = b / c L'hypothèse nulle RR = 1 peut être évaluée contre RR ≠ 1 par le test de McNemar, pour autant que (b + c) > 10, dont la statistique qui suit une distribution du χ2 à 1 degré de liberté est χ2 = (b - c) ² . b c Pour une enquête cas-témoins par exemple, aboutissant à la répartition des 4 paires de sujets selon la table Table 6. Exemple de données d’étude étiologique avec appariement 1 : 1. l'estimation du risque relatif est RR = 11 / 6 = 1,83 Ce risque n'est pas significativement différent de 1, puisque 18 χ2 = (11 - 6)² = 1,471 < 3,841 pour α = 0,05 11 6 Un intervalle de confiance [RRi; RRs] autour de l'estimation RR peut être calculé‚ de façon approchée par 1 1 [RRi ; RRs] = RR exp (± z ) b c soit, dans l'exemple, pour un niveau de confiance de 95 %, [RRi ;RRs] = 1,83 exp (± 1,96 1 11 1 ) = [0,68; 4,95]. 6 On peut remarquer le manque de précision de l'estimation du risque relatif qui résulte de ce que la méthode ne considère en fait que les paires discordantes. L'estimation du risque relatif peut être étendue à la situation dans laquelle plusieurs sujets sont appariés à chaque exposé (étude de cohorte) ou à chaque cas (enquête cas-témoins), à celle d'une exposition qui n'est plus simplement dichotomique mais est décrite par plusieurs niveaux ou encore à plusieurs expositions simultanées. Dans ces situations complexes, l’analyse utilise un modèle de régression pour une variable dépendante dichotomique, le modèle de régression logistique, qui modélise une proportion p en fonction de k variables xi par Log p = β0 + β1 x1 + β2 x2 + …. + βk xk ≡ z 1- p ou p = exp(z) 1 = 1 exp (z) 1 exp(-z) Cette méthode permet d'estimer un risque relatif (odds ratio) en tenant compte simultanément de plusieurs facteurs d'exposition (enquêtes cas-témoins) dichotomiques ou numériques, d'étudier l'influence éventuelle d'une interaction entre ces expositions et d'établir éventuellement la forme d'une liaison entre une exposition et le risque de l'affection. 9. Comparaison des études de cohorte et des enquêtes cas-témoins Il y a aujourd'hui un intérêt croissant pour les enquêtes cas-témoins résultant des avantages offerts par cette méthodologie surtout par comparaison avec celle des études de cohorte. Quatre avantages majeurs peuvent être soulignés. 1) Les enquêtes cas-témoins permettent d'évaluer simultanément plusieurs hypothèses étiologiques ainsi que des interactions éventuelles entre celles-ci, alors que les études de cohorte, en échantillonnant les sujets en fonction de l'exposition étudiée, doivent évidemment se limiter à l'étude d'un seul facteur. 2) Elles ne nécessitent pas de suivre les sujets pendant la longue période de latence entre l'exposition et la survenue de la maladie comme dans les études de cohorte, et leur durée de réalisation est par conséquent beaucoup plus courte. 19 3) Les enquêtes cas-témoins n'exigent que quelques centaines de sujets, tandis que les études de cohorte en nécessitent généralement plusieurs milliers pour atteindre une puissance statistique identique. Plus la maladie étudiée est rare, plus ce gain est important. 4) Il faut enfin remarquer que les enquêtes cas-témoins peuvent être appliquées à l'étude d'expositions peu fréquentes, pour autant que celles-ci soient susceptibles d'induire une proportion relativement élevée de cas de l'affection. Les enquêtes cas-témoins souffrent cependant d'un certain nombre d'inconvénients qui peuvent limiter la portée de leurs conclusions. 1) Ces études permettent d'estimer les risques relatifs des facteurs considérés mais non les risques absolus comme dans les études de cohorte. 2) Les enquêtes cas-témoins peuvent souffrir d'un biais de sélection ou d'échantillonnage des cas ou des témoins. Enfin, les deux types d'étude sont sensibles aux biais de classification, plus difficiles à éviter dans les enquêtes cas-témoins, et aux facteurs de confusion. Le tableau ci-après résume de façon comparative les principales caractéristiques des études de cohorte et des enquêtes cas-témoins. On pourrait conclure de ce tableau que les enquêtes cas-témoins sont sûrement plus avantageuses que les études de cohorte, mais qu'elles nécessitent une plus grande rigueur dans leur planification. ETUDES DE COHORTE nombre d’expositions 1 étudiées réduction du nombre de sujets oui par rapport à un échantillon d’autant plus que l’exposition représentatif est rare ENQUETES CASTEMOINS 1 ou plusieurs oui d’autant plus que la maladie est rare nombre de sujets généralement élevé généralement faible durée de réalisation longue courte biais de sélection ou d’échantillonnage biais de classification ou de mesure confusion rare possible possible possible possible possible estimation des risques absolus possible impossible estimation du risque relatif possible possible si maladie rare estimation du risque attribuable impossible possible si maladie rare Table 7. Caractéristiques comparées des études de cohorte et des enquêtes cas-témoins. 20 10. Jugement de causalité La mise en évidence d'un risque relatif significatif permet d'affirmer l'association statistique entre l'exposition concernée et la maladie étudiée ou du moins que cette association n'est explicable ni par un biais ni par un des facteurs de confusion que l'on a contrôlés. Elle n'autorise cependant pas à conclure à un effet causal de l'exposition sur l'affection. Le jugement de causalité‚ n'est pas en effet du domaine de l'analyse statistique, mais ne peut être que le résultat d'un ensemble d'éléments, que l'on pourrait appeler des présomptions de causalité. 1) Un argument souvent considéré comme fondamental est celui de la cohérence, c'est-àdire de l'observation répétée d'une même association, dans les résultats d'études indépendantes menées par des équipes différentes. Cet argument doit cependant être manié avec prudence, car un même biais difficilement évitable peut être présent dans plusieurs études. 2) On sait que le risque relatif quantifie l'intensité de l'association entre l'exposition et la maladie. Une estimation élevée peut donc être d'une certaine façon un argument de causalité. Dans la mesure où une étude a été menée correctement au point de vue méthodologique, un risque relatif estimé supérieur à 5 ne peut que rarement être attribué à des biais imperceptibles ou à des facteurs de confusion inconnus. 3) La relation entre, d'une part, la maladie et, d'autre part, la durée de l'exposition ou une évaluation quantitative de celle-ci, est un autre élément en faveur du lien étiologique. 4) Le caractère spécifique de l'effet de l'exposition, c'est-à-dire la diminution du risque relatif après suppression de celle-ci, est peut-être un des arguments de causalité les plus importants. 5) Enfin, l'observation de l'association, soit pour des variantes particulières de la maladie et non pour d'autres, soit pour certaines catégories de sujets seulement, soit pour certaines modalités de l'exposition en cause, sont autant d'éléments en faveur de la relation de cause à effet. * * * 21 CHAPITRE 2 EVALUATION D’UN TEST DIAGNOSTIQUE 1. Etapes de l’évaluation d’un test diagnostique 2. Index kappa 3. Reproductibilité de deux mesures 4. Validité d’un test diagnostique binaire: paramètres fondamentaux 5. Validité d’un test diagnostique binaire: paramètres résumés 6. Validité d’un test diagnostique binaire: biais et problèmes 7. Validité d’un test diagnostique quantitatif 1. Etapes de l’évaluation d’un test diagnostique L’évaluation d’un test diagnostique, que ce soit un symptôme, un signe clinique, un dosage biologique, une image radiologique ou autre, passe par plusieurs étapes. La première consiste à réaliser une étude de reproductibilité ou de concordance, pour évaluer dans quelle mesure son appréciation ou sa mesure reste constante face à un cas précis. En cas de test présentant un caractère subjectif, il faut étudier la concordance du résultat entre deux lecteurs différents, c’est la reproductibilité inter-observateur, mais aussi la reproductibilité d’un même lecteur face à deux répétitions du test, c’est la reproductibilité intra-observateur. Si cette reproductibilité est satisfaisante, une deuxième étape de l’évaluation d’un test diagnostique consiste à évaluer sa validité ou efficacité (accuracy) c’est-à-dire sa capacité à discriminer entre un sujet présentant une maladie précise et un sujet indemne de l’affection. C’est la phase la plus classique de l’évaluation. Enfin, il faut également considérer tout nouveau test diagnostique parmi l’ensemble des tests similaires ou concurrents, et étudier dans quelle mesure le test est susceptible de mieux discriminer que les autres entre les états malade et non malade. Cette troisième étape, l’utilité clinique fait moins souvent l’objet d’études rigoureuses dans la littérature médicale. 2. Index kappa La concordance entre deux tests diagnostiques qualitatifs, ou plus généralement entre deux jugements qualitatifs, peut être évaluée par la proportion de réponses concordantes. Ainsi, si deux observateurs doivent juger 100 signes comme présents ou absents avec les résultats de la table 8, Table 8. Exemple de détection d’un signe selon deux observateurs A et B. la proportion de réponses concordantes est évidemment po = 45 35 = 0,80. 100 Mais un grand nombre de jugements sont identiques uniquement par chance, dans l’exemple la moitié. Il est donc plus judicieux de mesurer la concordance par l’index kappa ou index kappa de Cohen qui corrige la proportion de jugements concordants pour ceux dus à la chance. Si on appelle pc cette proportion de résultats concordants attendus par chance, l’index kappa est 23 κ = po - pc 1 - pc La proportion pc est la somme des produits marginaux pour les deux éléments de la diagonale, divisée par le carré du nombre total de jugements, soit dans l’exemple de la table 8, pc = (60 x 50) (40 x 50) = 0,50 100 x 100 et donc κ = 0,80 - 0,50 = 0,60. 1 - 0,50 La figure 1 illustre la logique de l’index kappa à partir des différentes proportions. Figure 1. Représentation des différentes composantes de l’index kappa. La table 9 montre les valeurs que prend l’index kappa en fonction des différentes possibilités d’accord des deux juges. On remarquera que si l’accord parfait conduit à un index kappa de 1, le désaccord total ne conduit à κ = - 1 que si la proportion de résultats concordants attendus par chance est de ½. ACCORD KAPPA accord parfait 1 accord > chance >0 accord = chance 0 accord < chance <0 désaccord total - pc 1 - pc Table 9. Valeurs de l’index kappa en fonction des différents types d’accord entre les juges. 24 L’index kappa peut être étendu au cas d’un jugement à plus de deux modalités, comme dans la table 10. Pour k modalités, les données se présentent alors sous la forme d’une matrice [k x k], avec nij le nombre d’éléments de la ligne i et de la colonne j, ri le total marginal de la ligne i, cj le Table 10. Données de concordance pour 2 observateurs et k modalités. total marginal de la colonne j et N le nombre total de jugements. L’index kappa est k N κ= k nij i, j 1 ricj i, j 1 k N² - ricj i, j 1 Si il n’y a que deux modalités de jugements, comme dans l’exemple initial, répartis comme dans la table 11, Table 11. Données de concordance pour 2 observateurs et 2 modalités. la formule de l’index kappa devient κ = 2 (ad - bc) (a b)(b d) (a c)(c d) soit dans l’exemple de la table 8, 25 κ = 2 [(45 x 35) - (15 x 5)] = 0,60. [(45 15) (15 35)] [(45 5)(5 35)] L’erreur-standard de l’index kappa peut être dérivée de l’erreur-standard d’une proportion p(1 - p)/n en considérant en première approximation pc comme une constante po (1 - po) N (1 - pc)² SE (κ) = Sous l’hypothèse nulle d’une concordance due uniquement à la chance, c’est-à-dire κ = 0 ou po = pc, l’erreur-standard devient pc SEHO (κ) = N (1 - pc) On peut dès lors tester l’hypothèse d’accord dû uniquement à la chance par un test z dont la statistique est κ z = SE HO (κ ) La valeur de l’index kappa peut également être interprétée selon des échelles de magnitude comme celles décrites dans la table 12. KAPPA ECHELLE SCALE κ<0 mauvaise poor 0 ≤ κ < 0,2 négligeable slight 0,2 ≤ κ < 0,4 faible fair 0,4 ≤ κ < 0,6 moyenne moderate 0,6 ≤ κ < 0,8 bonne substantial κ ≥ 0,8 excellente almost perfect Table 12. Echelles de magnitude de l’index kappa en langues française et anglaise. On peut également comparer deux index kappa estimés dans deux situations différentes, c’est-àdire tester l’égalité (κA = κB) par le test de l’écart-réduit z Z = κA - κB SE²(κA) SE²(κB) L’index kappa est un indice fort utilisé dans les publications scientifiques médicales pour étudier la reproductibilité d’un test diagnostique. Son interprétation doit cependant être prudente car ce paramètre est très sensible, d’une part à la prévalence de la maladie, d’autre part, au déséquilibre des effectifs marginaux de la table, comme le montre l’exemple de la table 13. 26 Table 13. Exemples de données de concordance avec prévalence et effectifs marginaux différents. La proportion de résultats concordants observés po est identique dans les trois situations, avec po = 0,80. Dans la situation 1, on peut admettre que la prévalence de la maladie est d’environ 0,50. Dans la situation 2, puisque chaque juge a comptabilisé 12% de signes présents, on peut admettre une prévalence de 0,12. Cette différence de prévalence supposée entraîne une chute de l’index kappa qui diminue de 0,60 en 1 à 0,05 en 2, et ce pour une même proportion de résultats concordants. Dans la situation 3, les deux juges comptabilisent respectivement 6 et 18% de signes présents, et si ils ont la même compétence et la même expérience on peut aussi supposer que la prévalence n’est pas très éloignée de 0,12. Mais le déséquilibre des effectifs marginaux de la situation 3, c’est-à-dire 6 et 94 versus 18 et 82, modifie la valeur de l’index kappa qui augmente de 0,05 à 0,08. 3. Reproductibilité de deux mesures La concordance ou reproductibilité entre deux mesures, c’est-à-dire entre deux variables quantitatives, peut être évaluée par plusieurs paramètres, qui apportent des informations complémentaires. Ce sont le biais, l’imprécision et l’erreur relative. En plus de ces trois indices, deux autres méthodes sont souvent utilisées pour étudier la reproductibilité entre deux mesures, le coefficient de corrélation intraclasse et les limites d’agrément de Bland et Altman. 27 Le biais informe sur l’erreur systématique de l’un des observateurs par rapport à l’autre, c’est-à-dire sur la tendance de l’un à surestimer ou sous-estimer la mesure. Pour n couples de mesures de 2 observateurs X et Y, le biais est n (xi - yi) i 1 n L’imprécision évalue le manque de reproductibilité entre les 2 mesures, quelle que soit la tendance de l’un ou l’autre des observateurs. Elle est, avec les mêmes notations que précédemment, n | xi - yi | i 1 n Enfin, l’erreur relative ramène ce manque de précision en proportion ou en pourcentage par rapport aux valeurs elles-mêmes. C’est donc pour chaque couple de mesures, la différence entre les 2 mesures en valeur absolue divisée par leur moyenne, ou pour l’ensemble des valeurs, n 2 n i 1 | xi - yi | (xi yi) Supposons que la tension artérielle de 6 sujets soit mesurée par 2 observateurs X et Y. Le calcul des paramètres d’après les données de la table 14 est sujet X Y 1 10 12 2 11 13 3 12 14 4 13 15 5 14 16 6 15 17 Table 14. Exemple de tensions artérielles mesurées par 2 observateurs X et Y. biais = imprécision = erreur relative = (10 - 12) (11 - 13) (12 - 14) (13 - 15) (14 - 16) (15 - 17) 6 | 10 - 12 | | 11 - 13 | | 12 - 14 | | 13 - 15 | | 14 - 16 | | 15 - 17 | 6 2 6 | 10 - 12 | | 11 - 13 | | 12 - 14 | | 13 - 15 | | 14 - 16 | | 15 - 17 | + + + + + (10 12) (11 13) (12 14) (13 15) (14 16) (15 17) = -2 = 2 = 0,15 28 Pour interpréter cette reproductibilité, il faut, d’une part, pouvoir conclure à la présence ou à l’absence de biais, et, d’autre part, pouvoir étudier la concordance entre les 2 observateurs. L’absence de biais peut être évaluée par un test statistique d’hypothèse, avec comme hypothèse nulle, biais = 0, contre l’hypothèse alternative, biais ≠ 0. Dans l’exemple on peut rejeter l’hypothèse nulle et conclure à la présence d’un biais (par exemple, test de Wilcoxon : p = 0,014). La concordance pourrait être étudiée par le coefficient de corrélation, mais ce n’est pas suffisant car si la concordance implique la corrélation, la corrélation n’implique pas la concordance. L’exemple ci-dessus en est la preuve car dans ce cas le coefficient de corrélation vaut 1 (la tension mesurée par Y est systématiquement plus haute que celle de X de 2), alors que la concordance n’est pas parfaite, loin s’en faut. Supposons que l’observateur Y soit remplacé par Z. Les données de la table 15 permettent sujet X Z 1 10 12 2 11 9 3 12 14 4 13 11 5 14 12 6 15 17 Table 15. Exemple de tensions artérielles mesurées par 2 observateurs X et Z. alors de calculer les paramètres décrits plus haut, c’est-à-dire, biais = 0 imprécision = 2 erreur relative = 0,16. L’imprécision est identique, et l’erreur relative voisine, mais cette fois, il n’y a pas de biais. Quant à la corrélation elle est moins élevée, le parallèle entre les valeurs mesurées par X et Z n’étant plus parfait, et le coefficient de corrélation vaut 0,60. Les paramètres décrits mesurent donc des aspects différents. Le coefficient de corrélation intraclasse est la part de la variabilité totale qui est due à la variabilité entre sujets, par opposition à la variabilité entre les mesures, soit ICC = Var entre sujets Var entre sujets = Var totale Var entre sujets Var entre mesures Il varie entre 0 et 1, qu’il atteint lorsque les deux mesures concordent de façon parfaite pour tous les cas, puisque dans cette situation la variabilité entre les mesures est nulle. Le calcul de ce coefficient d’après les données de la table 14 est ICC = 0,636 (formule hors cours) . En fait, ce paramètre est grandement influencé par la dispersion des valeurs. Ainsi si on remplace les dernières valeurs de la table, soit 15 et 17 par 25 et 27, le biais, l’imprécision et la corrélation restent identiques, mais l’augmentation de la dispersion des valeurs de X comme de Y entraîne une plus grande variabilité entre sujets par rapport à la variabilité entre mesures qui reste identique, et donc 29 une nette augmentation du coefficient de corrélation intraclasse, qui passe de 0,636 à 0,938. Le coefficient de corrélation intraclasse apparaît donc comme un paramètre peu intéressant pour étudier la concordance entre deux mesures dans l’absolu, car il suffit de rajouter l’un ou l’autre cas pathologique avec des valeurs très élevées ou très basses de la variable mesurée pour rendre le coefficient beaucoup plus proche de 1. Il garde cependant sa valeur en cas de comparaison de reproductibilités, par exemple dans l’étude de plusieurs tests diagnostiques dont on compare la concordance 2 à 2. Les limites d’agrément de Bland et Altman (limits of agreement) représentent une méthode d’évaluation de la reproductibilité entre deux mesures qui est devenue aujourd’hui incontournable. Son principe est qu’il est irréaliste de décider qu’une valeur minimale ou maximale d’un indice ou d’un coefficient quelconque est apte à conclure à une reproductibilité suffisante ou insuffisante entre des mesures, car le niveau de concordance indispensable varie avec le paramètre mesuré et la décision ne peut donc être considérée qu’en fonction du problème clinique. Le graphe de Bland et Altman marque en ordonnée les différences entre les couples de mesures di = (xi - yi) en fonction de leur moyenne (xi + yi)/2 en abscisse, puisque, en l’absence d’une mesure de référence, cette moyenne est la meilleure estimation de la vraie mesure inconnue. La méthode consiste à calculer le biais moyen d , sa déviation-standard sd et ensuite les limites d’agrément qui sont égales à d ± z sd habituellement d ± 1,96 sd Ce sont ces bornes qui constituent les limites à accepter ou à rejeter du point de vue clinique. Elles figurent également classiquement sur le graphe de Bland et Altman sous la forme de droites parallèles à l’abscisse présentées sur la figure 2 et entourent la majorité des points croisant (xi – yi) et (xi + yi)/2. Avant de représenter ce graphique, il faut cependant vérifier l’absence de corrélation Figure 2. Limites d’agrément de Bland et Altman. entre (xi – yi) et (xi + yi)/2, soit en calculant le coefficient de corrélation entre ces paramètres, soit simplement graphiquement. En effet, si il y a une relation entre la différence et la moyenne des mesures, en d’autres termes si la différence entre deux mesures a tendance à augmenter avec les mesures elles-mêmes, le biais et les limites de confiance n’auront plus beaucoup de sens puisqu’ils se rapporteront à une moyenne considérée à tort comme constante. La table 16 détaille les valeurs de la tension artérielle mesurée à deux reprises chez 10 sujets, permettant de calculer le biais moyen et sa déviation-standard, d = 0 et sd = 1,29 et donc les limites d’agrément 30 0 ± (1,96 x 1,29) = ± 2,53 représentées sur la figure 3 . sujet X Y 1 12,0 14,0 2 13,5 14,5 3 13,5 13,0 4 15,0 13,5 5 16,5 15,5 6 12,0 13,5 7 14,0 14,0 8 14,5 13,0 9 13,0 12,0 10 13,0 14,0 Table 16. Exemple de tensions artérielles mesurées par 2 observateurs X et Y. 4,0 3,0 2,0 (x-y) 1,0 0,0 -1,0 -2,0 -3,0 -4,0 12 13 14 15 16 17 (x+y)/2 Figure 3. Limites d’agrément de Bland et Altman pour les données de la table 16. 31 4. Validité d’un test diagnostique binaire: paramètres fondamentaux La validation d’un test diagnostique binaire consiste à confronter les résultats du test réalisé chez N sujets avec l’état réel de ces sujets, malade ou non. La table 17 présente ces résultats, qui peuvent se répartir, chez les malades, en vrais positifs (a) et en faux négatifs (c), et chez les non malades, en faux positifs (b) et en vrais négatifs (d). Table 17. Résultats de la validation d’un test diagnostique binaire. Une première étape consiste à vérifier par un test statistique, par exemple un test du χ2, si la proportion de tests positifs est plus élevée chez les malades que chez les non malades. Si c’est le cas, on peut résumer la valeur diagnostique du test par les paramètres fondamentaux de sensibilité et de spécificité. La sensibilité (Se) est la probabilité de test positif lorsque l'on est atteint de la maladie et la spécificité (Sp) est la probabilité que le test soit négatif quand on n'est pas malade. Si les N sujets de l'échantillon aléatoire d'une population correspondant à une situation clinique précise sont répartis dans les quatre catégories croisant le résultat du test avec le diagnostic réel, malade ou non malade, les deux paramètres sont estimés par Se = a a c et Sp = d b d En pratique, la classification des sujets comme malades ou non est déterminée par un test de référence, indépendant du test étudié, et supposé idéal, c'est-à-dire de sensibilité et de spécificité égales à 1. Supposons qu’un nouveau test diagnostique étudié chez 50 patients permette de classer les résultats selon la table 18 Table 18. Exemple de résultats d’un test diagnostique binaire. 32 Les proportions de résultats positifs dans les deux groupes de sujets, malades et non malades, sont respectivement 20/25 et 10/25, soit 0,80 et 0,40. On peut vérifier par un test du χ 2 que ces proportions diffèrent de façon statistiquement significative et que la proportion plus élevée de résultats positifs dans le groupe malade n’est donc probablement pas le fait du hasard (χ 2 à 1 degré de liberté = 8,33 ; p = 0,004). La sensibilité et la spécificité du test diagnostique sont respectivement Se = 20 = 0,80 20 5 et Sp = 15 = 0,60. 10 15 On peut calculer un intervalle de confiance pour ces estimations, qui est, pour la sensibilité et la spécificité respectivement, [Sei ; Ses] = Se ± z Se (1 - Se) a c et [Spi ; Sps] = Sp ± z Sp (1 - Sp) b d z étant la valeur de la variable normale réduite correspondant à une fonction de répartition de 0,975. Dans l’exemple de la table 18, les intervalles de confiance à 95% des estimations sont [Sei ; Ses] = 0,80 ± 1,96 0,80 (1 - 0,80) = [0,64 ; 0,96] 20 5 [Spi ; Sps] = 0,60 ±1,96 0,60 (1 - 0,60) = [0,41 ; 0,79] 10 15 L’intervalle de confiance des estimations renseigne sur leur précision qui sera d’autant meilleure que l’échantillon de sujets est grand. Ainsi, si les données sont celles de la table 19, obtenue en multipliant par 10 les 4 fréquences de la table 18, la sensibilité et la spécificité seront inchangées, Table 19. Exemple de résultats d’un test diagnostique binaire. Se = 0,80 et Sp = 0,60, mais avec des intervalles de confiance à 95 % égaux à [Sei ; Ses] = 0,80 ± 1,96 0,80 (1 - 0,80) = [0,75 ; 0,85] 200 50 [Spi ; Sps] = 0,60 ±1,96 0,60 (1 - 0,60) = [0,54 ; 0,66] 100 150 33 Si l’on souhaite comparer les performances de deux tests diagnostiques différents sur les mêmes sujets, on comparera les sensibilités chez les malades et les spécificités chez les non malades par le test de McNemar décrit au chapitre 1 (page 18), c’est-à-dire pour les données présentées dans la table 20, (a - b)² χ2 = a b Table 20. Données de 2 tests diagnostiques chez les sujets malades ou non malades. Si la sensibilité et la spécificité sont deux paramètres permettant d’évaluer la valeur d’un test diagnostique, ils n’apportent aucune information au médecin praticien. En effet celui-ci préférera connaître, non la probabilité de résultat positif quand on est malade, mais plutôt la probabilité d’être malade en cas de résultat positif. On décrit dès lors deux autres paramètres, les valeurs prédictives. La valeur prédictive positive (VPP) est la probabilité d’être malade en cas de test positif, et la valeur prédictive négative (VPN) est la probabilité de ne pas être atteint de l’affection étudiée en cas de test négatif. Si les N sujets de l'échantillon aléatoire d'une population correspondant à une situation clinique précise sont répartis dans les quatre catégories croisant le résultat du test et l’état réel du malade, comme dans la table 17 ci-dessus, les valeurs prédictives peuvent être estimées par VPP = a a b et VPN = d c d Les intervalles de confiance se calculent par [VPPi ; VPPs] = VPP ± z VPP (1 - VPP) a b et [VPNi ; VPNs] = VPN ± z VPN (1 - VPN) c d Pour l’exemple de la table 18, les estimations et leurs intervalles de confiance à 95% sont, VPP = 20 = 0,67 avec [VPPi ; VPPs] = 0,67 ± 1,96 20 10 0,67 (1 - 0,67) = [0,50 ; 0,84] 20 10 VPN = 15 5 15 0,75 (1 - 0,75) = [0,56 ; 0,94] 5 15 = 0,75 avec [VPNi ; VPNs] = 0,75 ± 1,96 Si nous multiplions les fréquences des non malades de la table 18 par 5, nous obtenons la table 21 qui se différencie de la table 18 par le rapport entre les nombres de malades et de non 34 Table 21. Exemple de résultats d’un test diagnostique binaire. malades, c’est-à-dire que la prévalence est différente, 25/50 soit 0,50 dans la table 18 et 25/150 soit 0,17 dans la table 21. La sensibilité et la spécificité calculées dans les deux tables sont identiques (Se = 0,80 et Sp = 0,60), mais les valeurs prédictives ne le sont pas. La valeur prédictive positive diminue de 0,67 à 0,29 entre les tables 18 et 21, alors que la valeur prédictive négative augmente de 0,75 à 0,94. Contrairement à la sensibilité et à la spécificité, les valeurs prédictives dépendent donc de la prévalence de la maladie dans l’échantillon étudié. On peut démontrer cette relation par des manipulations algébriques de la table de contingence ou en appliquant le théorème des probabilités conditionnelles ou théorème de Bayes. En notant M et M pour l’état malade on non malade respectivement, la probabilité d’être malade en cas de test positif T est P (M si T) = P (M) P(T si M) P(M) P(T si M) P(M ) P(T si M ) qui devient, en remplaçant les probabilités par leurs estimations, et en notant p pour la prévalence, VPP = p Se p Se (1 - p) (1 - Sp) VPN = (1 - p) Sp (1 - p) Sp p (1 - Se) De même, Les valeurs prédictives sont donc fonction de 3 paramètres, la sensibilité, la spécificité mais aussi et surtout la probabilité a priori, c’est-à-dire, en l’absence d’autre information, la prévalence. La figure 4 montre l’évolution des valeurs prédictives positive et négative en fonction de la prévalence pour un test diagnostique de sensibilité et de spécificité respectivement égales à 0,80 et 0,60. 35 1,0 ,8 ,6 ,4 ,2 0,0 0,0 ,2 ,4 ,6 ,8 1,0 prévalence Figure 4. Variations des valeurs prédictives positive (●) et négative(▲) en fonction de la prévalence. L’énorme influence de la prévalence sur les valeurs prédictives est illustrée par l’exemple suivant. La prévalence du SIDA en Belgique est estimée à 0,001 soit 10000 cas pour 10 millions d’habitants. Le test ELISA permet de mettre en évidence le virus HIV du SIDA avec une sensibilité de 0,999 et une spécificité de 0,99. Le test se révèle positif chez un sujet sans symptômes particuliers et non suspect a priori d’être malade, par exemple en cas de recherche systématique pour un bilan préopératoire. La probabilité que ce sujet soit réellement séropositif est VPP = 0,001 x 0,999 = 0,091. [0,001 x 0,999] [(1 - 0,001) x (1 - 0,990)] Cette probabilité peut être vérifiée en considérant les données présentées sous la forme d’une table de contingence comme la table 22, Table 22. Application à la population belge du test ELISA dans le diagnostic du SIDA. 36 On peut calculer directement la valeur prédictive positive par VPP = 9990 = 0,091 109890 probabilité qui se révèle étonnamment faible compte tenu de la sensibilité et de la spécificité excellentes du test ELISA. Supposons ensuite que surpris par le résultat positif observé chez ce patient, le médecin demande un second test à titre de confirmation. Si celui-ci se révèle à nouveau positif, et compte tenu du fait que la probabilité a priori n’est désormais plus la prévalence mais la valeur prédictive positive du premier test, la valeur prédictive positive après ce second test est VPP = 0,091 x 0,999 = 0,909. [0,091 x 0,999] [(1 - 0,091) x (1 - 0,990)] On peut cette fois affirmer avec une probabilité supérieure à 0,90 que le patient est porteur du virus HIV. Le premier test ELISA a donc modifié la probabilité d’être séropositif pour le virus HIV, de 0,001 à 0,091, soit un gain de 9% et le second test de 0,091 à 0,909 soit un gain de 82%. Le tableau ci-dessus résume de façon comparative les principales caractéristiques, d’une part, de la sensibilité et de la spécificité, et, d’autre part, des valeurs prédictives d’un test diagnostique. SENSIBILITE SPECIFICITE VALEURS PREDICTIVES indices descriptifs indices prédictifs approche rétrospective approche prospective indépendants de la prévalence dépendants de la prévalence applicables à toute population applicables seulement à la population étudiée EVALUATION DES CARACTERISTIQUES INTRINSEQUES D’UN TEST DIAGNOSTIQUE EVALUATION DE L’UTILITE CLINIQUE D’UN TEST DIAGNOSTIQUE Table 23. Caractéristiques comparées des paramètres d’un test diagnostique binaire. 37 5. Validité d’un test diagnostique binaire: paramètres résumés On peut vouloir résumer la validité d’un test diagnostique binaire par un seul paramètre combinant la sensibilité et la spécificité, étant entendu que cette attitude revient à considérer de la même façon les résultats faussement positifs et ceux faussement négatifs, attitude qui n’est acceptable que pour certaines maladies. Le rapport de vraisemblance est défini comme le rapport entre les probabilités d’un certain résultat X chez les malades M et les non malades M , c’est-à-dire RV = P (X si M) P (X si M) Pour un test binaire, on définit dès lors le rapport de vraisemblance positif pour un résultat positif T P (T si M) Se RV(+) = = P (T si M ) 1 - Sp et le rapport de vraisemblance négatif pour un résultat négatif T RV(-) = 1 - Se P (T si M) = Sp P (T si M) Pour les données de la table 18, les rapports de vraisemblance sont RV(+) = 0,80 = 2 1 - 0,60 RV(–) = 1 - 0,80 = 0,33 0,60 La signification du rapport de vraisemblance positif est d’être le facteur multiplicatif entre la probabilité d’être malade avant le test, c’est-à-dire la prévalence, et celle de l’être après le test, c’est-à-dire la valeur prédictive positive, les probabilités étant exprimées sous la forme de cote ou odd, en rappelant que la relation entre l’odd et la probabilité est odd = P 1- P et P= odd odd 1 En appelant P la probabilité d’être malade (p étant la prévalence), P avant P après = x RV 1 - P avant 1 - P après ou odd après = odd avant x RV ce qui devient, en considérant les paramètres fondamentaux d’un test diagnostique, 38 VPP p Se = x 1 - VPP 1- p 1 - Sp 1 - VPN 1 - Se p = x VPN Sp 1- p Ainsi pour la table 18, connaissant p = 0,50 et VPP = 0,67 calculés plus haut, on a bien pour odd après = odd avant x RV(+) 0,67 0,50 = x 2 1 - 0,50 1 - 0,67 soit 2 = 1 x 2 Il est important de constater que, comme la sensibilité et la spécificité dont il est fonction, le rapport de vraisemblance est indépendant de la prévalence. Ainsi dans l’exemple du test ELISA pour diagnostiquer le virus HIV décrit plus haut, RV(+) = 0,999 = 99,9 1 - 0,99 et on peut vérifier que, pour le premier test, 0,091 0,001 = x 99,9 1 - 0,091 1 - 0,001 et pour le second (la valeur prédictive positive du premier test remplaçant la prévalence), 0,909 0,091 = x 99,9 1 - 0,909 1 - 0,091 Figure 5. Nomogramme de Fagan. 39 Un nomogramme représenté à la figure 5, appelé nomogramme de Fagan, permet de calculer grossièrement la probabilité a posteriori (valeur prédictive positive) en fonction de la probabilité a priori (prévalence) et du rapport de vraisemblance positif. Il est appliqué aux données du test ELISA à la figure 6, la diagonale descendante étant la droite du premier test, l’ascendante celle du second test et les probabilités exprimées sous forme de pourcentages. Figure 6. Nomogramme de Fagan appliqué aux données du test ELISA. La validité d’un test diagnostique binaire peut encore être résumée par l’efficacité diagnostique et l’index de Youden. L’efficacité diagnostique est la proportion de résultats corrects, vrais positifs et vrais négatifs, dans l’ensemble des résultats. C’est donc, d’après les notations de la table 17, a d E= a b c d ou pour l’exemple de la table 18, E= 20 15 = 0,70 20 10 5 15 Ce paramètre peut paraître un résumé intéressant de la valeur diagnostique d’un test. Il faut cependant le considérer avec beaucoup de prudence, car sa dépendance vis-à-vis de la prévalence peut le rendre totalement absurde, par exemple dans un test de dépistage pour lequel la population malade est très restreinte. L’exemple de la table 24 est celui d’un test de dépistage avec une efficacité diagnostique presque parfaite de 0,99, alors que l’examen de la table montre que ce test Table 24. Exemple d’un test de dépistage sans valeur. 40 ne diagnostique jamais rien ! Il faut lui préférer l’index de Youden, qui pondère de la même façon la sensibilité et à la spécificité et est indépendant de la prévalence. On le définit par Y = Se + Sp –1 Dans l’exemple de la table 18, il vaut Y = 0,80 + 0,60 – 1 = 0,40 et rend bien compte de l’inutilité du test de dépistage de la table 24, avec Y=0+1–1=0 6. Validité d’un test diagnostique binaire: biais et problèmes Si l’évaluation de la validité d’un test diagnostique binaire peut paraître assez facile sur le plan conceptuel dans la mesure où l’on raisonne sur une simple table 2 x 2, l’interprétation peut cependant en être délicate car beaucoup de biais ou de problèmes peuvent venir compliquer le schéma théorique. Nous envisagerons les principaux biais, à savoir le biais du spectre, celui de non indépendance et le biais de vérification, ainsi que les problèmes posés par les tests avec des résultats incertains et par les tests de référence imparfait ou absent. Le biais du spectre résulte de la non représentativité de l’échantillon de patients par rapport au problème diagnostique réel. Si les malades sont des cas très avancés du processus pathologique (« sickest of the sick ») alors que les non malades à qui on les compare sont des sujets parfaitement sains (« wellest of the well »), la sensibilité et la spécificité du test étudié seront probablement excellentes artificiellement. Le dosage de l’antigène prostatique spécifique (PSA), par exemple, est utilisé pour détecter le cancer de la prostate, pathologie survenant chez l’homme âgé. Si l’on étudie la valeur diagnostique de ce dosage dans le cancer de la prostate en sélectionnant comme non malades des individus jeunes et en excellente santé, on conclura à la grande valeur du test. Mais si le dosage du PSA est testé avec comme sujets non malades, c’est-à-dire ne souffrant pas de cancer de la prostate, des sujets âgés souffrant d’hyperplasie bénigne de la prostate ou de prostatite, les performances du test se révèleront probablement beaucoup moins bonnes, alors que c’est en réalité pour discriminer entre ces différentes pathologies prostatiques que se pose le problème diagnostique. Le second biais dit biais de non indépendance survient lorsque le diagnostic de référence qui est utilisé pour classer les sujets étudiés en malades et non malades tient compte du test diagnostique évalué. Si la présence de ce test suffit à affirmer le diagnostic, sa valeur prédictive positive est évidemment toujours erronément de 1. Enfin, le biais de vérification est un biais extrêmement fréquent, et qui peut être quantitativement important. Il est la conséquence de ce que les résultats du test étudié n’entraînent pas nécessairement de vérification par le test de référence de la même façon pour les tests positifs et négatifs. Supposons que l’on étudie la valeur diagnostique d’un nouveau signe électrocardiographique dans la détection de la maladie coronarienne, le diagnostic de référence étant posé par angiographie coronarienne, examen invasif et non exempt de complications. Il est évident que les sujets positifs au nouveau test subiront plus fréquemment l’angiographie que ceux qui sont négatifs. Pour les données de la table 25, avec t1 = a + b et t0 = c + d, 41 Table 25. Résultats d’un test diagnostique avec biais de vérification. on peut montrer que, si la réalisation du test de référence ne dépend que du test étudié, les paramètres de sensibilité et de spécificité sont Se = (t1 (t1 u1) t0 a u1) t0 a (t0 u0) t1 c et Sp = (t0 (t0 u0) t1 d u0) t1 d (t1 u1) t0 b Table 26. Exemple de résultats d’un test diagnostique avec biais de vérification. La partie gauche de la table 26 illustre les résultats de 200 sujets qui ont eu un test de référence après le test étudié, alors que le test de référence n’a pas été réalisé chez 300 autres patients décrits dans la partie droite de la table. Les estimations apparentes de la sensibilité et de la spécificité, calculées sans tenir compte des sujets non vérifiés sont Se = 0,86 et Sp = 0,90 En réalité, les estimations corrigées sont Se = (96 4) x 104 x 86 = 0,62 < Se apparente (96 4) x 104 x86 (104 296) x 96 x14 Sp = (104 296) x 96 x 90 = 0,97 > Sp apparente (104 296) x 96 x 90 (96 4) x 104 x 10 42 montrant que le biais de vérification surestime la sensibilité et sous-estime la spécificité. Le premier problème que nous envisagerons en-dehors des biais est celui des résultats incertains. Dans un certain nombre de cas, les résultats ne sont ni positifs, ni négatifs, soit parce que on ne peut se prononcer, soit parce que l’examen a échoué pour des raisons techniques. Ces cas ne peuvent être éliminés parce que leur suppression surestimerait la sensibilité et la spécificité du test étudié. La table 27 est un exemple de cette situation avec 20 résultats incertains, 10 chez les malades et 10 chez les non malades. Table 27. Exemple de test diagnostique avec résultats incertains. La sensibilité apparente est de 86 / 100, soit 0,86 et la spécificité apparente de 90 / 100, soit 0,90. Plusieurs attitudes sont alors possibles pour éviter des estimations erronées. La première est de considérer la situation la plus défavorable, c’est-à-dire que les cas incertains sont considérés comme négatifs chez les malades donc dans le calcul de la sensibilité, et comme positifs chez les non malades donc dans l’estimation de la spécificité. En suivant cette attitude les paramètres de la table 27 sont Se = 86 = 0,78 86 10 14 et Sp = 90 = 0,82 10 10 90 Une seconde attitude consiste à estimer les paramètres en considérant à la fois la situation la plus défavorable et la plus favorable, donc en retenant les résultats incertains une fois comme positifs et une fois comme négatifs. Les sensibilité et spécificité sont alors estimées par un intervalle entre deux bornes. Pour l’exemple de la table 27, les estimations dans la situation la plus favorable étant Se = 86 10 10 90 = 0,87 et Sp = = 0,91, 86 10 14 10 10 90 on conclut par les inégalités 0,78 < Se < 0,87 et 0,82 < Sp < 0,91 Une troisième attitude consiste à estimer les paramètres sans tenir compte des résultats incertains, mais en y ajoutant la notion de rendement diagnostique, c’est-à-dire la proportion de résultats certains. Dans la table 27, le rendement d’un test positif est 43 Y(+) = 86 14 = 0,91 86 10 14 avec une sensibilité de 0,86 et le rendement d’un test négatif Y(-) = 90 10 = 0,91 90 10 10 avec une spécificité de 0,90. Enfin une quatrième et dernière attitude consiste à transformer le résultat binaire du test en variable ordinale, les résultats incertains étant considérés comme intermédiaires entre les résultats négatifs et positifs, avec éventuellement la définition de plusieurs degrés d’incertitude. On peut alors étudier la validité du test diagnostique par les courbes ROC que nous étudierons au paragraphe 7 de ce chapitre. Un autre problème fréquent dans l’évaluation de la validité d’un test diagnostique est l’imperfection du test de référence qui est utilisé pour classer les sujets en malades ou non malades, théoriquement avec certitude. Schématisée dans la table 28, avec N = a + b + c + d, Table 28. Validation d’un test diagnostique par rapport à un test de référence. on peut montrer que la sensibilité du test étudié est fonction de la spécificité du test de référence (SpR ) et la spécificité du test fonction de la sensibilité du test de référence (SeR), les estimations corrigées étant Se = (a b) SpR - b N SpR - (b d) et Sp = (c d) SeR - c N SeR - (a c) Table 29. Exemple de résultats d’un test diagnostique par rapport à un test de référence. 44 Ainsi, pour l’exemple de la table 29, la sensibilité apparente est de 0,80 et la spécificité apparente de 0,90, mais cela suppose que le test de référence est parfait, c’est-à-dire que SeR = SpR = 1. La table 30 présente les estimations corrigées pour d’autres valeurs des paramètres du test de référence. Table 30. Sensibilités et spécificités corrigées pour les données de la table 29 et diverses valeurs des paramètres du test de référence. On peut constater que pour SeR = SpR = 0,95 par exemple, la sensibilité et la spécificité sont de 0,882 et 0,919 respectivement, et donc que l’absence de correction pour l’imperfection du test de référence sous-estime les paramètres du test étudié. Cela en fait n’est vrai qu’en cas d’indépendance entre le test étudié et le test de référence, car les paramètres du test étudié peuvent être au contraire surestimés en cas de corrélation entre les deux tests. Enfin, dans certains cas il n’y a pas de test de référence disponible, par exemple dans certaines maladies infectieuses où l’exclusion de l’affection n’est pas toujours possible. Lorsque l’on étudie la validité de plusieurs tests simultanément, on peut malgré tout déterminer leur sensibilité et leur spécificité sous certaines conditions, en utilisant des méthodes particulières. Il ne s’agit pas de calculer les paramètres d’un test en considérant l’autre ou un autre comme test de référence – on parle alors de copositivité ou de conégativité – mais d’estimer réellement la sensibilité et la spécificité de chaque test étudié en fonction de l’état du sujet, malade ou non, pourtant inconnu. 7. Validité d’un test diagnostique quantitatif Supposons que l’on étudie la validité d’un marqueur biologique en cas de tumeur. Le dosage du marqueur est réalisé chez 30 sujets, 15 malades présentant la tumeur et 15 sujets indemnes de l’affection. La table 31 détaille les résultats des 30 dosages, représentés sur la figure 7, les dosages de gauche étant ceux des sujets présentant une tumeur. 45 TUMEUR SANS TUMEUR 7,8 4,2 8,4 4,9 10,2 5,1 10,4 5,2 10,5 5,3 11,3 6,3 12,5 7,1 13,8 8,1 14,0 8,5 14,3 8,6 15,8 9,2 16,1 9,7 16,4 10,0 18,0 10,6 19,2 11,1 Table 31. Dosages d’un marqueur biologique selon la présence ou l’absence d’une tumeur. 20 18 16 14 12 10 8 6 4 2 0 Figure 7. Dosages d’un marqueur biologique selon la présence ou l’absence d’une tumeur. Les moyennes et déviations-standards des dosages du marqueur chez les sujets malades et non malades sont 13,2 ± 3,5 et 7,6 ± 2,3 respectivement. Un test statistique confirme que le marqueur est significativement plus élevé chez les patients présentant la tumeur que chez les sujets témoins (test t de Student ou test W de Wilcoxon: p<0,001). Pour quantifier la valeur diagnostique du dosage, en considérant par exemple le seuil de 8 comme indicatif de la présence d’une tumeur, on peut répartir les sujets dans la table 32A et estimer la sensibilité et la spécificité à 0,93 et 0,47. 46 Tables 32. Répartition des sujets de la table 31 selon le seuil utilisé pour définir la présence d’une tumeur. Les seuils de 10 et de 12 entraînent les répartitions des tables 32B et 32C, avec les sensibilité et spécificité de 0,87 et 0,80 pour le seuil de 10, et de 0,60 et 1 pour celui de 12. Le choix d’un seuil de plus en plus élevé diminue la sensibilité et augmente la spécificité. On peut dès lors dessiner le graphique de la sensibilité en fonction de (1 - spécificité), paramètres variant dans le même sens, pour tous les seuils possibles du dosage. C’est la courbe ROC (receiver operating characteristic curve) qui représente la validité du test quel que soit le seuil de positivité choisi. 1,0 SENSIBILITE ,8 ,6 ,4 ,2 0,0 0,0 ,2 ,4 ,6 ,8 1,0 1 - SPECIFICITE Figure 8. Courbe ROC pour les données de la table 32. La figure 8 montre la courbe ROC empirique pour les 3 seuils choisis 8, 10 et 12 de la table 32, et la figure 9 la courbe pour tous les seuils possibles du dosage du marqueur. 47 1,0 SENSIBILITE ,8 ,6 ,4 ,2 0,0 0,0 ,2 ,4 ,6 ,8 1,0 1 - SPECIFICITE Figure 9. Courbe ROC pour les données de la table 31. Un paramètre mesurant la validité d’un test diagnostique quantitatif indépendamment du seuil de positivité est alors la surface sous la courbe ROC, notée habituellement AUC (area under the curve). Celle-ci correspond à la probabilité de choix correct devant les résultats de deux tests, sachant que l’un est celui d’un sujet malade et l’autre d’un non malade. Plusieurs modèles ont été décrits pour dessiner la courbe et estimer la surface de façon paramétrique, le plus utilisé étant le modèle binormal. La surface sous la courbe ROC peut aussi être estimée par une méthode non paramétrique en rapport avec le test de Wilcoxon de comparaison de deux moyennes. Si on classe toutes les valeurs observées du test diagnostique par ordre croissant et que l’on note W 1 la somme des rangs correspondant aux n1 sujets malades, n0 étant le nombre de sujets non malades, la surface sous la courbe est W1 AUC = n1 (n1 1) 2 n1 n0 Dans l’exemple des marqueurs biologiques de la table 31, la somme des rangs pour les dosages correspondant à des sujets avec tumeur est W1 = 324 et donc 15 (15 1) 2 = 0,907 15 x 15 324 AUC = La surface peut aussi être calculée par la méthode trapézoïdale, c’est-à-dire par la sommation de figures géométriques élémentaires, triangles, rectangles ou trapèzes. La méthodologie des courbes ROC est utilisée largement dans les publications médicales, non seulement pour mesurer la validité d’un test diagnostique quantitatif, mais également pour étudier un test binaire dont on relativise le degré de certitude par 5 catégories ordinales, comme définies dans la table 33. Ce dernier procédé est très souvent employé dans les études de validation d’un test diagnostique en imagerie (radiologie, médecine nucléaire, résonance magnétique, …). 48 GRADATION APPRECIATION DU RESULTAT 1 certainement négatif 2 probablement négatif 3 incertain 4 probablement positif 5 certainement positif Table 33. Gradation de l’appréciation subjective d’un test. * * * 49 CHAPITRE 3 DONNEES DE SURVIE 1. Caractéristiques des données de survie 2. Recueil des informations 3. Distributions et fonctions de survie 4. Estimation non paramétrique par la méthode de KaplanMeier 5. Estimation non paramétrique par la méthode actuarielle 6. Comparaison non paramétrique de deux courbes de survie 7. Modèles de survie paramétriques 8. Modèle de survie exponentiel 9. Modèle de survie de Weibull 10. Modèle de survie de Cox 1. Caractéristiques des données de survie On peut définir le taux de survie à un temps t comme le rapport entre, d’une part, le nombre de sujets vivants après t , et, d’autre part, la somme de ce paramètre et du nombre de sujets décédés avant t. Les taux de survie définis de cette façon sont donc des proportions, éventuellement exprimées en pourcentages, que l’on peut estimer et comparer par les méthodes statistiques habituelles pour ce type de variable. Une telle estimation, appelée survie directe présente cependant un inconvénient majeur. Elle oblige en effet à consentir une perte d’information qui peut être importante, puisque tous les sujets vivants au moment de l’analyse mais dont la survie n’atteint pas le temps t ne peuvent être comptabilisés. Si on étudie, par exemple, la survie à 5 ans après un certain type d’intervention chirurgicale, tous les sujets encore vivants au moment de l’analyse mais opérés depuis moins de 5 ans seront exclus du calcul du taux de survie. La table 34 détaille le recul MOIS 0,5 3,0 5,0 10,0 11,5 16,0 24,5 24,5 25,0 25,5 25,5 27,0 DECES 1 0 1 1 0 0 0 0 0 0 0 0 Table 34. Recul en mois de 12 sujets après intervention chirurgicale. en mois de 12 sujets après une intervention chirurgicale particulière, avec leur état le plus récent, décédé (1) ou non (0). La survie directe est exprimée dans la table 35 et représentée par la figure 10. TEMPS (MOIS) 1 6 12 24 26 NUMERATEUR 11 9 7 6 1 DENOMINATEUR 12 11 10 9 4 SURVIE DIRECTE 91,7 81,8 70,0 66,7 25,0 Table 35. Survie directe des données de la table 34, exprimée en pourcentages. L’inconvénient cité plus haut entraîne une aberration, à savoir que la survie chute de 67 à 25% entre 24 et 26 mois, alors qu’il n’y a aucun décès pendant cette période. Le caractère particulier des données de survie impose par conséquent l’utilisation de méthodes spécifiques. Le caractère fondamental des données de survie est le fait que la variable « survie depuis une certaine date » ne peut en fait être observée que pour certains sujets. Au moment de l’analyse 51 on ne pourra noter une réalisation de la variable que pour les sujets décédés. Pour les sujets encore vivants à ce moment, on n’observera qu’une borne inférieure de la variable. Une telle donnée est Figure 10. Survie directe en mois des données de la table 34. appelée censurée à droite. De façon générale, une donnée peut être censurée à gauche si on sait seulement que l’évènement étudié est survenu avant une certaine date. Les censures sont en fait un cas particulier de troncatures, c’est-à-dire de données toujours non observables parce que inférieures (donnée tronquée à gauche) ou supérieures (donnée tronquée à droite) à un seuil. De plus les censures peuvent être aléatoires ou non. Par ailleurs, les méthodes d’analyse des données de survie peuvent être étendues à d’autres situations. On peut étudier par exemple la survie relative, c’est-à-dire la survie par rapport à une cause précise de décès. Dans ce cas les sujets ne sont comptabilisés comme morts que si la cause du décès est l’affection étudiée. De même la rechute d’une maladie ou la survenue d’une de ses complications, ou encore le rejet d’un organe greffé pourront être étudiés par des méthodes identiques. En fait, la méthodologie d’analyse des données de survie peut être étendue à tout événement en tout ou rien unique et irréversible dont la survenue est fonction du temps, cet événement étant l’analogue du décès dans la terminologie des données de survie. 2. Recueil des informations Il implique la définition de trois dates, la date d’origine, la date de point et la date des dernières nouvelles. Pour un sujet i, la date d’origine Oi est la date à partir de laquelle on souhaite étudier la survie, par exemple, une intervention chirurgicale ou l’établissement d’un diagnostic. La date de point est la date à laquelle on collecte les informations. Une date de point unique P pour tous les sujets caractérise la méthode de l’information unique à date fixe, par opposition à la méthode des anniversaires dans laquelle l’information est collectée un temps constant après la date d’origine et varie donc d’un sujet à l’autre. Enfin, la date des dernières nouvelles est celle de l’information la plus récente pour chaque sujet. A cette date le sujet peut être décédé (Di), ou vivant (Vi), soit parce que à partir de cette date plus aucune information n’est disponible – ce sont les 52 perdus de vue – soit parce que le sujet est encore vivant au moment de l’analyse, c’est-à-dire que la date des dernières nouvelles est identique à la date de point, ce sont les exclus vivants. Chaque sujet peut être caractérisé par un temps de participation. Pour un sujet décédé, le temps de participation est la durée de vie Ti, c’est-à-dire la période Oi → Di, tandis que pour un sujet vivant, le temps de participation est la durée d’observation Li, soit la période Oi → Vi, soit Oi → P selon que c’est la date des dernières nouvelles ou la date de point qui est chronologiquement la première. La figure 11 illustre ces dates et ces périodes pour trois patients, un décédé, un perdu de vue et un exclu vivant. Figure 11. Exemple de temps de participation de différents sujets dans une étude de survie. L’information concernant chaque sujet i nécessaire à l’analyse des données de survie est donc en pratique un couple de variables, avec une variable continue ti qui est le temps de participation Ti ou Li, et une variable dichotomique indiquant l’état du sujet, vivant ou décédé. 3. Distributions et fonctions de survie Considérons la durée de vie T comme une variable aléatoire continue et non négative. Sa fonction de densité de probabilité est la probabilité de décès au temps t, c’est-à-dire, P (t f(t) = "P ( T = t )" = lim Δt→0 T t t t) tandis que sa fonction de répartition représente la probabilité de décès avant t, soit t F(t) = P ( T ≤ t ) = f(T) dT 0 Nous nous intéresserons à trois fonctions dérivées de ces distributions de probabilité, la fonction de survie, la fonction de risque et la fonction de risque cumulé. La fonction de survie, fonction monotone décroissante, est la probabilité de survie jusqu’au temps t, donc S(t) = P ( T > t ) = 1 - F(t) 53 ou en dérivant les deux membres de l’égalité par rapport à t, d[S(t)] = - f(t) dt La fonction de risque ou risque instantané de décès ou encore force de mortalité est la probabilité de décès en t conditionnellement au fait d’avoir survécu jusqu’en t, soit h(t) = lim Δt→0 P (t T t t|T t) t Cette probabilité conditionnelle est h(t) = - d [Log S(t)] f(t) f(t) = = dt 1 - F(t) S(t) Enfin la fonction de risque cumulé, fonction monotone croissante, est la somme de tous les risques instantanés de décès aux temps antérieurs à t, t h(T) dT = - Log S(t) H(t) = 0 permettant donc d’écrire la relation inverse S(t) = exp [- H(t)] Les fonctions de survie et de risque peuvent être estimées par deux types d’approche. L’approche non paramétrique, qui suppose que la distribution de la variable aléatoire T n’est pas spécifiée, comprend la méthode de Kaplan-Meier et la méthode actuarielle. Si au contraire on peut supposer une distribution définie de la variable aléatoire T, les fonctions de survie et de risque peuvent être estimées par une approche paramétrique avec des modèles variés, tels le modèle exponentiel et celui de Weibull. Une approche intermédiaire dite semi-paramétrique, comme le modèle de Cox, est utilisée pour comparer des survies sous certaines conditions. 4. Estimation non paramétrique par la méthode de Kaplan-Meier La méthode de Kaplan-Meier est un procédé d’estimation non paramétrique d’une fonction de survie et donc d’une courbe de survie. Son principe est de considérer le temps comme divisé en intervalles infiniment petits. Si on note Qj la probabilité de survie au temps j conditionnellement au fait d’être exposé au risque de décès en j, c’est-à-dire d’être encore vivant « juste avant j », la fonction de survie au temps t est le produit des probabilités élémentaires de survie Qj, t S(t) = Q1 Q2 Q3 … Qj … Qt = Qj j 1 Les tables 36 et 37 montrent le calcul, à différents temps, de la survie d’un échantillon de 100 patients par la méthode directe que l’on a montré peu logique et par celle de Kaplan-Meier. 54 Table 36. Survie de 100 patients estimée par la méthode directe. Table 37. Survie de 100 patients estimée par la méthode de Kaplan-Meier. En pratique, on classe les sujets par ordre croissant de leur temps de participation ti et on note leur état en ti, vivant ou décédé. En appelant dj le nombre de décès en j et ej le nombre de perdus de vue ou d’exclus vivants de (j-1) à j, le nombre nj de sujets exposés au risque en j est, avec n0 le nombre de sujets au temps 0, j-1 nj = n0 - j dk k 1 ek k 1 avec comme estimation de la fonction de survie t t S(t) = Qj = j 1 j 1 nj - dj nj Si il n’y a pas de décès en j, dj = 0 entraîne Qj = 1, ce qui signifie qu’en pratique le calcul de l’estimation de survie S(t) ne devra tenir compte que des temps j correspondant à des décès. Par ailleurs si il n’y a pas de perdus de vue ni d’exclus vivants, la fonction de survie devient 55 t n1 - d1 - d2 - .... - dt n1 - d1 (n1 - d1) - d2 (n1 - d1 - d2) - d3 S(t) = = n1 - d1 - d2 - .... - dt - 1 n1 (n1 - d1) (n1 - d1 - d2) n1 - dj j 1 n1 c’est-à-dire la survie directe, dont l’estimation de Kaplan-Meier est donc bien une généralisation. La variance de cette estimation est donnée par une relation décrite sous le nom de formule de Greenwood pour l’estimation actuarielle Var [S(t)] = [S(t)]2 t j 1 dj nj (nj - dj) Nous illustrerons l’estimation de la survie de Kaplan-Meier par les données classiques de Freireich et al. (Blood, 1963, 21, 699-716) décrivant l’évolution de deux groupes de sujets souffrant de leucémie aiguë en rémission due aux glucocorticoïdes et traités par 6-mercaptopurine ou par placebo. La table 38 présente les temps de participation en semaines des sujets du groupe expérimental, les rechutes étant considérées du point de vue méthodologique comme des décès, les exclus sans rechute comme des exclus vivants. Lorsque des décès et des exclus vivants ont le même temps de participation, le calcul est réalisé en supposant les décès comme antérieurs aux exclus vivants. RECHUTES 6 6 6 7 10 13 16 22 23 EXCLUS SANS RECHUTE 6 9 10 11 17 19 20 25 32 32 34 35 Table 38. Temps de participation en semaines des leucémiques traités par 6-mercaptopurine. La table 39 détaille pour chaque temps j le calcul du nombre dj de décès, du nombre ej d’exclus vivants, du nombre nj de sujets exposés au risque, des probabilités élémentaires de survie Qj et de la fonction de survie S(t). Table 39. Calcul de la fonction de survie de Kaplan-Meier pour les données de la table 38. Quant à la variance de l’estimation, elle est pour la survie à 6 et 7 semaines, par exemple, Var [S(6)] = (0,857)2 3 = 0,006 21 (21 - 3) 56 Var [S(7)] = (0,807)2 3 1 + = 0,008 21 (21 - 3) 17 (17 - 1) La courbe de survie est illustrée par la figure 12. Figure 12. Courbe de survie de Kaplan-Meier pour les données des tables 38 et 39. On peut remarquer que chaque sujet est représenté sur la courbe, soit par une descente de celle-ci pour un ou plusieurs sujets décédés, soit par une petite barre verticale pour un ou plusieurs sujets perdus de vue ou exclus vivants. La courbe de survie de Kaplan-Meier des sujets de l’exemple introductif de ce chapitre, avec les 12 sujets après intervention chirurgicale (table 34), est représentée par la figure 13, en surimpression sur la survie directe décrite précédemment. On y remarque que l’aberration constatée avec la survie directe disparaît avec la méthode de KaplanMeier. Figure 13. Survie directe et courbe de survie de Kaplan-Meier des données de la table 34. 57 Le risque cumulé de décès peut être estimé de deux façons, soit par l’estimateur de Kaplan-Meier H(t) = - Log S(t) soit par l’estimateur de Nelson t H(t) = j 1 dj nj La table 40 montre les résultats obtenus par les deux méthodes pour estimer le risque cumulé de rechute des sujets leucémiques traités par 6-mercaptopurine étudiés plus haut. j dj nj 6 7 10 13 16 22 23 3 1 1 1 1 1 1 21 17 15 12 11 7 6 estimateur de Kaplan-Meier 0,154 0,214 0,284 0,371 0,467 0,620 0,803 estimateur de Nelson 0,143 0,202 0,268 0,352 0,443 0,585 0,752 Table 40. Estimations du risque cumulé de rechutes pour les données des tables 38 et 39. 5. Estimation non paramétrique par la méthode actuarielle La méthode actuarielle est un procédé approché d’estimation d’une fonction de survie. Son principe est de diviser le temps en intervalles fixés a priori, d’estimer la probabilité Qj à la fin de chaque intervalle j, conditionnellement au fait d’être exposé au risque dans cet intervalle, c’est-àdire d’être vivant à la fin de l’intervalle précédent, et d’estimer la survie par le produit des probabilités Qj. On divise donc le temps depuis la date d’origine en intervalles, égaux ou inégaux, et on classe chaque sujet dans l’intervalle j correspondant à son temps de participation selon son état, décédé ou vivant. On définit ainsi pour chaque intervalle le nombre de sujets décédés dj et le nombre de sujets perdus de vue ou exclus vivants ej dans cet intervalle. Le nombre de sujets vivants au début de l’intervalle (j-1, j) est alors mj = mj-1 - dj-1 - ej-1 avec pour le premier intervalle m0 = n, effectif total de sujets. Le nombre de sujets exposés au risque de décès de chaque intervalle dépend de la méthode de recueil des données. Lorsque l’information concernant l’état des sujets est obtenue à chaque date anniversaire de la date d’origine (méthode des anniversaires), c’est-à-dire quand la date de point est différente pour tous les sujets, la date des dernières nouvelles correspond habituellement au début d’un intervalle et le nombre de sujets exposés au risque de décès est nj = mj - ej 58 Si au contraire comme c’est fréquemment le cas la date de point est unique (méthode de l’information unique à date fixe), la date des dernières nouvelles correspondra à un moment quelconque de l’intervalle. Les sujets perdus de vue ou exclus vivants étant exposés une fraction variable de l’intervalle seront considérés comme ayant été exposés en moyenne la moitié de l’intervalle et on estimera le nombre de sujets exposés au risque de décès par nj = mj - ej 2 Cette approximation suppose en fait que la répartition des temps de participation des perdus de vue et des exclus vivants est uniforme dans chaque intervalle. On peut estimer la probabilité de survie de l’intervalle j par Qj = nj - dj nj et la fonction de survie par, comme pour la méthode de Kaplan-Meier, t t S(t) = Qj = j 1 j 1 nj - dj nj ou en remplaçant nj par sa valeur t S(t) = 1j 1 t 1- S(t) = j 1 dj ej mj 2 dj mj - ej dans la méthode des anniversaires dans la méthode de l’information unique à date fixe. La variance étant estimée par la formule de Greenwood décrite précédemment, Var [S(t)] = [S(t)]2 t j 1 dj nj (nj - dj) on peut calculer l’intervalle de confiance de façon approchée par S(t) ± z Var [S(t)] z étant la valeur de la variable normale réduite correspondant à une fonction de répartition de 0,975 pour un intervalle de confiance à 95%. L’estimation actuarielle d’une survie est donc en fait une approximation de l’estimation de Kaplan-Meier qui n’est valide qu’aux conditions suivantes: 1. Effectif total de sujets suffisamment grand; 59 2. Répartition uniforme des temps de participation des perdus de vue et des exclus vivants dans chaque intervalle, et donc régularité dans le temps des dates d’origine de chaque sujet; 3. Mortalité faible de chaque intervalle; 4. Risque de décès constant à l’intérieur de chaque intervalle. Nous illustrerons la méthode actuarielle par l’estimation de la survie de 100 patients ayant bénéficié d’une seconde transplantation rénale après échec ou rejet d’une première greffe. Le temps après la date de transplantation est divisé en intervalles inégaux et les données sont recueillies selon la méthode de l’information unique à date fixe. Les temps de participation des 100 sujets sont classés dans l’intervalle correspondant, selon leur état décédé ou vivant. La table 41 détaille la façon pratique de calculer l’estimation aux différents temps de la survie ± son erreur-standard. Table 41. Estimation actuarielle de la survie de 100 patients après une seconde transplantation rénale. La figure 14 est une représentation de la survie actuarielle, estimations ± erreurs-standards, avec les nombres de sujets exposés notés classiquement au-dessus de l’abscisse. Figure 14. Courbe de survie actuarielle des patients après une seconde transplantation rénale. 60 6. Comparaison non paramétrique de deux courbes de survie La comparaison de deux fonctions de survie estimées de façon non paramétrique peut être effectuée par les tests de Mantel-Haenszel ou du log rank. Le principe du test de Mantel-Haenszel dérivé de la version décrite au chapitre 1 (page 17) est de comparer, pour l’un des deux groupes, le nombre de décès observé au nombre attendu sous l’hypothèse nulle d’égalité des deux fonctions de survie et ce, dans tous les intervalles constitués pour estimer ces fonctions de survie. On peut en effet considérer que, dans chaque intervalle j, les nombres de sujets décédés et vivants forment, pour les deux groupes A et B, une table de contingence comme dans la table 42. Table 42. Table de contingence des données de survie d’un intervalle. Le nombre attendu de décès pour le groupe k, avec k = (A, B), dans l’intervalle j est Tjk = dj njk nj La variance de la différence entre les nombres observé et attendu de décès étant Vj = njA njB dj (nj - dj) nj² (nj - 1) la statistique du test est t t djk - χ² = Tjk ² j 1 j 1 t Vj j 1 qui suit sous l’hypothèse nulle d’égalité des deux survies une distribution du χ² à 1 degré de liberté. Le test du log rank est une forme approchée du test de Mantel-Haenszel, défini par la statistique t t djA - χ² = j 1 t TjA ² j 1 t t djB - + j 1 t TjA j 1 TjB ² j 1 TjB j 1 61 de même distribution de probabilité, le calcul étant en pratique facilité par la relation TjB = djA + djB - TjA On peut noter que la statistique du log rank est toujours inférieure ou égale à celle de Mantel-Haenszel, la version approchée étant donc conservatrice. Par ailleurs les tests de MantelHaenszel et du log rank n’ont de sens que si les courbes de survie ne se croisent en aucun point. En outre, si le test est significatif, c’est-à-dire si il démontre que les courbes de survie diffèrent de façon statistiquement significative, on peut quantifier la différence en estimant le risque relatif de décès, rapport entre les risques de décès de chaque groupe. Ce paramètre est égal au rapport entre les quotients des nombres totaux de décès observés et attendus dans chaque groupe, soit pour le risque relatif du groupe B par rapport au groupe A t t djB RR = j 1 djA j 1 t t TjB j 1 TjA j 1 La table 43 présente les données de survie de greffons de 133 enfants transplantés avec deux types d’organes, soit des reins de cadavres (A), soit des reins de donneur vivant apparenté (B), et détaille le calcul du nombre attendu de pertes de greffon pour le groupe transplanté avec un rein de cadavre, Table 43. Données de survie de greffons chez des enfants transplantés rénaux. soit, pour le premier intervalle, TjA = Vj = dj njA 17 x 65,5 = = 8,404 nj 132,5 njA njB dj (nj - dj) 65,5 x 67 x 17 x (132,5 - 17) = = 3,732 nj² (nj - 1) 132,5 x 132,5 x (132,5 - 1) Après avoir calculé les paramètres et avoir additionné leurs valeurs pour tous les intervalles, la statistique du test de Mantel-Haenszel est 62 χ² = 27 - 20,999 ² = 3,79 correspondant à p = 0,052 9,501 et, après avoir calculé, TjB = 27 + 16 - 20,999 = 22,001 celle du log rank χ² = (27 - 20,999) ² (16 - 22,001) ² + = 3,35 correspondant à p = 0,067. 20,999 22,001 En admettent que les courbes de survie diffèrent de façon statistiquement significative, on peut estimer le risque relatif de perte du greffon du groupe « rein de cadavre » par rapport à celui du groupe « rein de donneur vivant apparenté » par RR = 27 20,999 16 = 1,77 22,001 7. Modèles de survie paramétriques Dans l’approche paramétrique de l’analyse statistique des données de survie, on suppose que la variable aléatoire durée de vie T suit une distribution dont on connaît la densité de probabilité f(t) et qui dépend d’un certain nombre de paramètres. Les fonctions de survie S(t), de risque instantané de décès h(t) et de risque cumulé H(t) dépendront également du ou des paramètres définis par la densité de probabilité. Si la distribution caractérisant le modèle paramétrique choisi correspond effectivement à la distribution réelle de la variable aléatoire dans la population, l’estimation de la survie et des risques donnés par le modèle sera la meilleure possible. Dans le cas contraire, elles sera évidemment biaisée. L’utilisation d’un modèle paramétrique suppose donc habituellement que, d’une part, on dispose d’arguments théoriques en faveur de la distribution choisie, et que, d’autre part, on vérifie la bonne adéquation du modèle aux données observées. Parmi les nombreux modèles proposés nous nous limiterons à décrire le modèle exponentiel et à introduire le modèle de Weibull. 8. Modèle de survie exponentiel Le modèle exponentiel est défini par la distribution exponentielle de la variable aléatoire T, dépendant d’un seul paramètre λ et de densité de probabilité f(t) = λ exp(-λt) Dès lors la fonction de survie est S(t) = 1 - F(t) = 1 - t 0 exp(- T) dT = exp(-λt) et la fonction de risque instantané 63 h(t) = f(t) =λ S(t) Le modèle exponentiel est donc caractérisé par un risque instantané de décès constant au cours du temps. L’estimation des fonctions de survie S(t) et de risque instantané h(t) reviennent à estimer le paramètre λ, dont l’estimation classique du maximum de vraisemblance est, avec d nombre total de décès, λ= d n ti i 1 La fonction de survie du modèle S(t) = exp(-λt) permettant d’écrire - Log S(t) = λ t l’adéquation au modèle peut être vérifiée par régression linéaire. En effet en estimant S(t) par une méthode non paramétrique, Kaplan-Meier ou actuarielle, le graphe de [- Log S(t)] en fonction de t sera dans ce cas une droite passant par l’origine. La propriété de linéarisation du modèle exponentiel fournit également une méthode d’estimation du paramètre λ, par la pente de la droite de régression passant par l’origine de [-Log S(t)] en fonction de t, n ti Log S(t i) λ = i 1 n t i² i 1 Cette estimation n’est cependant qu’une approximation dans la mesure où les valeurs S(t) considérées ne sont pas indépendantes et n’ont pas la même précision. Par exemple, l’estimation de la fonction de survie des patients souffrant de leucémie aiguë traités par 6-mercaptopurine (temps de participation de la table 38) est, pour l’estimation du maximum de vraisemblance, λ = 9 = 0,025 359 tandis que l’estimation par régression linéaire est 0,026. La fonction de survie est donc S(t) = exp(- 0,025 t) ≈ exp(- 0,026 t) La figure 15 illustre, pour cet exemple, le graphe de [- Log S(t)] en fonction de t, S(t) étant estimé par la méthode non paramétrique de Kaplan-Meier, avec la droite de régression par l’origine qui en résulte. On peut y constater la bonne adéquation du modèle. 64 1,0 0,8 0,6 -Log(S(t)) 0,4 0,2 0,0 0 10 20 30 40 semaines Figure 15. Régression de [-Log S(t)] en fonction de t pour les données de la table 38. 1,0 0,8 0,6 S(t) 0,4 0,2 0,0 0 10 20 30 40 semaines Figure 16. Courbe de survie exponentielle et estimation de Kaplan-Meier des données de la table 38. La courbe de survie exponentielle qui dérive de cette estimation est représentée sur la figure 16, en surimpression de l’estimation de Kaplan-Meier. 65 Outre son utilisation pour estimer une fonction de survie, le modèle exponentiel permet de comparer facilement deux courbes, puisque l’hypothèse nulle SA(t) = SB(t) revient à λA = λB ou Log λB =0 λA et permet également d’étudier l’influence indépendante de plusieurs covariables sur la fonction de survie. 9. Modèle de survie de Weibull Le modèle de Weibull est une généralisation du modèle exponentiel, défini par une distribution à deux paramètres λ et γ de la variable aléatoire T, de densité de probabilité f(t) = λ γ tγ-1 exp(-λ tγ ) Les fonctions de survie et de risque instantané sont donc t S(t) = 1 - F(t) = 1 - λ γ Tγ-1 exp(-λ Tγ ) dT = exp(-λ tγ ) 0 h(t) = f(t) = λ γ tγ-1 S(t) Le risque instantané de décès augmente ou diminue dans le temps selon que γ > 1 ou γ < 1. Il est constant pour γ = 1, situation pour laquelle le modèle de Weibull se réduit au modèle exponentiel. L’adéquation des données peut être vérifiée par régression linéaire, le graphe de Log [- Log S(t)] en fonction de t étant une droite définie par Log [- Log S(t)] = Log λ + γ Log t 10. Modèle de survie de Cox Le modèle de Cox ou modèle des risques proportionnels est un modèle de survie semiparamétrique, c’est-à-dire un modèle dans lequel on paramétrise la relation qui existe entre les fonctions de survie de plusieurs populations, sans que les distributions des variables aléatoires T ne soient elles-mêmes spécifiées. Une telle approche ne concerne donc que l’estimation simultanée de plusieurs populations en vue de leur comparaison. Nous considérons les fonctions de survie et de risque de deux populations A et B. Les deux variables aléatoires Tk, avec k = (A, B), suivent une distribution quelconque mais identique, et les fonctions de survie et de risque ne peuvent être paramétrisées. On suppose cependant que les risques instantanés de décès des deux populations sont liés par une fonction dépendant d’un paramètre β, 66 hB (t) = f (β) = exp (β) hA (t) ou hB (t) = hA (t) exp (β) En considérant que l’appartenance au groupe k, par exemple un traitement, est une covariable z, avec z = 0 pour k = A et z = 1 pour k = B, l’équation précédente s’écrit de façon équivalente h (t,z) = h0 (t) exp (β z) expression dans laquelle h0 (t) représente un risque de référence, arbitraire et inconnu, et [exp (β z)] la relation entre les risques des deux groupes, dépendant du paramètre β. Le modèle de Cox suppose donc, d’une part, la proportionnalité des risques, c’est-à-dire que le rapport entre les risques instantanés de décès soit constant au cours du temps, hB (t) h (t,1) = = exp (β z) hA (t) h (t,0) et, d’autre part, l’effet loglinéaire des covariables sur le risque, donc que le logarithme du risque soit en relation linéaire avec chaque covariable z, Log [h (t,z)] = Log h0 (t) + β z Lorsque l’on définit comme ci-dessus z comme une covariable indicatrice de l’appartenance à un groupe, la seconde condition se confond avec la première. Ce n’est cependant pas vrai lorsque l’on considère des covariables quantitatives. Par ailleurs la relation entre les fonctions de risque entraîne une relation similaire entre les fonctions de survie. En effet on peut définir une survie de référence S0(t), arbitraire et inconnue, S0 (t) = exp [- H0 (t)] et considérer la survie en fonction de la covariable z par S (t,z) = exp [- H0 (t) exp (β z)] = { exp [- H0 (t) ] } exp (β z) = [S0 (t)] exp (β z) ou de façon équivalente SB (t) = [SA (t)] exp (β) expression dans laquelle [exp (β z)] définit la relation entre les survies des deux groupes, dépendant du paramètre β. Le modèle de Cox permet d’estimer les fonctions de survie en tenant compte simultanément de plusieurs covariables, supposées être des facteurs pronostiques et dont on cherche à connaître la réalité de l’effet. Supposons que la fonction de survie dépende comme précédemment du traitement A ou B mais en outre d’un second facteur noté X ou Y selon sa présence ou son absence. Considérant les deux variables de façon indépendante, on peut écrire hB (t) = hA (t) exp (β1) hY (t) = hX (t) exp (β2) 67 Dès lors le risque instantané de décès des sujets traités par B et ayant le second facteur au niveau Y est hBY (t) = hAY (t) exp (β1) = hAX (t) exp (β2) exp (β1) = hAX (t) exp (β1 + β2) Si on note le traitement comme une covariable z1, avec z1 = 0 pour A et z1 = 1 pour B, et le second facteur comme une autre covariable z2, avec z2 = 0 pour X et z2 = 1 pour Y, l’expression précédente peut s’écrire h (t,z1,z2) = h0 (t) exp (β1 z1 + β2 z2) En généralisant à k facteurs, et en appelant Z le vecteur-ligne des covariables zi et β le vecteurcolonne des paramètres inconnus βi, c’est-à-dire 1 Z = [z1, z2, ….., zk] β= et 2 ... k le risque instantané de décès d’un sujet présentant les k covariables au niveau Z est h(t, Z) = h0 (t) exp (β1 z1 + β2 z2 + ….. + βk zk) ou h(t, Z) = h0 (t) exp(β Z) Il faut remarquer que l’hypothèse des risques proportionnels dont dépend la validité du modèle de Cox concerne chaque covariable zi introduite dans le modèle. L’adéquation devra donc être vérifiée pour toutes les covariables ou toutes les combinaisons de celles-ci. Plusieurs tests ont été décrits dans ce but, mais une validation graphique peut être considérée comme suffisante. En effet, la relation SB (t) = [SA (t)] exp (β) entraîne Log SB (t) = exp (β) Log SA (t) et donc Log [- Log SB (t)] = β + Log [- Log SA (t)] c’est-à-dire que les courbes de Log [- Log S(t)] pour A et B sont distantes d’une constante β. On divise alors la variable en classes et on apprécie le parallélisme des courbes de Log [- Log S(t)] en fonction de t, pour toutes les classes de la variable. Les figures 17 et 18 montrent deux de ces graphiques d’adéquation dans un essai clinique de radiothérapie avec ou sans chimiothérapie pour des tumeurs de la tête et du cou réparties en 4 régions distinctes, et entraînant donc la réalisation de 6 graphiques, la survie des 4 régions pour chacun des 2 traitements et celle des 2 traitements pour chacune des 4 régions (Kalbfleisch & Prentice, The Statistical Analysis of Failure Time Data, Wiley, New York, 1980). Si la proportionnalité des risques instantanés de décès ne peut être admise pour l’une ou l’autre covariable, il faudra ajuster un modèle pour chaque classe de cette variable, procédé connu sous le nom de modèle de Cox stratifié, avec un risque de référence différent hm(t) pour chaque classe m, c'est-à-dire. hm (t, Z) = hm (t) exp(β Z) 68 Figure 17. Courbes de Log [- Log S(t)] en fonction de t pour les 4 régions de tumeurs de la tête et du cou avec traitement standard. Figure 18. Courbes de Log [- Log S(t)] en fonction de t pour les traitements expérimental et standard de la région 1. Le modèle des risques proportionnels de Cox est aujourd’hui largement utilisé dans l’analyse des données de survie, pour étudier la valeur pronostique d’un paramètre, pour tester l’influence d’un nouveau paramètre compte tenu de facteurs de risque connus ou pour rechercher la valeur prédictive d’un ensemble de variables sur la survie. En particulier dans les essais thérapeutiques dont le critère de jugement est la survie, il permet d’étudier l’efficacité d’un traitement après ajustement à des facteurs de risque ou de gravité connus. * * * 69 CHAPITRE 4 ESSAIS CLINIQUES 1. Définition et formulation de l’objectif 2. Traitements comparés 3. Critères de jugement 4. Sélection des sujets 5. Détermination du nombre de sujets nécessaire 6. Attribution des traitements entre les groupes 7. Conduite d’un essai 8. Comparabilité des groupes 9. Analyse des résultats 10. Essais avec contrôles historiques 11. Essais croisés 12. Essais avec plan expérimental 13. Essais d’équivalence et essais de non-infériorité 14. Essais de bioéquivalence 15. Essais préventifs et études épidémiologiques d’intervention 16. Essais séquentiels 17. Essais adaptatifs 18. Essais pragmatiques 1. Définition et formulation de l’objectif Une méthodologie rigoureuse basée sur la théorie statistique a progressivement vu le jour pour étudier l’efficacité d’une nouvelle molécule ou d’un geste thérapeutique. Ce sont les essais cliniques ou essais cliniques contrôlés ou essais thérapeutiques. Dans la recherche pharmacologique, plusieurs étapes sont indispensables dans l'expérimentation d'une nouvelle substance. Après avoir étudié celle-ci en laboratoire sur les cellules et sur plusieurs espèces animales et avoir déterminé une dose létale, l'expérimentation humaine passe habituellement par plusieurs phases. La phase I est une étude de la toxicité de la substance, dans laquelle les doses sont progressivement augmentées jusqu'à atteindre une dose maximale tolérable par l'organisme humain. La phase II est une étude d'efficacité avec recherche de la dose optimale, généralement d’abord chez des volontaires sains (phase IIa), puis chez des malades (phase IIb) dans une série d'affections susceptibles de réagir favorablement à l'administration de la nouvelle substance. Si cette étape permet de découvrir l'une ou l'autre affection sensible à la nouvelle molécule, une étude de phase III, c'est-àdire un essai clinique comparatif, peut alors être entreprise. C’est dans cette catégorie que l’on considère habituellement les essais concernant un mode d'administration particulier d'un médicament connu ou toute autre thérapeutique nouvelle non médicamenteuse, telle qu’une technique physiothérapique, endoscopique ou chirurgicale. Les études de phase IV sont des études de recherche d’effets secondaires généralement effectuées après la mise sur le marché d’une substance nouvelle, appelées aussi études de pharmacovigilance. Dans la suite de ce chapitre nous ne considérerons plus que les essais cliniques comparatifs de stade III. Lorsque l'on désire étudier un traitement dans un essai clinique, il n'est pas possible de répondre à la fois aux nombreuses questions que l'on peut se poser, telles que la valeur du traitement dans différentes affections, la durée de son administration ou sa posologie. Il faut définir une question unique en fonction de laquelle sera élaboré l'essai. En effet, si les questions sont multiples, il sera très difficile de déterminer le type de recrutement des sujets, les modalités d'administration du traitement, les critères de jugement, le nombre de sujets nécessaire et d'autres paramètres techniques dont le choix dépend de la question posée et qui peuvent dès lors nécessiter une méthodologie différente voire contradictoire. En outre, le risque de découvrir une différence significative sur le plan statistique par le seul jeu du hasard augmente avec le nombre de questions posées. Si de plus ces questions ne sont pas indépendantes, le calcul des probabilités n'est pratiquement plus possible. Des questions accessoires, telles que la tolérance, peuvent bien sûr être envisagées mais il est toujours préférable d'organiser l'essai autour d'une seule question principale. Par ailleurs, celle-ci doit toujours être déterminée a priori pour ne pas tricher avec l'unicité de la question posée. En effet le choix d'une question a posteriori implique que l'on procède plus ou moins inconsciemment à une sélection entre plusieurs questions en fonction des résultats, ce qui enlève toute valeur à l'analyse statistique basée sur un calcul de probabilités. La question posée doit être la plus précise possible, car elle conditionne tous les aspects du protocole depuis le choix du traitement contrôle jusqu'à l'analyse finale des résultats. Le contexte est aussi important car la notion d'essais cliniques contrôlés recouvre deux types de problèmes, fondamentalement différents, les essais explicatifs et les essais pragmatiques, qui sont souvent confondus, avec comme conséquence qu'un certain nombre d'essais publiés ne répondent pas à la question posée. L'essai explicatif est une comparaison dirigée essentiellement vers la recherche fondamentale. Son but est d'apporter une réponse sur le plan de la compréhension ou de la connaissance de la thérapeutique. Il peut en apporter une 71 de surcroît sur le plan de l'application pratique mais cette extrapolation n'est nullement assurée. L'essai pragmatique est au contraire défini comme un essai dirigé avant tout vers l'application pratique. Il peut certes contribuer à une meilleure connaissance de la thérapeutique, mais son but premier est de déterminer le choix entre deux traitements et ce dans tous les cas, c'est-à-dire que quels que soient les résultats, il permet toujours de décider. En pratique, la distinction entre ces deux attitudes théoriques n'est pas toujours facile et un essai peut souvent être mené selon l'une ou l'autre des deux approches, ou être considéré comme intermédiaire entre les deux concepts. Sauf mention contraire, c’est l’essai explicatif, plus classique, que nous étudierons dans la suite de ce chapitre, la méthodologie des essais pragmatiques étant décrite à la fin du chapitre (§18). 2. Traitements comparés La première étape de la rédaction d'un protocole est le choix des traitements à comparer et de leurs modalités, tant en ce qui concerne la thérapeutique nouvelle que l'on se propose d'expérimenter que le traitement contrôle qu'on lui opposera pour la comparaison. Le traitement expérimental doit être administré selon des conditions définies de façon rigoureuse, les plus objectives et les plus contrôlables possibles, dans la mesure où l'on a intérêt à vérifier si nécessaire que le malade a effectivement suivi la thérapeutique prescrite. S'il s'agit de l'essai d'un nouveau médicament, la posologie doit suivre des conditions d'administration fixes, soit identiques pour tous les sujets (conditions standard), soit adaptées en fonction de certaines caractéristiques du sujet, telles que le poids (conditions ajustées). Les conditions d'administration variables en fonction de l'évolution de la maladie doivent être évitées dans la mesure du possible dans un essai clinique contrôlé de type explicatif . Le traitement contrôle doit être un traitement classique ou plus généralement dans un essai explicatif un traitement placebo, c'est-à-dire un traitement absolument inactif administré en lieu et place d'un traitement actif à un malade ignorant cette substitution. C'est en grande partie au placebo que pendant des millénaires la médecine a dû son efficacité. Une médication placebo possède en effet beaucoup de caractéristiques communes avec une molécule biologiquement active. Son efficacité peut dépendre de la posologie, elle peut potentialiser une substance active et peut même provoquer des effets secondaires indésirables voisins de ceux des médicaments actifs, connus sous le nom d'effet nocebo. L'efficacité d'un placebo est parfois remarquable et dans certaines pathologies l’efficacité peut être de 30 à 35 %. Cette efficacité n’est d’ailleurs pas nécessairement due au malade, elle peut résulter d’un « effet médecin ». Il est par conséquent évident que toute thérapeutique possédant une composante placebo, l'activité propre d'un nouveau traitement ne pourra être appréciée qu'après avoir éliminé cette composante, c'est-à-dire en la comparant à une thérapeutique dont l'efficacité toute relative ne résulte que de cette composante placebo. Cette règle est impérative dans tout essai explicatif même en cas de thérapeutique non médicamenteuse et des exemples d'effet placebo en chirurgie ont été décrits. En pratique, il faudra donc traiter le groupe contrôle par une médication inactive mais dont les caractères physiques sont semblables à ceux du traitement expérimenté tant en ce qui concerne la forme que la couleur ou le goût, par un simulacre d'opération ou de toute autre thérapeutique, c'est-à-dire par un procédé mimant le traitement actif ou supposé tel de la manière la plus parfaite possible et en tout cas indiscernable de la thérapeutique réelle aux yeux du malade, voire du médecin dans certains types d’essais. Par ailleurs, le simple fait pour un patient de se savoir inclus dans un essai 72 clinique entraîne souvent une amélioration de ses résultats. Cette con statation connue sous le nom d’effet Hawthorne doit être distinguée de l’effet placebo. Ce phénomène n’est d’ailleurs pas le propre des essais cliniques et est observé dans d’autres domaines d’expérimentation humaine, par exemple en sociologie du travail dans lequel il a été décrit initialement. En fait l'amélioration de l'état d'un malade dans un essai clinique résulte de la combinaison de plusieurs effets qui sont l'évolution naturelle de la maladie, l'effet spécifique du traitement, son effet placebo et l'effet Hawthorne. Le contexte dans lequel les deux traitements seront administrés doit également être strictement précisé dans le protocole. Les thérapeutiques adjuvantes ou symptomatiques, interdites ou permises, les régimes ou soins éventuels doivent être définis et surtout être identiques dans les deux groupes. Ceux-ci ne peuvent différer que par les traitements, expérimental et placebo, que l'on souhaite effectivement comparer. 3. Critères de jugement Les critères de jugement qui permettront la comparaison des traitements doivent être peu nombreux et il faut même si possible choisir un critère unique. Un trop grand nombre de variables est en effet désavantageux parce qu'il complique l'organisation pratique de l'essai, qu'il tend à diminuer le soin que les cliniciens mettront à les estimer et enfin que le risque de significations statistiques par le seul jeu du hasard est augmenté. De plus le but d'un essai clinique contrôlé de type explicatif est de tester l'efficacité d'un traitement sur le plan de la connaissance ou de la compréhension. Un seul critère, judicieusement choisi, ou un petit nombre de critères seront par conséquent plus aptes à répondre à la question posée de l'efficacité réelle de la thérapeutique, qu'un grand nombre de variables, qui si elles peuvent paraître importantes dans l'appréciation globale du traitement en termes de bénéfice pour le malade, n'apportent rien au jugement d'efficacité. D'une manière générale, le choix d'un petit nombre de critères est la marque d'une hypothèse bien formulée. Le ou les critères choisis doivent être les plus objectifs possibles. La distinction entre critères objectifs et subjectifs n'est pas toujours aussi tranchée qu'on ne le croit. Beaucoup d'examens objectifs, tels qu'une radiographie ou une analyse histologique, ont en fait une interprétation subjective. De plus, une part de subjectivité existe pratiquement toujours dans des mesures objectives et on admet que les erreurs de mesure sont faites inconsciemment plus souvent dans le sens souhaité par l'expérimentateur que dans l'autre sens. En outre, la pratique qui consiste à recommencer des examens considérés comme douteux parce que trop déviants, fait aussi entrer une part d'arbitraire dans l'évaluation de critères dits objectifs puisqu'elle entraîne la vérification de résultats inattendus sans contrôler de la même façon les résultats attendus. Les critères de jugement doivent être sensibles, c'est-àdire aptes à détecter des modifications peu importantes et être spécifiques, c'est-à-dire ne pas déceler à tort de fausses améliorations dues par exemple à des facteurs extérieurs, étant entendu que ces deux exigences sont contradictoires et qu'un compromis est par conséquent nécessaire. Enfin, toute appréciation ou toute mesure doit être reproductible. Beaucoup de critères sont fonction d'un facteur temps. Une diminution de la glycémie ou la régression du volume d'une tumeur dépendent de façon étroite du moment choisi pour leur estimation. Néanmoins, il est recommandé de ne pas multiplier ces moments pour les mêmes raisons que celles qui conduisent à limiter le nombre de critères. De toute façon, la ou les périodes choisies devront toujours l'être a priori et le fait de retenir sur deux 73 courbes d'évolution d'une variable en fonction du temps, le moment où celles-ci divergent le plus pour essayer d'atteindre une différence statistiquement significative n'a aucun sens et enlève toute valeur au test statistique ainsi réalisé. Par ailleurs l’évolution peut souvent être prise en compte dans l'appréciation d'un critère de jugement. La mesure d'une variable avant et après traitement permet dans certains cas d'utiliser comme critère la différence des mesures, ce qui diminuera la variance des résultats et par conséquent le nombre de sujets nécessaire à l'essai. Cependant, si l'amélioration dépend du niveau initial, les résultats peuvent être faussés. De même l'utilisation d'un rapport des mesures pratiquées avant et après traitement équivaut à l'utilisation de la différence des logarithmes, ce qui postule qu'une amélioration d'une certaine quantité n'a pas la même signification en haut et en bas de la gamme des valeurs possibles. Enfin un cas important est celui où l'appréciation concerne un événement en tout ou rien, tel que guérison ou décès, survenant seulement chez certains sujets et après un délai variable. Deux modalités de mesure sont possibles dans ces cas, soit la mesure à délai donné, qui consiste à compter le nombre de malades ayant présenté l'événement après une période déterminée à l'avance, soit la mesure à événement donné, où le critère est le temps écoulé depuis le début de l'essai jusqu'à la survenue de l'événement si celui-ci s'est produit, paramètre qui doit être étudié par les méthodes d’analyse des données de survie décrites au chapitre 3. 4. Sélection des sujets Dans un essai clinique contrôlé de type explicatif, dont le but est de mettre en évidence un phénomène précis, l'exigence fondamentale est de choisir un groupe homogène et sensible. Certains auteurs estiment que l'échantillon de malades doit être le plus représentatif possible de la population générale, de façon à permettre une meilleure extrapolation des résultats obtenus. Cette exigence est évidemment contradictoire par rapport à celle d'homogénéité et ne doit en fait être prise en considération qu'en cas de formulation pragmatique. Le but d'un essai explicatif n'est pas de choisir entre deux traitements que l'on pourrait appliquer au tout-venant des sujets souffrant d'une affection donnée mais de juger des effets précis d'une thérapeutique. La sélection d'un groupe homogène entraînera une diminution de la variabilité des réponses aux traitements et par conséquent du nombre de sujets nécessaire. Le protocole de sélection des malades contient habituellement une série de critères d'inclusion et d'exclusion. Les critères d'inclusion sont une délimitation très précise du cadre nosologique. L'affection doit pouvoir être définie sans ambiguïté et un diagnostic de certitude posé sur des éléments objectifs et reproductibles. De même le sexe, les limites d'âge, le lieu de recrutement doivent être prévus de façon claire. Une série de critères d'exclusion doit également être définie. Ainsi on peut éliminer de l'étude les malades ayant reçu telle thérapeutique antérieure ou ceux dont on pense qu'ils ne suivront pas le traitement prescrit ou qui ne pourront être suivis. Les abandons de traitement, gênent en effet considérablement l'analyse des résultats, ce qui impose une sélection sévère. La clause d'ambivalence est impérative. Elle stipule que des malades ne peuvent entrer dans l'essai que s'ils sont justiciables de l'un et l'autre des traitements à comparer. Ainsi si l'une des deux thérapeutiques est contre-indiquée, le sujet ne peut être retenu. En d'autres termes, toute contre-indication ou tout refus d'un malade de suivre le traitement expérimental ne peut en aucune manière le faire entrer dans le groupe contrôle. Le 74 recrutement d'un malade ne peut évidemment se faire qu'en dehors de toute connaissance du traitement qui lui serait attribué en cas d'inclusion dans l'essai Enfin, il faut assurer un recrutement réaliste et savoir que celui-ci est habituellement surestimé. On s'aperçoit souvent que la maladie que l'on croyait fréquente l'est beaucoup moins quand il s'agit de recruter ceux qui en sont atteints. C'est le phénomène décrit parfois sous le nom de loi de Lasagna. Il s'explique en partie par les limitations nécessairement rigoureuses des critères d'inclusion et d'exclusion. Il faut cependant résister à la tentation d'élargir la sélection étant, consciemment ou inconsciemment, moins strict en ce qui concerne le respect des clauses d'inclusion et d'exclusion définies dans le protocole sous peine d'introduction d'un biais. 5. Détermination du nombre de sujets nécessaire Avant de réaliser un essai clinique contrôlé, il est indispensable de fixer le nombre de sujets qu'il sera nécessaire de recruter. Cet aspect paraît souvent secondaire ou inutile au clinicien non familiarisé avec la méthodologie de ces essais, mais il est en fait capital si l'on veut être sûr de pouvoir conclure valablement quel soit le résultat de la comparaison. L’analyse des résultats d'un essai clinique contrôlé repose en effet sur des tests statistiques d’hypothèses, dont le but n'est pas de prouver une hypothèse mais bien de l'admettre par rejet d'une hypothèse opposée considérée comme peu probable. La comparaison de deux traitements A et B entraîne la formulation de deux hypothèses mutuellement exclusives, qui sont A = B ou A – B = 0, c'est l'hypothèse nulle H0, et A ≠ B ou A – B ≠ 0 qui est l'hypothèse alternative H1 ou HA. Le test statistique va déterminer si les résultats observés sont compatibles ou non avec l'hypothèse nulle. Si les données ne correspondent que de façon peu vraisemblable avec cette hypothèse nulle, celle-ci sera rejetée et la différence entre A et B déclarée significative. Dans le cas contraire, l'hypothèse nulle ne pourra être rejetée et la différence sera dite non significative. Cette dernière éventualité ne signifie absolument pas que les traitements sont équivalents, mais simplement qu'une différence entre eux n'a pu être mise en évidence. Ce manque de conclusion peut bien sûr être dû à une équivalence vraie des deux traitements comparés, mais également à un manque de puissance du test statistique utilisé dû à un trop petit nombre de malades. Le fait d'utiliser un nombre suffisant de sujets fixé à l'avance permettra par contre de conclure à une équivalence des traitements si le test aboutit à l'affirmation d'une différence non significative. Deux risques d'erreur existent dans un test statistique. Le risque de première espèce ou risque α ou erreur de type I est la probabilité de rejeter l'hypothèse nulle alors que celleci est vraie, c'est-à-dire le risque de conclure à tort à une différence significative. Cette probabilité calculée a posteriori est appelée seuil de signification ou valeur p. Le risque de deuxième espèce ou risque β ou erreur de type II est au contraire la probabilité de ne pas rejeter l'hypothèse nulle alors qu'elle est fausse et que par conséquent c'est l'hypothèse alternative qui est vraie. C'est donc le risque de ne pas conclure à une différence significative, encore appelé manque de puissance du test. Dans une comparaison de deux traitements, il faut donc non seulement fixer une limite au risque α en dessous de laquelle la différence sera considérée comme significative (généralement α = 0,05) mais aussi minimiser le risque β de ne pas conclure à une différence significative. La table 44 résume schématiquement le problème des risques d’erreur dans un test statistique d’hypothèses. 75 Table 44. Risques d’erreur α et β dans un test statistique d’hypothèses. Plus les deux risques seront choisis petits, c'est-à-dire plus les exigences seront grandes, plus le nombre de sujets nécessaire sera élevé. Un troisième paramètre doit être fixé pour le calcul du nombre de sujets. Le risque β est en effet basé sur la situation où l'hypothèse nulle est fausse, c'est-à-dire A – B ≠ 0. Il y a évidemment une infinité de valeurs possibles qui vérifient cette hypothèse alternative et si β est calculé a posteriori, il dépendra de la différence (A – B) effectivement constatée, ce qui est discutable. Dans le cas où le risque de deuxième espèce doit être fixé a priori, il ne peut l'être qu'en fonction d'une différence Δ qu'il faut déterminer à l'avance. Le risque β sera donc défini comme celui de laisser échapper une différence au plus égale à Δ. Le nombre minimal de sujets requis pour l'essai sera par conséquent fonction des trois paramètres α, β et Δ. La fixation du risque α ne pose aucun problème si ce n'est celui de son caractère arbitraire. C'est le niveau de signification classique égal à 0,05. On fixe aussi arbitrairement β, les valeurs acceptables étant 0,05 ou 0,10 voire même 0,20. Le choix de Δ est plus difficile car ce paramètre est directement fonction d'un critère clinique. Il faut déterminer Δ comme la différence minimale du critère de jugement choisi que l'on considère comme cliniquement significative, c’est-à-dire en-dessous de laquelle on estime qu’il y a équivalence en pratique ou que cette différence n’a aucun intérêt clinique. Si on compare deux médicaments hypoglycémiants et que le critère de jugement choisi est la valeur de la glycémie au temps t, on peut estimer par exemple qu'une différence inférieure à 15 mg/100 ml est négligeable, par exemple parce qu’elle n’a pas de répercussion clinique. Le nombre de sujets nécessaire qui sera ensuite calculé constituera dès lors le nombre minimal de malades permettant d'effectuer la comparaison entre les deux hypoglycémiants avec un risque au plus égal à α de conclure à tort à une différence significative et un risque au plus égal à β de laisser échapper une différence au plus égale à 15 mg/100 ml. Une façon de résoudre partiellement la difficulté du choix de Δ consiste à inverser la démarche. Au lieu de fixer arbitrairement Δ pour aboutir à un nombre de sujets N peut-être hors d'atteinte en pratique, on peut partir de diverses valeurs de N dans la gamme des possibilités de recrutement, calculer les valeurs correspondantes de Δ et décider si elles sont acceptables compte tenu de leur signification clinique. Un quatrième et dernier paramètre est nécessaire au calcul des effectifs selon le type de variable. Si le critère de jugement est qualitatif (comparaison en termes de proportions), il faut connaître au moins approximativement le niveau de pourcentages P du critère retenu. Si la variable est quantitative (comparaison en termes de moyennes ou de médianes), une estimation de sa variance ou de sa déviation-standard σ est nécessaire. Ces paramètres pourront, soit être déduits de travaux antérieurs portant sur des traitements similaires, soit 76 être estimés par un essai préliminaire. Si la variance est mal connue, une solution consistera à fixer Δ non pas en valeur absolue mais par rapport à la variance. Les exigences α, β, Δ, et P ou σ étant fixées, le nombre de sujets nécessaire peut être déterminé par calcul, tables, abaques ou simulation. Il dépend du mode de comparaison choisi, unilatéral ou plus généralement bilatéral, selon que l'on s'intéresse à une différence entre A et B dans un sens déterminé à l'avance ou quelconque, de l'égalité ou de l'inégalité d'effectifs voulue entre les deux groupes à comparer et enfin du test statistique choisi pour la comparaison. Ainsi, un essai thérapeutique entre deux traitements utilisant un critère quantitatif et un test bilatéral exige par groupe, n = (z α + z 2β)² 2 ² ² avec z k , la valeur d’une variable normale réduite correspondant à une fonction de répartition de (1 – k/2). De même, si la comparaison porte sur deux proportions, celle du traitement classique étant supposée égale à P, le nombre de sujets par groupe est n= (z z2 )² 2 [arc sin (P ) arc sin P ] ² Calculons le nombre de sujets nécessaire à la comparaison de deux médicaments hypoglycémiants comme décrit plus haut. Le critère de jugement est la valeur de la glycémie au temps t et on estime qu'une différence inférieure à 15 mg/100 ml est négligeable car elle n’a pas de répercussion clinique. Les risques α et β sont fixés à 0,05 et 0,10 respectivement, donc une table de la distribution normale réduite fournit zα = 1,960 et z2β = 1,282. Une revue de la littérature montre que la déviation-standard de la glycémie dans les conditions de l'essai est σ = 40 mg/100ml. Le nombre de sujets nécessaire pour les exigences fixées est alors par groupe n = (1,960 + 1,282)² 2 x (40) ² ≈ 150 (15)² Plutôt que de choisir la glycémie comme critère de jugement on peut considérer la proportion de succès, qui est de 0,50 pour le traitement contrôle. Les risques α et β sont cette fois fixés à 0,05 et 0,20 respectivement, donc zα = 1,960 et z2β = 0,842. La différence en-dessous de laquelle on considère le résultat sans intérêt clinique est 0,20, c’est-à-dire 20 % de succès supplémentaires. L’estimation du nombre de sujets nécessaire par groupe est dans ce cas n= (1,960 0,842 )² 2 [arc sin (0,5 0,2) arc sin 0,5 ] ² ≈ 93 Il faut cependant se souvenir que l'estimation du nombre de sujets nécessaire à la réalisation d'un essai clinique contrôlé n'est au mieux qu'une approximation et que certains facteurs tel l'abandon d'un traitement par certains malades, obligent à recruter un nombre de sujets plus élevé que celui estimé. Certaines méthodes de calcul tiennent compte de cette déperdition de sujets. D'autre part lorsque les effectifs des deux traitements à comparer ne sont pas choisis égaux, par exemple lorsque le traitement expérimental est particulièrement coûteux, le nombre total de sujets nécessaire à l'essai est toujours plus élevé 77 que si la comparaison avait été décidée sur deux groupes égaux. Ainsi si au lieu de recruter n sujets par groupe, on veut recruter nA et nB malades pour les groupes A et B respectivement dans le rapport λ = nB / nA, il faut calculer n comme précédemment et puis ajuster nA = n 1 (1 ) 2 λ et n ( 1 λ) 2 nB = c’est-à-dire que le nombre total de sujets sera par conséquent nA + nB = n 2 λ 1 λ 2 ≥ 2n La table 45 exprime les effectifs exigés et l’augmentation du nombre total selon quelques rapports λ pour un essai avec n = 100. rapport entre les nombres de sujets nombre de sujets du groupe A nombre de sujets du groupe B nombre total de sujets facteur d’ augmentation λ nA nB nA + nB (nA+nB–2n)/2n 1 ½ 1/3 ¼ 1/5 1/10 1/20 … 0 100 150 200 250 300 550 1050 100 75 67 62 60 55 52 200 225 267 312 360 605 1102 0 0,12 0,33 0,56 0,80 2,02 4,51 ∞ 50 ∞ ∞ Table 45. Nombre de sujets pour des groupes inégaux selon le rapport désiré des 2 effectifs. Enfin, lorsque un traitement contrôle est comparé à plusieurs traitements expérimentaux nouveaux, le nombre de sujets du groupe contrôle doit toujours être plus élevé que celui des autres groupes. 6. Attribution des traitements entre les groupes La population des malades inclus dans l'essai ayant été définie et l'effectif nécessaire ayant été déterminé, il faut ensuite répartir les sujets entre les groupes qui recevront les traitements à comparer. De nombreux procédés systématiques ont été envisagés dans le but d'éviter un tirage au sort, méthode vis-à-vis de laquelle certains cliniciens gardent encore une certaine réticence. Ils sont en fait tous condamnables. En effet pour permettre une conclusion valide, l'attribution des traitements dans un essai thérapeutique doit éviter deux biais, dits de sélection et de répartition. Le biais de sélection se produit quand on choisit, consciemment ou inconsciemment, d'exclure de l'essai un sujet dont on sait que le pronostic est défavorable et qu'il va recevoir le traitement dont on souhaite démontrer l'efficacité. C'est ainsi que l'attribution alternative des traitements, celle qui est réalisée selon le jour, le mois ou l'année de naissance, ou selon le numéro de dossier du patient, sont des procédés qui conduisent tous à un biais de sélection, car un simple coup d'oeil sur le dossier suffit à connaître le traitement qui serait attribué en cas d'inclusion du patient dans l'essai. Le second biais, dit biais de 78 répartition, est le déséquilibre, entre les groupes comparés, du nombre de sujets présentant un facteur pouvant avoir une valeur pronostique. Un éventuel meilleur résultat enregistré dans un groupe ayant un plus grand nombre de patients de pronostic a priori favorable ne pourra dès lors plus être imputé à la seule thérapeutique. Un biais de répartition peut être la conséquence de différents procédés systématiques d'attribution des traitements, comme la répartition des thérapeutiques selon les hôpitaux concernés par l'étude, dont la population mais aussi les conditions de diagnostic et de soins peuvent être différentes, l'attribution du traitement contrôle aux sujets refusant le traitement expérimental, car le refus peut être lié à certains facteurs psychologiques susceptibles d'influencer le résultat, ou encore l'attribution des traitements selon la première lettre du patronyme, car celui-ci dépend du groupe ethnique, et un facteur racial, par lui-même ou par ses conséquences alimentaires ou environnementales par exemple, peut éventuellement modifier l'efficacité d'une thérapeutique. C’est dans le but d'éviter ces biais qu'ont été décrites différentes méthodes rigoureuses d'attribution des traitements qui font intervenir le hasard à un degré plus ou moins important. La randomisation complète qui consiste à donner les traitements aux sujets de façon totalement aléatoire est justifiée classiquement par trois arguments de valeur inégale. Le premier est l'imprévisibilité. Le tirage au sort est un procédé d'attribution dont on ne peut par définition prévoir le résultat et la randomisation complète est donc une garantie absolue contre le biais de sélection. Un deuxième argument est l'indépendance vis-à-vis du résultat. La randomisation est une méthode dont on est sûr qu'elle n'a aucune relation avec une caractéristique du sujet et donc avec un facteur pronostique éventuel susceptible d'influencer le résultat. Dans la mesure où beaucoup de facteurs pronostiques seront généralement distribués de façon similaire entre les groupes, et ce d'autant plus que leurs effectifs sont élevés, la randomisation complète est une garantie contre un biais de répartition, mais celle-ci n'est que relative. Enfin, l'accord avec l'inférence statistique est un troisième argument parfois invoqué pour justifier la randomisation. En fait, la randomisation n’est pas une condition nécessaire à l'utilisation des tests statistiques dans l'analyse des résultats, mais les tests supposent que les sujets présents dans les groupes comparés sont un échantillon aléatoire de la population à laquelle on souhaite extrapoler les résultats. Le caractère aléatoire se situe donc au niveau de la sélection des patients, mais pas au niveau de leur répartition entre les groupes étudiés. Cependant, certains tests non paramétriques particuliers, dits de permutation, dont l'inférence est justement basée sur la randomisation, ne pourront pas être utilisés lorsque les patients ont été répartis entre les groupes thérapeutiques par un procédé autre que celui-ci. La randomisation complète entraîne cependant certains inconvénients qui sont la possibilité, d'une part, d'inégalité des effectifs des groupes, et, d'autre part, d'un biais de répartition dont nous avons écrit plus haut que la garantie de prévention n'était que relative. Par son caractère totalement aléatoire, la randomisation complète peut évidemment aboutir à la constitution de groupes thérapeutiques d'effectifs inégaux et ce risque est d'autant plus élevé que le nombre de traitements comparés est plus grand et que les effectifs de chaque groupe sont plus petits. Ainsi, si on répartit 30 sujets en deux groupes par randomisation complète, il n'y a que 14 % de chance d'obtenir deux groupes de 15 patients. Des répartitions aussi disproportionnées que 10 et 20, 9 et 21 ou 8 et 22 seront obtenues dans respectivement 5, 3 et 1 % des cas. Cette inégalité entre les effectifs se révèle un inconvénient en diminuant la puissance des tests statistiques qui seront utilisés dans l'analyse des résultats. Un biais de répartition est également possible pour certains facteurs. Il est en effet évident que si beaucoup de caractéristiques des patients sont susceptibles d'influencer le résultat, toutes ne seront pas réparties de façon équilibrée entre les groupes thérapeutiques. On peut noter que, d'un point de vue théorique, une répartition disproportionnée d'un facteur quelconque n'est pas à 79 proprement parler un biais si c'est le hasard qui en est l'origine: c'est une composante de la variabilité qui fait partie intégrante des risques d'erreur des tests statistiques. En pratique cependant, si un facteur pronostique important est inégalement réparti entre les groupes thérapeutiques, la conclusion de l'essai restera douteuse et les cliniciens difficiles à convaincre de la démonstration de l’efficacité du traitement. Techniquement, la randomisation d'un patient dans un essai clinique doit toujours avoir lieu le plus tard possible, toutes les clauses d'éligibilité du sujet ayant été examinées et son consentement éventuel ayant été obtenu au préalable. Elle peut être réalisée par des moyens mécaniques (dés), des générateurs physiques de nombres aléatoires, des programmes informatiques générant des nombres pseudo-aléatoires ou en consultant des tables. Pour obtenir des groupes d'effectifs égaux, différentes variantes de la randomisation complète ont été développées, parmi lesquelles la randomisation par bloc est sûrement la méthode la plus utilisée. Elle consiste à diviser le nombre total prévu de patients en sousgroupes appelés blocs formés séquentiellement selon l'ordre d'entrée des sujets dans l'essai. La randomisation, préparée à l'avance par les procédés cités plus haut ou par des tables de permutations aléatoires, est telle que le nombre de sujets recevant chacun des traitements comparés est identique dans chaque bloc. Les effectifs des groupes thérapeutiques seront donc toujours égaux à la fin de chaque bloc et la technique protège en outre contre le biais que constituerait un éventuel changement des caractéristiques de la population recrutée au cours du temps. Cette méthode peut cependant être à l'origine d'un biais de sélection si la taille du bloc est connue des cliniciens réalisant l'étude. On pourra en effet connaître à l'avance le traitement au moins du dernier patient du bloc, parfois de plusieurs. Si une randomisation par bloc de taille 4 est utilisée pour la répartition de deux traitements par exemple, et que les trois premiers sujets d'un bloc ont reçu successivement les traitements B, A et A, on peut deviner que c'est le traitement B qui sera attribué au dernier patient du bloc. Il est donc toujours conseillé de définir des blocs de taille variable lorsque l'on souhaite utiliser ce procédé. Il faut enfin noter que de nombreuses méthodes visant à réaliser un compromis entre le choix aléatoire des traitements et le meilleur équilibre possible entre les effectifs sont regroupées sous le nom de randomisation adaptée. Leur principe est de donner à chaque entrée d'un patient dans l'essai une plus grande chance d'attribution au traitement le moins bien représenté à ce moment, et ce avec des règles d'attribution diverses. Si après avoir réparti au hasard un certain nombre de malades, le groupe A contient plus de sujets que le groupe B, le tirage au sort donnera une chance p > 0,50 d'attribution de B au malade suivant. La valeur de p la plus souvent choisie est 2/3 mais 3/5 ou 5/9 seraient des solutions plus optimales. Par ailleurs, pour éviter le déséquilibre de certains facteurs en relation avec le critère d'évaluation choisi, on peut aussi répartir les traitements par des procédés prenant en compte les variables potentiellement pronostiques de façon à les équilibrer au mieux. Les deux techniques principales sont la randomisation stratifiée et la minimisation. Le principe de la randomisation stratifiée ou stratification a priori est de diviser l'effectif total de sujets en sous-groupes selon les facteurs pronostiques et d'attribuer les traitements de façon aléatoire dans chaque strate ainsi réalisée, habituellement par la technique de randomisation par bloc. Cette méthode offre les avantages d'une comparabilité meilleure entre les groupes thérapeutiques, mais également ceux d'une comparaison plus sensible entre les traitements, à condition d'utiliser des techniques adéquates dans l'analyse des résultats. Certains auteurs ont nié l'intérêt de la randomisation stratifiée en lui opposant une stratification a posteriori réalisée au moment de l'analyse. En fait, si le gain en 80 efficacité, c'est-à-dire la réduction du nombre de sujets pour atteindre une puissance statistique équivalente, de la randomisation stratifiée par rapport aux techniques d'ajustement a posteriori est souvent minime, il n'est jamais nul. Ce procédé est donc toujours plus efficace que l'ajustement a posteriori. La limite essentielle de la méthode réside en fait dans le petit nombre de facteurs pronostiques qui peuvent être pris en considération puisqu'il y aura autant de strates que de combinaisons possibles des variables. Ainsi, considérer par exemple trois facteurs comme le sexe (deux classes), l'âge (trois classes) et l'état général (deux classes) entraîne la définition de 2 x 3 x 2 = 12 strates, c'est-à-dire en réalité 12 sous-groupes dont certains ne contiendront vraisemblablement qu'un petit nombre de sujets. Pour être efficace, la randomisation stratifiée ne permet donc en pratique que la prise en compte d'un nombre réduit de variables que l'on choisira comme ayant réellement une valeur pronostique. La minimisation est un procédé d'attribution des traitements en fonction d'un certain nombre de variables qualitatives, en vue d'obtenir une répartition équilibrée de celles-ci entre les groupes thérapeutiques. Son principe est de mesurer, pour chaque nouveau sujet admis dans l'étude, le déséquilibre de répartition de chaque facteur qui résulterait de l'attribution à ce patient de chacun des traitements possibles, puis de mesurer de façon globale le déséquilibre de tous les facteurs, la probabilité d'attribution de chaque traitement étant d'autant plus élevée que le déséquilibre correspondant à l'attribution de ce traitement sera plus petit. La minimisation apparaît donc comme une technique générale recouvrant une multitude de variantes possibles selon la manière dont on choisit la mesure du déséquilibre individuel de chaque facteur pronostique (étendue, variance, déviation-standard,...), la mesure du déséquilibre global, habituellement la somme des mesures des déséquilibres individuels, et les probabilités d'attribution des traitements en fonction de la mesure du déséquilibre global (constantes, fonctions mathématiques des mesures de déséquilibre,...). L'attribution des traitements dépend partiellement du hasard et partiellement du déséquilibre entre les facteurs pronostiques. Le choix des probabilités découlera donc de la part relative de ces deux éléments que l'on désire obtenir, les deux situations extrêmes étant l'attribution du traitement dépendant seulement du hasard (randomisation complète) et une attribution uniquement fonction du déséquilibre entre les facteurs pronostiques (procédé déterministe). Le choix déterministe est le procédé le plus simple. Le traitement attribué y est toujours celui qui entraîne le déséquilibre global minimal entre les facteurs pronostiques, une randomisation étant éventuellement effectuée entre des traitements entraînant un déséquilibre identique. Le procédé déterministe présente donc l'avantage d'une répartition des variables pronostiques la mieux équilibrée possible. Cependant, l'absence de facteur aléatoire systématique entraîne deux inconvénients. Le premier est une critique de principe. Le choix des traitements étant déterminé uniquement par les caractéristiques des patients, l'essai n'est plus à proprement parler « randomisé », du moins pour tous les sujets. En fait, cet argument est très théorique car on peut admettre que c'est l'ordre d'entrée des sujets dans l'essai, dépendant du seul hasard, qui est d'une certaine manière l'élément aléatoire. L'autre inconvénient est un biais de sélection possible puisque l'attribution peut être prévue au vu des facteurs pronostiques. Cette critique est également théorique, car pour pouvoir prévoir l'attribution du traitement, il faudrait mémoriser ou consulter les caractéristiques de tous les sujets déjà entrés dans l'étude et calculer le déséquilibre global éventuel de chacun des traitements. La table 46 illustre une minimisation avec calcul des déséquilibres basé sur l'étendue, dans un essai thérapeutique sur l’anastomose porto-cave avec ou sans artérialisation portale, dans le traitement de la cirrhose. Les colonnes A et B montrent la répartition des 15 premiers patients, artérialisés (A) ou non (B), selon les différentes classes des facteurs pronostiques, la colonne C les caractéristiques du patient numéro 16, et les colonnes D et F la nouvelle répartition des sujets à laquelle conduirait l’inclusion du patient numéro 16 dans le groupe 81 artérialisé (D) ou le groupe non artérialisé (F). Les colonnes E et G calculent les différences entre les groupes qu’entraînerait l’inclusion dans le groupe artérialisé (E) ou non artérialisé (G), éventuellement multipliées par le facteur de pondération (Jamart, Louvain Méd., 1983, 102, 317-331). Table 46. Exemple de minimisation dans un essai thérapeutique sur l’anastomose porto-cave. La patient numéro 16 recevra donc le traitement B, puisque la mesure du déséquilibre global est plus importante avec l’attribution éventuelle du traitement A (déséquilibre de 11) que celle du traitement B (déséquilibre de 7). Quatre avantages de la minimisation peuvent être individualisés. 1) Cette méthode permet de tenir compte dans l'attribution des traitements d'un grand nombre de facteurs pronostiques éventuels. Le nombre de variables n'est pas limité comme dans une randomisation stratifiée, ce qui donne la possibilité, dans un essai multicentrique par exemple, de prendre en compte le centre comme s'il s'agissait d'une variable pronostique. 2) La minimisation permet éventuellement de considérer les interactions entre plusieurs facteurs pronostiques, en définissant les associations possibles des classes de certains facteurs comme des classes différentes d'une seule variable. Ainsi, k facteurs à n classes peuvent être remplacés par une variable unique à k x n classes. 3) On peut prendre en compte le caractère prédominant de certains facteurs par rapport aux autres en choisissant des poids différents pour ces variables, comme dans l’exemple de la table 46, le caractère urgent ou électif de l’intervention chirurgicale. 4) Enfin, plusieurs études de simulation ou les répartitions observées dans des essais réels ont démontré l'efficacité de la minimisation pour équilibrer les facteurs pronostiques entre les groupes thérapeutiques. La table 47 montre la répartition remarquablement équilibrée de cinq critères potentiellement pronostiques entre quatre groupes thérapeutiques, pour 417 sujets d'un essai d'angioplastie coronarienne comparant quatre protocoles différents 82 de gonflage du ballon. FACTEURS âge CLASSES <50 50 à 60 60 à 70 >70 sexe masculin féminin type d’angor stable instable type de sténose A B C artère interventriculaire antérieure circonflexe coronaire droite A B C D 21 29 39 16 81 24 42 63 28 64 13 38 30 37 20 30 40 14 82 22 41 63 29 64 11 39 27 38 18 30 39 17 82 22 42 62 29 64 11 39 28 37 18 31 40 15 80 24 42 62 28 64 12 40 27 37 Table 47. Résultats de la répartition par minimisation des patients dans un essai d’angioplastie coronarienne. La minimisation n'est cependant pas dénuée d'inconvénients, même si ceux-ci semblent mineurs par rapport aux avantages offerts par la méthode. 1) Nous avons déjà évoqué la critique de principe de l'absence de caractère aléatoire constant de certaines variantes, argument en fait plus théorique que réel. 2) La minimisation est évidemment plus complexe à mettre en oeuvre qu'une simple randomisation et requiert pratiquement l'informatisation des calculs nécessaires. 3) L'analyse statistique des résultats des essais ayant utilisé la minimisation comme procédé d'attribution des traitements ne peut théoriquement faire appel aux techniques d'inférence basées sur la randomisation, ce qui exclut par exemple les tests de permutation dans leur forme classique. 7. Conduite d’un essai Sous ce titre, nous envisagerons le caractère aveugle ou non de l'étude, l'évaluation du respect des traitements prescrits et le problème de l'arrêt prématuré de l'essai. Les essais cliniques contrôlés dits à l'aveugle, simple, double ou triple aveugle, insu ou anonymat, sont des essais menés de telle façon que, soit le malade, soit le médecin jugeant le résultat, soit les deux, voire le statisticien, ignorent le traitement reçu. Ces essais sont justifiés par l'effet placebo qui concerne le malade mais également l'expérimentateur. En effet celui-ci n'est jamais totalement objectif et même s'il est impartial au début de l'essai, les premiers résultats vont immanquablement influencer ses jugements ultérieurs. De plus les erreurs de mesure et d'interprétation sont plus fréquentes dans le sens favorable au traitement préféré. Cela est démontré par la plus grande variabilité des mesures lorsque l'on oeuvre en aveugle que lors des essais ouverts, c'est-à-dire non aveugles. Plusieurs types d'essais comportant une part aveugle peuvent être réalisés 83 La mesure à l'aveugle est celle dans laquelle le malade et le médecin connaissent le traitement attribué mais l'appréciation du résultat est faite par une tierce personne, c'est-à-dire un médecin observateur autre que le médecin prescripteur. L'intérêt d'un tel procédé réside dans les cas où il est matériellement impossible d'attribuer au malade un traitement placebo indiscernable du traitement expérimental. Le risque d'abolition du secret est cependant grand car le malade même prévenu peut laisser échapper devant le médecin jugeant les résultats, des renseignements permettant à ce dernier d'identifier le traitement reçu. Dans l'essai en simple aveugle ou essai en simple insu ou encore essai en simple anonymat, le malade est seul dans l'ignorance du traitement réellement reçu. Cette méthode est justifiée lorsque le malade est lui-même juge de l'efficacité d'une thérapeutique, dans l'appréciation d'une douleur par exemple. Ses avantages sont d’éliminer l’inégalité de mesure de l’évolution de la maladie quand le critère de jugement repose sur une appréciation du malade, d’éliminer l’inégalité d’évolution elle-même due à la connaissance qu’a le malade de son traitement et de rendre la situation plus favorable en ce qui concerne les manquants et les abandons de traitement. Les inconvénients concernent les difficultés matérielles, les problèmes éthiques et l’obligation du placebo indiscernable du traitement expérimental. Dans l'essai en double aveugle ou essai en double insu ou encore essai en double anonymat le malade et le médecin ignorent le traitement attribué. C'est la technique la plus sûre. Dans les essais médicamenteux les traitements sont alors généralement fournis sous forme de lots individuels numérotés dont une tierce personne seule connaît l'identité. Ses avantages sont identiques à ceux des essais en simple aveugle, mais permettent en plus d’éliminer l’inégalité de mesure de l’évolution de la maladie quand le critère de jugement repose sur une appréciation subjective du médecin, d’éliminer l’inégalité d’évolution ellemême due à la connaissance qu’a le médecin du traitement et d’éviter des impressions qui peuvent gêner la conduite de l’essai. En ce qui concerne les inconvénients, il faut ajouter à ceux des essais en simple aveugle le danger de la méconnaissance d’un traitement potentiellement toxique. Le médecin doit toujours pouvoir lever l’anonymat en cas de besoin. Enfin le terme d'essai en triple aveugle est parfois utilisé pour désigner un essai dans lequel l’analyse statistique s’effectue sans avoir connaissance de la nature des traitements. Ceux-ci sont identifiés par un code et ce n’est qu’une fois l’analyse terminée que la nature exacte des traitements est révélée. Cette procédure a pour but d’éviter une certaine subjectivité dans le choix des analyses statistiques ou de leur interprétation. Il faut savoir que les modalités d'application pratique des essais à l’aveugle doivent être très rigoureuses pour que le secret de l'attribution des traitements soit réellement préservé jusqu'à la fin de l'étude. Si les malades se savent participants à un essai clinique contrôlé, ils chercheront généralement à connaître la nature du traitement reçu. De même les cas où les membres de l'équipe soignante s'attachent à deviner le traitement administré sont très fréquents. Lorsque l'on entreprend un essai clinique médicamenteux, on postule au moins implicitement que les prescriptions seront bien suivies par le malade. En fait cela n'est pas vrai et certains estiment que 30 à 50 % des malades ne prennent pas convenablement le traitement prescrit. C'est le problème de l'adhérence au traitement, encore appelée observance ou compliance. Parmi les nombreux facteurs qui influencent l'observance on peut citer la nature plus ou moins grave de l'affection, la motivation du sujet et la confiance qu'il porte à la thérapeutique, la complexité et la durée du traitement, l'environnement du malade et l'intensité 84 de la relation médecin-malade. Différents procédés ont dès lors été proposés pour tenter d'évaluer l'observance de chaque malade. Ils comportent bien sûr l'interrogatoire mené avec tact et compréhension mais également la surveillance des prises médicamenteuses, le compte des médicaments restants dans les traitements ambulatoires ─ le seul fait que les malades ramènent ou oublient les flacons de médicaments peut être considéré comme une mesure satisfaisante de l'observance ─ ou le dosage dans le plasma ou les urines de la substance active, d'un de ses métabolites ou d'un marqueur introduit dans la médication, ce qui ne renseignera par ailleurs que sur la dernière prise. L'incorporation d'un marqueur susceptible d'être dosé dans les cheveux a également été suggérée pour évaluer l'observance sur une longue période. Dans un essai explicatif, il est capital de chercher à restreindre au maximum la fréquence des abandons de traitement ou de leur non respect. En effet si l'observance n'est pas la même dans les groupes comparés, l'analyse des résultats sera biaisée. De plus, même en cas de degré identique de non observance, le traitement le moins efficace sera favorisé. Il faudra par conséquent éviter les schémas thérapeutiques trop complexes, au besoin remettre au malade un aide-mémoire facile à utiliser et exclure à l'avance de l'essai les sujets peu coopérants dont on pense qu'ils ne suivront pas correctement les prescriptions. Cette sélection pose le problème de la représentativité des sujets retenus mais n'est cependant aucunement gênante en cas d'attitude explicative où le souci majeur de sélection est l'homogénéité. Dans certains cas se pose le problème de l'arrêt prématuré d'un essai. Quand un des traitements semble meilleur que les autres sans que la différence puisse être prouvée statistiquement, est-il éthique de poursuivre l'essai? Un essai commencé ne doit pas être interrompu sans décision mûrement réfléchie, sauf bien sûr problème toxique ou effet secondaire imprévu grave, car la publication de l'essai avec la conclusion que A est vraisemblablement meilleur que B sans pour autant atteindre un niveau suffisant de signification statistique, entraînera immanquablement l'organisation d'essais analogues par d'autres équipes. Le nombre de malades recevant le traitement considéré comme le moins efficace sera par conséquent bien plus grand que si le premier essai avait été poursuivi jusqu'à terme. Certes, le point de vue éthique doit toujours être considéré indépendamment pour chaque malade, c’est l’éthique individuelle classique, mais également pour l'ensemble des malades susceptibles d'être traités de façon plus efficace, suivant donc aussi une éthique collective. . 8. Comparabilité des groupes La randomisation n'étant pas capable d'assurer une répartition équilibrée de tous les facteurs pronostiques éventuels entre les groupes thérapeutiques, il est habituel dans les publications de résultats d'essais cliniques contrôlés de commencer leur description par un tableau montrant la répartition de différentes variables (sexe, âge,...) dans les groupes comparés. Si cette description est intéressante, beaucoup d'auteurs y ajoutent malheureusement les résultats de tests statistiques destinés à leurs yeux à montrer que les caractéristiques présentées ne diffèrent pas de façon significative entre les groupes thérapeutiques et ne biaisent donc pas les conclusions de l'essai. Cette attitude est condamnable à plus d'un titre. Elle est d'abord inutile, que l'étude soit ou non randomisée, car, d'une part, des résultats non significatifs de comparaisons statistiques ne permettent en aucune manière de conclure que les variables étudiées sont identiques dans les groupes comparés, et, d'autre part, ce n'est pas un éventuel déséquilibre entre les variables qui importe en définitive, mais leur relation éventuelle avec le critère utilisé comme résultat. Un léger déséquilibre pour un fac- 85 teur pronostique important est plus préjudiciable à l'interprétation des résultats de l'essai qu'un déséquilibre important d'une variable n'ayant que peu d'influence sur le devenir du patient. De plus, si l'étude est randomisée, la démarche devient absurde. En effet, un test statistique vise à déterminer si, compte tenu des valeurs observées dans des échantillons, les variables étudiées peuvent être considérées comme différentes ou non dans les populations d'où les échantillons ont été extraits. Dans un essai clinique randomisé, les groupes ne sont pas des échantillons de populations différentes, mais au mieux des échantillons d'une seule population puisque c'est le hasard qui répartit les sujets entre les groupes thérapeutiques. Toute différence statistiquement significative ne peut donc être due par définition qu'à la chance. En d'autres termes, cette attitude revient à tenter de répondre par un test statistique, et donc en termes de probabilité, à une question dont la réponse est connue avec certitude ! 9. Analyse des résultats L’analyse des résultats d’un essai clinique contrôlé comporte évidemment une description et une comparaison des groupes qui implique l'utilisation de tests statistiques d'hypothèses. Le choix du test le plus adéquat dépend d’un certain nombre de conditions. La première est le type de la variable rencontrée, qualitative, continue ou ordinale, c’est-à-dire définie par un classement en plusieurs catégories graduées comme par exemple résultat excellent, bon, moyen, médiocre, nul. Les autres critères déterminant le choix du test sont la forme de la distribution d’une variable continue, normale ou non, le nombre de groupes thérapeutiques, l’indépendance ou la non indépendance entre les groupes, le nombre de sujets dans les différents groupes ou encore le caractère unilatéral ou bilatéral de la comparaison, selon que l’on s’intéresse à une différence dans un seul sens ou dans les deux sens. Lorsque dans un essai clinique contrôlé, on compare beaucoup de variables différentes et qu'on effectue donc un grand nombre de tests statistiques indépendants, la probabilité de conclusions significatives augmente très rapidement. Si le risque α, c'est-à-dire le risque de conclure à tort à une différence significative est 0,05, cela équivaut à dire que sur 100 tests effectués il y en aura en moyenne 5 qui entraîneront une différence statistiquement significative par le seul fait du hasard. Si par ailleurs les tests réutilisent plusieurs fois les mêmes variables, le risque est encore plus élevé. C'est pourquoi en cas de comparaisons multiples, il est indispensable d'utiliser les tests appropriés qui tiennent compte de cette modification du risque. Quelques problèmes particuliers qui se posent au moment de l'analyse des résultats méritent d'être quelque peu explicités. Il a été écrit plus haut qu'il était possible de réaliser une stratification a posteriori et de diviser les différents groupes à comparer en sous-groupes sur la base d'une caractéristique du sujet ou d’un facteur pronostique. Supposons par exemple que l'âge soit considéré comme un facteur pronostique et que sa répartition dans les groupes thérapeutiques ne soit pas la même, c’est-à-dire que l’âge soit un défaut de comparabilité. L'analyse serait donc plus correcte si la comparaison était effectuée à âge égal. Elle serait également plus puissante puisqu'elle utiliserait non plus la variance globale du critère de jugement retenu, mais sa variance à âge donné (variance liée) qui est toujours plus faible, et ce d'autant plus que la corrélation entre l'âge et le critère de jugement est meilleure. Certaines techniques statistiques permettent ainsi de prendre en compte un facteur concomitant, telles que les tests d’ajustement, l’analyse de covariance ou la régression logistique selon le type de variables et les situations. Mais il n'est 86 raisonnable d'employer ces méthodes que lorsque la puissance du test et par conséquent son résultat sont susceptibles d'être modifiés de façon appréciable. Il n'en est en fait ainsi que pour des facteurs concomitants, soit très fortement pronostiques même s'il n'y a pas de défaut de comparabilité, soit avec moins de valeur pronostique mais un défaut de comparabilité important. Les malades qui n'ont pas respecté correctement le traitement prescrit ou qui l'ont abandonné mais pour lesquels on dispose du critère de jugement final posent un problème au moment de l'analyse des résultats. Les sujets pour lesquels on estime que l'abandon est sans rapport avec l'évolution de la maladie ou l'efficacité de la thérapeutique peuvent être exclus sans biais. Cette hypothèse n'est malheureusement que fort peu souvent plausible, les malades abandonnant généralement le traitement parce qu'ils l'estiment inefficace. De toute façon, l'observance est toujours un problème délicat à résoudre au moment de l'analyse d'un essai et il est par conséquent recommandé de tenter de réduire le nombre des abandons de traitement par les mesures envisagées plus haut et prévoir un effectif supérieur au nombre estimé de sujets nécessaire pour tenir compte de l'observance. Les manquants sont les sujets qui ont ou non suivi leur traitement de façon complète mais pour lesquels le jugement final fait défaut. Leur élimination de l'essai pose dès lors un problème si les manquants sont en nombre différent dans les groupes comparés. On peut essayer de classer les manquants en fonction de la raison de leur défection. Les seuls cas où l'exclusion entraîne un biais sont ceux où la raison de la défection concerne le traitement et son résultat. Il s'agit donc en pratique de séparer cette catégorie des autres causes d’arrêt dont tous les malades peuvent être exclus sans biais. Une solution est alors l'hypothèse du biais maximum où les manquants non exclus seront considérés comme tous guéris dans un groupe et non guéris dans l'autre. Deux analyses différentes seront dès lors effectuées et la vérité considérée comme intermédiaire entre ces deux hypothèses extrêmes. De nombreuses autres solutions ont été proposées à ce problème des manquants et il est parfois possible d'utiliser les observations incomplètes de façon optimale. En définitive, comme pour le problème de l'observance, il faut répéter que dans un essai thérapeutique explicatif, c'est au moment de la sélection des sujets que la question des manquants doit être présente à l'esprit pour tenter de réduire leur nombre au maximum. On peut décider de considérer dans l’analyse statistique uniquement les sujets qui ont suivi le protocole de façon complète et jusqu’à la fin de l’étude, c’est l’analyse par protocole (PP, per protocol), ou au contraire de tenir compte de tous les patients entrés dans l’étude quelle que soit la façon dont ils ont respecté le traitement et les consignes, c’est l’analyse en intention de traiter (ITT, intention to treat). Cette dernière solution s’apparente à la méthodologie des essais pragmatiques et ne doit pas être considérée dans un essai de type explicatif. 10. Essais avec contrôles historiques Le principe des essais thérapeutiques avec contrôles historiques consiste à administrer un traitement expérimental à un groupe de nouveaux malades et à comparer les résultats à ceux d'un groupe de sujets ayant reçu un autre traitement auparavant. Ce procédé est principalement utilisé en cancérologie, l'argument essentiel étant la diminution du nombre de sujets nécessaire. Si au lieu de traiter les malades par les traitements A et B de façon randomisée, on attribue B à tous les sujets pour les comparer à un groupe antérieur ayant reçu A, on diminue évidemment l'effectif nécessaire et on aboutit plus rapidement à une conclusion. Par ailleurs si on administre B à un même nombre de malades que celui nécessité par 87 une étude randomisée comparant A et B, on augmente la précision de l'estimation des résultats. D'autre part, un essai randomisé oblige souvent à tenir compte de certains facteurs pronostiques soit a priori par la randomisation stratifiée, soit a posteriori par les techniques d'ajustement. Dans la mesure où la comparabilité des deux groupes d'un essai randomisé n'est réelle qu'après un ajustement en fonction des facteurs pronostiques réalisé a posteriori, cet ajustement peut aussi bien être effectué dans le groupe expérimental et le groupe historique servant de contrôle. Dans les essais ayant recours à une stratification a posteriori, l'avantage de la randomisation est donc diminué par rapport aux essais avec contrôles historiques. Les essais avec contrôles historiques sont cependant rejetés par beaucoup d'auteurs. En effet le recrutement des malades peut varier dans le temps, les critères diagnostiques peuvent évoluer ou s'affiner et l'équipe soignante peut acquérir une meilleure expérience dans l'approche diagnostique de l'affection. La tendance des essais avec contrôles historiques est d'exagérer les effets du nouveau traitement. Dans la mesure où des biais ont déjà été décrits dans des études randomisées portant sur une longue période, ceux-ci existent a fortiori dans les essais avec contrôles historiques. Enfin, on peut estimer qu'à partir du moment où il s'agit de distinguer entre une absence d'efficacité et une efficacité modérée d'un nouveau traitement – si celle-ci était évidente un essai clinique contrôlé ne serait ni nécessaire ni éthique – l'égalité absolue des groupes est indispensable. La méthode des contrôles historiques constitue néanmoins une solution satisfaisante dans certaines conditions. Il faut que le groupe contrôle ait été traité par la même équipe et dans un autre essai thérapeutique, qu'il ne soit pas trop éloigné dans le temps et que les conditions diagnostiques ou les thérapeutiques adjuvantes n'aient pas été améliorées. Les facteurs pronostiques principaux doivent être connus de façon indiscutable sur la base de plusieurs études différentes. On peut dès lors, soit comparer le nouveau traitement B au traitement ancien A en tenant compte des facteurs pronostiques par stratification ou par un autre procédé, soit réaliser un appariement entre chaque sujet recevant B et un malade choisi au hasard parmi ceux ayant les mêmes caractéristiques et les mêmes facteurs pronostiques et ayant reçu A. Les essais avec contrôles historiques semblent donc représenter une solution admissible dans certaines affections comme le cancer où de nouvelles substances et de nouveaux schémas d'associations médicamenteuses sont régulièrement proposés et peuvent par conséquent être expérimentés dans les mêmes conditions par les cliniciens d'un même centre de façon successive en utilisant comme contrôle le meilleur résultat des groupes précédents. 11. Essais croisés Un essai croisé (cross-over) consiste à administrer les différents traitements à comparer à chaque malade dans un ordre aléatoire. Chaque sujet est alors considéré comme son propre témoin. Ce type de plan expérimental comporte plusieurs avantages mais n’est pas dénué d’inconvénients. Le premier avantage est la réduction du nombre de sujets nécessaire qui résulte de deux causes, l’une purement arithmétique, l’autre statistique. D'une part, il est évident que le fait de comparer deux traitements en les administrant successivement à chaque malade diminue déjà l'effectif global de moitié. Mais d'autre part, la méthode réalise un appariement parfait puisque personne ne peut être plus semblable à un sujet que ce sujet lui-même. Dès 88 lors, si N est le nombre de sujets nécessaire avec 2 groupes de patients, N’ le nombre pour un essai croisé et ρ le coefficient de corrélation entre les réponses d’un même sujet aux deux traitements, N’ = N (1 – ρ) 2 avec N’ ≤ N , l’égalité n’étant atteinte que pour ρ = -1, résultat peu probable. Un autre intérêt des essais croisés est de permettre l'utilisation d'une préférence comme critère de jugement. Dans certains essais portant par exemple sur un critère subjectif tel que la douleur, il peut être plus facile de demander au malade d'exprimer une préférence pour un des traitements comparés plutôt que de tenter de classer la douleur en termes relativement imprécis de faible, modérée ou forte. Comme pour toute technique, ces avantages sont néanmoins limités par un certain nombre d'inconvénients dus à la nature de l'affection et à l'efficacité possible des traitements. La maladie étudiée ne peut en effet être qu'une affection chronique non évolutive puisque le traitement administré en premier lieu ne peut guérir le malade sous peine de devoir le retirer de l'essai. De même, des critères tels que la survie ou la survenue d'un événement en tout ou rien sont exclus. Par ailleurs la durée d'action des traitements doit être limitée, car il faut obligatoirement que l'effet du premier traitement administré ait disparu pour pouvoir juger valablement de l'efficacité du second. Cette limitation est en fait l'inconvénient majeur des essais croisés. Une période de sevrage entre les deux traitements est indispensable mais il peut être difficile de fixer sa durée et d'être assuré que le malade est revenu complètement à son état antérieur (carry-over). L'ordre d'administration des traitements est aussi un facteur important car en recevant la seconde thérapeutique, le sujet peut être conditionné par le résultat de la première. Il est donc indispensable de changer la séquence des traitements de façon aléatoire. L'effet éventuel de l'ordre devra toujours être testé a posteriori, mais si on a des raisons de penser que ce facteur est important, un plan plus complexe doit être envisagé. On peut, soit administrer à tous les sujets une seconde fois le premier traitement donné (essai croisé avec retour), soit attribuer une seconde fois les deux traitements dans le même ordre ou dans l'ordre inverse (essai croisé avec double retour). Quelle que soit la façon dont l’ordre d’administration des traitements est considéré dans la planification de l’essai, l'analyse des résultats d'un essai croisé devra évidemment utiliser des tests statistiques qui tiennent compte de l’appariement. 12. Essais avec plan expérimental De nombreux plans expérimentaux ont été décrits pour permettre de comparer plusieurs traitements en tenant compte d'un facteur concomitant mais également de faire intervenir simultanément plusieurs facteurs contrôlés. Ils ont été mis au point pour l'expérimentation agronomique et ont ensuite été appliqués à l'expérimentation biologique. Leur objectif est de planifier et de rationaliser le mieux possible une expérience avec un minimum de sujets. Leur adaptation aux essais cliniques contrôlés est cependant plus délicate dans la mesure où ces schémas, assez rigides, ne tolèrent généralement pas les défections de malades sous peine d'en rendre l'analyse statistique extrêmement difficile. Il existe deux grandes variétés de plans selon qu'ils ne sont pas ou qu'ils sont dits factoriels. Les plans non factoriels sont destinés à comparer plusieurs traitements mais en tenant compte d'un facteur de classification supplémentaire, dit facteur concomitant, que l'on désire 89 contrôler et qui peut être une caractéristique du sujet, un élément pronostique, etc. Le principe est identique à celui des essais avec stratification a posteriori (ajustement) mais ici la prise en compte du facteur concomitant obéit à des règles bien précises en ce qui concerne l'effectif des sujets dans chaque sous-groupe, ce qui diminue encore l'effectif nécessaire et augmente la puissance de la comparaison. Les plans factoriels ont pour objectif de comparer simultanément plusieurs facteurs. Contrairement aux schémas précédents où il existait un facteur principal, le traitement, et un facteur concomitant destiné uniquement à rendre la comparaison plus sensible, ces plans sont appelés factoriels parce qu'ils accordent la même importance à tous les facteurs. Supposons par exemple que l'on désire comparer l'effet de deux hypocholestérolémiants A et B mais également celui de deux régimes R et S. Le tirage au sort répartira les malades en quatre groupes AR, AS, BR et BS et le plan permettra de comparer de façon indépendante l'effet des deux hypocholestérolémiants et l'effet des deux régimes de la même façon que si deux essais différents avaient été réalisés. Mais il pourra conclure avec beaucoup moins de sujets qu'en cas d'essais distincts et pourra en outre étudier la possibilité d'une interaction hypocholestérolémiant-régime. Il existe une multitude de plans expérimentaux différents et de nombreux ouvrages ont été consacrés à leur organisation et à l'analyse statistique de leurs résultats. Celle-ci peut être complexe mais est toujours basée sur une analyse de la variance, son principe étant de décomposer la variance globale du critère de jugement en ses différents constituants. Il faut cependant se souvenir que ces schémas supposent toujours le caractère additif des effets des différents facteurs. 13. Essais d’équivalence et essais de non-infériorité Les essais d’équivalence ou essais à contrôle positif ou essais d’équivalence à contrôle actif ont pour but de montrer l’équivalence entre deux traitements, habituellement deux molécules de la même classe thérapeutique, une nouvelle substance en développement et une ancienne considérée comme la meilleure actuellement. La méthodologie usuelle basée sur un test statistique visant à tester l’hypothèse nulle d’absence de différence et qui aboutit à ne pas rejeter cette hypothèse ne permet en aucune manière de conclure à l’équivalence. Ce résultat peut en effet être secondaire à un manque de puissance dû à des effectifs trop petits ou une grande variabilité du critère de jugement. De plus les biais méthodologiques tendent souvent à égaliser les effets et donc à générer des pseudo-équivalences. Une différence non significative ne signifie pas une absence de différence. Inversément, une différence détectée par le test peut n’avoir aucune signification clinique et correspondre en pratique à une équivalence. La méthodologie de ces essais nécessite de définir une zone d’équivalence, qui est un intervalle [-δ;+δ]. Le choix de la valeur δ est un problème qui peut se révéler difficile et qui doit être réalisé a priori, sous peine de nullité. L’analyse, qui doit être menée par protocole et non en intention de traiter, sera basée sur l’intervalle de confiance de la différence observée entre les critères de jugement de chaque groupe. Si celle-ci se situe entièrement dans l’intervalle [-δ;+δ], l’équivalence sera considérée comme démontrée. Ce processus correspond en fait à réaliser un test d’hypothèses particulier, dans lequel les hypothèses sont inversées. L’hypothèse nulle est qu’il existe une différence d’au moins δ entre les traitements, et l’hypothèse alternative est que cette différence n’existe pas et donc que les traitements sont équivalents. Les risques d’erreur de ce test statistique, nécessaires pour calculer le nombre de 90 sujets nécessaire, sont habituellement α = 0,05 pour correspondre à un intervalle de confiance à 95%, et β = 0,10 ou 0,20. La figure 19 montre les différentes conclusions d’un essai d’équivalence en fonction des étendues possibles de l’intervalle de confiance de la différence observée, ainsi que le résultat du test d’hypothèse classique, qui peut entraîner une toute autre conclusion. (Jones et al., Brit. Med. J., 1996, 313, 36-39). Figure 19. Conclusions d’un test d’équivalence. Les essais de non-infériorité sont des cas particuliers d’essais d’équivalence, qui ne s’intéressent qu’à un seul côté de la différence. C’est en fait la version unilatérale du test d’équivalence. L’hypothèse nulle est que le nouveau traitement est inférieur au traitement contrôle, l’hypothèse alternative qu’il est égal ou supérieur. La méthodologie est par ailleurs similaire et l’analyse basée également sur l’intervalle de confiance de la différence observée. Enfin on utilise aussi dans ce type d’essais, un schéma à trois traitements, qui, en plus des deux traitements dont on veut prouver l’équivalence, inclut un troisième groupe traité par un placebo. Le but est de montrer l'efficacité réelle des deux traitements dont on souhaite par ailleurs démontrer l'équivalence. De plus, ce troisième groupe traité par un placebo apportera en cas de différence significative avec les deux groupes avec traitement actif, la preuve que l’essai possède une puissance suffisante que pour déceler des différences entre des traitements différents, car la conclusion d’équivalence peut résulter d’une situation de vraie équivalence mais aussi d’une étude avec une puissance discriminante trop faible. L'efficacité du nouveau traitement peut également être estimée à partir de la relation d'équivalence avec le traitement classique et de la relation connue entre le traitement classique et le traitement placebo. 14. Essais de bioéquivalence La démonstration de l’équivalence thérapeutique nécessite en principe la conduite d’essais cliniques coûteux impliquant de nombreux patients comme nous venons de le décrire. Quand l’équivalence ne concerne que deux formes galéniques différentes, ou une molécule générique à comparer au traitement traditionnel, on peut éventuellement se contenter d’une démonstration de ce que les traitements comparés ont la même biodisponibilité. Si celle-ci, qui est le pourcentage de la dose d’un principe actif qui atteint la circulation sous forme inchangée, est identique, les deux médications sont dites bioéquivalentes. Si on démontre la bioéquivalence d’une nouvelle forme thérapeutique par rapport à une forme pharmaceutique de référence dont les effets thérapeutiques et indésirables ont été documentés selon la 91 méthodologie des essais cliniques classiques, on admet que cela peut constituer une démonstration indirecte de l’équivalence thérapeutique des deux formulations Les essais de bioéquivalence sont donc des essais dans lesquels les deux substances ou formes à comparer sont administrées à des sujets, généralement des volontaire sains, dans le but d’étudier leurs concentrations plasmatiques en fonction du temps, représentées à la figure 20 (Senn, Statistical Issues in Drug Development, Wiley, Chichester, 1997). Les paramètres comparés sont l’aire sous la courbe (AUC), la concentration plasmatique maximale (Cmax) et le délai entre l'absorption et la survenue de la concentration maximale (Tmax). Figure 20. Concentrations plasmatiques d’un traitement test et d’un traitement de référence en fonction du temps dans un essai de bioéquivalence. Si n mesures de la concentration plasmatique yi sont collectées aux temps ti, la surface sous la courbe calculée par la règle trapézoïdale, est AUC = (y0 y1) (t1 - t0) (y1 y2) (t2 - t1 ) (yn - 1 yn) (tn - tn - 1) + +…+ 2 2 2 qui, si toutes les concentrations sont collectées à des intervalles de temps égaux ti+1 – ti = t, se réduit à AUC = t y0 yn 2 y1 y2 ... yn - 1 La concentration maximale est simplement la concentration la plus élevée, Cmax = max (yi) qui, toutes autres choses étant égales, sera d’autant plus haute que le nombre de mesures sera grand et ce, pour deux raisons, d’une part, parce que plus il y a de mesures plus on sera prêt du vrai pic, et, d’autre part, parce que si on dispose de n mesures et que l’on ajoute une mesure supplémentaire, la valeur maximale des (n+1) mesures de ce nouvel ensemble ne peut 92 être qu’égale ou supérieure à la valeur maximale des n premières. Le délai entre l'absorption et la survenue de la concentration maximale Tmax est un paramètre qui peut montrer une grande variabilité. En effet, si la concentration augmente rapidement pour atteindre, par exemple, un plateau en t3 et se maintient approximativement jusque t7, il n’y aura pas beaucoup de différences entre les mesures C3 à C7. Le choix d’une de ces mesures influencera peu la concentration plasmatique maximale, mais énormément le délai entre l'absorption et la survenue de la concentration maximale chez le sujet considéré. Il est habituel d'accepter dans ce type d’essais une variabilité de plus ou moins 20 % sur ces trois paramètres pour accepter la bioéquivalence entre les deux formes thérapeutiques étudiées. Cela signifie que l’intervalle de confiance à 95% ou plus généralement 90% de la moyenne des rapports des aires sous les courbes doit être compris entre 0,8 et 1,25 (et non 0,8 et 1,2 comme longtemps admis, à cause de l’absence d’invariance de ces limites selon le sens du rapport). En pratique, on calcule chez chaque sujet Log (AUC) pour les deux traitements ou formes thérapeutiques, et les limites de confiance de la moyenne des différences doivent être comprises entre (- 0,223) et ( + 0,223). La même méthodologie et des limites identiques sont utilisées pour la concentration plasmatique maximale Cmax et le délai entre l'absorption et la survenue de la concentration maximale Tmax. 15. Essais préventifs et études épidémiologiques d’intervention Deux approches sont possibles pour étudier l’efficacité d’un nouveau vaccin, ou de tout autre agent protecteur, destiné à prévenir la survenue d’une maladie. La première, idéale, est de réaliser un essai clinique, dit essai préventif, comparant la survenue de la maladie dans deux groupes de sujets, vaccinés ou non. Ce type d’étude est l’équivalent d’une étude de cohorte en épidémiologie analytique, la classification entre protégés et non protégés se substituant à la classification entre les exposés et les non exposés d’une étude de cohorte. Elle s'en différencie cependant par le fait que l'on peut ici contrôler totalement le facteur de protection, c'est-à-dire décider de l'appartenance d'un sujet à l'un ou l'autre groupe et non plus seulement l'observer. Pour éviter tout biais, les deux groupes seront donc habituellement randomisés. Néanmoins, ce type d'essai souffre des mêmes inconvénients que ceux décrits dans les études de cohorte, à savoir le nombre élevé de sujets qu'ils nécessitent et leur longueur de réalisation. C'est d'ailleurs parce que le critère de jugement ne peut être évalué qu'à long terme que ces études s'apparentent plus aux études épidémiologiques qu'aux essais cliniques. La deuxième approche, qualifiée d’étude épidémiologique d’intervention est l’enquête cas-témoins dans laquelle on sélectionne des sujets présentant ou non l'affection et on recherche ensuite si ils ont ou non été vaccinés, ce type d’études ne pouvant cependant pas être considéré comme un essai clinique. Les résultats d’un essai préventif ou d’une étude épidémiologique d’intervention dans le domaine vaccinal se présentent sous la forme de la table 48. Dans un essai préventif, les effectifs n1 et n0 sont fixés tandis que m1 et m0 sont aléatoires, dans une étude épidémiologique d’intervention, ce sont au contraire les effectifs m1 et m0 qui sont déterminés par le schéma de l'étude et les nombres n1 et n0 qui sont aléatoires. L'efficacité éventuelle de l'agent protecteur pourra être évaluée par deux ou trois paramètres, selon le type d’étude. 93 Table 48. Répartition des sujets dans un essai préventif ou une étude épidémiologique d’intervention dans le domaine vaccinal. L'efficacité relative est le rapport entre les risques de survenue de la maladie chez les sujets non protégés R0 et les protégés R1. C'est donc l'inverse du risque relatif RR des études épidémiologiques, soit ER = R0 1 = R1 RR Pour des raisons identiques à celles décrites en statistique épidémiologique, ce paramètre peut être estimé dans un essai préventif par ER = c n1 a n0 et dans une étude épidémiologique d’intervention, pour autant que l'affection étudiée soit rare, par ER ≈ bc ad Une efficacité relative supérieure à l'unité ne pourra être considérée comme réelle que si elle est significativement différente de 1, l'hypothèse nulle ER = 1 étant évaluée par le test du χ² à 1 degré de liberté comme dans une étude épidémiologique analytique. La fraction prévenue chez les protégés, ou efficacité vaccinale, mesure la proportion de cas de l'affection qui ont pu être évités par l'action du vaccin, c'est-à-dire FP = R0 - R1 ER - 1 = = 1 - RR R0 ER La fraction prévenue totale ou fraction prévenue de population ou encore fraction évitable est la proportion de nouveaux cas de maladie qui ont été prévenus par l'utilisation de l'agent protecteur dans une partie de la population. Comme le risque attribuable, son homologue dans les études épidémiologiques, ce paramètre ne peut être estimé‚ que dans les études d’intervention. En appelant Rg le risque global de survenue de l'affection dans la population, la fraction prévenue totale est 94 FT = R0 - Rg R0 Le risque global étant la somme pondérée des risques dans les deux sous-populations de sujets vaccinés et non vaccinés, c'est-à-dire, avec V proportion globale de sujets vaccinés Rg = V R1 + (1 – V) R0 = R0 + V (R1 – R0) on peut écrire FT = R0 - R0 - V (R1 - R0) R0 ou en divisant le numérateur et le dénominateur par R1, FT = V (ER - 1) = V (1 - RR) = V x FP ER La fraction prévenue totale est donc logiquement le produit de la fraction de sujets vaccinés par l’efficacité vaccinale. Par ailleurs, on peut aussi estimer la fraction prévenue totale, si l’on connaît uniquement la proportion de sujets vaccinés parmi les malades Vm = (a/m1) au lieu de la proportion globale de sujets vaccinés V. En effet, les relations R1 = peuvent s’écrire n1 = a c et R0 = n1 n0 c a et n0 = R0 R1 et donc la proportion globale de sujets vaccinés est a n1 a R1 V= = = a c n1 n0 a c RR R1 R0 ou en divisant le numérateur et le dénominateur par m1 a Vm Vm m1 V= = = a c RR Vm ( 1 - RR) RR Vm (1 - Vm) RR m1 m1 La fraction prévenue totale est alors Vm (1 - RR) FT = V (1 - RR) = = Vm (1 - RR) RR ER - 1 ER ER - 1 1 Vm ER ER Vm 95 ou FT = Vm (ER - 1) 1 Vm (ER - 1) Nous illustrerons ces notions par l'exemple d'une étude épidémiologique d’intervention ou enquête cas-témoins étudiant l'efficacité de la vaccination néonatale par le BCG dans la population indienne de la province canadienne du Manitoba (Young & Hershfield, Amer. J. Publ. Hlth, 1986, 76, 783-786). Il s'agit d'une étude ayant recruté tous les nouveaux cas de tuberculose survenus entre 1979 et 1983 chez des sujets âgés de moins de 15 ans de la population concernée. Pour chacun des 71 cas ainsi collectés, on a choisi 3 témoins au hasard dans le Registre de la Population Indienne, soit au total 213 témoins. Les risques relatifs et leurs intervalles de confiance à 95 % estimés de façon globale et par une analyse prenant en compte deux classes d'âge par stratification sont respectivement de 0,30 [0,17; 0,52] et 0,39 [0,22; 0,69]. On peut dès lors estimer les paramètres décrits ci-dessus en utilisant l'estimation du risque relatif par stratification et la proportion de sujets vaccinés parmi les tuberculeux Vm = 35/71 = 0,49. L’efficacité relative, la fraction prévenue chez les sujets protégés et la fraction prévenue totale sont respectivement ER = 1 = 2,56 0,39 FP = 2,56 - 1 = 1 – 0,39 = 0,61 2,56 FT = 0,49 ( 2,56 - 1) = 0,43 1 0,49 (2,56 - 1) 16. Essais séquentiels Les essais séquentiels ou essais progressifs sont des essais cliniques contrôlés permettant l'analyse des résultats au fur et à mesure de leur disponibilité. Le nombre de sujets nécessaire n'est pas fixé à l'avance comme dans une analyse classique. La méthode consiste à faire le point pour chaque nouveau résultat comptabilisé de façon à permettre l'arrêt de l'essai dès que la différence est significative en faveur d'un des traitements comparés au risque α ou dès que le nombre de sujets fixé pour garantir le risque β de laisser échapper une différence déterminée est atteint. Bien entendu une telle démarche ne permet pas d'utiliser les tests statistiques habituels qui sont établis pour une seule comparaison et ne sont donc pas valables pour une série de comparaisons non indépendantes, comme c'est le cas lorsque l'on réexamine les résultats chaque fois qu'un nouveau est disponible. Le risque d'erreur serait alors beaucoup plus élevé que le risque nominal lu dans la table. On peut d'ailleurs montrer que la répétition d'un test statistique classique sur des données non indépendantes aboutit toujours à la mise en évidence d'une différence significative, que celle-ci existe réellement ou non. L'analyse séquentielle est basée sur un théorème appelé test séquentiel du rapport des probabilités ou théorème de Wald, appliqué aux essais cliniques, avec deux types principaux, selon que l'on ne fixe pas (test ouvert) ou que l'on fixe (test fermé) un nombre maximal de sujets à ne pas dépasser. Le principe des essais séquentiels est de choisir des paires de sujets aussi semblables 96 que possible. Ils peuvent être appariés en fonction d'une caractéristique importante ou mieux encore être pris comme leur propre témoin (essai croisé). A défaut d'appariement logique, les sujets sont groupés par paires selon l'ordre d'entrée dans l'essai. Les deux traitements sont administrés de façon aléatoire aux membres de chaque paire. Dans les tests séquentiels ouverts, on calcule la pente et l'ordonnée à l'origine de droites – ou les paramètres définissant des courbes dans certaines situations – définies comme des limites de non signification ou de signification et appelées frontières, telles que A, B, C et D sur la figure 21. 6 4 A 2 B 0 C -2 -4 D -6 0 1 2 3 4 5 6 Figure 21. Test séquentiel ouvert. Ces droites dépendent bien sûr d'exigences qui sont identiques à celles définies dans le calcul du nombre de sujets nécessaire dans un test classique. En cas de critère de jugement quantitatif on calcule ensuite, pour chaque paire de malades, la différence d entre les valeurs de la variable choisie et on construit une ligne brisée appelée chemin, dont les points ont comme abscisse le nombre de paires de sujets examinées et comme ordonnée la somme cumulée des différences Σd recueillies sur ces paires. Le chemin finira par rencontrer une frontière et la conclusion, différence significative ou non, sera portée en fonction de la ou des frontières rencontrées. Sur la figure 21 la différence est significative en faveur de l’un des traitements si le chemin coupe la droite A ou la droite D, elle est non significative quand le chemin franchit successivement les deux droites B et C dans n'importe quel ordre. Si le critère de jugement est qualitatif, les paires correspondant à des réponses toutes deux favorables ou défavorables seront éliminées. Seules seront portées sur le graphique les paires dites utiles, c'est-à-dire ayant entraîné une réponse différente entre les sujets. La différence d sera alors cotée (+1) ou (–1) selon que le résultat favorable est obtenu avec l'un ou l'autre traitement. En cas d'essai croisé il est particulièrement avantageux d'utiliser comme critère de jugement la notion de préférence pour un traitement, puisque cette méthode permet d'utiliser toutes les paires. Le nombre de paires de sujets nécessaire à la rencontre du chemin avec une frontière, est une variable aléatoire dont on ne peut prédire que l'espérance mathématique, laquelle est toujours inférieure au nombre de paires que nécessiterait une analyse par un test statistique habituel. Néanmoins pour un test particulier, le nombre de sujets nécessaire peut très bien être supérieur à celui qu'aurait demandé l'analyse classique pour les mêmes exigences. C'est pour remédier à ce défaut qu'ont été décrits les tests séquentiels fermés, comme sur la figure 22, 97 7 5 A 3 1 C -1 -3 B -5 -7 0 1 2 3 4 5 Figure 22. Test séquentiel fermé. dans lesquels on fixe à l'avance un nombre maximal de paires à ne pas dépasser NL, cette valeur pouvant être déterminée par des formules ou par des tables en fonction des différentes situations. La droite verticale C est donc dans ce cas la frontière de non signification correspondant au couple (B, C) du test ouvert. Enfin, les essais séquentiels par groupe représentent une autre approche, intermédiaire entre les analyses classique et séquentielle. Elle consiste à examiner les résultats de la comparaison de deux traitements non plus après chaque paire d'observations mais après chaque multiple d'un nombre de malades déterminé à l'avance. L'analyse peut être réalisée par des tests statistiques classiques mais avec des limites de signification plus exigeantes données par des tables ou des formules particulières. Elle peut aussi être menée selon une méthodologie de type séquentiel comme le test triangulaire illustré par la figure 23 (Whitehead, Sequential Clinical Trials, Ellis Horwood, Chichester, 1983). Figure 23. Test séquentiel triangulaire 98 La figure 24 illustre un essai séquentiel fermé étudiant l'efficacité de la stimulation électrique peropératoire du mollet dans la prévention des thromboses veineuses postopératoires (Browse & Negus, Brit. Med. J.,1970, 3, 615-618). Figure 24. Essai séquentiel fermé de la stimulation électrique peropératoire du mollet dans la prévention des thromboses veineuses postopératoires. Chaque malade est son propre témoin, une seule jambe étant stimulée (S+), et le critère de jugement choisi est la captation du fibrinogène radioactif. Le plan est construit pour ne pas manquer une amélioration de 15 % à partir d'un résultat favorable d'absence de thrombose évalué a priori à 80 % sans stimulation, avec des risques α et β de 0,05. Ces exigences permettent de calculer l'ordonnée à l'origine et la pente des frontières de signification A et B (figure 22), ainsi que le nombre maximal de paires utiles (NL = 31). La droite verticale du test fermé (figure 22) est remplacée par deux droites inclinées à 45° par rapport à la ligne de base. En effet, le critère qualitatif choisi entraîne que chaque paire utile augmente ou diminue Σd de 1 et donc que franchir une de ces droites signifie qu’obligatoirement la verticale de non signification (figure 22) le sera également. Les résultats étant portés sur le graphique dès leur disponibilité, l'essai permet de conclure à la supériorité de la stimulation électrique du mollet avec les risques définis ci-dessus après seulement 17 paires utiles de sujets, c'est-à-dire les thromboses unilatérales, parmi 110 patients. Quels sont les avantages et les inconvénients des essais séquentiels ? Leur intérêt essentiel réside dans la diminution du nombre de sujets nécessaire, du moins en moyenne. A cela s'ajoute un avantage psychologique puisque l'examen des résultats au fur et à mesure de leur disponibilité permet au clinicien de voir se dessiner une tendance. Mais l'analyse séquentielle présente de sérieuses limitations. Elle suppose d'abord que la durée d'observation des malades soit brève par rapport à leur période de recrutement, ce qui la rend difficilement applicable aux affections chroniques. Par ailleurs elle impose le critère unique et l'analyse de groupes totaux, sans possibilité d'études de sous-groupes. Si les frontières ne peuvent être déterminées qu'en fonction des exigences, de la même manière que le nombre de sujets nécessaire en analyse classique, la démarche inversée utilisable dans ce type d'essais n'est ici plus possible. Enfin, les essais séquentiels posent un problème éthique. Si nous considérons sur la figure 24 le point correspondant par exemple à la 12ème paire utile, nous voyons que le 99 chemin ne pourra plus franchir la frontière inférieure, c'est-à-dire qu'il ne restera plus que deux conclusions possibles, soit (S+) meilleur que (S-), soit (S+) = (S-). Il devient dès lors gênant de continuer le traitement (S-) et pourtant en cas d'arrêt de l'essai, le risque d'erreur ne serait plus celui fixé a priori et donc aucune conclusion ne serait valable. Il n'en reste pas moins que si les essais séquentiels ont été peu utilisés jusqu'à ce jour dans la littérature médicale, leur efficacité paraît très intéressante dans certains cas bien choisis. 17. Essais adaptatifs Le terme d’essais adaptatifs regroupe des essais cliniques contrôlés dans lesquels l'attribution des traitements entre deux groupes de sujets est fonction des résultats déjà obtenus. Leur objectif est de donner le traitement qui se révélera progressivement le meilleur à un plus grand nombre de malades. La répartition sera donc délibérément biaisée en fonction de la thérapeutique la plus efficace dans un but éthique. Plusieurs modèles de plans à plusieurs étapes ont été proposés. Un modèle à deux étapes consiste, dans une première phase, à répartir les deux traitements de façon égale parmi n sujets, et dans une seconde étape à attribuer aux (N - n) malades restants le traitement qui s'est révélé le meilleur à l'issue de la première phase. Des modèles à trois étapes ont également été décrits. Un premier modèle, dit de Colton, randomise les malades en deux groupes égaux dans une première phase, attribue ensuite le meilleur traitement à tous les sujets restants, comme dans le plan à deux étapes, mais à la condition que la différence entre les deux groupes à l'issue de la première phase dépasse une certaine valeur, tandis que dans le cas contraire, les sujets sont encore répartis pendant une phase intermédiaire entre les deux traitements, avant l'attribution de la meilleure thérapeutique dans une troisième phase, à tous les malades selon les résultats des deux premières. Dans un second modèle, dit de ColtonFinney, on attribue à tous les sujets de la deuxième phase le traitement qui paraît le meilleur à l'issue de la première, de façon à confirmer ou infirmer les résultats et donner respectivement ce même traitement ou l'autre à tous les malades de la troisième phase. Parmi les autres procédés adaptatifs proposés dans les essais cliniques, on peut citer le jeu sur le gagnant (play-the-winner), méthode qui suppose que l’on dispose du résultat d'un traitement avant l'entrée dans l'essai du malade suivant. Dans sa version originale, la règle est d’attribuer à chaque sujet le même traitement que celui du précédent si celui-ci a entraîné un succès et l'autre traitement lorsque le résultat fut un échec. Si pA et pB désignent respectivement les probabilités de succès avec les traitements A et B, on peut démontrer que le rapport entre le nombre attendu de sujets qui recevront A et celui des malades qui seront traités par B est identique au rapport (1 - pB)/(1 - pA). Plusieurs versions modifiées du jeu sur le gagnant ont été proposées pour tenir compte de réponses thérapeutiques différées. Chaque succès avec un traitement n’entraîne pas nécessairement l’attribution de ce traitement au patient suivant, mais augmente la probabilité d’attribution en faveur de ce traitement. Ces méthodes peuvent être décrites par un modèle d’urne. Dans le schéma appelé jeu sur le gagnant randomisé ou méthode de Wei et Durham l’urne contient au début αA boules du traitement A et αB boules du traitement B. Pour chaque nouveau patient on tire une boule au hasard, on attribue à ce sujet le traitement correspondant et on replace la boule dans l’urne. Lorsque le résultat est connu, l’urne est mise à jour en ajoutant une ou plusieurs (β) boules correspondant au traitement reçu si celui-ci fut 100 un succès ou une ou β boules correspondant à l’autre traitement si le résultat fut un échec. Un autre schéma appelé drop-the-loser utilise une urne contenant au début αA boules du traitement A, αB boules du traitement B et α0 boules sans traitement dites boules d’immigration. Pour chaque nouveau patient on tire une boule au hasard, on attribue à ce sujet le traitement correspondant si il s’agit d’une boule A ou B et on replace la boule si il s’agit d’une boule d’immigration. Dans ce dernier cas, on ajoute deux boules, une A et une B, et on tire une autre boule.dans l’urne. Lorsque le résultat est connu, l’urne est mise à jour en replaçant la boule A ou B si le traitement fut un succès, mais pas si ce fut un échec. La thérapeutique d’un nouveau malade peut aussi être choisie non pas en fonction du résultat du dernier traitement attribué comme dans les procédés précédents, mais en tenant compte des résultats de tous les sujets déjà inclus dans l'essai. Enfin on peut encore compliquer le schéma en tenant compte non seulement des résultats des sujets précédents mais également des différentes situations possibles pour tous les suivants. Les solutions de ce problème connu sous le nom de bandit à deux bras sont difficiles. On peut cependant noter que si les pourcentages de succès avec chacun des traitements sont indépendants, ces procédés se caractérisent généralement par le fait que chaque succès entraîne l'attribution du même traitement au malade suivant, comme dans le jeu en fonction du gagnant, mais qu'un échec n'entraîne pas obligatoirement un changement de thérapeutique. Dans la mesure où leur objectif est de donner le traitement qui se révélera progressivement le meilleur à un plus grand nombre de malades, les plans à plusieurs étapes, le jeu sur le gagnant et ses variantes et les solutions du bandit à deux bras représentent donc une stratégie de l’éthique collective. Une autre démarche dite stratégie de l’éthique individuelle a été proposée. Tant qu'on ne dispose sur les deux traitements d'aucune autre information que la connaissance a priori, on les attribue par tirage au sort s'ils sont équivalents et on donne le meilleur a priori dans le cas contraire. Dès que les renseignements disponibles indiquent une probabilité a posteriori de bons résultats plus élevée pour un des traitements, on l'adopte jusqu'à ce que de nouveaux résultats viennent renverser la tendance. En fait les deux traitements à comparer ne sont jamais totalement équivalents a priori, et si on entreprend un essai clinique, c'est bien parce qu'on pense que le nouveau traitement est susceptible d'apporter des résultats supérieurs à ceux de l'ancien, c'est-à-dire que l'on estime a priori que ce traitement sera plus efficace. Il va donc être expérimenté jusqu'à ce que les résultats, c'est-à-dire une estimation a posteriori, confirment ou infirment sa supériorité supposée. C'est en fait la démarche habituelle de tout médecin devant un nouveau traitement. Cette stratégie possède la caractéristique d’un procédé optimal définie plus haut, c'est-à-dire qu'un succès entraîne l'attribution du même traitement au malade suivant mais que l'inverse n'est pas vrai. Les essais adaptatifs ont été à ce jour peu utilisés, car leurs inconvénients sont nombreux. Dans la plupart des méthodes le délai de réponse au traitement doit être court pour que le résultat de celui-ci soit disponible avant l'entrée dans l'essai du malade suivant ou du moins peu après. De plus, la population doit absolument être homogène au cours du temps puisque la répartition des sujets entre les groupes sera modifiée avec le temps. La complexité de certains schémas rend leur acceptation par les cliniciens malaisée. Si on peut considérer ces inconvénients comme de simples limites de ces techniques, des critiques majeures sur les plans scientifique et même éthique ont été formulées à leur encontre. D'une part, les procédés tels que le jeu en fonction du gagnant entraînent un biais de sélection évident puisque le traitement du malade sera connu avant son entrée dans l'essai. D'autre part, il faut remarquer que si l'objectif de ces méthodes est de diminuer le nombre de sujets qui recevront le traitement le moins favorable, ce but ne peut être atteint qu'en augmentant l'effectif total et par 101 conséquent la durée de l'essai. Cela signifie que les malades traités dans tous les autres centres ne participant pas à l'essai attendront plus longtemps une conclusion sûre et le nombre de sujets, ayant ou non participé à l'essai, qui auront reçu le traitement le moins bon, risque dès lors d'être augmenté. L'avantage éthique qui est la raison fondamentale de ces procédés est ainsi annihilé. 18. Essais pragmatiques Les essais pragmatiques sont des essais cliniques contrôlés dirigés avant tout vers l'application pratique et dont le principe diffère entièrement de celui des essais explicatifs. Selon la méthodologie developpée par Schwartz et Lellouch, les essais pragmatiques comparent deux traitements dans le but d'en rejeter un des deux sans être sûr que le traitement choisi soit nécessairement le meilleur mais en étant certain qu'il ne soit pas inférieur au traitement rejeté. Ce type d'essais entraîne donc toujours une décision en faveur de l'un ou l'autre traitement, décision qui est prise sans test statistique, après avoir atteint le nombre de sujets nécessaire, calculé obligatoirement au début de l’essai. Puisqu'il s'agit d'une comparaison entre deux thérapeutiques en vue d'aboutir à un choix, le traitement contrôle de type placebo n'y a évidemment pas sa place. Le traitement expérimental doit être comparé à la thérapeutique classique de référence et les deux traitements doivent être administrés dans les meilleures conditions possibles pour chacun d'eux, même si celles-ci diffèrent. Ainsi, si par exemple le traitement A s'accompagne obligatoirement d'une autre thérapeutique qui n'est pas nécessaire à l'efficacité du traitement B, cette thérapeutique doit être ajoutée à A mais non à B. De même dans un essai médicamenteux, la posologie peut être réduite en fonction de l'apparition de certains effets secondaires sans introduire de biais, alors qu'une telle attitude fausserait immanquablement les résultats en cas d'essai explicatif. Contrairement aux essais de ce type, il ne s'agit donc pas de rendre les conditions strictement identiques dans les deux groupes, mais de tendre vers l'optimum pratique pour chacun d'entre eux. En définitive, plutôt que d'étudier deux traitements au sens strict du terme, les essais pragmatiques visent essentiellement à comparer deux attitudes thérapeutiques. Le but des essais pragmatiques étant de choisir entre deux traitements, les critères de jugement doivent non seulement concerner l'évolution de la maladie mais également les inconvénients tels que les effets secondaires ou la servitude représentée par le traitement. Mais comme la décision à prendre en fin d'essai est une, les critères choisis ne peuvent pas être considérés isolément mais doivent au contraire être regroupés dans un bilan global du pour et du contre. Deux solutions sont dès lors envisageables. La première est l'utilisation d'un résumé exhaustif essayant de grouper tous les critères en une combinaison pondérée par des facteurs arbitraires variant en fonction de l'importance accordée à chaque critère. Cette solution doit être choisie si l'on dispose de plusieurs critères dont aucun n'est prépondérant. L'autre alternative est l'utilisation d'un critère privilégié, comme par exemple la survie dans les affections graves. En ce qui concerne la sélection des sujets, les essais pragmatiques doivent être réalisés sur un échantillon représentatif de la population à laquelle les résultats sont destinés, sans chercher à rendre cet échantillon homogène et sensible comme dans les essais explicatifs classiques. Si l'estimation préalable de l'effectif nécessaire est importante en cas d'essai explicatif pour permettre une conclusion valable même en l'absence de différence significative, ce calcul est indispensable dans un essai pragmatique puisque la décision d'adopter l'un ou l'autre des traitements comparés sera prise sans effectuer de test statistique, dès que le nombre 102 minimal estimé de sujets aura été atteint. Les paramètres dont dépend ce calcul sont cependant différents avec cette méthode, puisque les notions de risques statistiques sont modifiées. Le but de tels essais est en effet de choisir un des traitements comparés, non parce qu'il est nécessairement supérieur, mais parce qu'il n'est pas inférieur à l'autre. On accepte donc que si les deux traitements sont équivalents, le choix puisse résulter du hasard. Si A = B, il n'est aucunement gênant en pratique de choisir A plutôt que B. Le risque α (valeur p) de conclure à tort à une différence significative, motivation essentielle d'un test statistique, n'a donc plus aucune importance. Il est dès lors illogique de le minimiser. Au contraire, puisque plus le risque α est grand, moins il faudra de sujets, on a évidemment intérêt à le choisir maximal, c'est-à-dire égal à 1. Il n'y a à ce moment plus de test statistique à proprement parler puisque toute différence est significative à ce risque. Le meilleur des deux traitements sera donc adopté quelle que soit la différence constatée entre eux. Cette attitude entraîne obligatoirement une décision, ce qui signifie que le manque de puissance β du test est nul. Le nombre de sujets nécessaire est dès lors calculé en fonction d’un risque supplémentaire, appelé risque de troisième espèce ou risque γ ou erreur de type III, celui de conclure à une différence significative en faveur d'un des deux groupes, alors qu'il existe en réalité une différence en faveur de l'autre groupe. Dans un essai pragmatique, le seul risque de la méthode consiste en effet à adopter A si B est en fait le meilleur des traitements. En dehors du risque γ, qui remplace les risques α et β de la méthodologie classique des tests d’hypothèse, les autres paramètres dont dépend le calcul du nombre de sujets nécessaire sont similaires à ceux de l’attitude classique. Pour des exigences équivalentes, ce nombre sera cependant quatre fois moindre que pour un essai explicatif classique. Nous avons écrit ci-dessus que dans un essai pragmatique les traitements devaient être administrés dans les meilleures conditions possibles pour chacun d'eux, même si celles-ci diffèrent, ce qui peut entraîner dans certains cas la suppression du caractère aveugle de l'étude. Cette conséquence est cependant beaucoup moins gênante que dans un essai explicatif dans la mesure où l'effet placebo ne doit pas être égalisé dans les deux groupes. En effet la composante placebo, qu'on le veuille ou non, fait partie intégrante du traitement et si un médicament A exerce, de par son mode d'administration par exemple, un effet placebo plus important que B, il n'y a aucune raison d'essayer de l'éliminer, puisque dans la pratique courante cette composante placebo existera toujours. Dès lors, si le caractère aveugle est souhaitable en cas de traitements d'apparence identique, sa recherche doit être secondaire par rapport à celle de l'attribution des traitements sous leurs formes les plus efficaces. L'attitude est similaire en ce qui concerne l'observance au traitement. Si un des deux traitements entraîne un plus grand nombre d'abandons que l'autre, ce fait doit être considéré comme faisant partie intégrante du risque de la thérapeutique. Par conséquent les sujets n'ayant pas poursuivi le traitement jusqu'à son terme ne doivent pas être éliminés de l'essai mais considérés comme des membres à part entière de leur groupe thérapeutique. Si les essais pragmatiques s’apparentent aux essais avec analyse en intention de traiter, la méthodologie pure des essais pragmatiques développée par Schwartz et Lellouch avec son principe d’analyse fort controversé a été peu suivie à ce jour. La table 49 résume les différences essentielles entre les essais explicatifs classiques et les essais pragmatiques. La distinction entre les caractères explicatif et pragmatique d’un essai peut sembler quelque peu théorique, et en réalité rares sont les essais qui sont totalement l’un ou l’autre. Néanmoins, cette distinction est utile à la réflexion et il est souvent extrêmement bénéfique de se poser la question du choix explicatif ou pragmatique à chaque étape de la rédaction d’un protocole. 103 ESSAIS EXPLICATIFS ESSAIS PRAGMATIQUES traitement expérimental traitement contrôle population conditions identiques placebo homogène conditions optimales traitement classique représentative critère(s) de jugement objectif(s) eventuellement plusieurs α et β nécessaire éliminés TESTER L’EFFICACITE clinique unique γ secondaire pris en compte TESTER L’UTILITE risques statistiques caractère aveugle abandons de traitement OBJECTIF Table 49. Caractéristiques comparées des essais explicatifs et pragmatiques. Les essais adaptatifs et les essais pragmatiques définissent une approche décisionnelle, encore imparfaite, des essais cliniques. Considérées comme théoriques, voire utopiques par certains, ces techniques nous semblent cependant intéressantes parce que leur objectif est de mieux tenir compte des impératifs imposés par la recherche thérapeutique clinique. Ainsi les essais adaptatifs visent généralement à donner la thérapeutique la plus favorable à un maximum de malades tandis que les essais pragmatiques obligent à un choix entre deux traitements quel que soit le résultat de leur comparaison. On peut dans une certaine mesure considérer que si la méthodologie classique des essais cliniques contrôlés s'est limitée à appliquer au problème particulier de l'expérimentation humaine la théorie statistique conçue initialement pour d'autres domaines, l'approche décisionnelle tente au contraire de définir un raisonnement statistique original dérivant des impératifs imposés par cette expérimentation humaine et intégrant ou au moins tentant d’intégrer à la fois l’éthique collective et l’éthique individuelle de cette expérimentation. * * * 104 CHAPITRE 5 META-ANALYSE 1. But et principes de la méta-analyse 2. Recherche et sélection des essais 3. Biais de publication 4. Principe de l’analyse statistique d’une méta-analyse 5. Analyse statistique d’un critère de jugement binaire 6. Analyse statistique d’un critère de jugement continu 7. Analyse statistique d’un critère de jugement mixte 8. Représentation graphique des résultats d’une méta-analyse 9. Détection d’un biais de publication 1. But et principes de la méta-analyse Le nombre d’études scientifiques réalisées dans le domaine médical et spécialement d’essais thérapeutiques ne cesse de croître et les médecins ou les décideurs en santé publique ont de plus en plus besoin de données de synthèse. Or les résultats des différentes études ne sont pas nécessairement concordants, et il est parfois difficile de résumer d’une façon claire l’effet d’une substance dans une situation donnée. Le but de la méta-analyse est de combiner les résultats de plusieurs études pour en faire une synthèse objective et quantifiée, qui va au-delà de la simple revue de la littérature. Elle n’est d’ailleurs pas limitée aux essais cliniques, mais peut également s’appliquer, parfois avec des techniques particulières, aux études épidémiologiques, études de cohorte ou enquêtes cas-témoins, ou encore aux évaluations de tests diagnostiques. Si la synthèse des données est un acte traditionnel de la pratique scientifique, celle-ci échappe paradoxalement à toute méthode et aucune règle n’est établie. La première critique que l’on peut faire à la simple revue de la littérature est l’absence de recherche de l’exhaustivité dans les données qu’elle exploite. Il est fréquent que seuls les essais favorables à la thèse défendue soient retenus. Par exemple, les essais favorables à l’effet d’un nouveau traitement sont plus souvent cités que ceux qui sont en sa défaveur, sans qu’il n’y ait pour autant de malhonnêteté intellectuelle dans la démarche. Cela a été mis en évidence, par exemple, dans une analyse de la fréquence des citations en fonction de leurs résultats, de 22 essais d’interventions hypocholestérolémiantes en prévention des maladies cardiaques (Ravnskov, Brit. Med. J., 1992, 305, 15-19). En utilisant la base de données Science Citation Index, l’auteur a calculé la fréquence annuelle moyenne de citations pour les différents essais. Les essais favorables sont cités en moyenne 40 fois par an, tandis que les essais non favorables ne le sont que 7 fois. Cette différence flagrante ne peut être reliée ni à la taille des essais, ni à la renommée des revues dans lesquelles ils ont été publiés. En effet, si nous considérons deux essais particuliers publiés dans le Journal of the American Medical Association, on remarque que l’essai « favorable » est cité 109, 121, et 202 fois dans les trois années suivant sa publication tandis que pour celui « non favorable », les fréquences de citation ne sont que de 6, 5 et 3 fois. Cet exemple illustre le fait que la majorité des revues de la littérature ne rapportent que des résultats sélectionnés. Un autre problème de la simple revue de la littérature est la façon dont la décision finale sur l’existence d’un effet du traitement est prise. Au mieux, même si les arguments pour et contre étaient présentés de façon exhaustive, le jugement final ne pourrait être que fondé sur la règle de la majorité. Or cela ne tiendrait pas compte de la nature probabiliste des conclusions individuelles des essais et du risque de conclusions erronées uniquement dues au hasard. Nous illustrerons le problème par un exemple dans le domaine cardiologique. Un Essai OMS clofibrate (1978) LRC Trial (1984) Helsinki Heart Study (1987) WOSCOPS (1995) Evènements coronariens ↓ NS ↓ NS ? ↓ p < 0,01 Mortalité coronarienne ↑ NS ↓ NS ↓ p = 0,02 ↓ p = 0,13 Mortalité totale ↑ p< 0,05 → NS → NS ↓ p = 0,051 Table 50. Résultats des essais de prévention primaire d’hypocholestérolémiants dans la maladie coronarienne. 106 des facteurs de risque de la maladie coronarienne est l’élévation du taux sérique de cholestérol ou de sa fraction LDL. On peut dès lors supposer qu’un traitement diminuant le taux de cholestérol pourrait diminuer aussi le risque de coronaropathie. La table 50 résume l’information provenant des essais de prévention primaire d’hypocholestérolémiants dans la maladie coronarienne (Cucherat et al., Manuel Pratique de Méta-analyse des Essais Thérapeutiques, publication électronique, 1997). Aucune tendance nette ne se dégage de ces essais et une conclusion définitive semble hasardeuse. La méta-analyse se propose donc de faire une synthèse objective et si possible quantifiée à partir de toute l’information disponible. Il s’agit d’une démarche scientifique qui doit être vérifiable et reproductible. Les principes de la méta-analyse sont donc: 1) Une analyse portant sur toute l’information disponible obtenue par une recherche exhaustive de tous les essais du domaine étudié; 2) Une réalisation selon un protocole strict établi a priori, pour éviter les choix influencés par les résultats; 3) L’utilisation de techniques statistiques prenant en compte la nature probabiliste des résultats des essais qui peuvent être différents uniquement par le fait du hasard et essai de quantification de l’effet du traitement. Pour résoudre le problème posé par la synthèse des résultats de plusieurs essais, la première idée qui vient à l’esprit est de combiner directement les effectifs et les nombres d’événements de tous les essais, par sommation des résultats (pooling). Les effectifs des groupes sont additionnés, ainsi que les nombres d’événements. A partir de ces totaux, une mesure d’effet telle que le risque relatif ou l'odds ratio est calculée pour représenter globalement l’effet du traitement. La table 51 montre les résultats de deux essais dans lesquels le traitement semble nettement réduire la fréquence des complications. Pourtant le résultat combiné par sommation conclut exactement à l’inverse (Cucherat et al., op. cit.). essai groupe effectif A traitement contrôle traitement contrôle traitement contrôle 112 61 52 119 164 180 B sommation nombre de complications 68 43 11 35 79 78 pourcentage de complications 61 70 21 29 48 43 risque relatif odds ratio 0,86 0,65 0,72 0,64 1,11 1,22 Table 51. Résultats de deux essais et de leur combinaison par sommation. Cette situation illustre bien les dangers de cette approche. Une méthode appropriée de métaanalyse permet d’estimer un risque relatif commun de 0,84 ou un odds ratio commun de 0,65, beaucoup plus satisfaisants. De plus, la sommation des effectifs pose des problèmes conceptuels. Elle conduit en effet à considérer que les patients de tous les essais sont similaires et que l’on peut ainsi les regrouper. Les techniques de méta-analyse évitent de faire cette hypothèse et combinent les effets traitements et non pas les patients, en faisant seulement l’hypothèse de la constance de l’effet traitement d’un essai à l’autre. En fait, elles décomposent l’information contenue dans un essai en une partie commune à tous les essais et en une partie spécifique de cet essai, et estiment cette partie commune par des techniques statistiques. 107 On peut distinguer trois types de méta-analyse en fonction du type des données utilisées. La méta-analyse des données résumées de la littérature utilise exclusivement les données des essais publiés, à l’exclusion de toute autre source d’information, en particulier les essais non publiés. Cette forme déroge donc à l’un des principes énoncés ci-dessus qui est celui de l’exhaustivité des informations et expose au biais de publication. Elle est cependant souvent la seule possible. La méta-analyse exhaustive sur données résumées utilise des données résumées, mais les sources d’information ne se limitent pas aux essais publiés et comprennent aussi les travaux non publiés (résumés de communications à des congrès, compte-rendus de conférences, communications personnelles, etc...). Ainsi ce type d’approche suit tous les principes énoncés précédemment. Enfin la méta-analyse sur données individuelles se base sur les données de tous les patients inclus dans les essais pris en considération. Ce type de méta-analyse est beaucoup plus difficile à réaliser, mais sera sans doute à l’avenir la méthode de choix. 2. Recherche et sélection des essais La recherche des essais doit être la plus exhaustive possible. Tous les moyens doivent donc être utilisés, comme les bases de données bibliographiques informatisées, les bibliographies des articles déjà connus et les actes des congrès. Les critères de sélection des études doivent être définis au préalable dans le protocole de la méta-analyse. Deux domaines de sélection existent, d’une part, le domaine d’intérêt qui comprend des définitions précises de la maladie, de la population étudiée, des critères de jugement et des traitements et, d’autre part, le domaine de la qualité méthodologique, qui ne doit retenir que les essais dont la qualité méthodologique est suffisante pour permettre une méta-analyse correcte. Il est possible de montrer qu’une relation existe entre la qualité des essais et la taille de l’effet traitement qu’ils montrent. Pour faire cette sélection, une façon de procéder est de classer les essais en fonction de leur qualité méthodologique, par exemple, en trois classes. Pour effectuer cette classification, le respect de chaque principe méthodologique est noté de la façon suivante, en trois catégories également, avec une note A si le principe est entièrement respecté et réalisé de façon satisfaisante, une note B si le principe est partiellement respecté ou décrit de manière insuffisante et une note C si le principe n’est pas appliqué ou réalisé de façon erronée. Tous les principes méthodologiques vus au chapitre 3 peuvent ainsi être notés. Par sommation des scores, les essais sont classés en trois catégories, essais de bonne qualité, essais de qualité moyenne et essais de qualité insuffisante. Les essais dont la qualité est insuffisante sont exclus. Les essais des deux premières catégories sont pris en considération pour la métaanalyse et une analyse de sensibilité teste les conséquences de l’éventuelle inclusion d’essais de qualité moyenne aux cotés de ceux de bonne qualité. Il existe aussi plusieurs échelles de mesure publiées dans la littérature qui débouchent sur un score global. En outre certains ont proposé d’utiliser un coefficient de pondération en fonction de ces indices de qualité. Il faut enfin prendre soin d’éliminer les publications multiples. 3. Biais de publication Par principe, la méta-analyse doit regrouper la totalité des essais qui ont été réalisés dans le domaine. Cette exhaustivité est cependant difficile à atteindre, en particulier du fait de l’existence de travaux non publiés, qui aboutit à introduire un biais appelé biais de publication. En effet, les essais thérapeutiques ont d’autant plus de chance d’être publiés que 108 leurs résultats s’avèrent statistiquement significatifs et plusieurs études ont démontré ce phénomène, d’autant plus important que le nombre d’essais augmente le risque de résultats faussement significatifs. Pour illustrer ce problème, considérons une situation fictive où un traitement sans effet est évalué par plusieurs essais randomisés. Du fait du risque de première espèce α, généralement de 0,05, la réalisation de 100 essais produira en moyenne 5 essais conclusifs à tort. Si uniquement ces essais sont publiés, la littérature sur le sujet sera en faveur de l’effet du traitement de façon totalement erronée, puisqu’en réalité le traitement n’a aucun effet. En fait la probabilité d’obtenir avec le même traitement au moins un essai conclusif à tort sur n essais est p = 1 - ( 1 - α )n Avec α = 0,05, p = 0,23 pour n = 5, p = 0,40 pour n = 10 et p = 0,92 pour n = 50. La probabilité de 0,50 est atteinte pour n = 14 et celle de 0,95 pour n = 59. Il est donc très probable d’observer au moins 1 essai statistiquement significatif par le seul fait du hasard si un tel nombre d’essais ont été réalisés. Les causes de la publication sélective des résultats significatifs sont multiples: autocensure des auteurs qui considèrent d’emblée que leur résultat est sans intérêt pour la communauté scientifique parce que non significatif, sélection par les comités de lecture qui ont tendance à rejeter un article dont le résultat est non significatif, publication de certains résultats d’essais commandités par l’industrie pharmaceutique non souhaitée pour des raisons de secret industriel ou lorsque les résultats sont défavorables à la substance étudiée. Il semble qu’actuellement la cause principale de cette non publication sélective est l’autocensure des investigateurs eux-mêmes devant des résultats qu’ils jugent non publiables, vue dans de nombreux cas comme une simple anticipation de la décision que prendraient inévitablement les éditeurs des revues dont la politique est généralement de ne publier que les articles qui rapportent des essais « positifs » et donc proposent une avancée dans la thérapeutique. La prévention du biais de publication oblige à rechercher les travaux non publiés en combinant différents moyens potentiellement capables de récupérer quelques essais non publiés: – la consultation d’experts dans le domaine, – la lecture des revues générales déjà réalisées sur le sujet, qui peuvent mentionner des essais en cours et qui n’auraient pas abouti à publication par la suite, – la consultation des investigateurs des essais connus, – l’interrogation des firmes ayant développé le médicament, – la consultation de registres, – la consultation des autorités réglementaires. La robustesse d’un résultat de méta-analyse vis à vis du biais de publication peut s’évaluer en recherchant le nombre d’essais ne montrant pas d’effet traitement qu’il faudrait rajouter à la méta-analyse pour obtenir un résultat compatible avec l’absence d’effet traitement, c’est à dire non significatif. Supposons par exemple qu’une méta-analyse de 5 petits essais, regroupant 303 sujets, conclut à l’existence d’un effet traitement avec un odds ratio de 0,49 significativement différent de 1 (p = 0,01). Un calcul de simulation montre qu’il faudrait rajouter seulement 3 essais de 30 patients avec un risque de base de 0,23, c’est-à-dire la moyenne des essais inclus, pour obtenir un résultat non significatif avec un odds ratio de 0,65 correspondant à p = 0,053 (Cucherat et al., op. cit.). Dans la mesure où il est probable qu’il puisse exister au moins trois essais de petites tailles non significatifs et non publiés, le résultat de cette méta-analyse est donc à considérer avec précaution. 109 4. Principe de l’analyse statistique d’une méta-analyse Le problème statistique posé par la méta-analyse est double. Il s’agit tout d’abord de quantifier les effets traitement grâce à une mesure appropriée, puis de combiner en un seul indice les effets traitement issus d’une série d’essais thérapeutiques. Les solutions apportées à ces deux points varient en fonction de la nature du critère de jugement utilisé, binaire ou continu. Pour un critère binaire, les mesures d’effet sont la différence des risques, le risque relatif ou l’odds ratio. Pour un critère continu, c’est l’effet standardisé qui est généralement utilisé. Quel que soit le critère choisi, deux modèles sont proposés. Le modèle fixe suppose que l’effet du traitement est une constante, et donc que les variations observées dans la réalité ne résultent que des fluctuations aléatoires. Le modèle aléatoire considère que le résultat d’un essai, est composé d’une partie fixe, commune à l’ensemble des essais, à laquelle s’ajoute une partie propre à cet essai et donc variable. L’analyse statistique d’une méta-analyse comprend donc (1) une estimation de l’effet traitement combinant l’ensemble de l’information, accompagnée d’un intervalle de confiance généralement à 95 %, (2) un test d’hétéro/homogénéité qui étudie si les résultats de tous les essais peuvent être considérés comme similaires, et (3) un test statistique de l’existence de cet effet traitement éventuel. Si le test d’hétéro/homogénéité est significatif, c’est-à-dire s’il rejette l’hypothèse nulle d’homogénéité, il existe au moins un essai dont le résultat ne peut pas être considéré comme identique aux autres, ce qui pose le problème du recours au modèle aléatoire. Le modèle fixe suppose qu’il existe k essais comparant un traitement expérimental E à un traitement contrôle C, avec θi l’effet traitement de l’essai i, de variance σ²i. L’effet traitement commun θ est alors estimé par la moyenne des estimations de chaque essai, pondérées par l’inverse de leur variance, soit k θ= wi θ i i 1 k avec wi = wi 1 σ² i i 1 Les estimations les plus précises, donc avec une faible variance, contribuent plus fortement à l’estimation commune que les estimations moins précises avec une variance plus grande. L’homogénéité des k estimations est vérifiée par la statistique Q k Q= wi (θi - θ)² i 1 qui suit une distribution du χ² à (k-1) degrés de liberté. Cette statistique permet en outre de quantifier l'hétérogénéité éventuelle par l'index d'hétérogénéité I2, qui mesure le pourcentage de la variabilité inter-études dans la variabilité totale, c'-est-à-dire celui de l'hétérogénéité vraie, I2 = 100 ( Q - k 1) Q si Q > (k - 1) ou 110 I2 = 0 si Q < (k - 1). Si l’homogénéité des essais n’est pas rejetée, on peut tester l’effet traitement par la statistique U, soit k U= wi θi ² i 1 k wi i 1 qui suit aussi une distribution du χ², mais à 1 degré de liberté. Si l’homogénéité est rejetée, il faut, soit procéder à l’analyse de cette hétérogénéité et rechercher des facteurs explicatifs, éventuellement en éliminant certaines études, soit considérer le modèle aléatoire à la place du modèle fixe. 5. Analyse statistique d’un critère de jugement binaire Si le traitement est évalué par un critère binaire, comme succès ou échec, survenue d’un évènement clinique ou non, décès ou survie pour une période de suivi fixée, les résultats de chaque essai se présentent comme dans la table 52. Table 52. Présentation des résultats d’un essai avec critère binaire. Si on considère le risque d’échec comme une mesure de l’effet du traitement, on peut calculer pour chaque essai une différence de risques DR, un risque relatif RR ou un odds ratio OR, qui sont respectivement DR = a a b - c c d de variance σ² = a a (c d) RR = a b = c c (a b) c d et ab cd + (a b)³ (c d)³ a ad OR = b = c bc d Ainsi, pour un essai de deux traitements dont les résultats sont jugés comme succès ou échecs et présentés dans la table 53, ces paramètres sont DR = 70 110 = - 0,26 70 130 110 70 avec σ² = 110 x 70 70 x 130 + = 0,002 (70 130 )³ (110 70)³ 111 Table 53. Résultats d’un essai avec critère binaire. RR = 70 x (110 70) = 0,57 110 x (70 130) et OR = 70 x 70 = 0,34 130 x 110 Si l’on s’intéresse à la différence des risques, un estimateur de la différence de risque commune est obtenu par application de la formule générale décrite plus haut, k θ= wi θ i i 1 k avec wi = wi 1 σ² i i 1 la différence de risque de l’essai i étant θi. Le risque relatif commun peut être obtenu à partir d’un estimateur du logarithme du risque relatif commun, qui est la moyenne pondérée des logarithmes des risques relatifs de chaque essai Φi. Le risque relatif commun est alors k θ = exp wi log Φi i 1 avec k wi 1 1 1 1 1 = + wi ai ai bi ci ci di i 1 La table 54 présente les résultats de 4 essais qui comparent un traitement expérimental E à un traitement contrôle C, en termes d’évènements qui sont des échecs thérapeutiques, tandis que la table 55 détaille les calculs nécessaires pour estimer une différence de risque commune et un risque relatif commun. essai 1 2 3 4 effectifs du traitement E 138 100 300 200 effectifs du traitement C 142 100 300 200 évènements du traitement E 18 12 38 28 évènements du traitement C 22 14 47 30 Table 54. Résultats de quatre essais comparant les échecs de deux traitements. 112 essai Risque E 1 0,13 2 0,12 3 0,13 4 0,14 Σ Risque C 0,15 0,14 0,16 0,15 θi wi θi wi Φi -0,024 573,42 -14,05 -0,020 442,48 -8,85 -0,030 1235,87 -37,08 -0,010 806,78 -8,07 3058,55 -68,04 0,84 0,86 0,81 0,93 Log(Φi) -0,172 -0,154 -0,213 -0,069 wi wi Log(Φi) 11,531 7,420 24,435 16,935 60,322 -1,984 -1,144 -5,194 -1,168 -9,491 Table 55. Calculs nécessaires à l’estimation de la différence de risque commune et au risque relatif commun des essais de la table 54. On peut dès lors estimer la différence de risque commune par θ = - 68,04 = - 0,022 3058,55 et le risque relatif commun par θ = exp - 9,491 60,322 = 0,854 Plusieurs estimateurs de l’odds ratio commun ont été décrits. Pour k essais aboutissant à k tables comme la table 52, l’estimateur de Mantel-Haenszel est k θ= i 1 k i 1 ai d i ni b i ci ni tandis que l’estimateur de Woolf, basé sur l’estimation du logarithme de l’odds ratio commun par la moyenne pondérée des logarithmes des odds ratio de chaque essai ψi, est k wi log θ = exp i 1 i avec k wi 1 1 1 1 1 = + + + wi ai bi ci di i 1 La table 56 détaille les calculs nécessaires pour estimer l’odds ratio commun par les méthodes de Mantel-Haenszel et Woolf, pour les essais de la table 54. essai 1 2 3 4 Σ aidi / ni 7,71 5,16 16,02 11,90 40,80 bici / ni 9,43 6,16 20,52 12,90 49,01 ψi 0,818 0,838 0,781 0,922 Log(ψi) - 0,20 - 0,18 - 0,25 - 0,08 wi 8,50 5,63 18,06 12,38 44,57 Log(ψi) wi - 1,71 - 1,00 - 4,47 - 1,00 - 8,17 113 Table 56. Calculs nécessaires à l’estimation de l’odds ratio commun des essais de la table 54. L’odds ratio commun est alors selon l’estimateur de Mantel-Haenszel θ = 40,80 = 0,832 49,01 et selon celui de Woolf - 8,17 = 0,833 44,57 Quel que soit le paramètre choisi, on peut ensuite tester l’homogénéité des estimations par la statistique Q et l’effet traitement par la statistique U, dont les principes ont été décrits plus haut (§4) et qui peuvent être adaptés à chacun des paramètres et à leurs méthodes d’estimation. θ = exp Peu d’arguments existent pour déterminer, a priori, que dans telle ou telle situation, le modèle d’effet est plutôt additif (différence des risques) ou plutôt multiplicatif (risque relatif ou odds ratio). Il est donc difficile de faire ce choix en se basant sur la nature des critères de jugement ou de la situation étudiée. Un élément peut orienter ce choix, le modèle le plus adapté est celui qui donne la plus faible valeur de la statistique Q d’hétéro/homogénéité. Avec le modèle multiplicatif, deux choix de mesure sont possibles, le risque relatif et l’odds ratio. Le risque relatif est le plus parlant et le plus simple. L’odds ratio est d’interprétation difficile, mais approche le risque relatif quand le risque de base est faible. De plus, les méthodes de calcul basées sur l’odds ratio sont plus rigoureuses que celles utilisant le risque relatif. En pratique, le schéma suivant proposé par Cucherat et al. (op.cit.) peut être adopté. Si le risque de base est faible, l’odds ratio peut être utilisé sans inconvénient majeur, l’estimation qu’il donne du risque relatif étant satisfaisante. Si le risque de base est élevé (> 0,2), le risque relatif peut être préféré si le problème est précisément l’estimation de ce paramètre, mais si le problème est simplement une recherche d’effet, les méthodes basées sur l’odds ratio apportent l’avantage de leur adéquation statistique. Par ailleurs peu d’arguments existent quant au choix entre les différentes méthodes décrites pour estimer l’odds ratio commun. Le choix peut, par exemple, retenir la méthode la plus conservatrice. Une approche pragmatique plus simple peut aussi être proposée, celle d’utiliser dans un premier temps toutes les méthodes, basées sur un modèle additif ou multiplicatif utilisant le risque relatif ou l’odds ratio, si cela est possible, puis de choisir la méthode qui donne le moins facilement des résultats significatifs, c’est à dire donnant les plus fortes valeurs du degré de signification p. Cette attitude protège contre une conclusion erronée en faveur d’un effet lié uniquement aux problèmes d’approximation d’une technique particulière. En fait, l’interprétation des résultats d’une méta-analyse n’est pas toujours facile. Il n’est en effet que rarement possible d’estimer tous les indices à partir des essais. Le fait que les risques de base sont souvent variables d’un essai à l’autre signifie que la différence de risques et le risque relatif ne peuvent pas être simultanément constants à travers les essais. Si c’est le risque relatif qui est constant, la différence de risque va varier en fonction du risque de base et vice versa. Ainsi une différence de risque de 0,2 entraîne un risque relatif de 2 pour un risque de base de 0,2 mais de 1,5 pour un risque de base de 0,4. Inversemént, si le risque relatif est 2, un risque de base de 0,2 entraîne une différence de risque de 0,2 alors que pour un risque de base de 0,4 elle est de 0,4. Or il est nécessaire dans une méta-analyse que la 114 valeur de l’effet traitement soit identique pour tous les essais, pour éviter l’apparition d’une hétérogénéité. Cette condition ne pouvant être remplie à la fois pour les deux mesures citées conduit souvent à l’impossibilité d’estimer simultanément ces deux types de mesures. 6. Analyse statistique d’un critère de jugement continu Lorsque le critère de jugement est une variable continue, la technique de méta-analyse repose sur la notion d’effet standardisé (effect size). Le modèle statistique utilisé dans cette situation suppose que les valeurs du critère de jugement dans le groupe expérimental E et dans le groupe contrôle C suivent une loi normale de moyennes μE et μC respectivement et de même variance σ². L’effet standardisé δ est défini comme la différence des moyennes divisée par la déviation-standard commune aux deux groupes, μE - μC σ δ = L’estimateur d de Cohen de cet effet standardisé est d = mE - mC s avec mE et mC les moyennes observées et s une estimation de la déviation-standard commune. Celle-ci est, en notant nE et nC les effectifs des groupes expérimental et contrôle respectivement, s= (nE - 1) s²E (nC - 1) s²C nE nC - 2 ou si nE = nC s= s²E s²C 2 L’estimateur g de Hedges, estimateur non biaisé de l’effet standardisé est, si N ≥ 12 g = 1- 3 4N- 9 mE - mC s avec N = nE + nC La correction apportée par l’estimateur de Hedges est faible dès que N augmente. Le facteur correctif est en effet de 0,958 pour N = 20, 0,992 pour N = 100 et 0,999 pour N = 500. Les variances de ces estimateurs sont respectivement pour d et g s²d = N d² + nE nC 2N et s²g = N g² + nE nC 2N permettant de calculer l’intervalle de confiance de l’effet standardisé par d ± z sd ou g ± z sg avec z, valeur d’une variable normale réduite correspondant à une fonction de répartition de 0,975 pour un intervalle de confiance à 95 %. L’effet standardisé est une valeur sans dimension puisque la différence des moyennes est divisée par la déviation-standard de même 115 unité. Dès lors, tous les effets standardisés, même provenant de mesures différentes, sont comparables. L’interprétation de l’effet standardisé peut considérer que cet effet est faible pour δ = 0,2, moyen pour δ = 0,5 et élevé pour δ = 0,8. On peut aussi l’interpréter par le percentile du groupe contrôle correspondant à la moyenne du groupe expérimental, ou au pourcentage de non recouvrement entre les scores des deux traitements. Ainsi, la table 57 montre qu’un effet standardisé de 0,8 implique que la moyenne du groupe expérimental correspond au 79ème percentile des scores du groupe contrôle et que le pourcentage de non recouvrement des deux distributions est de 47. effet standardisé percentile groupe C 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,2 1,4 1,6 1,8 2,0 50 54 58 62 66 69 73 76 79 82 84 88 92 94 96 98 % de non recouvrement 0 8 15 21 27 33 38 43 47 52 55 62 68 73 77 81 Table 57. Interprétation d’un effet standardisé. Supposons qu’il existe k essais comparant un traitement expérimental E à un traitement contrôle C, avec di l’effet standardisé de l’essai i, de variance s²di. L’effet standardisé commun d* est estimé en appliquant la méthodologie générale décrite plus haut (§4) avec d* remplaçant θ, c’est-à-dire k wi di * d = i 1 avec wi = k wi 1 s²di i 1 L‘intervalle de confiance de cet effet standardisé commun est alors d* ± z k wi i 1 116 L’homogénéité des k estimations est vérifiée par k Q= wi (di - d*)² i 1 qui suit une distribution du χ² à (k-1) degrés de liberté. Si l’homogénéité des essais n’est pas rejetée, on peut tester l’effet traitement par la statistique z qui suit une distribution normale réduite z = d* k wi i 1 On peut noter qu’il est possible d’obtenir la valeur absolue de l’estimation de l’effet standardisé directement à partir de la valeur de la statistique t d’un test de Student. Cette relation est intéressante en pratique car toutes les données nécessaires au calcul direct de l’effet standardisé ne sont pas toujours disponibles. d= mE - mC = t s N nE nC La table 58 présente les résultats de 5 essais qui comparent un traitement expérimental E à un traitement contrôle C, en termes de moyenne et de déviation-standard du critère de jugement. TRAITEMENT E essai effectifs moyenne du critère 1 2 3 4 5 100 220 130 80 100 110 145 96 122 98 TRAITEMENT C déviationstandard du critère 20 26 20 25 19 effectifs moyenne du critère 100 218 130 80 96 103 142 100 120 85 déviationstandard du critère 18 26 22 29 21 Table58. Résultats de cinq essais comparant deux traitements par les moyennes des critères de jugement. Les calculs nécessaires pour réaliser cette méta-analyse sont détaillés dans la table 59. essai 1 2 3 4 5 Σ N 200 438 260 160 196 s 19,03 26,00 21,02 27,07 20,00 d 0,367 0,115 - 0,190 0,074 0,647 s²d 0,0203 0,0091 0,0155 0,0250 0,0215 wi 49,17 109,32 64,71 39,97 46,54 309,72 w i di 18,02 12,59 -12,28 2,94 30,13 51,41 Table 59. Calculs nécessaires à l’estimation de l’effet standardisé des essais de la table 58. Ceux-ci permettent d’estimer l’effet standardisé 117 d* = 51,41 = 0,166 309,72 et son intervalle de confiance à 95 % 0,166 ± 1,96 309,72 = [0,055 ; 0,277] On peut tester l’homogénéité des essais par Q = 49,17 (0,367 - 0,166)² + 109,32 (0,115 - 0,166)² + 64,71 (-0,190 - 0,166)² + 39,97 (0,074 - 0,166)² + 46,54 (0,647 - 0,166)² = 21,57 statistique qui, comparée à une table de la distribution du χ² à (5-1) degrés de liberté dont la valeur est 9,49 pour une probabilité de 0,975 (α = 0,05), rejette l’homogénéité des différents essais, avec p < 0,001. De plus, l'index d'hétérogénéité est, en pourcentage, I2 = 100 ( 21,57 - 5 1) = 81,5 21,57 Il n’y a donc pas lieu de tester l’effet traitement comme tel, en tout cas pas en utilisant le modèle fixe. On peut soit procéder à l’analyse de cette hétérogénéité et rechercher des facteurs explicatifs, soit considérer le modèle aléatoire à la place du modèle fixe. Néanmoins, si on admettait l’homogénéité des essais, la statistique du test de l’effet traitement serait z = 0,166 309 ,72 = 2,92 7. Analyse statistique d’un critère de jugement mixte Il est parfois nécessaire de regrouper des variables de type quantitatif avec des variables binaires. Par exemple, l’effet d’un traitement antihypertenseur peut être évalué en comparant entre le groupe expérimental et le groupe contrôle, soit la moyenne de la pression artérielle, soit la proportion de sujets qui ont leur pression artérielle maintenue en dessous d’un certain seuil. Dans le premier cas, l’effet du traitement se mesure par un effet standardisé, dans le second par une différence de risques, un risque relatif ou un odds ratio. Pour combiner ces deux types de mesures il est nécessaire de convertir l’une de ces deux mesures en une grandeur comparable à l’autre. Un odds ratio peut être converti en une grandeur comparable à un effet standardisé δ ou inversement par les relations δ = 3 Log(OR) π et OR = exp π 3 mE - mC s Si le but de la méta-analyse est uniquement de tester un éventuel effet traitement, on peut également combiner les degrés de signification pi des différents essais, qui sont tous le reflet d’une même hypothèse nulle, très générale et envisagée dans chaque essai, celle que le traitement expérimental n’est pas différent du traitement contrôle. Dans la combinaison des 118 degrés de signification, l’hypothèse nulle, appelée souvent dans ce cas hypothèse omnibus, est que l’effet traitement n’existe dans aucun des essai, l’hypothèse alternative que dans au moins un essai l’effet du traitement n’est pas nul. Il s’agit donc autant d’un test d’homogénéité des essais que d’un test de l’absence de l’effet traitement. La portée limitée de ses conclusions restreint l’intérêt de cette procédure. La distribution des degrés de signification pi sous l’hypothèse nulle est uniforme sur l’intervalle [0,1]. Parmi les différents tests qui dérivent de cette propriété, on peut citer le test de Fisher, dont la statistique est χ² = k [ - 2 Log (pi) ] i 1 et suit sous l’hypothèse nulle omnibus une distribution du χ² à (2k) degrés de liberté, ou le test z de la moyenne des valeurs p, dans laquelle la quantité k 1 z = 12 k – pi k 2 i 1 est distribuée comme une variable normale réduite. Supposons par exemple une méta-analyse regroupant 5 essais comparant un nouveau traitement E à un traitement classique C. Les données ne permettent pas d’estimer un effet traitement, et seuls les résultats des tests statistiques sont disponibles et reproduits dans la table 60 montrant un essai numéro 5 avec une valeur p voisine de la signification statistique. résultats des tests statistiques p = 0,542 p = 0,235 p = 0,322 p = 0,373 p = 0,072 essai 1 2 3 4 5 Table 60. Résultats des tests statistiques de cinq essais, sous forme de valeur p. Les statistiques des deux tests décrits sont χ² = – 2 Log(0,542) – 2 Log(0,235) – 2 Log(0,322) – 2 Log(0,373) – 2 Log(0,072) = 13,62 et z = 12 x 5 1 0,542 – 2 0,235 0,322 5 0,373 0,072 = 1,48 correspondant à des valeurs p non significatives de 0,191 et 0,139 respectivement, ne permettant pas de rejeter l’hypothèse omnibus d'absence d'effet traitement. 8. Représentation graphique des résultats d’une méta-analyse Les résultats d’une méta-analyse sont classiquement représentés par un graphique en 119 ligne (forest plot), comme illustré sur la figure 25, décrivant une méta-analyse de l’effet de l’acétylcystéine dans la prévention de la néphropathie induite par les produits de contraste utilisés en angiographie (Bagshaw & Ghali, BMC Med., 2004, 2, 38). Les effets traitements de chaque essai sont représentés sous la forme de carrés, prolongés par leur intervalle de confiance à 95% sous la forme d’un trait horizontal. La contribution relative de chaque essai au résultat global est aussi représentée, d’une part, sous forme chiffrée par le poids relatif de chaque essai et, d’autre part, sous forme graphique, la taille du carré étant proportionnelle au poids de l’essai. L’effet commun est représenté en bas de la figure, par un losange ou diamant dont la longueur représente l’intervalle de confiance. L’échelle du graphique dessinée en bas dépend de la mesure de l’effet traitement, différence de risques, risque relatif, odds ratio ou effet standardisé. Un trait vertical continu matérialise l’absence d’effet traitement. Pour une représentation utilisant la différence de risque ou l’effet standardisé, l’absence d’effet traitement a lieu pour la valeur 0. Cette absence d’effet correspond par contre à la valeur 1 pour le risque relatif ou l’odds ratio. Ce trait vertical permet de positionner les effets traitements de chaque essai et de la méta-analyse en termes d’effet bénéfique à gauche du trait vertical et d’effet délétère à droite du trait vertical, ou l’inverse selon le critère choisi. Leur degré de signification statistique peut être aussi directement visible. Si l’intervalle de confiance coupe ce trait vertical, c’est à dire englobe la valeur caractérisant l’absence d’effet (0 ou 1), le résultat n’est pas statistiquement significatif. Par contre, si l’intervalle de confiance est complètement détaché de ce trait vertical, le résultat est statistiquement significatif, comme sur la figure 25. Figure 25. Exemple de graphique en ligne. Lorsque les risques relatifs et les odds ratios sont représentés sur une échelle linéaire, leurs intervalles de confiance sont dissymétriques, c’est à dire que leur bras droit est plus long que leur bras gauche. Cette propriété provient de ce que l’intervalle de confiance du risque relatif ou de l’odds ratio est habituellement déduit de celui de son logarithme. Si celui-ci est symétrique, celui de son exponentielle ne l’est plus. L’échelle linéaire entraîne un autre inconvénient. Des odds ratios de ½ et de 2 sont symétriques par rapport à l’absence d’effet, puisqu’ils représentent une division ou une multiplication par 2 du risque de base de 1. Cependant, sur une échelle linéaire, la valeur 2 sera plus éloignée de 1 que la valeur ½. Pour 120 supprimer cet inconvénient, on peut adopter, pour les risques relatifs et les odds ratios, une échelle logarithmique qui symétrise les intervalles de confiance et rétablit la proportionnalité des distances. Ainsi, dans l’exemple ci-dessus, les valeurs de ½ et 2 non symétriques de 1 sur l’échelle linéaire deviendront (- 0,693) et (+ 0,693) symétriques de 0 au contraire sur l’échelle logarithmique. 9. Détection d’un biais de publication Il existe des techniques permettant de rechercher et éventuellement de quantifier un biais de publication, bien que les conclusions de ces méthodes ne soient jamais certaines et restent purement indicatives. Une méta-analyse peut être considérée comme un phénomène d’échantillonnage aléatoire au sein de l’ensemble de tous les résultats possibles obtenus avec l’effet traitement tel qu’il est. Le résultat d’un essai est alors une estimation de l’effet traitement, soumise aux fluctuations aléatoires d’échantillonnage, et donc tous les résultats observés sont distribués autour du vrai effet traitement selon une loi normale. S’il n’existe aucune sélection systématique à la publication, l’ensemble des résultats publiés devra donc suivre la distribution d’échantillonnage d’une variable normale, centrée sur la valeur du vrai effet traitement. Ainsi si le nombre de points est relativement important, l’histogramme de la distribution doit être symétrique et d’allure normale. En cas de biais de publication, la distribution de l’échantillon est donc tronquée et l’histogramme est dissymétrique. Cependant lorsque la mesure de l’effet traitement est un risque relatif ou un odds ratio, la distribution de ces mesures est en fait naturellement dissymétrique et, pour vérifier sa symétrie supposée, l’histogramme doit être réalisé avec les logarithmes du risque relatif ou de l’odds ratio. Figure 26. Exemple de graphe en entonnoir montrant les résultats significatifs (points noirs) et non significatifs (points blancs). Un biais de publication peut aussi être identifié par un graphique en entonnoir (funnel plot) qui consiste à représenter, pour chaque essai, la valeur estimée de l’effet traitement (en abscisse) en fonction de la taille de l’échantillon ou d’une mesure de sa 121 précision comme la déviation-standard de l’effet traitement (en ordonnée). En l’absence de biais de publication, les différentes estimations vont se répartir de façon homogène et symétrique autour de la vraie valeur de l’effet traitement, les estimations qui correspondent aux études de plus faible effectif variant autour de cette valeur avec une plus grande amplitude que celles qui comportent les plus grands effectifs. Ainsi, la figure 26 montre une étude de simulation réalisée avec un odds ratio de 1,5 et des tailles d’effectif différentes, les point noirs représentant les résultats significatifs au niveau α = 0,05 et les points blancs les résultats non significatifs (Phillips, BMC Med. Res. Methodol., 2004, 4, 20). En l’absence de biais de publication, ce graphique apparaîtra comme sur la figure 27, évoquant un entonnoir, alors qu’en présence de biais ne rapportant que les résultats significatifs, l’image deviendra celle de la figure 28, avec une amputation d’une partie de l’entonnoir. Enfin, il existe des méthodes permettant de quantifier la probabilité d’existence d’un biais de publication dans une méta-analyse, mais elles nécessitent un grand nombre d’essais pour être fiables. Figure 27. Graphe en entonnoir de la figure 26 en l’absence de biais de publication. 122 Figure 28. Graphe en entonnoir de la figure 26 en présence de biais de publication. * * * 123 CHAPITRE 6 STATISTIQUE EN BIOCHIMIE CLINIQUE 1. Détermination de valeurs de référence 2. Contrôle de qualité interne 3. Contrôle de qualité externe 4. Stabilité des produits pharmaceutiques 1. Détermination de valeurs de référence Les valeurs de référence sont définies par l’intervalle entre deux percentiles, habituellement au laboratoire de biochimie et en médecine, les 2,5ème et 97,5ème percentiles, délimitant ainsi un intervalle de référence à 95 %. Le terme de valeurs normales souvent utilisé devrait être banni, pour plusieurs raisons. D’abord il suppose que les valeurs en-dehors de l’intervalle de référence sont des valeurs anormales, donc pathologiques. Cette logique implique dès lors que, en considérant par exemple les valeurs de référence du nombre de globules rouges par mm³, 2,5 % des sujets sont anémiques et 2,5 autres polyglobuliques! Par ailleurs le terme de valeurs normales suggère que ces valeurs sont obtenues en modélisant les données par une distribution normale, ce qui est certes souvent le cas mais n’est en aucune manière obligatoire. La normalité au sens médical, c’est-à-dire l’état non pathologique, ne doit pas être confondue avec la normalité au sens statistique, c’est-à-dire en rapport avec une distribution de Laplace-Gauss. La population chez laquelle on mesure les valeurs de référence d’un nouveau dosage biologique doit être une population saine, ne présentant aucune caractéristique ou habitude particulière (alimentaire, comportementale,…) qui pourrait influencer son résultat. On y associe habituellement des critères d’exclusion tels que l’absence d’affection chronique, l’absence de maladie ayant entraîné un alitement les 15 jours précédant le dosage, ainsi que dans les dernières 48 heures l’absence de prise médicamenteuse, d’absorption d’alcool et une consommation de tabac limitée à 50 cigarettes. L’approche paramétrique de la détermination des valeurs de référence suppose habituellement que les résultats suivent une distribution normale. Si la moyenne et la déviationstandard des dosages sont respectivement m et s, les limites de référence inférieure et supérieure pour un intervalle de référence à 95 % sont alors lim inf = m - 1,96 s et lim sup = m + 1,96 s 25 20 15 10 5 2 4 6 Figure 29. Histogramme de données dissymétriques aplaties à droite. 125 Si les données ne suivent pas une distribution normale, ce qui peut être étudié par une simple représentation graphique, une transformation peut être utilisée pour normaliser ou tenter de normaliser les résultats. Pour des données dissymétriques aplaties à droite, telles que les données simulées de la figure 29 (N = 200, distribution gamma) des transformations simples telles que la racine carrée ou la fonction logarithmique peuvent être suffisantes, y= x ou y = Log (x) Les figures 30 et 31 illustrent ces deux transformations pour les données de la figure 29. 20 25 20 15 15 10 10 5 5 0 0,5 1,0 1,5 2,0 2,5 -2,0 -1,0 0,0 1,0 Figures 30 et 31. Histogrammes de la distribution des données de la figure 29, après transformation racine carrée (à gauche) et logarithmique (à droite). Parmi les autres transformations proposées pour corriger la dissymétrie, on peut citer la transformation exponentielle de Manly, recommandée par la Fédération Internationale de Chimie Clinique (IFFC, International Federation of Clinical Chemistry) exp( x) - 1 0 y x 0 le paramètre γ étant estimé par les moments centrés mr autour de la moyenne m γ ≈ 6 m3 (3 m2² - 7 m4 ) avec mr = ou 1 n γ ≈ n 2 m3 3 (m2² - m4 ) ( xi - m ) r i 1 126 Si la distribution est symétrique ou a été rendue telle par une transformation précédente, le curtosis (ou kurtosis) peut être supprimé ou réduit par la transformation sinus hyperbolique inverse y = sinh-1(x) = Log ( x + x² 1 ) L’application de la transformation exponentielle de Manly aux données de la figure 29 est représentée à la figure 32. La transformation sinus hyperbolique inverse de ces données transformées est illustrée par la figure 33. 15 15 10 10 5 5 0 0 1,0 2,0 3,0 4,0 0,5 1,0 1,5 2,0 2,5 Figures 32 et 33. Histogrammes de la distribution des données de la figure 29, après transformation exponentielle de Manly (à gauche) et sinus hyperbolique inverse après cette dernière (à droite). D’autres transformations ont été décrites, mais elles comprennent souvent un ou plusieurs paramètres dont l’estimation n’est pas explicite. Par ailleurs, pour toutes les fonctions décrites, l’estimation des percentiles est obtenue par la transformation inverse de la moyenne et de la déviation-standard de la variable transformée vers l’échelle originale. En l’absence d’une transformation permettant de normaliser la distribution des données, une approche non paramétrique peut être utilisée. La méthode la plus simple consiste à classer les n résultats par ordre croissant et à définir le pème percentile par la valeur dont le rang est égal à p (n 1) 100 Lorsque le rang ainsi calculé n’est pas un nombre entier, une interpolation est utilisée. En ce qui concerne le nombre de sujets nécessaire pour estimer un intervalle de 127 référence, les avis divergent mais une centaine de cas semble un minimum indispensable. Il faut également tenir compte des sous-groupes possibles pour lesquels les valeurs de référence seront différentes, tels que le sexe, la classe d’âge ou l’ethnie. Une règle empirique est de considérer séparément les intervalles de référence de deux sous-groupes si la différence entre leurs moyennes est au moins 25 % de l’intervalle de référence à 95 % du groupe combiné. 2. Contrôle de qualité interne Au laboratoire, il est indispensable que les dosages soient exacts et précis. Cela peut se vérifier en dosant à intervalles réguliers un échantillon étalon comprenant la même concentration de la substance étudiée. En admettant que les résultats soient indépendants et suivent une distribution normale de moyenne µ et de variance ² constante au cours du temps, le contrôle de qualité peut être réalisé par des cartes de contrôle de Shewhart, utilisées dans l’industrie, et rebaptisées ultérieurement par les biologistes cartes de Levey-Jennings. La carte de contrôle est un graphique représentant l’évolution du dosage en fonction du temps, ainsi que les limites de contrôle entre lesquelles le dosage peut varier, son but étant de tester si le résultat de chaque dosage est dans les limites prévues. Le graphique comprend donc une ligne centrale correspondant à la moyenne, qui peut être une valeur cible fixe µ ou la moyenne estimée sur les premiers échantillons m ou x lorsque le processus est supposé sous contrôle, et une ou plusieurs limites inférieures et supérieures d’ordonnée fonction de la déviation-standard théorique ou observée sous contrôle s µ±k ou m±ks Une carte de contrôle se comporte comme un test statistique d’hypothèse, les limites de contrôle délimitant des régions d’acceptation et de rejet du test. Si le résultat observé est à l’intérieur des limites, on en déduit que le processus est toujours sous contrôle, si le résultat est en-dehors des limites on conclut qu’il ne l’est plus. Comme pour un test statistique, il y a donc deux risques d’erreur possibles, le risque de première espèce ou risque α, et le risque de deuxième espèce ou risque β. Le risque α est celui de la fausse alarme, le risque β celui de l’absence d’alarme. La fréquence des erreurs est influencée par le choix du paramètre k. Si celui-ci est grand, le risque de fausse alarme est faible mais celui d’absence d’alarme est élevé. Si le paramètre k est petit, c’est évidemment la situation inverse qui est observée. Habituellement k = 3, entraînant un risque α de 0,003 ou 0,3 %. On ajoute souvent aux limites de contrôle, des limites de surveillance situées à des distances plus faibles de la valeur centrale que les limites de contrôle, souvent avec k = 2. Les figures 34 à 37 (Bakes-Martin, Quality Assurance. In: Anderson & Cockayne, Clinical Chemistry. Concepts and Applications, Saunders, Philadelphia, 1993: 38-71) montrent des cartes de Levey-Jennings avec les limites suivantes: - limite de contrôle inférieure m–3s - limite de surveillance inférieure m–2s - ligne centrale m - limite de surveillance supérieure m+2s - limite de contrôle supérieure m+3s Elles illustrent la précision correcte d’un dosage (figure 34), son imprécision (figure 35), une dérive progressive (figure 36) et un changement brutal (figure 37). 128 Figure 34. Carte de Levey-Jennings montrant la précision correcte d’un dosage. Figure 35. Carte de Levey-Jennings montrant l’imprécision d’un dosage. Figure 36. Carte de Levey-Jennings montrant la dérive progressive d’un dosage. 129 Figure 37. Carte de Levey-Jennings montrant le changement brutal de la valeur d’un dosage. La détection d’une dérive ne se limite en général pas à la survenue d’un résultat en dehors des limites de contrôle. On y ajoute souvent des règles d’apparition de séquences qui ont peu de chances d’être observées si le processus est sous contrôle. Ainsi on décrit plusieurs ensembles de règles, comme les règles de Western Electric (Western Electric rules) utilisées surtout dans l’industrie et les règles de Westgard communes en biochimie clinique. REGLES DE WESTERN ELECTRIC 1 point en dehors des limites de contrôle à ± 3 2 points sur 3 consécutifs en dehors des limites à ± 2 4 points sur 5 consécutifs en dehors des limites à ± 1 8 points consécutifs du même côté de la ligne centrale Table 61. Régles de Western Electric pour cartes de contrôle. REGLES DE WESTGARD REJET 1 point en dehors des limites de contrôle à ± 3 2 points consécutifs en dehors des limites à ± 2 ALARME 1 point en dehors des limites à ± 2 ► REJET si 4 points consécutifs du même côté en dehors des limites à ± 1 ou différence entre 2 points consécutifs > 4 ou 10 points consécutifs du même côté de la ligne centrale Table 62. Régles de Westgard pour cartes de contrôle. 130 3. Contrôle de qualité externe Le principe du contrôle de qualité externe est de fournir un même échantillon étalon à différents laboratoires pour vérifier que les dosages de chacun d’entre eux ne s’écartent pas de la vraie valeur ou des résultats des autres de manière significative. Plusieurs approches sont possibles pour tester ainsi le résultat du dosage d’un laboratoire, qui peut être comparé soit à l’ensemble des résultats des autres laboratoires, soit à une valeur cible avec un écart maximal fixe ou basé sur la variabilité biologique. La première approche consiste à comparer le résultat x à l’ensemble des autres laboratoires. Le score z utilise la moyenne m et la déviation-standard s de l’ensemble des laboratoires z = x-m s La méthode déclare un résultat hors-limites si z 3 avec, si la distribution est normale,une probabilité de 0,003. On conclut à un résultat aberrant si z 4 ce qui survient 6 fois sur 100000. La méthode de Tukey est une approche non paramétrique qui utilise les 25ème et 75ème percentiles pour définir - une limite externe inférieure P25 – 3 (P75 – P25) - une limite interne inférieure P25 – 1,5 (P75 – P25) - une limite interne supérieure P75 + 1,5 (P75 – P25) - une limite externe supérieure P75 + 3 (P75 – P25) Le résultat est alors déclaré acceptable s’il est compris entre les limites internes inférieure et supérieure, douteux s’il se situe entre les limites externe et interne inférieures, ou interne et externe supérieures, et enfin aberrant s’il est plus petit que la limite externe inférieure ou plus grand que la limite externe supérieure. La seconde approche utilise une valeur cible µ et considère le résultat comme inacceptable si 100 x- > d L’écart maximal d peut être une valeur fixe, déterminée pour chaque substance dosée. Ainsi, pour le glucose, d = 10 % aux Etats-Unis, 14 % en Belgique, 15 % en Allemagne et 20 % en France (Albert, Méthodes statistiques appliquées à l’évaluation externe de la qualité des laboratoires de biologie clinique, 1996). Cet écart peut aussi être basé sur la variabilité biologique en utilisant les coefficients de variation intra-individuel CVI et inter-individuel CVG, exprimés en pourcentages 131 d= 3,3 CVI CVI² CVG² 4 Ainsi, sur base de certaines études, les coefficients de variation intra-individuel et inter-individuel des dosages de glucose sont 7,6 % et 12,4 % respectivement, ce qui détermine l’écart maximal d= (3,3 x 7,6) (7,6)² 4 (12,4)² = 9,91 proche de l’écart fixe utilisé aux Etats-Unis. 4. Stabilité des produits pharmaceutiques Les produits pharmaceutiques se dégradent avec le temps et une substance est considérée comme stable tant que sa concentration est d’au moins 90 % de la concentration initiale. Cette limite de stabilité doit donc être connue pour garantir l’efficacité du médicament. Cela est particulièrement important pour les produits injectables qui sont en général reconstitués en mélangeant un principe actif avec un soluté pour injection ou perfusion, et dont la période de stabilité est généralement relativement courte. La méthodologie habituelle d’évaluation de cette stabilité consiste à mesurer les concentrations successives de 5 échantillons au cours du temps, 3 au minimum pour l’administration américaine des denrées alimentaires et des médicaments (FDA, Food and Drug Administration). L’analyse statistique des résultats utilise le modèle de régression linéaire yij = i + βi xij + ij avec yij la concentration de l’échantillon i au temps j, xij le temps correspondant à cette mesure, i l’effet de l’échantillon i, βi la pente de la droite de régression de l’échantillon i et ij l’erreur aléatoire de la concentration yij. On ajuste les droites de régression de chaque échantillon et on compare les pentes des différentes droites. Si celles-ci ne sont pas statistiquement différentes, et l’administration américaine exige p > 0,25 pour conclure à cette absence de différence, on estime la pente commune et on teste si elle est significativement différente de 0. Dans ce cas, on peut calculer l’intervalle de confiance de cette droite. La substance active est dès lors considérée comme stable tant que la limite unilatérale inférieure de confiance à 95 % de l’estimation (donc la limite bilatérale inférieure à 90 %) reste au-dessus de 90 % de la concentration initiale. Si la comparaison des pentes entraîne p < 0,25, seuil fixé par l’administration américaine mais discutable, on peut, soit porter un jugement d’équivalence des échantillons et estimer une pente commune comme ci-dessus, soit plutôt conclure à une différence et estimer deux ou plusieurs pentes selon le regroupement des droites similaires et ne considérer ensuite que la pente la plus forte pour estimer la limite inférieure la plus basse et donc le délai de stabilité le plus court. Les figures 38 et 39 montrent les résultats d’une étude de stabilité de la ceftriaxone en solution, congelée pendant 14 semaines puis décongelée au four à micro-ondes (Hecq et al., Eur. J. Hosp. Phar. Sci., 2006, 12, 52-56). La figure 38 détaille les concentrations mesurées ainsi que les 132 Figure 38. Concentrations mesurées de 5 échantillons de ceftriaxone en fonction du temps (jours) avec estimation des droites de régression de chaque échantillon. 120 115 110 105 100 95 90 85 80 0 10 20 30 40 50 60 Figure 39. Concentrations mesurées de 5 échantillons de ceftriaxone en fonction du temps (jours) avec estimation de la droite de régression commune et de son intervalle de confiance bilatéral à 90 %. 133 droites de régression de chaque échantillon, dont les pentes ne diffèrent pas entre elles de façon significative (p = 0,883), et la figure 39 illustre la droite de régression commune, de pente significativement différente de 0 (p < 0,001) et dont la limite unilatérale inférieure de confiance à 95 % est de 89,96 soit 90 % à 51 jours, permettant de déterminer cette période comme limite de stabilité. * * * 134 CHAPITRE 7 PARADOXES, BIAIS ET PROBLEMES DIVERS 1. Analyse des résultats et normalité des distributions 2. Analyse des résultats et appariement 3. Paradoxe de Simpson 4. Corrélation avec couplage mathématique 5. Régression vers la moyenne 6. Estimation subjective d’une probabilité 1. Analyse des résultats et normalité des distributions L’analyse des résultats d’une étude fait appel à des tests statistiques dits paramétriques on non paramétriques selon qu’ils exigent que la distribution de la variable suive ou non une distribution spécifiée, habituellement la distribution normale de Laplace-Gauss. Un test paramétrique donne donc théoriquement un résultat faux lorsqu’il est appliqué à une variable qui ne suit pas une distribution normale, et ce d’autant plus que la distribution s’éloigne de celle-ci. Néanmoins tous les tests paramétriques ne sont pas également sensibles à la nonnormalité, et on appelle robustesse d’un test sa capacité à rester acceptable en pratique quand on s’éloigne de ses conditions théoriques de validité. Il y a par ailleurs plusieurs types de nonnormalité, et la forme la plus grave du point de vue de l’emploi des tests paramétriques paraît être l’asymétrie extrême et la bimodalité. Une distribution unimodale et symétrique est rarement un problème pour la condition de normalité d’un test paramétrique, d’autant plus que le nombre d’observations est élevé. Il est cependant impossible de fixer un nombre audelà duquel on peut faire abstraction de la forme de la distribution, car cette limite dépend du degré de non-normalité. Il existe des tests de normalité que l’on peut être tenté d’utiliser pour justifier l’emploi on non d’un test paramétrique. Cette démarche est en réalité absurde car ces tests sont peu sensibles si les effectifs sont peu nombreux, et au contraire vont rejeter presque toujours l’hypothèse de normalité quand ils sont appliqués à de grands échantillons. Dès lors la démarche aboutit au paradoxe suivant: la probabilité de rejeter l’hypothèse de normalité, et donc l’emploi d’un test paramétrique, est d’autant plus grande que les observations sont plus nombreuses, c’est-à-dire dans les cas où la non-normalité est la moins gênante. Si la distribution de la variable est fort éloignée d’une distribution normale, un effectif faible ne permettra pas de rejeter l’hypothèse de normalité et on sera tenté d’utiliser à tort un test paramétrique, un effectif élevé rejettera cette hypothèse et on sera alors tenté de ne pas utiliser le test paramétrique, également à tort puisque l’effectif élevé permet en pratique de faire abstraction de la normalité. La seule attitude logique consiste à vérifier graphiquement l’allure de la distribution pour décider de l’emploi ou non d’un test paramétrique, et éventuellement de transformer la variable par les méthodes décrites précédemment pour la détermination de valeurs de référence, si on souhaite malgré tout utiliser une méthode paramétrique. 2. Analyse des résultats et appariement Les tests statistique de comparaison, par exemple de proportions ou de moyennes, qu’ils soient paramétriques on non paramétriques, existent souvent dans deux versions, applicables, d’une part, à des échantillons dans lesquels les groupes sont indépendants, et, d’autre part, à des échantillons où les données sont appariées. Cette condition d’indépendance ou d’appariement doit toujours être respectée sous peine de conclusion erronée. Supposons que l’on étudie l’effet d’une nouvelle substance A sur la glycémie de patients diabétiques. On dispose des glycémies de 5 sujets avant et après traitement, décrites dans la table 63. Le médicament semble assez efficace puisque la glycémie diminue chez tous les sujets, et ce de façon assez uniforme. Supposons que l’on essaie alors chez ces patients une seconde substance B. Les glycémies avant traitement sont identiques, mais après traitement on observe les résultats présentés dans la table 64. Au vu de la différence entre les 136 SUJET 1 2 3 4 5 GLYCEMIE AVANT TRAITEMENT 1,8 2,2 2,8 1,5 2,9 GLYCEMIE APRES TRAITEMENT 1,4 1,8 2,5 1,4 2,7 DIFFERENCE (AVANT - APRES) 0,4 0,4 0,3 0,1 0,2 Table 63. Glycémies avant et après traitement de sujets traités par un médicament A. SUJET 1 2 3 4 5 GLYCEMIE AVANT TRAITEMENT 1,8 2,2 2,8 1,5 2,9 GLYCEMIE APRES TRAITEMENT 1,4 2,7 1,4 2,5 1,8 DIFFERENCE (AVANT - APRES) 0,4 - 0,5 1,4 - 1,0 1,1 Table 64. Glycémies avant et après traitement de sujets traités par un médicament B. glycémies avant et après traitement, l’efficacité de ce deuxième médicament semble douteuse. Or, l’application d’un test de comparaison de moyennes pour échantillons indépendants, tels que le test z ou le test t de Student par exemple, aboutirait à une conclusion identique pour les deux substances puisque les 5 glycémies après traitement considérées globalement sont exactement les mêmes dans les deux situations. On négligerait alors le fait que chacune des glycémies après traitement correspond en réalité à une mesure avant traitement bien précise et n’est donc pas un échantillon aléatoire d’une population traitée par la substance A ou B. Le test utilisé doit donc tenir compte de l’appariement. 3. Paradoxe de Simpson Le paradoxe de Simpson est une conséquence de l’omission d’une variable dans la relation entre deux autres. Supposons un essai clinique comparant deux traitements A et B en termes de succès ou d’échecs, avec les résultats de la table 65. Table 65. Paradoxe de Simpson: comparaison globale des traitements A et B. 137 Le traitement B semble un peu supérieur au traitement A, avec 80 et 77 % de succès respectivement. Si nous nous intéressons aux résultats pour le sexe masculin, nous obtenons les données de la table 66. Table 66. Paradoxe de Simpson: comparaison des traitements A et B dans le sexe masculin. Le traitement A est supérieur au traitement B, 93 versus 86 %. Dès lors, si B est globalement supérieur mais que A est meilleur chez l’homme, on peut logiquement s’attendre à l’inverse chez la femme et y constater une supériorité du traitement B. Table 67. Paradoxe de Simpson: comparaison des traitements A et B dans le sexe féminin. Les données de la table 67 pour le sexe féminin montrent en fait le contraire et le traitement A y est supérieur au traitement B, 71 et 62 % respectivement. La conclusion apparente est donc que le traitement A est supérieur au traitement B chez l’homme et chez la femme, mais est globalement inférieur ! Ce résultat absurde est appelé paradoxe de Simpson et survient quand deux conditions sont réunies, une répartition déséquilibrée d’une variable entre les groupes, et un impact différent de cette variable sur le résultat. Dans l’exemple, 86 hommes et 264 femmes reçoivent le traitement A, soit 25 et 74 % de chaque groupe thérapeutique, versus 260 et 90 pour le traitement B, c’est-à-dire 75 et 26 %. De plus, les traitements sont globalement plus efficaces chez l’homme que chez la femme, avec 88 versus 69 %. En fait, la simple arithmétique montre que a c t x et b d u y n’implique pas nécessairement que a t c x b u d y 138 soit dans l’exemple 0,93 > 0,86 et 0,71 > 0,62 mais 0,77 < 0,80. Le paradoxe de Simpson illustre le danger d’additionner des sous-groupes définis par une caractéristique particulière et donc justifie la nécessité de tenir compte d’un facteur de confusion dans une étude épidémiologique, d’utiliser la technique de stratification ou de minimisation pour des variables potentiellement pronostiques dans un essai clinique ou encore d’éviter de sommer simplement les résultats d’une méta-analyse. 4. Corrélation avec couplage mathématique La recherche d'une corrélation entre deux variables suppose que les mesures de cellesci soient indépendantes et qu'il n'y ait pas de corrélation artificielle induite par la simple définition des variables que l'on compare. Ce couplage mathématique survient lorsque l'on compare par exemple la valeur initiale d'une variable avec une modification de celle-ci. Si Xl et X2 représentent un paramètre mesuré avant et après traitement, et que l'on souhaite étudier si l'amélioration de ce paramètre est liée à sa valeur initiale, la corrélation entre Xl et (X2-X1) est une corrélation artificielle sans valeur puisque la présence de X1 de chaque côté de la comparaison rend la corrélation automatique quelle que soit la valeur de X2. Les données des variables X, Y et Z de la table 68, par exemple, sont des nombres au hasard, simulés indépendamment par une distribution uniforme sur l'intervalle [0 ; 1000]. Leurs coefficients X 687 464 987 696 15 451 381 463 313 870 123 778 175 859 422 Y 31 734 268 255 144 228 510 885 88 785 894 647 436 246 844 Z 93 368 13 411 171 7 1 653 928 410 26 463 541 822 399 Table 68. Nombres au hasard simulés par une distribution uniforme. de corrélation 2 à 2 sont donc théoriquement 0, avec les coefficients observés rx,y = - 0,081 rx,z = 0,084 ry,z = 0,010 Si l'on considère par contre les corrélations entre chaque différence et un des deux termes de la différence, par exemple X avec (X - Y) ou Y avec (X - Y), les coefficients calculés sont 139 X-Y X-Z Y-Z X 0,718 0,665 Y - 0,752 0,713 Z - 0,688 - 0,694 X+Y - 0,056 X+Z Y+Z - 0,028 0,028 Table 69. Coefficients de corrélation entre X, Y, Z, leurs différences et leurs sommes. élevés et proches de leur coefficient théorique, comme le détaille la table 69. On peut montrer en effet que, si X et Y sont des variables indépendantes de même variance, le coefficient de corrélation entre X et (X - Y) est 1 0,707 2 Une solution à ce problème, connue sous le nom de méthode de Oldham, consiste à tester l'hypothèse d'une corrélation, non pas entre X et (X - Y) mais entre (X + Y) et (X - Y), car, si X et Y sont des variables indépendantes de même variance, le coefficient de corrélation théorique entre (X + Y) et (X - Y) est nul. La table 69 détaille ces coefficients observés pour les données de la table 68, lesquels sont effectivement proches de 0 pour les trois corrélations possibles. 5. Régression vers la moyenne Le phénomène de régression vers la moyenne survient lorsque l'on étudie les modifications d'une variable, par exemple avant et après traitement, et que l'amélioration apparente de la mesure finale résulte des fluctuations de la valeur initiale ou de ses conséquences. Supposons que dans un essai clinique sur l'hypertension artérielle on incorpore tous les sujets chez qui on diagnostique une tension artérielle supérieure à 15. La tension artérielle étant un phénomène qui peut varier significativement d'un moment à l'autre, on peut très facilement recruter des patients avec une tension artérielle supérieure à 15 au moment de l’inclusion dans l’essai mais qui ont habituellement des valeurs inférieures à 15. Globalement, cette différence entre les mesures n'existe pas dans la population générale car les variations dans le sens négatif équilibrent celles dans le sens positif. Au contraire, dans la situation décrite de l'essai sur l'hypertension, les patients qui ont une tension artérielle supérieure à leur valeur habituelle ne seront pas compensés par ceux dont la tension artérielle est inférieure à leur valeur habituelle, puisque ces sujets ne seront évidemment pas considérés comme hypertendus et donc non incorporés dans l'essai. Ce biais dit de régression vers la moyenne entraînera donc dans ce cas une amélioration apparente mais non réelle de la tension artérielle quel que soit le traitement étudié. Il peut d'ailleurs être perçu à tort comme un effet placebo, cet effet placebo apparent combinant alors en réalité l'effet placebo vrai et l'effet de régression vers la moyenne. Le phénomène de régression vers la moyenne survient lorsque la sélection d’un sujet pour une étude résulte de l’application d’une valeur seuil d’un paramètre, et que l’une ou plusieurs des circonstances suivantes sont présentes: 1) Quand le paramètre mesuré est soumis à de fortes fluctuations biologiques, comme la tension artérielle, variable d'un jour à l'autre et même d'un moment à l'autre; 2) Quand la mesure du paramètre est difficile ou subjective et donc fréquemment erronée; 140 3) Quand certaines valeurs du paramètre ne peuvent varier que dans un seul sens, comme par exemple pour des scores lorsque la première détermination est maximale. Dans des comparaisons susceptibles d'être sensibles à la régression vers la moyenne, il est possible de tenter, sinon de l'éviter, du moins d'en atténuer l'ampleur, soit en basant la sélection des patients sur une mesure répétée du paramètre, soit en utilisant deux mesures différentes pour la sélection des sujets et l'évaluation de l'effet. Ainsi, dans l'exemple de la tension artérielle, on ne sélectionne un sujet que si sa tension artérielle est supérieure à 15 au cours de deux ou trois mesures successives, ou on mesure la tension artérielle du patient à deux reprises, la première servant à sa sélection éventuelle pour l'étude, la seconde à l'évaluation initiale de la tension artérielle qui sera comparée à la valeur après traitement. Lorsque l’on souhaite estimer l’effet d’un traitement conditionnellement à la valeur initiale d’un paramètre, on peut utiliser la formule de Blomqvist qui corrige pour les erreurs de mesure des valeurs initiales. La pente bt de la vraie droite de régression de l'amélioration du paramètre en fonction des valeurs initiales, est en relation avec la pente observée b par bt = b-k 1- k avec k= s²e s²x s2x étant la variance observée de x, et s²e la variance de l'erreur de mesure de x, obtenue si possible indépendamment sur un nombre restreint de sujets. Considérons, par exemple, les données de 5000 sujets simulés (Tu & Gilthorpe, Stat. Med., 2007, 26, 443-457) présentant une vraie tension artérielle X = 150 ± 15 mm Hg. Supposons qu’il y ait un vrai effet traitement D = X – Y = 20 mm Hg, entraînant une vraie tension artérielle après traitement Y = 130 ± 15 mm Hg. Il n’y a par conséquent aucune relation entre l’amélioration et la valeur initiale du paramètre. En ajoutant aux valeurs avant et après traitement des erreurs de mesure ex et ey suivant une distribution normale de moyenne 0 et de déviation-standard 10 mm Hg, nous obtenons les tensions artérielles observées avant et après traitement x et y, avec d = x – y. La corrélation entre l’amélioration d et les valeurs initiales x sera donc une corrélation entre d = D + ex – ey et x = X + ex, c’est-à-dire que l’erreur de mesure ex sera un exemple du couplage mathématique décrit ci-dessus. Cette corrélation et donc cette régression artificielle est illustrée par la figure 40, avec un coefficient de régression b = 0,302 manifestement biaisé, puisqu’il devrait être nul de par l’absence de relation entre l’amélioration et la valeur initiale du paramètre. Avec k= 10² = 0,308 15² 10 ² l’application de la formule de Blomqvist permet de corriger la pente bt = 0,302 - 0,308 = - 0,009 1 - 0,308 ne différant pas significativement de 0 et montrant effectivement l’absence de relation entre le vrai effet traitement et la valeur initiale de la tension artérielle. Cet effet de régression vers la moyenne est encore aggravé par le choix du seuil, puisque si on sélectionne des patients avec 141 Figure 40. Régression de d en fonction de x pour des données simulées de tension artérielle dans 4 situations de sélection des patients. des tensions artérielles observées x de 160, 165 et 170 mm Hg, les pentes b des droites de régression deviennent 0,341, 0,360 et 0,376 respectivement. 6. Estimation subjective d’une probabilité La notion de probabilité est souvent séparée en deux concepts, d’une part, la probabilité de l’aléatoire, c’est-à-dire la prédiction d’évènements futurs, et, d’autre part, la probabilité de la connaissance, qui représente l’incertitude d’une affirmation. Le premier concept est en médecine la notion de pronostic, le second correspond à celle de diagnostic. Tversky et Kahneman (Science, 1974, 185, 1124-1131) ont avancé l’idée que l’être humain s´aide d´un nombre limité de principes heuristiques, (Larousse: qui a une utilité dans la recherche, qui aide à la découverte) permettant de réduire l’estimation subjective d’une probabilité à de plus simples opérations de jugement. Ils décrivent trois heuristiques employées inconsciemment dans la prise de décision sous incertitude: la représentativité, la disponibilité et l´ajustement-ancrage. D’une manière générale, ces heuristiques sont vraisemblablement assez utilisées, mais elles mènent à des biais systématiques sévères. Lorsqu’il s’agit de déterminer quelle est la probabilité qu´un événement X provienne du processus Y, on s´appuie souvent sur l´heuristique de représentativité ou degré de similarité. Cette heuristique suppose que l´on évalue les probabilités par le degré avec lequel X est représentatif de Y, c´est-à-dire, par le degré de similarité entre X et Y. C’est extrêmement fréquent dans le processus de diagnostic quand on essaie d’évaluer si le symptôme X provient de la maladie Y. Cette approche d’estimation de la probabilité mène cependant à des biais. En effet, la référence à la similitude, d’une part, néglige les probabilités à priori qui devraient affecter les jugements, et, d’autre part, elle entraîne une croyance en la 142 représentativité locale, c’est-à-dire qu’elle suppose qu’une séquence d´événements générée par un processus est représentative des caractéristiques essentielles de ce processus. Une des conséquences de la croyance en une représentativité locale est la bien connue illusion du joueur. Après l´observation d´une longue suite de cases rouges à la roulette, par exemple, la plupart des gens croient erronément que les cases noires vont maintenant arriver, probablement parce que l´occurrence des noires aboutira à une séquence plus représentative que la survenue d’une case rouge supplémentaire. L’heuristique de disponibilité caractérise la facilité avec laquelle des situations identiques au cas à juger viennent à l´esprit. Par exemple, un médecin peut évaluer la probabilité d’une maladie en fonction de certains signes en se rappelant des cas similaires vus auparavant dans sa pratique. Cette heuristique est utile parce qu´en général, les exemples les plus courants sont plus facilement rappelés que les exemples plus rares, mais ce n’est pas toujours le cas et cette heuristique mène aussi à des biais prévisibles. Ainsi les occurrences récentes sont probablement plus disponibles que les faits plus anciens. D’autre part, les exemples plus rares ont pu impressionner et entraîner discussions et recherche d’information, les rendant paradoxalement aussi plus disponibles. L’heuristique de représentativité exprime une relation entre un modèle et une donnée associée à ce modèle tandis que l´heuristique de disponibilité tente d’estimer la probabilité d´un événement par l´évocation d´exemples. Ces deux heuristiques reposent en fait sur le même principe de la force associative. Dans le domaine médical, pour l´heuristique de représentativité, c´est la force associative entre le symptôme et le modèle, et pour l´heuristique de disponibilité, c´est la force associative du symptôme avec les signes similaires que l´on a en mémoire. On parle d’heuristique d’ajustement et d’ancrage lorsque des estimations sont faites en partant d´une valeur initiale ou ancre qui est modifiée en fonction des caractéristiques de la situation actuelle pour obtenir une évaluation révisée. Le théorème de Bayes postule ainsi la révision d’un jugement a priori en tenant compte d’une information supplémentaire, pour aboutir à une estimation a posteriori. L’exemple de la probabilité d’être atteint du SIDA après découverte d’un résultat positif au test ELISA étudiée au chapitre 2 est un exemple des biais qui peuvent découler de cette heuristique. Par ailleurs, l’esprit humain a tendance à surestimer la probabilité des événements conjonctifs et à sous-estimer celle des événements disjonctifs. En définitive l’estimation subjective d’une probabilité est un exercice qui se révèle extrêmement difficile et le médecin devra rester conscient du caractère souvent fallacieux de cette estimation. * * * 143 BIBLIOGRAPHIE SOMMAIRE CHAPITRE 1 C. RUMEAU-ROUQUETTE, B. BLONDEL, M. KAMINSKI & G. BREAT. Epidémiologie. Méthodes et Pratique. Médecine-Sciences Flammarion, Paris, 1993, 312 pages. CHAPITRE 2 B. GRENIER. Décision Médicale. Masson, Paris, 1990, 246 pages. CHAPITRE 3 C. HILL, C. COM-NOUGUE, A KRAMAR, T. MOREAU, J. O’QUIGLEY, R. SENOUSSI & C. CHASTANG. Analyse Statistique des Données de Survie. Editions de l’INSERM & Médecine-Sciences Flammarion, Paris, 1990, 204 pages. J.D. KALBFLEISCH & R.L. PRENTICE. The Statistical Analysis of Failure Time Data. John Wiley & Sons, New York, 1980, 321 pages. R. MALLER & X. ZHOU. Survival Analysis with Long-Term Survivors. John Wiley & Sons, Chichester, 1996, 278 pages. E. MARUBINI & M.G. VALSECCHI. Analysing Survival Data from Clinical Trials and Observational Studies. John Wiley & Sons, Chichester, 1995, 414 pages. CHAPITRE 4 S. PIANTADOSI. Clinical Trials. A Methodological Perspective. John Wiley & Sons, New York, 1997, 590 pages. D. SCHWARTZ, R. FLAMANT & J. LELLOUCH. L’Essai Thérapeutique chez l’Homme. Médecine-Sciences Flammarion, Paris, 1970, 297 pages. S. SENN. Statistical Issues in Drug Development. John Wiley & Sons, Chichester, 1997, 423 pages. A SPRIET & P. SIMON. Méthodologie des Essais Cliniques des Médicaments. Editions de la Prospective Médicale, Paris, 1980, 224 pages. 144 CHAPITRES 1 à 4 A. LAPLANCHE, C. COM-NOUGUE & R. FLAMANT. Méthodes Statistiques Appliquées à la Recherche Clinique. Médecine-Sciences Flammarion, Paris, 1987, 168 pages. CHAPITRE 5 M. CUCHERAT, J.P. BOISSEL & A. LEIZOROVICZ. Manuel Pratique de Méta-Analyse des Essais Thérapeutiques. Livre électronique, 1997. http://www.spc.univ-lyon1.fr/livreMA/frame.htm * * * 145 TABLE DES MATIERES Avant-Propos 2 Chapitre 1. Statistique Epidémiologique 1. Types de mesure en épidémiologie 2. Mesures de mortalité 3. Mesures de morbidité 4. Mesures d’association et classification des études 5. Etudes de cohorte 6. Enquêtes cas-témoins 7. Biais 8. Facteurs de confusion 9. Comparaison des études de cohorte et des enquêtes cas-témoins 10. Jugement de causalité 4 5 6 8 11 13 15 16 19 21 Chapitre 2. Evaluation d’un Test Diagnostique 1. Etapes de l’évaluation d’un test diagnostique 2. Index kappa 3. Reproductibilité de deux mesures 4. Validité d’un test diagnostique binaire: paramètres fondamentaux 5. Validité d’un test diagnostique binaire: paramètres résumés 6. Validité d’un test diagnostique binaire: biais et problèmes 7. Validité d’un test diagnostique quantitatif 23 23 27 32 38 41 45 Chapitre 3. Données de Survie 1. Caractéristiques des données de survie 2. Recueil des informations 3. Distributions et fonctions de survie 4. Estimation non paramétrique par la méthode de Kaplan-Meier 5. Estimation non paramétrique par la méthode actuarielle 6. Comparaison non paramétrique de deux courbes de survie 7. Modèles de survie paramétriques 8. Modèle de survie exponentiel 9. Modèle de survie de Weibull 10. Modèle de survie de Cox 51 52 53 54 58 61 63 63 66 66 Chapitre 4. Essais Cliniques 1. Définition et formulation de l’objectif 2. Traitements comparés 3. Critères de jugement 4. Sélection des sujets 5. Détermination du nombre de sujets nécessaire 6. Attribution des traitements entre les groupes 7. Conduite d’un essai 8. Comparabilité des groupes 9. Analyse des résultats 10. Essais avec contrôles historiques 71 72 73 74 75 78 83 85 86 87 146 11. Essais croisés 12. Essais avec plan expérimental 13. Essais d’équivalence et essais de non-infériorité 14. Essais de bioéquivalence 15. Essais préventifs et études épidémiologiques d’intervention 16. Essais séquentiels 17. Essais adaptatifs 18. Essais pragmatiques 88 89 90 91 93 96 100 102 Chapitre 5. Méta-Analyse 1. But et principes de la méta-analyse 2. Recherche et sélection des essais 3. Biais de publication 4. Principe de l’analyse statistique d’une méta-analyse 5. Analyse statistique d’un critère de jugement binaire 6. Analyse statistique d’un critère de jugement continu 7. Analyse statistique d’un critère de jugement mixte 8. Représentation graphique des résultats d’une méta-analyse 9. Détection d’un biais de publication 106 108 108 110 111 115 118 119 121 Chapitre 6. Statistique en Biochimie Clinique 1. Détermination de valeurs de référence 2. Contrôle de qualité interne 3. Contrôle de qualité externe 4. Stabilité des produits pharmaceutiques 125 128 131 132 Chapitre 7. Paradoxes, Biais et Problèmes Divers 1. Analyse des résultats et normalité des distributions 2. Analyse des résultats et appariement 3. Paradoxe de Simpson 4. Corrélation avec couplage mathématique 5. Régression vers la moyenne 6. Estimation subjective d’une probabilité 136 136 137 139 140 142 Bibliographie Sommaire Table des Matières 144 146 Mes remerciements à Marie-Paule Heylens et à Christian Deneffe, de l’Unité de Support Scientifique du CHU Dinant Godinne (Université Catholique de Louvain), pour l’aide technique apportée à la réalisation de ce syllabus et des document projetés au cours. Janvier 2015 * * * 147