ÉVÈNEMENT Quand dit-on qu’une différence est statistiquement significative? À partir d’un exemple très simple, dans lequel on a observé 8 décès, dans un groupe et 2, dans un autre, on explique, en détail, comment déterminer si une différence est statistiquement significative. Ceci permet de mettre en évidence et de discuter le caractère arbitraire de la limite de 5 % utilisée, pour conclure à l’existence d’une différence significative. Par A. Nebab, S. Amrit, S. Aït Seddik, R. Belkaid * Quand dit-on qu’une différence est statistiquement significative ? Si vous n’avez jamais su la réponse à cette question, vous devez être très agacé de l’importance que cette formule magique a acquise, dans la littérature médicale. Notre objectif est de montrer, à partir d’un cas particulier simple, ce que cela veut vraiment dire. En perdant son mystère, le fameux p, qui accompagne en général la conclusion de différence significative, devrait acquérir plus d’intérêt et représenter un résultat numérique aussi facile à discuter qu’une réduction de l’hypertension de 10 mmHg, ou une survie à 5 ans, passant de 50 à 57 %. 1. CALCUL DE P, DANS UNE SITUATION SIMPLE L’exemple, très simple, est le suivant: deux groupes égaux de patients ont été constitués, par tirage au sort. Un groupe a été traité, par un traitement A; l’autre, par un traitement B. au total, 10 décès ont été observés. Ces 10 décès se répartissent dans les deux groupes de traitement de la façon suivante: 8 se sont produits, dans le groupe traité par A et 2, dans le groupe traité par B. La question est de savoir si l’un des traitements est meilleur que l’autre; c’està-dire, si la mortalité est, vraiment, différente dans les deux groupes. L’autre possibilité est que les deux traitements soient, en réalité, d’efficacité identique, 38 Santé-MAG N°55 - Octobre 2016 la différence observée étant, alors, l’effet du hasard, seul. Pour savoir si la différence est «statistiquement significative», il nous faut étudier ce qui peut arriver, quand les traitements sont équivalents. L’inventaire des possibilités est facile à faire: si on observe 10 décès, au total, ceux-ci peuvent se répartir dans les deux groupes de 11 manières différentes; depuis 0, dans le groupe A (et donc, 10, dans le groupe B), jusqu’à 10, dans le groupe A (et donc, 0, dans le groupe B). Ces possibilités sont listées, dans le tableau I. Nous avons besoin de connaître la probabilité de chacune de ces possibilités, quand les traitements sont équivalents. Ceci est un exercice que vous avez tous fait au lycée, dans un autre contexte. Le problème est, en effet, équivalent à celui du tirage de 10 boules, dans une boite (une urne; dans le jargon des probabilités), qui contient moitié de boules blanches et moitié de boules noires. La boite est si grande que le fait d’en avoir retiré une boule blanche, par exemple, ne change pas la probabilité que la seconde soit blanche, qui reste, donc, égale à 1/2. La probabilité d’avoir 10 boules blanches sur 10 (ou bien les 10 décès, dans le groupe B) est égale à: 1/2 x 1/2 x1/2 x 1/2 x 1/2 x 1/2 x 1/2 x 1/2 x 1/2 x ½. Que l’on peut, aussi, écrire: 1/2. Et qui vaut: 1/1024. Ou encore: 0,000977. Reportons cette probabilité, dans la colonne probabilité du tableau I. Le calcul est le même pour 10 boules noires, nous avons donc rempli deux lignes de cette colonne. Pour les autres situations, les calculs sont un tout petit peu plus compliqués, par le fait qu’il y a plusieurs façons de tirer: par exemple une boule noire et neuf blanches. Chaque façon a la même probabilité 1/1024 et correspond à un ordre de tirage défini: par exemple, une première boule noire et les 9 autres blanches, une seconde noire et les 8 autres blanches, etc. Le nombre de tirages possibles, ici 10, est indiqué dans le tableau I. la probabilité d’observer une noire et 9 blanches est égale au nombre de tirages possibles multiplié par 1/1024, soit: 10/1024. Ou encore: 0,00977. A ce stade, si cette histoire a réveillé en vous les plaisirs oubliés de la combinatoire, si les notions n! Ou encore (np) vous disent, encore, quelque chose, vous devriez pouvoir reconstituer l’ensemble de la colonne du nombre des tirages possibles et donc, des probabilités. Nous nous sommes, apparemment, beaucoup éloignés de notre problème de départ, dans lequel nous avions observé 8 décès, dans un groupe traité par A et 2, dans un groupe, de même taille, traité par B. ÉVÈNEMENT Tableau 1: Répartition possible de 10 décès observés, dans deux groupes de traitement Nombre de décès Nombre de tirages Possibles Probabilité A. Gr. B 0 10 1 9 10 1 2 8 45 3 7 120 0,000977 0,00977 0,0439 0,117 4 6 210 0,205 5 5 252 0,246 6 4 210 0,205 7 3 120 8 2 45 9 1 10 10 0 1 1024 0,117 0,0439 0,00977 0,000977 1.000 En réalité, nous avons, pratiquement, résolu le problème. En effet, le p que nous cherchons est la probabilité de trouver une différence au moins aussi grande que celle observée, simplement par hasard; c’est-à-dire, si les deux traitements sont équivalents. Cette probabilité peut se lire, presque directement, dans le tableau 1. En effet, les situations correspondant à une différence au moins aussi grande que 8 décès, dans un groupe et 2, dans l’autre sont indiquées en caractères gras et p est la somme des probabilités de ces situations au moins aussi extrêmes, soit: P = Prob. (8 & 2, ou 9 & 1, ou 10 & 0, ou 2 & 8, ou 1 & 9, ou 0 & 10) = 0,0439 + 0,00977 + 0,000977 + 0,0439 + 0,00977 + 0,000977 = 0,109 2. LA DIFFÉRENCE EST-ELLE SIGNIFICATIVE ? La différence n’est pas significative, puisque le p observé est supérieur à 0,05 (5 %); en effet, pour des raisons purement historiques, en convient d’appeler ‘’différence statistique significative’’ toute différence qui a moins de 5 chances, sur 100, de se produire, simplement par hasard. Cette convention a, malheureusement, pris une importance beaucoup trop grande, dans la mesure où la formule magique «différence significative» conduit, souvent, a oublier de regarder la valeur de p., en raisonnant de façon très (trop) simpliste, c’est-à-dire, en ignorant tout le reste des informations (pharmacologique, sur l’animal, etc…). un essai thérapeutique, étudiant un tout nouveau produit et dont les résultats sont tout juste significatifs, ne constitue pas une expérience suffisamment convaincante, pour conclure à l’efficacité d’un médicament et le mettre sur le marché. En effet, on mettrait, ainsi, sur le marché, environ 5 % des placebos, ou des produits inactifs étudiés. L’exemple choisi permet, aussi, d’expliquer la différence entre test unilatéral et test bilatéral. Cette différence n’est pas essentielle, au premier abord et le sujet est donc, traité en annexe. Maintenant que la formule «la différence significative» n’est plus magique, comment peut-on interpréter une valeur de p ? Quelle est la valeur de p qui doit emporter notre conviction ? Si p = 5% n’est pas suffisant, pour mettre une nouvelle molécule sur le marché, faut-il un p de 1 pour 1 000 ? De 1 pour 10 000 ? Il n’y a pas de réponse, unique, à cette question, cela dépend de l’ensemble des données disponibles, sur le problème. Si un premier essai d’une molécule peu toxique montre une augmentation significative de la survie de patients atteints de SIDA, avec un p égal à 5%, ce résultat peut être considéré comme très prometteur. Si un essai montre un produit homéopathique et a été publié, parce qu’il montrait une différence significative, alors que 19 autres essais négatifs sont restés dans les placards des mêmes investigateurs, ou d’autres investigateurs, le p est, donc, un élément à prendre en compte parmi d’autres. C’est précisément pour cela qu’une bonne compréhension, de ce qu’il représente, est nécessaire. J’espère vous avoir donné quelques éléments pour ce faire. Note: Le calcul détaillé, dans l’exemple, représente le calcul exact de p. Les calculs deviennent, rapidement, très longs, quand le nombre des observations augmente. On utilise, alors, des approximations, pour lesquelles la valeur de p se lit, dans les tables. ANNEXES Différence entre test unilatéral et test bilatéral Nous allons expliquer la différence entre test unilatéral et test bilatéral (en anglais one-sided and two-sided tests), et la relation avec p. Dans notre exemple, nous nous sommes intéressés à une situation bilatérale; c’est-à-dire que nous nous sommes demandés si les traitements étaient différents, sans appeler, a priori, sur le sens de cette différence. On peut supposer que le traitement A est un traitement placebo et B un nouveau produit et calculer seulement la probabilité observer une différence, au moins, aussi grande que celle observée; les seules possibilités à envisager étant celles dans lesquelles B est supérieure à A. Ceci constitue un test unilatéral. On a, alors: p= Prob (8 & 2 ou 9 & 1 ou 10 & 0) = 0,0439 + 0,00977 + 0,000977 = 0,055 La différence est maintenant à la limite de la signification. Cet exemple illustre bien le caractère arbitraire de la limite de 5 %, et l’importance capitale de l’information sur la nature uni- ou bilatérale du test. Nous pensons, personnellement, que les tests présentés devraient être, en règle générale, toujours bilatéraux; l’expérience prouve qu’il arrive qu’un nouveau traitement soit significativement pire qu’un placebo. On voit, parfois, utilisée la notion 2p, pour désigner les valeurs de p correspondant à des tests bilatéraux. Ceci est une façon, simple et rapide, de préciser que le test correspondant est bilatéral. CONCLUSION Une différence déclarée non significative implique qu’on ne peut pas conclure. Une différence déclarée significative veut dire qu’on affirme qu’il existe une différence entre les paramètres, ou les distributions comparées. En déclarant cette affirmation, on prend un certain risque * A. Nebab, S. Amrit, S. Aït Seddik, R. Belkaid, service d’épidémiologie et de médecine préventive – CHU Béni-Messous – Alger. Remerciements Au Pr. A. Soukehal, pour son aide, ses commentaires critiques et enthousiastes, ainsi qu’au Pr R. Aouameur, pour sa lecture critique. Bibliographie (1) Doyon f, Com-Nougué C. Qu’est-ce-qu’un test ? Les principaus tests statistiques. Rev Prat 1983; 33: 947-54. (2)Sanders D. H. Murph A.S, Eng R.J. Les statistiques, une approche nouvelle. Mc Graw Hill, 1984. (3)T.Ancelle 2éme édition, Statistiques épidémiologique, 2008;93. N°55 - Octobre 2016 Santé-MAG 39