Bases en biostatistique Loïc Desquilbet Département des Sciences Biologiques et Pharmaceutiques Ecole nationale vétérinaire d’Alfort Version 2.6 11/07/2016 TABLE DES MATIERES Introduction....................................................................................................................... 8 I. A. Prologue .......................................................................................................................... 8 B. Quel intérêt d’enseigner les stat’ dans un cursus vétérinaire ? ..................................... 8 II. 1. Contexte d’enseignement ........................................................................................ 8 2. Compétences générales visées ................................................................................ 9 3. Biostatistique & épidémiologie : unies pour la vie (des animaux) .......................... 9 Définitions et présentation des concepts ....................................................................... 10 A. La notion d’ « étude » ................................................................................................... 10 B. Échantillon ..................................................................................................................... 10 C. Population cible ............................................................................................................. 10 D. Population source.......................................................................................................... 11 E. La fluctuation d’échantillonnage ................................................................................... 11 F. III. L’inférence statistique ................................................................................................... 12 Statistique descriptive ..................................................................................................... 13 A. Objectif .......................................................................................................................... 13 B. Notations ....................................................................................................................... 13 C. Indicateurs usuels de statistique descriptive ................................................................ 13 1. Le taux de prévalence ............................................................................................ 13 2. La moyenne ............................................................................................................ 13 3. La variance et l’écart-type dans l’échantillon ........................................................ 13 4. La médiane ............................................................................................................. 14 5. Les quartiles ........................................................................................................... 14 D. Qualité d’une estimation............................................................................................... 14 1. Problématique ....................................................................................................... 14 2. Précision ................................................................................................................. 15 3. Exactitude............................................................................................................... 16 4. En résumé .............................................................................................................. 17 E. Interprétation d’une estimation ................................................................................... 17 Bases en biostatistique – Loïc Desquilbet © – version v2.6 2/73 F. IV. Intervalle de confiance d’une estimation ..................................................................... 18 1. Théorie et interprétation ....................................................................................... 18 2. Intervalle de confiance d’un pourcentage ............................................................. 19 3. Intervalle de confiance d’une moyenne ................................................................ 19 4. Application sur deux exemples concrets ............................................................... 20 Jouons un peu avant de passer aux choses sérieuses… .................................................. 21 A. Le jeu du sac de billes .................................................................................................... 21 1. Petit rappel de probabilité ..................................................................................... 21 2. Le jeu proprement dit ............................................................................................ 21 B. Le jeu du lancer de volant de Badminton ..................................................................... 23 V. 1. Remarques préalables ........................................................................................... 23 2. Jean lance aussi fort que possible un volant de Badminton ................................. 23 3. Jacques pense lancer le volant plus fort que Jean................................................. 25 La théorie des tests statistique ....................................................................................... 29 A. Définition du « test statistique » ................................................................................... 29 B. Quand faire et quand ne pas faire de tests statistiques ? ............................................ 29 C. La « double » fluctuation d’échantillonnage................................................................. 29 D. Problématique ............................................................................................................... 31 E. Retour sur les lancers de Jean et de Jacques, et analogie ............................................ 32 F. Les tests statistiques sont des tests d’hypothèse assortis de risques d’erreur ............ 32 1. Les hypothèses nulle et alternative ....................................................................... 32 2. Accepter ou rejeter l’hypothèse nulle ? ................................................................ 33 3. Le risque d’erreur de 1ère espèce (erreur de type I) .............................................. 36 4. Le risque d’erreur de 2ème espèce (erreur de type II) ............................................ 37 G. Le degré de signification................................................................................................ 40 1. Remarques introductives ....................................................................................... 40 2. Définition du degré de signification....................................................................... 41 3. Commentaires sur la définition du degré de signification..................................... 41 4. Lien entre le degré de signification et le risque d’erreur de 1ère espèce............... 43 5. Sur-interprétations malheureusement classiques du degré de signification........ 44 Bases en biostatistique – Loïc Desquilbet © – version v2.6 3/73 VI. La notion d’indépendance des individus......................................................................... 45 A. Introduction................................................................................................................... 45 B. Définition d’ « indépendance » ..................................................................................... 45 C. Situations classiques de non indépendance ................................................................. 45 D. Que faire en cas de non indépendance ? ...................................................................... 46 VII. Le test de Student pour séries non appariées (comparaison de deux moyennes) ........ 47 A. Contexte du test de Student pour séries non appariées .............................................. 47 B. Notations ....................................................................................................................... 47 C. Conditions de validité du test de Student pour séries non appariées .......................... 48 D. Rejeter ou accepter H0 avec le test de Student pour séries non appariées ................. 48 1. Démarche de calcul ................................................................................................ 48 2. Interprétation du test lors du rejet de H0 .............................................................. 50 3. Interprétation du test lors de l’acceptation de H0 ................................................. 50 4. Commentaires sur les interprétations du test ....................................................... 51 E. Calcul du degré de signification p ................................................................................. 52 F. De quoi dépend le degré de signification ? ................................................................... 53 1. Cas particulier du test de Student pour séries non appariées............................... 53 2. Généralisation à tous les tests statistiques ........................................................... 53 3. Conséquences ........................................................................................................ 53 VIII. Le test du Chi2 (comparaison de deux pourcentages) .................................................... 54 A. Contexte du test du Chi2 ............................................................................................... 54 B. Notations ....................................................................................................................... 54 C. Interprétations correctes et incorrectes de pourcentages à comparer ....................... 54 1. Problématique ....................................................................................................... 54 2. Comment bien citer deux pourcentages à comparer ? ......................................... 55 3. (Mauvais) exemple issu de la littérature ............................................................... 56 D. Conditions de validité du test du Chi2 ........................................................................... 58 E. Rejeter ou accepter H0 avec le test du Chi2 .................................................................. 58 F. 1. Démarche de calcul ................................................................................................ 58 2. Interprétation du test lors du rejet de H0 .............................................................. 60 3. Interprétation du test lors de l’acceptation de H0 ................................................. 61 4. Commentaires sur les interprétations du test ....................................................... 61 Calcul du degré de signification .................................................................................... 61 Bases en biostatistique – Loïc Desquilbet © – version v2.6 4/73 IX. La puissance statistique d’une étude .............................................................................. 62 A. Remarque préliminaire ................................................................................................. 62 B. Définition & commentaires ........................................................................................... 62 C. De quoi dépend la puissance statistique d’une étude ? ............................................... 63 D. En résumé & commentaires .......................................................................................... 64 E. Manque de puissance statistique ? ............................................................................... 65 X. Autres tests statistiques sur des données indépendantes ............................................. 66 A. Présentation générale ................................................................................................... 66 B. Le test du Chi2 testant l’association entre une variable binaire et une variable qualitative............................................................................................................................. 67 C. Le test exact de Fisher ................................................................................................... 68 D. L’analyse de variance (Anova, pour Analysis of variance) ............................................ 68 E. Le test de Mann-Whitney (comparaison de deux médianes) ....................................... 69 F. XI. Le test de Kruskal-Wallis ............................................................................................... 70 Les tests statistiques sur séries appariées ...................................................................... 71 A. Introduction................................................................................................................... 71 B. Le test de Student pour séries appariées (comparaison de deux moyennes) .............. 71 C. Le test de Wilcoxon pour séries appariées (comparaison de médianes) ..................... 72 D. Le test de McNemar pour séries appariées (comparaison de deux pourcentages) ..... 72 XII. Remerciements ............................................................................................................... 73 Bases en biostatistique – Loïc Desquilbet © – version v2.6 5/73 INDEX DES FIGURES Figure 1 - Processus théorique d'échantillonnage et d’estimation multiples ......................... 15 Figure 2 - Estimation précise mais biaisée ............................................................................... 16 Figure 3 - Estimation imprécise mais non biaisée .................................................................... 16 Figure 4 - Représentation graphique de l’Inférence statistique .............................................. 18 Figure 5 - Tirage de billes rouges d'un sac de billes avec proportion connue ......................... 21 Figure 6 - Tirage de billes rouges d'un sac de billes avec proportion inconnue ...................... 21 Figure 7 - Lancers de volant de Badminton de Jean ................................................................ 24 Figure 8 - Lancers de Jacques dans l'espace-temps n°1........................................................... 27 Figure 9 - Lancers de Jacques dans l'espace-temps n°2........................................................... 27 Figure 10 - Illustration théorique de la double fluctuation d'échantillonnage ........................ 30 Figure 11 - Distribution des différences théoriquement observées ........................................ 30 Figure 12 - Distribution des différences théoriquement observées centrée sur ∆ = 4 ........... 31 Figure 13 - Distribution des différences théoriquement observées centrée sur 0.................. 31 Figure 14 - Ensemble des distributions observables sous l'hypothèse d'absence de réelle différence ................................................................................................................................. 34 Figure 15 - Figure 14 en quantifiant par α l'aire sous la courbe .............................................. 35 Figure 16 - Figure 14 en quantifiant par α=5% l'aire sous la courbe ....................................... 36 Figure 17 - Ensemble des distributions observables sous l'hypothèse de présence d'une réelle différence ....................................................................................................................... 37 Figure 18 - Ensemble des différences observables conduisant à accepter H0......................... 38 Figure 19 - Représentation graphique du risque d'erreur β .................................................... 38 Figure 20 - Figure 19 avec ∆ qui a augmenté........................................................................... 39 Figure 21 - Citation traitant le degré de signification comme le Mal ...................................... 40 Figure 22 - Représentation graphique du degré de signification............................................. 41 Figure 23 - Lien entre le degré de signification p et α ............................................................. 43 Figure 24 - Ensemble des différences observables entre deux moyennes sous l'hypothèse d'absence de réelle différence ................................................................................................. 47 Figure 25 - H0 rejetée avec le test de Student pour séries non appariées .............................. 48 Figure 26 - Détermination de d2,5% dans le test de Student pour séries non appariées.......... 49 Figure 27 - Lecture de la valeur de 1,96 dans la table de la loi N(0,1) ..................................... 49 Figure 28 - Représentation graphique du degré de signification avec le test de Student pour séries non appariées ................................................................................................................ 52 Figure 29 - Aide au calcul du degré de signification dans le test de Student pour séries non appariées .................................................................................................................................. 52 Bases en biostatistique – Loïc Desquilbet © – version v2.6 6/73 Figure 30 - Tableau issu d'un article avec erreur de pourcentages ......................................... 56 Figure 31 - Loi du Chi2 à 1 degré de liberté .............................................................................. 60 Figure 32 - Degré de signification avec une loi du Chi2 ............................................................ 61 Figure 33 - Représentation graphique de la puissance statistique .......................................... 62 Figure 34 - La puissance statistique augmente quand la réelle différence augmente ............ 63 Figure 35 - La puissance statistique augmente si d2,5% diminue .............................................. 63 Figure 36 - Carte conceptuelle du panel de différents tests statistiques ................................ 66 Figure 37 - Représentation graphique de l'Anova ................................................................... 68 Figure 38 - Principe du test de Mann-Whitney ........................................................................ 69 Figure 39 - Illustration d'un cas fréquent de « séries appariées » ........................................... 71 Figure 40 - Illustration de la démarche du test de Student pour séries appariées ................. 72 Figure 41 - Illustration pour le test de McNemar..................................................................... 73 Bases en biostatistique – Loïc Desquilbet © – version v2.6 7/73 I. INTRODUCTION A. Prologue Ce document est tout d’abord destiné aux élèves de 1ère année de l’EnvA. Cela dit, un certain de nombre de parties de ce document n’est pas au programme de 1ère année. C’est normal, ce document est destiné à être gardé tout au long du cursus, et c’est parfois en 4ème voire 5ème année que l’on peut avoir besoin de choses dans le domaine de la biostat’, à des moments dans le cursus où je n’interviens plus… Ce document est aussi destiné aux enseignants-chercheurs, internes, assistants-hospitaliers, résidents, diplômés, dans le domaine vétérinaire, mais pas seulement, qui souhaiteraient avoir un bon aperçu des concepts de la biostatistique… Ce document devrait se lire comme une histoire. Les parties s’entremêlent, je ne cesse de faire référence à ce que j’ai pu écrire avant. Les parties sont donc tout sauf indépendantes les unes des autres. (J’exagère probablement un peu, mais c’est pour vous avertir que si vous lisez les parties les unes indépendamment des autres, en ne vous focalisant notamment que sur une partie parce que c’est celle qui vous intéresse à ce moment-là, ça risque alors d’être un peu dur…) Il y a du concept (parties II, III, V, VI, et IX), du jeu que je juge indispensable à la compréhension des concepts (partie IV), et de la « technique » concernant l’application des intervalles de confiance (partie III) et des tests statistiques (parties VII, VIII, X, XI). Je vous recommande de vous munir de post-it® pour marquer les pages où se trouvent les différentes figures auxquelles je fais souvent référence ! Enfin, dernière chose pour terminer ce prologue, cf. ici1. B. Quel intérêt d’enseigner les stat’ dans un cursus vétérinaire ? 1. Contexte d’enseignement Il existe probablement autant de réponses que d’enseignants en biostatistique dans les écoles ou facultés vétérinaires. Je vous propose ma réponse : « pour préparer la compréhension et l’utilisation des outils issus de l’épidémiologie ». Je vous l’accorde, le fait que je sois épidémiologiste de formation n’est pas probablement étranger à ma réponse… Cela dit, c’est à partir de nombreux échanges, quasi quotidiens, avec mes collègues vétérinaires et souvent cliniciens, que j’ai au fur et à mesure élaboré mes enseignements dans le domaine de la biostatistique (en 1ère année) puis dans le domaine de l’épidémiologie clinique (en 2ème et 3ème année) à l’EnvA. Parmi les échanges qui ont eu un impact décisif dans le choix des compétences générales visées, je peux citer en premier ceux issus de mes participations aux différents « Journal Club »2 de différents services (médecine interne, chirurgie, et cardiologie). C’est au cours de ces « Journal Club » que je me suis rendu compte 1 Si la lecture de ce document vous fait un peu penser au roman La caverne des idées (de José Carlos Somoza), cela ne sera pas étonnant. N’allez cependant pas maintenant sur Wikipédia (pour une fois) pour en apprendre davantage sur le roman, sinon, c’est comme si vous connaissiez la fin d’un film avant de l’avoir vu ! 2 Séance d’analyse critique d’articles de recherche clinique, organisée par les chefs de service, au cours de laquelle un ou plusieurs résidents / assistants hospitaliers présente(nt) puis critique(nt) un ou plusieurs articles. Bases en biostatistique – Loïc Desquilbet © – version v2.6 8/73 de ce qui était indispensable à enseigner dans un cursus vétérinaire en tronc commun, et de ce qui l’était moins, voire … beaucoup moins ! 2. Compétences générales visées J’ai très souvent observé mes collègues cliniciens lire plus qu’en diagonal la partie « Matériel et méthodes » d’un article de recherche clinique car ne se sentant pas à même de comprendre toutes les subtilités de « langage ». Or, des choses éminemment importantes sont écrites dans cette partie. Ce qui y est écrit ou justement, pas écrit, peut totalement remettre en cause la conclusion des auteurs. C’est malheureusement parce qu’un certain nombre de relecteurs dans les revues internationales de médecine clinique vétérinaire n’ont pas de formation en épidémiologie clinique ni en biostatistique, que les vétérinaires devraient être capables de critiquer un article aussi dans sa méthodologie statistique dont dépend, entre autres, la véracité des propos énoncés dans la conclusion d’un article. C’est donc les compétences générales que je souhaite faire acquérir aux étudiants tout au long de leur cursus : avoir un esprit critique face à la lecture (ou à l’audition, dans le cas de conférences) d’un document scientifique vétérinaire contenant des analyses statistiques, qu’il émane d’une revue francophone de vulgarisation tout comme d’une a priori « excellente » revue internationale vétérinaire. Autrement dit, être capable de savoir si les messages que font passer les auteurs (et qui peuvent avoir un impact sur entre autres la prise en charge thérapeutique d’un animal malade) sont étayés par des arguments rigoureux d’un point de vue méthodologie statistique et par une discussion rigoureuse sur la présence et/ou l’impact des biais. 3. Biostatistique & épidémiologie : unies pour la vie (des animaux) Cette capacité à critiquer un document dans sa méthodologie statistique demande de bonnes connaissances de base en biostatistique, mais aussi et surtout, de bonnes connaissances en épidémiologie. Qu’est-ce que l’épidémiologie ? Pour faire simple, disons que c’est la science médicale permettant de comprendre les mécanismes de survenue d’un mauvais état de santé d’un être vivant. On peut distinguer l’épidémiologie descriptive et l’épidémiologie analytique. La première a principalement pour objectif de décrire et d’anticiper l’apparition d’un mauvais état de santé ; la seconde a principalement pour objectif de rechercher les facteurs de risque d’un mauvais état de santé afin, entre autres, de faire de la prévention efficace. Les articles scientifiques vétérinaires font souvent appel aux outils issus de l’épidémiologie. Soit parce qu’ils veulent décrire la maladie étudiée dans une population donnée, soit parce qu’ils veulent identifier les facteurs de risque d’une maladie. Or, pour maîtriser les outils issus de l’épidémiologie, il faut de façon indispensable maîtriser les bases en biostatistique. Donc, si vous n’avez pas acquis les bases en biostatistique, vous ne pourrez pas acquérir des connaissances / compétences solides en épidémiologie qui sont, entre autres, indispensables à la réalisation d’une analyse critique d’un article. Bases en biostatistique – Loïc Desquilbet © – version v2.6 9/73 II. DEFINITIONS ET PRESENTATION DES CONCEPTS A. La notion d’ « étude » Dans tout ce document, je vais utiliser le terme « étude ». Ce terme, générique, peut faire référence à une étude clinique, un essai clinique3, une étude épidémiologique, ou une enquête épidémiologique4, dont les objectifs peuvent être très variés. Le point commun parmi ces études ou enquêtes est le fait qu’elles aient pour objectif de faire porter leurs résultats issus d’un échantillon sur une population d’individus. B. Échantillon L’échantillon est le groupe d’« individus » sur lesquels sont effectuées les analyses statistiques. Dans le domaine de la bovine, il faut bien faire attention si l’échantillon est constitué d’élevages (auquel cas, l’ « individu » est l’élevage, et les données recueillies le sont à l’échelle de l’élevage en entier ; citons par exemple la taille de l’élevage, l’hygiène de l’élevage, le type de stabulation, le type de l’élevage allaitant/laitier/mixte, …) ou bien constitué de vaches (auquel cas, l’ « individu » est la vache, et les données recueillies le sont à l’échelle de la vache ; citons par exemple la note d’état corporel, la parité, les antécédents de mammites, …). La « taille de l’échantillon » est le nombre d’individus que compte l’échantillon. C. Population cible La population cible est la population que l’on vise, quand on met en place une étude ; c’est la population à laquelle on voudrait pouvoir étendre les résultats. Il est fondamental de correctement définir la population cible quand on met en place une étude, car elle va permettre de choisir la population source (cf. ci-dessous) de telle façon à ce que cette dernière soit la plus proche possible de la population cible. Il est par ailleurs tout aussi important de savoir quelle est la population cible quand vous lisez un article scientifique car vous saurez ainsi les individus sur lesquels on peut a priori appliquer les résultats de l’étude, et ceux sur lesquels on ne le peut a priori pas. Dans la très grande majorité des cas, la population cible est mentionnée au moment où l’objectif principal de l’étude est mentionné. 3 Un essai clinique est une étude médicale ayant très souvent pour objectif de vérifier l'efficacité ou la tolérance d'une molécule, d'un traitement ou d'une méthode diagnostique. 4 Le mot « enquête » en français est la traduction de « study » en anglais (par exemple, « a cohort study » se traduit en français par « une enquête de cohorte »). Cela dit, le mot « étude » en français peut aussi se retrouver dans des articles francophones, pour signifier la même chose que le mot « enquête ». Bases en biostatistique – Loïc Desquilbet © – version v2.6 10/73 D. Population source La population source est constituée des individus d’où sont extraits ceux qui ont fait partie de l’échantillon. Dit autrement, et plus pragmatiquement, la population source est l’ensemble des individus susceptibles5 de faire partie de l’échantillon. Ce mot « susceptible » est fondamental. Pour définir la population cible, il faut imaginer6 tous les individus qui auraient pu faire partie de l’échantillon si le processus d’échantillonnage avait été réalisé une infinité de fois ! C’est uniquement la lecture du protocole d’une étude qui vous permet de définir la population source de cette étude. Une autre façon de définir de façon pragmatique la population source est (là encore) d’imaginer tous les individus qui ne pourraient jamais faire partie de l’échantillon compte tenu du protocole de l’étude, et la population source est alors constituée de tous les autres individus. Par ailleurs, le verbe « échantillonner » signifie « créer un échantillon à partir de la population source ». E. La fluctuation d’échantillonnage La fluctuation d’échantillonnage est la manifestation du hasard dans la constitution de l’échantillon à partir de la population source. La fluctuation d’échantillonnage est i-né-luc-table. Vous dev(r)ez vivre avec, si vous menez une étude, et elle doit toujours être dans votre tête lorsque vous lisez les résultats d’une étude. Quelle est la conséquence majeure de cette « fluctuation d’échantillonnage » ? C’est le fait que si l’on tirait au sort deux échantillons issus de la même population source, les résultats dans chacun de ces deux échantillons (deux moyennes ou deux pourcentages) ne seraient jamais identiques (à la troisième ou quatrième décimale, si besoin, mais il n’y a souvent pas besoin d’aller aussi loin dans les décimales pour observer cette différence !). En pratique, il n’y a qu’un seul échantillon tiré au sort (ou pas « au sort », d’ailleurs) à partir de la population source. Donc, vous ne verrez pas la manifestation de cette fluctuation d’échantillonnage. Mais vous devrez en avoir conscience ! Conscience du fait que ce que vous avez observé a été coloré par le hasard, sans connaître l’épaisseur de cette hasardeuse couche de peinture qui a été ajoutée… ! En revanche, vous aurez le droit de penser et de dire que, sous certaines hypothèses (cf. plus loin dans ce document7), le résultat qui aura été observé dans l’échantillon aura de grandes chances d’être proche de celui dans la population source, voire même cible. 5 Certains vont probablement penser que j’abuse de l’écriture en italique ! Oui, c’est vrai, je ne vais pas la réserver aux seuls termes latins. Il ne s’agit pas d’ « abus » ! Simplement, dans le domaine de la biostatistique et l’épidémiologie (comme dans beaucoup d’autres domaines – tous ?...), les mots sont très importants, et je les souligne en italique (plutôt qu’en les soulignant, physiquement parlant). 6 Là, c’est une autre raison pour laquelle je souligne ce mot : je mets ce mot en italique pour le mettre en valeur, comme je l’aurais mis en valeur à l’oral en faisant une pause, juste après l’avoir énoncé. 7 J’aime l’effet de surprise, je ne vais donc pas tout dévoiler dès maintenant, quand même !... Bases en biostatistique – Loïc Desquilbet © – version v2.6 11/73 F. L’inférence statistique De façon générale, faire de l’inférence statistique, ou « inférer statistiquement », c’est étendre les résultats observés dans l’échantillon à la population cible. Toute étude a pour objectif de faire de l’inférence statistique (ou causale, mais là, on sort du programme de 1ère année !). En effet, quel serait l’intérêt d’une étude qui cantonne ses résultats à son propre échantillon ? Entre le moment où les résultats sortent de l’ordinateur et le moment où les résultats sont publiés, probablement qu’une partie non négligeable des individus est déjà morte ! Bases en biostatistique – Loïc Desquilbet © – version v2.6 12/73 III. STATISTIQUE DESCRIPTIVE A. Objectif L’un des objectifs de la statistique descriptive est de fournir une estimation d’un indicateur (une moyenne, un pourcentage, …), calculée dans un échantillon, qui soit la plus proche possible de la valeur réelle de cet indicateur dans la population cible, valeur qui est par définition inconnue. B. Notations De façon générale, dans ce document, les caractères grecs vont toujours faire référence à des indicateurs dans la population cible. Je vais noter « θ » la valeur d’un indicateur quelconque, « μ » la moyenne d’un caractère quantitatif, et « π » le pourcentage d’un caractère binaire. Les caractères grecs avec un chapeau au-dessus vont faire référence à la valeur estimée de l’indicateur dans l’échantillon. C. Indicateurs usuels de statistique descriptive 1. Le taux de prévalence Le taux de prévalence (d’une maladie) est le pourcentage d’individus atteints d’une « maladie » (au sens général du terme). 2. La moyenne Tout le monde sait ce qu’est une moyenne !... En revanche, petite info comme ça en passant, on ne peut interpréter correctement une moyenne que si la distribution de la variable quantitative dont on souhaite calculer la moyenne suit (à peu près) une loi normale. Pour effectuer cette vérification, j’ai déposé sur EVE un fichier Excel vous permettant de dresser facilement un histogramme avec un nombre de barres adapté à la taille de l’échantillon (http://eve.vet-alfort.fr/course/view.php?id=353 ; section 5). 3. La variance et l’écart-type dans l’échantillon Ne comptez pas sur moi pour vous fournir des formules mathématiques (vous savez probablement même mieux que moi où les retrouver sur Internet). En revanche, plusieurs choses importantes. La première, c’est que la variance et l’écart-type dans l’échantillon quantifient la variabilité du caractère quantitatif mesuré. Cette variabilité est en quelque sorte fixée par la « nature », parfois avec l’aide de l’Homme… Deuxième chose importante, l’écart-type dans l’échantillon (« standard deviation », en anglais) ne doit pas être confondu avec l’écart-type de la moyenne (« standard error », en anglais) que l’on verra plus tard… Troisième chose, la variabilité d’un caractère quantitatif, fixée par la nature, ne dépend pas de la taille de l’échantillon ! En effet, le nombre de doigts sur une main (humaine) est un caractère quantitatif très peu variable. Certes, sur 10.000 individus, il y a plus de chances d’en observer au moins un avec 4 doigts que sur 100 individus, mais, si dans la population, la proportion d’individus avec 4 doigts sur une main est de 0,1%, en espérance, la proportion d’individus avec 4 doigts dans un échantillon tiré au sort de la population sera elle aussi de 0,1%, quelle que soit la taille de l’échantillon ! Bases en biostatistique – Loïc Desquilbet © – version v2.6 13/73 Pour décrire un caractère quantitatif qui suit (à peu près) une loi normale, on utilise la moyenne ainsi que l’écart-type dans l’échantillon ; la moyenne et l’écart-type dans l’échantillon ne doivent pas être fournis si la distribution du caractère n’est pas (à peu près) normale. Dans ce cas de figure-là, on fournit la médiane et les quartiles. 4. La médiane La médiane se calcule pour un caractère quantitatif. Soit Vmed la valeur de la médiane calculée dans un échantillon. Cette valeur est telle que 50% des individus de l’échantillon ont une valeur inférieure à Vmed, et 50% des individus de l’échantillon ont une valeur supérieure à Vmed. On présente la médiane d’un caractère quantitatif lorsque, entre autres, la moyenne n’est pas interprétable en raison d’une distribution non normale. Dans ce même cas de figure, on fournit les 1er et 3ème quartiles (cf. ci-dessous) pour donner une bonne idée de la variabilité du caractère quantitatif mesuré. 5. Les quartiles Le 1er quartile, ou 25ème percentile noté « Q1 », est la valeur du caractère quantitatif telle que 25% des individus de l’échantillon ont une valeur inférieure à Q1, et 75% des individus de l’échantillon ont une valeur supérieure à Q1. Le 3ème quartile, ou 75ème percentile noté Q3, est la valeur du caractère quantitatif telle que 75% des individus de l’échantillon ont une valeur inférieure à Q3, et 25% des individus de l’échantillon ont une valeur supérieure à Q3. La distance interquartile (« interquartile range », en anglais) est l’intervalle [Q1 ; Q3] ; il fournit une indication de la variabilité du caractère mesuré (tout comme le fait l’écart-type dans l’échantillon) car on peut affirmer que dans l’échantillon, 50% des individus ont une valeur du caractère quantitatif comprise entre Q1 et Q3. D. Qualité d’une estimation 1. Problématique Supposons que vous souhaitiez connaître le pourcentage de chiens adultes en France qui présentent des problèmes neurolocomoteurs. Vous allez mettre en place votre petite étude, c’est-à-dire demander à vos amis qui ont des chiens s’ils ont observé récemment des problèmes neurolocomoteurs (déjà, au moment où vous leur dites cela, certains vous regardent un peu méchamment, comme si vous aviez insulté leur chien !). Parmi 18 chiens de votre proche ou lointain entourage, 4 ont semble-t-il présenté récemment des problèmes neurolocomoteurs, ce qui conduit à un pourcentage estimé de 4/18=22%. La question est désormais la suivante : votre estimation est-elle suffisamment de qualité pour permettre de faire de l’inférence à l’ensemble de la population des chiens adultes de France ? Pour y répondre, il faut s’assurer que cette estimation est précise et exacte ! Et c’est ce que je vous propose de voir désormais. Bases en biostatistique – Loïc Desquilbet © – version v2.6 14/73 2. Précision Une estimation est dite précise si (attention, ça va être théorique), en imaginant8 que l’on échantillonne n fois et que l’on calcule n fois (cf. figure 1), on avait ces n valeurs de proches les unes des autres. Si , , …, étaient proches les unes des autres, on pourrait dire que la façon d’estimer θ (ou autrement dit, « l’estimation de θ ») est précise. Figure 1 - Processus théorique d'échantillonnage et d’estimation multiples Dire que ces valeurs sont très proches les unes des autres, c’est aussi dire qu’elles sont très peu « dispersées », ou sont très peu « variables », les unes par rapport aux autres. A contrario, plus les valeurs sont variables les unes par rapport aux autres, plus on peut se dire intuitivement que chacune de ces estimations est imprécise (car d’une estimation à l’autre, on obtient des valeurs très différentes). Tout ça est très théorique puisqu’en pratique, on ne prélève qu’un seul échantillon de la population (source) ! En pratique, pour quantifier cette précision, on quantifie (à partir de notre seul échantillon) la variabilité de toutes ces . Comment ? En calculant la variance (et par voie de conséquence, l’écart-type) de cette estimation. Ainsi, la variance d’une estimation, ou l’écart-type d’une estimation, quantifie la précision avec laquelle est calculée. Plus la variance ou l’écart-type de l’estimation diminue, plus l’estimation est précise. Ainsi, pour un caractère quantitatif quelconque, l’écart-type dans l’échantillon quantifie la variabilité du caractère entre les différents animaux. L’écart-type de la moyenne de ce caractère quantitatif quantifie quant à lui la variabilité théorique de toutes les moyennes qui auraient9 été calculées dans une infinité d’échantillons issus de la même population source, variabilité (des moyennes) que je souhaite que vous nommiez « précision » (de la moyenne). 8 (Je ne vais pas vous rassurer en disant cela, mais tant pis.) Je suis désolé (non, ce n’est pas vrai), mais vous n’avez pas fini de devoir « imaginer » des choses, en lisant ce document. Accrochez-vous si vous n’avez pas pour habitude de faire fortement travailler votre imagination ! 9 Le conditionnel est très important ! Car en pratique, on ne calcule bien évidemment pas toutes ces moyennes ! Bases en biostatistique – Loïc Desquilbet © – version v2.6 15/73 3. Exactitude Une estimation est dite exacte si elle n’est pas biaisée. Qu’est-ce qu’un « biais d’estimation » ? Théoriquement, c’est l’écart entre la moyenne de toutes les estimations que l’on aurait calculées à partir d’une infinité de tirage au sort d’échantillons et la vraie valeur inconnue θ (cf. figure 2). Vous trouverez ci-dessous deux situations bien différentes. La première, celle où la façon d’estimer θ est précise, mais biaisée car ces estimations , bien que proches les unes des autres, sont systématiquement inférieures à la vraie valeur θ (figure 2). La seconde situation présente une façon imprécise d’estimer θ car les sont très dispersées, mais exacte car les sont autour de la vraie valeur de θ, ce qui fait que la moyenne de toutes ces est égale à la vraie valeur θ (figure 3). Figure 2 - Estimation précise mais biaisée Figure 3 - Estimation imprécise mais non biaisée Une autre définition d’un biais d’estimation est la suivante : le biais d’estimation est l’écart systématique entre la valeur estimée et la valeur réelle θ. « Systématique » dans le sens où si l’on refaisait l’échantillonnage une infinité de fois, on aurait un écart entre la valeur estimée et la valeur réelle systématiquement du même ordre non nul de grandeur (la fluctuation d’échantillonnage va faire varier cet écart, d’un échantillon théorique à l’autre). Bases en biostatistique – Loïc Desquilbet © – version v2.6 16/73 Tout ça encore n’est que de la théorie. Car en pratique, non seulement on ne connait pas la vraie valeur de θ, mais en plus, on n’estime qu’une seule valeur de θ, c’est . Le biais ne peut donc pas se quantifier. Il peut en revanche s’apprécier, se discuter10. L’origine des biais d’estimation n’est pas décrite dans ce document, car n’étant pas au programme du module de Bases en biostatistique de 1ère année. Cela dit, sachez qu’il existe deux biais d’estimation en épidémiologie descriptive : le biais d’échantillonnage et le biais de mesure. 4. En résumé Une estimation est de bonne qualité si elle est précise et exacte, c’est-à-dire exempt de biais (d’échantillonnage et de mesure). Dans la mesure où l’on arrive davantage à quantifier l’imprécision que l’inexactitude, il vaut à la limite mieux estimer un indicateur de façon imprécise qu’inexacte !... E. Interprétation d’une estimation Interpréter une estimation, c’est obligatoirement la mettre en rapport avec la valeur réelle inconnue de l’indicateur que l’on a estimé dans la population cible (figure 4). C’est-à-dire que lorsque l’on vous demande d’interpréter une estimation, on vous demande, tout simplement, de faire … de l’inférence statistique ! Soit la valeur de l’estimation d’un indicateur dans un échantillon. On fait de l’inférence statistique en disant : « sous l’hypothèse d’absence de biais d’estimation, alors il y a de grandes chances pour que la valeur réelle θ de l’indicateur dans la population cible soit proche de ». Vous pouvez voir dans la figure ci-dessous le cercle plus ou moins vertueux du processus d’estimation d’un indicateur. Il peut ne pas être « vertueux » si θsource est différent de θ (ce qui est le cas lorsque des biais d’échantillonnage sont présents), et/ou lorsque est systématiquement éloigné de θsource (ce qui est le cas lorsque des biais d’échantillonnage ou des biais de mesure sont présents). 10 D’ailleurs, c’est l’une des immenses et non moins intéressantes tâches de l’épidémiologiste : discuter (et prendre en compte quand c’est possible) la présence de biais et l’impact qu’ont ces biais sur la capacité à faire de l’inférence statistique. Bases en biostatistique – Loïc Desquilbet © – version v2.6 17/73 Figure 4 - Représentation graphique de l’Inférence statistique Cela dit, même s’il n’y a aucun biais, il ne faut pas oublier que la fluctuation d’échantillonnage (le Hasard, avec un grand H) peut conduire à une estimation très éloignée de la valeur réelle θ dans la population cible, sans bien entendu que l’on s’en rende compte, puisque θ est inconnue. C’est normal, acceptable, il faut vivre avec11. Je peux cependant vous rassurer en écrivant ceci : sous réserve d’absence de biais d’estimation, plus l’estimation est précise, plus θ a de chances d’être proche de la valeur estimée . F. Intervalle de confiance d’une estimation 1. Théorie et interprétation Cette théorie ne va pas aller très loin. L’idée ici n’est pas de vous apprendre les statistiques pour que vous deveniez des biostatisticiens. J’ai donc pris le parti de bien davantage vous apprendre à interpréter les choses qu’à vous apprendre les démonstrations mathématiques / statistiques pour obtenir différentes formules. Un intervalle de confiance d’une estimation est un intervalle dans lequel on peut être confiant dans le fait d’affirmer que la valeur réelle θ dans la population cible se trouve dans cet intervalle. Cette « confiance » doit être quantifiée. Dans la très grande majorité des cas, on fixe ce degré de confiance à 95%. Ainsi, un intervalle de confiance à 95% de est l’intervalle dans lequel il y a 95% de chances que la valeur réelle θ dans la population cible s’y trouve12. Pour que l’interprétation de l’intervalle de confiance soit complète, il faut ajouter « sous l’hypothèse que l’estimation ne soit pas biaisée ». 11 De la même façon que dans la vie, on a appris à vivre avec cette incertitude, heureusement présente – sinon la vie serait atrocement prévisible et par conséquent tellement ennuyeuse, non ?! 12 L’interprétation rigoureuse (mais hors programme) d’un intervalle de confiance est un peu plus compliquée que cela : il y a 95% de chances pour que l’intervalle de confiance à 95% comprenne la valeur réelle θ. Bases en biostatistique – Loïc Desquilbet © – version v2.6 18/73 Ainsi, si [ICinf ; ICsup]95% est l’intervalle de confiance à 95% de , cela signifie que si n’est pas biaisée par du biais d’estimation, il y a 95% de chances pour que la valeur réelle θ dans la population cible soit comprise entre ICinf et ICsup. La formule générale de l’intervalle de confiance à 95% d’une estimation +/- Tconf x où est la suivante : est l’écart-type de l’estimation de . Tconf est un coefficient qui dépend du type d’estimation (moyenne, pourcentage, …) et de la taille de l’échantillon. Parfois, dans des cas notamment où les effectifs sont trop petits, cette formule n’est plus applicable. 2. Intervalle de confiance d’un pourcentage Soit l’estimation d’un pourcentage dans un échantillon de taille n. L’écart-type de l’estimation vaut : = Si n x > 5 et si n x (1 - ) > 5, alors la formule de l’intervalle de confiance à 95% d’un pourcentage estimé est : +/- 1,96 x Si n x ≤ 5 ou si n x (1 - ) ≤ 5 (situation hors programme), alors je vous invite à aller sur un site Internet13 pour calculer l’intervalle de confiance d’un pourcentage, en lisant les bornes calculées à l’aide de la méthode exacte (binomiale). 3. Intervalle de confiance d’une moyenne Soit ̂ l’estimation d’une moyenne dans un échantillon de taille n. L’écart-type de la moyenne ̂ (« standard error », en anglais ; à ne pas confondre avec l’écart-type dans l’échantillon, je vous le rappelle !) vaut : = où s est l’écart-type dans l’échantillon. √ Si n > 30 et si la variable quantitative dont on calcule la moyenne suit (à peu près) une loi normale, alors la formule de l’intervalle de confiance à 95% d’une moyenne estimée ̂ est : ̂ +/- 1,96 x Si n < 30 (situation hors programme), je vous suggère d’aller sur un autre site Internet14 où tout est bien expliqué ! 13 http://epitools.ausvet.com.au/content.php?page=CIProportion&SampleSize=20&Positive=5&Conf=0.95&Digits =3 14 http://www.dummies.com/how-to/content/how-to-calculate-a-confidence-interval-for-a-popu0.html Bases en biostatistique – Loïc Desquilbet © – version v2.6 19/73 4. Application sur deux exemples concrets Prenons le premier exemple. Supposons que l’on veuille estimer le taux de prévalence d’hyperkaliémie15 chez les chiens domestiques de toutes races atteints de pancréatite en France. Pour cela, on constitue un échantillon de 49 chiens atteints de pancréatite. Parmi ces 49 chiens, 6 chiens sont atteints d’hyperkaliémie. Le taux de prévalence est donc de 6/49 soit 12%. On peut d’ores et déjà interpréter ce pourcentage de 12% : sous l’hypothèse que l’estimation de 12% ne soit pas biaisée par du biais d’estimation, alors il y a de grandes chances pour que le taux de prévalence réel d’hyperkaliémie dans la population des chiens domestiques de toutes races atteints de pancréatite en France soit proche de 12%. Calculons maintenant l’intervalle à 95% de cette estimation de 12%. Il faut tout d’abord vérifier que l’on puisse effectuer ce calcul : n x > 5 et n x (1 - ) > 5. Ici, cela donne n x 0,12 = 6 et n x (1 – 0,12) = 43. Ces deux nombres sont > 5, donc on peut utiliser la formule de l’intervalle de confiance à 95% pour un pourcentage fournie ci-dessus : 0,12 +/- 1,96 x , , = 0,12 +/- 0,09 = [0,03 ; 0,21] Par conséquent, si l’estimation de 12% n’est pas biaisée, alors il y a 95% de chances pour que le taux de prévalence réel d’hyperkaliémie dans la population des chiens domestiques de toutes races atteints de pancréatite en France soit compris entre 3% et 21%. Prenons un deuxième exemple sur la même thématique. Supposons que l’on veuille estimer la moyenne du taux de potassium chez des chiens domestiques de toutes races atteints de pancréatite en France. Supposons que le taux de potassium suive une loi normale. Dans le même échantillon de 49 chiens que précédemment, on estime la moyenne du taux de potassium à 4,5 mmol/l, avec un écart-type dans l’échantillon de 1,8 mmol/l. On peut d’ores et déjà interpréter cette moyenne de 4,5 mmol/l : sous l’hypothèse que l’estimation de 4,5 ne soit pas biaisée par du biais d’estimation, alors il y a de grandes chances pour que la moyenne réelle du taux de potassium dans la population des chiens domestiques de toutes races atteints de pancréatite en France soit proche de 4,5 mmol/l. Calculons maintenant l’intervalle à 95% de cette estimation de 4,5. Il faut tout d’abord vérifier que l’on puisse effectuer ce calcul : n > 30 et l’on a supposé que le taux de potassium suivait une loi normale. Donc on peut utiliser la formule de l’intervalle de confiance à 95% , fournie ci-dessus : 4,5 +/- 1,96 x = 4,5 +/- 0,50 = [4,0 ; 5,0] √ Par conséquent, si l’estimation de la moyenne de 4,5 n’est pas biaisée, alors il y a 95% de chances pour que la moyenne réelle du taux de potassium dans la population des chiens domestiques de toutes races atteints de pancréatite en France soit comprise entre 4,0 et 5,0 mmol/l. 15 Excès de potassium dans le plasma sanguin : chez le chien, si le taux de potassium (kaliémie) est > 5,8 mmol/l. Bases en biostatistique – Loïc Desquilbet © – version v2.6 20/73 IV. JOUONS UN PEU AVANT DE PASSER AUX CHOSES SERIEUSES… A. Le jeu du sac de billes 1. Petit rappel de probabilité Si deux événements A et B sont indépendants, alors P(A ∩ B)16 = P(A) x P(B). Supposons maintenant un sac de billes contenant 70% de billes rouges et 30% de billes jaunes. Je tire au sort (tirage avec remise) 4 billes de ce sac (figure 5). Figure 5 - Tirage de billes rouges d'un sac de billes avec proportion connue Quelle est la probabilité que j’avais de tirer 4 billes rouges parmi 4 billes tirées au sort du sac de billes ? Réponse : 0,70 x 0,70 x 0,70 x 0,70 = 0,704 = 0,24 = 24%. Ok, pour l’instant, vous n’avez pas besoin d’en savoir davantage... Jouons maintenant ! 2. Le jeu proprement dit Supposons un autre sac de billes rouges et jaunes, rempli par Pierre, un ami17. Ce sac ne contient pas forcément 70% de billes rouges, puisque c’est Pierre qui l’a cette fois-ci rempli. Je tire au sort (tirage avec remise) 4 billes de ce sac (figure 6). Figure 6 - Tirage de billes rouges d'un sac de billes avec proportion inconnue Quelle est la probabilité que j’avais de tirer 4 billes rouges parmi 4 billes tirées au sort du sac de billes ? Réponse ici18. 16 Traduction en un langage plus chaste : « la probabilité que les événements A et B se produisent ». 17 Pierre n’est pas son vrai prénom, il a souhaité garder l’anonymat et m’a demandé de se faire appeler Pierre. 18 On ne peut pas savoir, car on ne connaît pas la proportion de billes rouges dans le sac ! Bases en biostatistique – Loïc Desquilbet © – version v2.6 21/73 Sauf que Pierre est parti vivre sur une île déserte, sans réseau 3G, E, H (ou je ne sais encore quelle autre lettre) bien entendu, donc impossible de le contacter pour savoir quelle est la proportion de billes rouges dans le sac19. Or, on veut avoir une idée de la proportion de billes rouges dans le sac ! Nous allons donc formuler plusieurs hypothèses. Première hypothèse, que je vais noter H30% : on fait l’hypothèse qu’il y a 30% de billes rouges dans le sac. Quelle est, sous cette hypothèse, la probabilité de tirer 4 billes rouges parmi les 4 tirées au sort ? Réponse : 0,304 = 0,008 = 0,8%. Deuxième hypothèse, que je vais noter H60% : on fait l’hypothèse qu’il y a 60% de billes rouges dans le sac. Quelle est, sous cette nouvelle hypothèse, la probabilité de tirer 4 billes rouges parmi les 4 tirées au sort ? Réponse : 0,604 = 0,13 = 13%. Troisième hypothèse, que je vais noter H90% : on fait l’hypothèse qu’il y a 90% de billes rouges dans le sac. Quelle est, sous cette dernière hypothèse, la probabilité de tirer 4 billes rouges parmi les 4 tirées au sort ? Réponse : 0,904 = 0,66 = 66%. Alors, selon vous, quelle est l’hypothèse la plus probable, concernant la proportion de billes rouges dans le sac de billes ? Qu’il y 30%, 60%, ou 90% de billes rouges ? Réponse ici20. Réponse à nouveau ici21. Pensez-vous que H30% soit vraie ? Réponse ici22. Pensez-vous que H90% soit vraie ? Réponse ici23. La morale de cette histoire, c’est que l’on peut arriver à avoir une idée de la proportion de billes rouges dans le sac, alors même que l’on ne saura jamais la vérité (elle est, comme vous le savez, ailleurs® – sur cette île déserte en l’occurrence). Pas mal, non ? Allez, on passe au jeu suivant… 19 De plus, et ne me demandez pas pourquoi, il n’est pas possible d’ouvrir ou de déchirer le sac de billes – cela restera ad vitam un mystère... 20 Non non, réfléchissez un peu, ne vous ruez pas comme ça sur la note de bas de page. Il est peut-être (très) tard, mais prenez votre temps. Ce temps que vous allez passer, là, c’est du temps de gagné pour la suite … 21 C’est l’hypothèse H90%. Pourquoi ? Car c’est sous cette hypothèse que l’on avait le plus de chances d’observer ce que l’on a effectivement observé ! C’est cette hypothèse qui est la plus compatible avec notre observation de 4 billes rouges parmi 4. 22 Non, on ne le pense pas. Car si H30% avait été vraie, il n’y aurait eu que 0,8% de chances d’observer ce que l’on a effectivement observé (4 billes rouges parmi 4) ! A moins d’avoir eu un coup de chance terrible, ce que l’on va toujours exclure dans le raisonnement stat’, H30% n’a donc quasiment aucune chance d’être vraie. On va donc affirmer qu’elle est fausse ! Si vous êtes persuadé(e)s que dans la vie, vous tombez toujours sur des choses improbables, alors je pense que vous devriez travailler sur votre mégalomanie ! 23 Si H90% avait été vraie, ce que l’on a observé aurait été fréquemment observable (66% de chances de l’observer). Donc notre observation est compatible avec l’hypothèse H90%. Cela ne veut pas dire qu’il y a de grandes chances (d’ailleurs, on ne peut pas du tout quantifier ces chances-là) pour que l’hypothèse H90% soit vraie, mais on peut en revanche dire « qu’il est possible » que l’hypothèse H90% soit vraie. On accepte donc cette hypothèse (à défaut de la rejeter) parce que l’on n’a pas la preuve du contraire, comme ça avait été le cas avec H30%. Bases en biostatistique – Loïc Desquilbet © – version v2.6 22/73 B. Le jeu du lancer de volant de Badminton 1. Remarques préalables Première remarque préalable, car sinon vous ne pourriez pas saisir la subtilité de ce jeu (cette remarque ne concerne cependant que ceux qui n’ont jamais joué au Badminton) : un volant de Badminton est extrêmement sensible aux perturbations météorologiques. Essayez en extérieur de lancer deux fois un volant de Badminton avec la même force de lancer et la même direction, et vous verrez qu’il ne va pas du tout atterrir au même endroit ! Deuxième remarque (qui est un rappel de connaissances a priori acquises au lycée) : si l’on connait la vitesse V0 et l’angle A0 d’un lancer de projectile, on peut déterminer la distance Datterrissage à laquelle il va atterrir en résolvant l’équation suivante (en faisant abstraction des frottements de l’air, bien entendu), après avoir exclu la solution Datterrissage = 0 : $%&''())* &+( , 1 0 = − . #. + %&''())* 2 - . $./ 0 , &+( . 234 0 Troisième remarque, je vais faire l’hypothèse que la « vitesse de lancer » et la « force de lancer » sont totalement proportionnelles. Ainsi, je vais écrire « vitesse de lancer » quand je parlerai des résultats de l’expérience, et de « force de lancer » pour interpréter plus facilement les résultats. Quatrième remarque. Ce n’est pas parce que je présente les choses sous forme de jeux qu’il faut lire cette partie-là en dilettante. Si vous ne jouez pas le jeu, à essayer notamment de répondre aux questions que je vous pose, vous aurez des risques de ne pas comprendre la partie suivante, qui là, n’est plus du tout rigolote. Vous voilà averti(e). Retour au jeu, avec le sourire 24… 2. Jean lance aussi fort que possible un volant de Badminton Imaginez que vous êtes sur des gradins, en plein air, mon ami Jean25 est à mes côté en bas des gradins. Il fait beau, une légère brise vous rafraîchit le visage, le prochain week-end d’astreinte est loin, vous êtes … bien. Vous ne connaissez pas Jean, mais ce que je peux vous dire sans trop vous donner d’éléments de réflexion dans ce qui va suivre, c’est que Jean est une personne en qui l’on ne peut pas avoir une totale confiance26… Je demande à Jean de lancer deux fois aussi fort que possible un volant de Badminton, avec un angle de 60°. Les résultats de ses deux lancers sont présentés sur la figure 7. 24 Je ne voulais pas plomber l’ambiance, désolé. 25 Même remarque que celle que j’avais faite pour Pierre et sa volonté d’anonymat. 26 Le débat sur la façon dont je choisis mes amis est, vous me le concèderez, hors de propos dans un document censé parler de biostatistique. Bases en biostatistique – Loïc Desquilbet © – version v2.6 23/73 La distance de 1er lancer = 4,98 m La distance de 2ème lancer = 4,83 m Figure 7 - Lancers de volant de Badminton de Jean Jean ne comprend pas bien pourquoi en lançant le volant avec la même force la 2ème fois, le volant a atterri 15 cm plus près… Vous souriez (oui, Jean n’est pas non plus un foudre de guerre intellectuellement parlant27) et vous lui dites qu’il a effectivement pu le lancer avec la stricte même force, mais que par malchance, il y a eu un léger coup de vent qui a un peu freiné le volant… En supposant que l’on ait le droit de calculer la moyenne de ces deux distances, on la calcule et on obtient : 4,91 m. Rassuré par votre explication, Jean vous dit fièrement « vous avez vu comme je l’ai lancé fort ? Je l’ai lancé à 80 km/h ! ». Je le regarde en souriant (c’est mon ami), je vous regarde et vous demande « alors, qu’en pensez-vous ? Vous le croyez ?28 » J’entends murmurer dans les gradins… Je n’ai pas d’ordinateur ni de vidéoprojecteur, donc je ne suis pas capable de lancer un sondage sur Poll Everywhere. Dommage. Je sens en revanche de votre part des doutes… La question est en effet : « est-il possible de lancer le volant à 4,91 m (en moyenne) avec une vitesse initiale de 80 km/h et avec un angle de 60° ? » Difficile de répondre comme ça… Je vais donc vous simplifiez la tâche. Si l’on résout l’équation ci-dessus, on obtient une distance théorique d’environ 50 m. Ahhh, là, maintenant, vous pouvez mieux répondre à la question ! Vous pouvez vous dire qu’il y a très peu de chances pour que Jean ait lancé le volant à 80 km/h, car sous l’hypothèse que le volant ait été lancé à 80 km/h avec un angle de 60°, le volant aurait dû théoriquement tomber autour de 50 m ; il y aurait donc eu très très peu de chances de le voir atterrir aux environs de 4,9 m ! Cette hypothèse a de très fortes chances d’être fausse, car si elle avait été vraie, le volant n’aurait quasiment eu aucune chance d’arriver 4,9 m plus loin ! Vous ne croyez donc pas Jean. Jean se rend compte qu’il a été un peu trop prétentieux. Il vous dit, un peu en rougissant, « non non, ok, j’avoue, je n’ai pas lancé le volant aussi fort que ça, je l’ai lancé à … 30 km/h ». Là encore, vous ne pouvez pas savoir s’il peut ou non avoir raison, pour la même raison que tout à l’heure. Je vous donne maintenant l’information : théoriquement, l’objet aurait atterri à environ 7 m. Alors là, vous êtes plus sceptique que tout à l’heure, quand je vous avais annoncé 50 m. Car cette fois-ci, il est tout à fait possible qu’un coup de vent ait suffisamment freiné le volant de telle façon à ce qu’il atterrisse un peu avant 7 m – en l’occurrence à 4,83 et 4,98 m. Donc, vous ne pouvez plus rejeter son affirmation « j’ai lancé le volant à 30 km/h » avec autant que de véhémence que tout à l’heure ! Vous n’avez désormais plus de preuve que Jean est encore en train de vous raconter des bêtises. Vous allez donc, par défaut, accepter ce qu’il vous dit, autrement dit accepter « l’hypothèse qu’il a 27 Cf. la précédente note de bas de page, d’accord ? 28 Autant vous n’avez pas vu la vitesse de lancer du haut des gradins, autant vous avez pu voir qu’il avait lancé le volant, les deux fois, à 60° – il n’est quand même pas si nul, mon ami Jean… Bases en biostatistique – Loïc Desquilbet © – version v2.6 24/73 lancé le volant à 30 km/h », parce que vous n’avez pas de fortes raisons de penser que cette hypothèse est fausse. 3. Jacques pense lancer le volant plus fort que Jean Tout d’un coup, vous entendez l’un d’entre vous, Jacques pour ne pas le nommer, s’écrier « Haha, 30 km/h, mais c’est ridicule ! Moi, avec mon super entrainement d’athlète, je peux vous affirmer que je lance le volant bien plus fort ! » Il n’en faut pas plus pour que je le mette au défi. « Descendez des gradins, s’il vous plait, et prouvez-nous ça ! » Jacques se rue sur le volant qui trainait par terre, s’apprête à lancer le volant, … … … mais le temps se fige. Je m’adresse à vous. Vous qui lisez ce document29. Imaginez, imaginez que Jacques lance le volant avec exactement la même force que Jean (et avec le même angle de 60°), est-ce que vous pensez que vous allez observer que la moyenne de ses deux lancers (parce que bien évidemment, je vais replacer Jacques dans les mêmes conditions expérimentales que Jean) va être pile égale à celle de Jean, à savoir 4,91 m ?30 Réponse ici31. … Mais alors, à partir de quelles valeurs de la moyenne des lancers de Jacques vous allez être persuadé(e) que la différence qui sera observée ne sera pas due aux conditions météos, mais plutôt due à une vraie différence de force de lancer de la part de Jacques ? 4,91 m +/- 20 cm ? 4,91 m +/- 50 cm ? Réponse ici32. La question était très importante : quel est l’impact d’une telle réponse ?... Je reprends le raisonnement. Si Jacques et Jean lancent le volant avec exactement la même force (et le même angle), vous accepteriez le fait que l’on ne va pas observer deux moyennes strictement identiques, parce que les conditions météo peuvent influencer la distance de lancer de Jacques. Mais cette « tolérance » que vous octroyez ne va pas au-delà de +/- 30 cm. Permettez-moi donc d’appeler cette zone ([4,61 – 5,21]33) une zone de « tolérance ». C’est-à-dire que l’on va tolérer que, compte tenu des conditions météo, deux moyennes observées vont être voisines et incluses dans cette zone de tolérance si elles sont égales en toute théorie, et qu’il va falloir attendre qu’elles ne soient vraiment plus voisines (c’est-à-dire, être en dehors de la zone de tolérance) pour vraiment croire que les deux vitesses de lancer sont vraiment différente. Ok avec tout ça ? Ok34. Je demande à Jacques de lancer deux fois le volant aussi fort que possible, et avec un angle de 60°. Voici les résultats de ses deux lancers : 29 Ca y est, on passe de l’autre côté du miroir… (Je ne veux en effet pas que Jacques entende toute la conversation que nous allons avoir, vous et moi.) (Cf. ici : https://fr.wikipedia.org/wiki/De_l'autre_c%C3%B4t%C3%A9_du_miroir) 30 Je vous invite à relire cette question, pour être sûr(e) que vous l’avez bien saisie. 31 Après avoir relu une seconde fois ma question, j’imagine votre réponse ainsi : « non, pas pile ! Il peut y avoir des coups de vent qui peuvent modifier un peu la trajectoire du volant, bien que lancé avec la même force et avec le même angle. » Et là je vous réponds : « excellente réponse ! Mais …….. » 32 Là, je vous imagine songeur/euse… Vous vous souvenez alors de la différence entre les deux lancers de Jean, tout à l’heure… Une différence de 15 cm, alors qu’il avait lancé le volant avec la même force… il y avait eu effectivement un peu de vent… Vous réfléchissez un peu, puis vous me répondez « +/- 30 cm », car vous vous dites « quand même, il va bien falloir une différence d’au moins 30 cm pour vraiment penser que la différence ne va pas être due au vent ! ». 33 4,91 m - 30 cm ; 4,91 m + 30 cm. 34 Je repasse alors de l’autre côté du miroir, et m’adresse à nouveau à Jacques, qui n’a absolument rien suivi de notre conversation, puisqu’étant de l’autre côté du miroir… Bases en biostatistique – Loïc Desquilbet © – version v2.6 25/73 Oups, j’ai oublié de vous dire, nous allons pendant quelques minutes imaginer deux espacestemps parallèles35. Un espace-temps n°1, et un espace-temps n°2. Dans la théorie de la physique quantique, ces espaces-temps sont totalement parallèles, de sorte que ce qu’il s’y passe dans l’un est totalement et purement indépendant de ce qu’il se passe dans l’autre. C’est exactement ce que je vais vous demander de faire : de dédoubler votre raisonnement, en ne laissant aucune porosité entre les deux raisonnements. 35 Pour davantage d’explications sur ces conditions d’expériences qui peuvent vous paraître totalement inapplicables, cf. ici : https://fr.wikipedia.org/wiki/Chat_de_Schr%C3%B6dinger. Dans la mesure où, en plus, j’ai rajouté la notion de miroir, cela fait donc deux fois deux espaces-temps… C’est bon ? Vous suivez ? Bases en biostatistique – Loïc Desquilbet © – version v2.6 26/73 Espace-temps n°1 Espace-temps n°2 Figure 8 - Lancers de Jacques dans l'espace-temps n°1 Figure 9 - Lancers de Jacques dans l'espace-temps n°2 La distance moyenne des deux lancers est égale à 5,26 m. Jacques vous lance un regard de fierté absolue. Cette moyenne est à l’extérieure de la zone de tolérance qui était de [4,61 – 5,21]. Et vous aviez anticipé le fait que si la moyenne que vous alliez observer allait être à l’extérieur de la zone de tolérance, alors vous vous accorderiez le fait de fermement croire que la force de lancer de Jacques serait vraiment différente de celle de Jean. C’est ce qu’il vient de se passer. La réaction de Jacques vous ennuie par sa prétention, mais il a réussi son coup. Il vous a apporté des preuves fortes que sa force de lancer est différente de celle de Jean. Cela ne veut pas dire que Jacques lance le volant avec une force différente (le vent a pu tout à fait être de la partie de jeu), cela veut dire qu’il y a cependant de fortes raisons de le penser. La distance moyenne des deux lancers est égale à 5,16 m. Jacques vous lance un regard de fierté absolue. Sauf que cette moyenne est comprise dans la zone de tolérance qui était de [4,61 – 5,21]. Et je vous rappelle la chose suivante : vous aviez considéré que pour fortement croire que les deux moyennes soient réellement différentes, il aurait fallu que la moyenne de lancer de Jacques soit à l’extérieur de la zone de tolérance. Là, vous observez que la moyenne des deux lancers de Jacques est incluse dans cette zone de tolérance… Ce que vous venez d’observer est compatible avec le fait que Jacques lance le volant avec la même force que Jean (c’est-à-dire compatible avec le fait que cette différence observée ne provienne que des conditions météo), parce que l’observation ne vous apporte pas la preuve que les forces de lancer sont différentes. Cela ne veut pas dire que Jacques lance le volant avec la même force, mais cela veut dire que cette possibilité est tout à fait envisageable, au regard de ce qu’il vient de se produire. Vous allez donc devoir accepter le fait que Jacques lance le volant avec la même force que Jean, à défaut d’avoir des preuves suffisantes qu’il le lance avec une force différente. Bases en biostatistique – Loïc Desquilbet © – version v2.6 27/73 Imaginons maintenant qu’au moment où Jacques commençait à faire le geste de lancer, vous (et moi de même) étiez restés du même côté du miroir que Jacques, c’est-à-dire que le temps ne se serait pas figé et que je ne vous aurais pas posé la question de la zone de tolérance. Que se serait-il passé ? Les deux mêmes espaces-temps se seraient quand même produits, ainsi que les deux mêmes observations en parallèles. Première observation, une moyenne de 5,26 m, et une seconde de 5,16 m. Qu’auriez-vous conclu quant au fait de savoir si Jacques, dans ces deux espaces-temps bien distincts, avait lancé le volant avec la même force que Jean ? Qu’auriez-vous pu conclure, après avoir observé le résultat de l’expérience ? Rien. Ah, si, finalement (et malheureusement). Vous auriez peut-être conclu « j’observe une différence entre les deux moyennes, donc il existe une réelle différence ». Et le vent dans tout ça ? Pff, vous n’y auriez probablement même pas pensé. Ou bien refoulé illico. C’est trop tentant d’affirmer qu’il existe une différence réelle quand on observe (dans la deuxième situation) une différence aussi grande que 5,16 – 4,91 m (plus de 20 cm) ! Oui, car après avoir observé les choses se produire, il devient impossible de raisonner … ob-jec-tive-ment. C’est trop tard. Vous auriez très probablement été influencé(e) par votre observation. Ce que je viens de vous dire, là, est on ne peut plus fondamental dans le raisonnement en statistique : une interprétation des résultats a posteriori n’a pas la même valeur36 qu’une anticipation d’un résultat. L’anticipation garantit a priori l’objectivité de la conclusion, alors qu’un résultat a posteriori empêche d’exclure la subjectivité de la conclusion. Dans certaines situations, cette subjectivité est indispensable au raisonnement scientifique. Mais pas en stat’. Maintenant, cher/chère lecteur/trice, fusionnons ces espaces-temps, et faisons s’évanouir ce miroir37. 36 Je ne juge pas cette valeur, soyons bien clairs là-dessus. 37 Autrement dit, sortez doucement de ce rêve – car oui, vous étiez en train de rêver… Le réveil va être douloureux, car nous allons maintenant arrêter de jouer, et passer aux choses sérieuses… Bases en biostatistique – Loïc Desquilbet © – version v2.6 28/73 V. LA THEORIE DES TESTS STATISTIQUE A. Définition du « test statistique » C’est un outil standardisé, objectif, qui permet de prendre la décision de dire si oui ou non, les populations étudiées sont très vraisemblablement différentes sur l’indicateur étudié. B. Quand faire et quand ne pas faire de tests statistiques ? Quand est-ce que l’on doit utiliser, comme outil, un test statistique ? Réponse : quand on souhaite montrer, avec conviction, que deux (ou plus) populations diffèrent sur un indicateur donné (une moyenne, un pourcentage, etc.). J’insiste sur l’assertion complémentaire : quand on ne souhaite pas montrer, avec conviction, que deux (ou plus) populations diffèrent sur un indicateur donné, on n’utilise pas de test statistique. Par exemple, utiliser un test statistique (comme nombre de personnes le font) pour montrer que dans l’échantillon, une hypothèse est (ou n’est pas) vérifiée n’est pas justifié. Certaines personnes ont l’impression que plus elles font de tests statistiques dans leur étude, et plus leur étude est pertinente : c’est tout simplement faux. C. La « double » fluctuation d’échantillonnage Nous avons vu dans la partie III que, sous l’hypothèse d’absence de biais d’estimation, une estimation dans un échantillon, a « de grandes chances d’être proche de la valeur de l’indicateur dans la population cible ». Vous êtes donc sensibilisé(e) au fait que ce que l’on peut observer dans un échantillon peut être loin de la réalité. J’étends maintenant cette notion-là à deux échantillons. Et l’occurrence, la différence que l’on peut observer entre deux indicateurs estimés dans deux échantillons issus de deux populations que l’on souhaite comparer (donc tous les deux soumis à de la fluctuation d’échantillonnage) peut être très éloignée de la réelle différence sur cet indicateur entre ces deux populations – d’où la « double » fluctuation d’échantillonnage : une par échantillon. Supposons qu’un indicateur (la moyenne de la production laitière par exemple) dans la population A vaille θA et que cet indicateur dans la population B vaille θB. Soit Δ = θA – θB. Imaginons maintenant que l’on tire au sort n couples d’échantillons que l’on extrait des deux populations A et B (figure 10). Bases en biostatistique – Loïc Desquilbet © – version v2.6 29/73 Figure 10 - Illustration théorique de la double fluctuation d'échantillonnage À partir de ces n couples d’échantillons, il faut imaginer que l’on va calculer n différences observées entre les deux indicateurs estimés dans chacun des échantillons (dobs 1, dobs 2, …, dobs n ; figure 10). Ces différences observées sont toutes différentes (à cause de la double fluctuation d’échantillonnage), mais elles ont quand même de grandes chances d’être proches de la vraie différence Δ, puisque chacun des couples d’échantillons est tiré au sort des populations A et B qui, elles, différent de Δ sur l’indicateur. Toutes ces différences observées (et théoriques) sont distribuées de la façon présentée sur la figure 11 (chaque tiret vertical représente une dobs parmi les n). Figure 11 - Distribution des différences théoriquement observées Maintenant, cessons d’être 200% théorique, et redescendons un peu sur Terre. En pratique, on ne tire au sort bien évidemment jamais n couples d’échantillons ! On n’en tire qu’un seul (de couple). On n’observe donc en pratique qu’une seule différence observée. Je vais donc définir l’ensemble ci-dessus dont la distribution ressemblait (à juste titre) à une loi de Gauss : il s’agit de l’ensemble des différences observables sous l’hypothèse qu’en vrai, la réelle différence sur θ entre la population A (θA) et la population B (θB) est égale à Δ (Δ = θA - θB). Bases en biostatistique – Loïc Desquilbet © – version v2.6 30/73 D. Problématique Faisons l’hypothèse qu’en vrai il existe une réelle différence ∆, entre θA et θB, égale à 5. Vous avez sur la figure 12 l’ensemble des différences observables sous cette hypothèse. Il est tout à fait possible d’observer une différence égale à 3,5 sous l’hypothèse que la différence réelle = 5 (le hasard a pu avoir un peu décalé la différence vers la gauche, de 1,5 en l’occurrence). Figure 12 - Distribution des différences théoriquement observées centrée sur ∆ = 5 Faisons maintenant l’hypothèse qu’en vrai il n’existe aucune réelle différence entre θA et θB, c’est-à-dire que ∆=0. Vous avez sur la figure 13 l’ensemble des différences observables sous cette nouvelle hypothèse. Sous cette nouvelle hypothèse (différence réelle nulle), il reste tout à fait possible d’observer une différence égale à 3,5 (par le simple et unique fait du hasard). Figure 13 - Distribution des différences théoriquement observées centrée sur 0 La problématique est la suivante. Vous ne savez bien évidemment pas du tout si, en vrai, il existe ou non une réelle différence entre les deux indicateurs θA et θB dans chacune des deux populations A et B, et vous voulez absolument le savoir ! Supposons que vous observiez à partir de vos deux sous-échantillons (issus des deux populations A et B) une différence égale à 3,5. Puisqu’observer « 3,5 » peut tout à fait être observable sous l’hypothèse qu’il existe une réelle différence (figure 12) tout comme sous l’hypothèse qu’il n’existe pas de réelle différence (figure 13), votre seule observation de « 3,5 » ne vous permet donc pas de savoir s’il existe ou non une réelle différence, puisque cette observation était observable sous les deux hypothèses ! La question que l’on se pose donc est la suivante : la différence de « 3,5 » que j’observe me laisse-t-elle fortement penser au fait qu’il existe une réelle différence dans la population, ou bien me laisse-t-elle penser au fait qu’il n’existe pas de réelle différence ? Bases en biostatistique – Loïc Desquilbet © – version v2.6 31/73 Le test statistique répond à cette question ! Le test statistique prend en compte le fait que ce que vous avez observé peut avoir été coloré un peu, beaucoup, voire même passionnément par l’hasardeuse couche de peinture dont j’avais parlé au tout début de ce document (le Hasard) ! E. Retour sur les lancers de Jean et de Jacques, et analogie Rappelez-moi, s’il vous plait, ce qui vous avait permis de croire (ou pas) que Jacques avait très certainement lancé le volant à une vitesse différente de Jean, sachant que le vent a été de la partie, mais sans savoir dans quelle mesure ? Vous aviez fixé une zone de tolérance qui était telle que si la moyenne des distances des deux lancers de Jacques avait été à l’extérieur de cette zone, vous auriez fortement cru au fait que Jacques avait lancé le volant avec une force différente. Par quel raisonnement ? Je le rappelle. Vous vous étiez dit38 : « si Jacques avait lancé le volant avec la même force que Jean, les moyennes n’auraient cependant pas été identiques, car le vent aurait de toute façon fait varier les distances. Donc nous allons fixer une zone à l’intérieur de laquelle la moyenne de Jacques peut être considérée comme égale à celle de Jean en théorie mais différente en pratique à cause du vent. Si en revanche la moyenne de Jacques est à l’extérieur de la zone de tolérance, alors on ne pourra plus croire que ce n’est que le vent qui a conduit à une différence de moyennes aussi importante, et l’on croira alors que la force de lancer de Jacques est vraiment différente de celle de Jean. » Et bien voilà, il est là, le principe de tous les tests statistiques ! Il faut fixer une zone de tolérance, qui est telle que lorsque l’on observe une différence à l’extérieur de cette zone, on peut fortement penser que cette différence observée provient d’une réelle différence, et lorsque l’on observe une différence à l’intérieur de cette zone, sans pouvoir affirmer qu’il n’y a pas de différence réelle, on peut du moins accepter cette hypothèse (comme on avait accepté le fait que Jacques avait lancé le volant avec la même force que Jean, dans l’espacetemps n°2). Que signifie cette zone de tolérance ? C’est39 la zone qui est telle que l’on peut observer des différences incluses dans cette zone sans pour autant penser qu’il existe une différence réelle, car on sait que le vent (oups, pardon, le hasard) en étant de la partie, et fait varier les observations par rapport à ce qui aurait dû être théoriquement observé ! F. Les tests statistiques sont des tests d’hypothèse assortis de risques d’erreur 1. Les hypothèses nulle et alternative De façon générale, l’hypothèse nulle (H0) est l’hypothèse que l’on souhaite rejeter avec force, pour affirmer son alternative avec force. Par exemple, si l’on souhaite montrer avec force qu’un traitement A est vraiment différent d’un traitement B quant à ses effets indésirables, l’hypothèse nulle sera « les deux traitements sont égaux en termes de proportion d’effets indésirables ». Si maintenant on souhaite montrer avec force qu’un traitement A provoque des effets indésirables dans les mêmes proportions qu’un traitement B, l’hypothèse nulle sera « les deux traitements provoquent des effets indésirables dans des 38 Ok, je vous avais un peu aidés… 39 Je le répète, mais je ne suis pas sûr que ce soit de trop ! Bases en biostatistique – Loïc Desquilbet © – version v2.6 32/73 proportions différentes ». Dans la très grande majorité des études cliniques ou épidémiologiques avec tests statistiques, les auteurs souhaitent montrer avec force des différences, donc dans la très grande majorité des études, H0 pose l’égalité des indicateurs à comparer. Dans toute la suite de ce document, je ne traiterai que ce type de cas de figure40. L’hypothèse nulle H0 porte sur les populations cibles A et B que l’on compare à l’aide d’échantillons. En math’, H0 s’écrit : θA = θB. En français, elle s’écrit : « la valeur réelle de l’indicateur dans la population A (θA) est égale à la valeur réelle de l’indicateur dans la population B (θB) ». J’expliquerai bien entendu dans la suite de ce document pourquoi on ne peut que rejeter avec force H0 et pourquoi on ne peut donc pas non plus accepter avec force H0. Cette notion est l’une des (sinon la) plus importantes notions à avoir acquises en tant que (futur) vétérinaire qui va lire un article scientifique rapportant des résultats issus de tests statistiques. Dans la très grande majorité des études, l’hypothèse alternative H1 est l’hypothèse selon laquelle « la valeur réelle de l’indicateur dans la population A (θA) est différente de la valeur réelle de l’indicateur dans la population B (θB) ». Soit en math’ : θA ≠ θB. Quand on rejette H0, on accepte H1, et vice-versa. H1 peut aussi s’écrire H∆ en faisant l’hypothèse que |θA – θB| = ∆ ≠ 0. 2. Accepter ou rejeter l’hypothèse nulle ? Que signifie « accepter H0 » ? Cela signifie « accepter le fait que la valeur réelle de l’indicateur dans la population A (θA) soit égale à la valeur réelle de l’indicateur dans la population B (θB) ». Rejeter H0 est donc tout simplement l’inverse, c’est-à-dire, « rejeter le fait que la valeur réelle de l’indicateur dans la population A (θA) soit égale à la valeur réelle de l’indicateur dans la population B (θB) ». Le « rejet » est quelque chose en français de plus fort que l’acceptation. Cette différence sémantique est analogue en stat’. C’est pour cette raison que je ne vais jamais utiliser H1 dans les interprétations. Car en stat’, rejeter H0, c’est affirmer H1, bien plus que simplement accepter H1. Ainsi, rejeter H0, c’est « affirmer le fait que la valeur réelle de l’indicateur dans la population A (θA) soit différente de la valeur réelle de l’indicateur dans la population B (θB) ». Revenons41 à l’exemple du lancer de volant. Une fois que Jean avait lancé son volant, Jacques s’était levé dans les gradins et avait affirmé qu’il lançait le volant plus fort que Jean. Je lui avais demandé de me le prouver. Prouver que sa force de lancer était donc différente. S’il arrivait à me (nous) le prouver, alors il aurait le droit d’affirmer que sa force de lancer était différente (tout en étant supérieure). Jacques veut montrer avec force que sa vitesse de lancer est différente ? Très bien, il va nous le prouver par … un test statistique ! L’hypothèse nulle H0 de ce test statistique que l’on avait fait sans vous en être rendu compte était : Jacques et Jean lancent le volant avec la même vitesse de lancer42 : vitJacques = vitJean, 40 L’autre cas de figure où l’on souhaite montrer avec force l’égalité de deux indicateurs entre deux populations fait référence aux « essais cliniques d’équivalence » ou aux « essais cliniques de non infériorité ». 41 Et je ne vais pas cesser de le faire ! 42 Rappelez-vous ce que je vous avais dit dès le début de ce document : considérez que « vitesse de lancer » est égale à « force de lancer ». Bases en biostatistique – Loïc Desquilbet © – version v2.6 33/73 où « vit » est la vitesse (force) intrinsèque des deux individus, la vitesse théorique, réelle. Nous n’avons pas mesuré les vitesses, mais nous avons mesuré les distances. Or, à angle de lancer constant (60°), si les deux vitesses de lancer sont égales, alors les deux distances de lancers le sont aussi. Il va maintenant falloir être (encore) un peu imaginatif, en l’occurrence imaginer que la population A, c’est la population des millions de distances de lancers de Jacques, et que μJacques est la moyenne de ces millions de distances. Même chose pour Jean, avec μJean. H0 devient donc : μJacques = μJean. Ce qui avait permis à Jacques de nous prouver qu’il avait lancé le volant avec une force différente de celle de Jean s’était produit dans l’espace-temps n°1 : la moyenne observée des deux distances de lancer avait été à l’extérieur de la zone de tolérance fixée par vous. Dans les tests statistiques, qu’est-ce que cette « zone de tolérance » ? Cette zone est l’ensemble des différences fréquemment observables lorsque H0 est vraie. De la même façon que la zone de tolérance que vous aviez fixée était la zone dans laquelle il était tout à fait concevable d’observer la moyenne des distances de lancers de Jacques en faisant l’hypothèse que Jacques lance le volant avec la même force que Jean (à cause du vent qui peut conduire à observer des différences de moyennes alors qu’en vrai, elles sont égales). La figure 14 ci-dessous dresse la distribution théorique de l’ensemble des différences observables entre les deux indicateurs estimés dans les deux sous-échantillons issus des deux populations A et B lorsqu’il n’existe aucune différence réelle sur θ entre les populations A et B (c’est-à-dire, lorsque H0 est vraie)43. Cette figure nous montre que, lorsque H0 est vraie, il est fréquent d’observer malgré tout une différence44 entre les deux indicateurs estimés dans les deux sous-échantillons comprise entre -d1 et +d1 (aire hachurée relativement importante) : Figure 14 - Ensemble des distributions observables sous l'hypothèse d'absence de réelle différence Par conséquent (et l’on revient dans le monde pratique), cela signifie que si vous observez une différence dobs comprise entre -d1 et +d1, cela veut dire que ce que vous avez observé fait partie d’un ensemble45 fréquemment observable lorsque H0 est vraie. Ainsi, en observant dobs, votre observation est compatible avec le fait que H0 soit vraie – mais cela ne veut bien entendu pas dire que H0 est vraie (ça, on n’en sait absolument rien). 43 Si cette phrase est pour vous incompréhensible, revenez aux figures 10 et 11 44 A cause de la fluctuation d’échantillonnage 45 L’ensemble hachuré sur la Figure 14 Bases en biostatistique – Loïc Desquilbet © – version v2.6 34/73 La conséquence directe de ce que je viens d’écrire est la suivante : si vous observez une différence dobs telle que |dobs| est supérieure à +d1, cela veut dire que ce que vous avez observé fait partie d’un ensemble rarement observable lorsque H0 est vraie. Et si vous observez quelque chose de rare lorsque H0 est vraie, c’est qu’il y a de grandes chances que H0 soit fausse46. En pratique, un ensemble d’événements « rarement observables » sous une hypothèse est un ensemble d’événements qui s’observent dans α% des cas sous cette hypothèse, avec α faible. La figure 14 devient la figure 15, « d1 » devient dα/2, l’aire hachurée vaut 1 - α, l’aire à gauche de -dα/2 vaut α/2 et l’aire à droite de +d2,5% vaut α/2. Figure 15 - Figure 14 en quantifiant par α l'aire sous la courbe Dans notre cas de la figure 15, si l’on tirait au sort 100 couples d’échantillons issus des deux populations A et B comparées qui ne diffèrent pas sur θ (∆=0), et si l’on calculait dans chacun de ces 100 couples la différence entre les deux indicateurs estimés, α différences sur les 100 calculées seraient, en valeur absolue, supérieures à +dα/247. En pratique, α est quasiment toujours fixé à 5% (cf. figure 16). Ainsi, si vous observez une différence dobs supérieure, en valeur absolue, à +d2,5%, vous allez pouvoir affirmer que H0 est fausse, car ce que vous avez observé fait partie des événements rarement observables sous H0. Si maintenant vous observez une différence dobs inférieure, en valeur absolue, à +d2,5% vous allez devoir accepter que H0 est vraie, à défaut de pouvoir la rejeter, car ce que vous avez observé fait partie des événements non rarement observables sous H0 ; votre observation est compatible avec H0. Et là, vous retrouvez toute la démarche que nous avions suivie pour savoir si Jacques avait raison lorsqu’il affirmait qu’il lançait le volant plus fort que Jean (figure 8 et figure 9). 46 Un conseil, si vous venez de décrocher, relisez le jeu du sac de billes… 47 Au cas où vous vous poseriez la question de savoir s’il faut relire cette phrase, la réponse est sans aucun doute « oui » : elle va vous permettre de comprendre la suite… Bases en biostatistique – Loïc Desquilbet © – version v2.6 35/73 Figure 16 - Figure 14 en quantifiant par α=5% l'aire sous la courbe 3. Le risque d’erreur de 1ère espèce (erreur de type I) Le risque d’erreur de 1ère espèce (aussi appelé « risque d’erreur de type I ») est noté α48, fixé à 5%. Comme vous pouvez le voir dans la figure 16, lorsque H0 est vraie, il est possible d’observer une différence supérieure, en valeur absolue, à d2,5%49. C’est rare, certes, mais c’est possible. Donc, quand on rejette H0, on commet potentiellement une erreur. Cette erreur est faible, car lorsque H0 est vraie, rejeter à tort H0 n’arrive que dans 5% des cas. La définition du risque d’erreur de 1ère espèce α est la suivante : « c’est la probabilité de rejeter à tort H0 »50. C’est parce que cette erreur est faible que l’on peut être convaincu lorsque l’on affirme que H0 est fausse. Vous vous souvenez, dans l’espace-temps n°1 (figure 8), Jacques vous avait prouvé qu’il avait lancé le volant avec une force différente de celle de Jean, car la moyenne de ses deux lancers était hors zone de tolérance. Il vous avait apporté les « preuves » qu’il fallait. C’est vrai qu’il aurait pu y avoir un (ou deux) fort(s) coup(s) de vent pile aux moments où il avait lancé le volant. On n’est donc pas certain à 100% que Jacques lance le volant plus fort que Jean. Cette erreur est consentie, et fait référence à l’erreur de 1ère espèce α. Relisez maintenant ce que j’ai écrit à la fin de la partie IV.B.3, juste après avoir présenté ce qu’il se passait dans les deux espaces-temps. (…) Ce que j’avais écrit est fondamental : on doit toujours définir la zone de tolérance avant d’avoir regardé les résultats. L’analogie ici est la suivante. Les valeurs seuil qui permettent de rejeter H0, –dα/2 et +dα/2, dépendent de la valeur risque d’erreur α. Donc, il faut toujours s’être fixé la valeur de α avant de regarder les résultats. (Ça tombe bien, dans 99,9% des études cliniques – très probablement 100% –, le risque d’erreur α est égal à 5%, donc il sera très difficile de prouver qu’un choix de votre part d’une valeur de α autre que 5% n’a pas été guidé par vos résultats !) 48 Oui oui, le même α dont j’ai parlé juste au-dessus !... 49 Par conséquent par le seul fait du hasard, puisque H0 est vraie (en effet, si H0 est vraie, la seule raison d’observer une différence est que le hasard s’est manifesté). 50 ère Ce que je vais écrire maintenant n’est pas au programme de 1 année. Quand vous, vous rejetez H0, vous ne commettez pas une erreur de α=5%. Car vous ne savez pas si vous rejetez à tort H0 (vous ne savez pas si en vrai, H0 est vraie ou fausse). Vous savez simplement que si H0 avait été vraie, vous auriez fait ce que vous êtes en train de faire (rejeter H0) dans 5% des cas. Bases en biostatistique – Loïc Desquilbet © – version v2.6 36/73 4. Le risque d’erreur de 2ème espèce (erreur de type II) Je vais commencer par reparler du lancer de volant. Dans l’espace-temps n°2 (figure 9), Jacques n’avait pas réussi à nous prouver qu’il lançait le volant avec une force différente de celle de Jean. Pourquoi ? Parce que la moyenne de ses deux lancers (5,16 m) avait « atterri » dans la zone de tolérance [4,61 – 5,21], ce qui avait impliqué par conséquent que l’observation de cette moyenne de lancer était compatible avec le fait que Jacques lançait le volant avec la même force que Jean. Nous avions donc décidé d’accepter le fait que Jacques lance probablement le volant avec la même force que Jean, à défaut d’avoir des preuves suffisantes qu’il le lance à une vitesse différente. Vous vous rendez évidemment compte que l’on peut commettre une erreur, en décidant cela. Car il se peut tout à fait que cette différence de moyenne de distances de lancer soit due à une vraie différence51. Revenons à la comparaison des deux populations A et B. Partons maintenant du principe qu’il existe une réelle différence ∆ > 0 sur θ entre les deux populations (θA – θB = ∆ > 0). On part donc du principe que l’hypothèse H∆ est vraie. La figure 17 ci-dessous dresse la distribution théorique de l’ensemble des différences observables entre les deux indicateurs estimés dans les deux sous-échantillons issus des deux populations A et B, sous H∆. Figure 17 - Ensemble des distributions observables sous l'hypothèse de présence d'une réelle différence Maintenant, question : est-il possible, alors que H∆ est vraie, que la différence que l’on observe nous fasse dire que H0 est vraie (donc dire que H∆ est fausse) ? Autrement dit, est-il possible que la différence observée nous fasse dire à tort que H0 est vraie ? Avant de répondre à cette question, petit rappel. Quand est-ce qu’une différence observée nous fait dire que H0 est vraie ? Lorsque la différence observée fait partie d’un ensemble de différences fréquemment observables lorsque H0 est vraie. Quand est-ce que la différence observée fait partie de cet ensemble ? Lorsqu’elle est comprise entre -d2,5% et +d2,5%. Donc, je repose la question autrement : est-il possible d’observer une différence comprise entre d2,5% et +d2,5% lorsque H∆ est vraie ? Oui ! Et c’est l’ensemble en trait plein rouge sur la figure 18. 51 Sous-entendu, Jacques et Jean lance le volant avec une force différente. Bases en biostatistique – Loïc Desquilbet © – version v2.6 37/73 Figure 18 - Ensemble des différences observables conduisant à accepter H0 Est-ce que cela arrive souvent de dire que H0 est vraie, alors qu’en vrai, elle est fausse ?52 Réponse : c’est l’aire hachurée sous le trait rouge de la figure 18 (cf. figure 19). Donc, dans le cas de la figure 19, oui, c’est un phénomène fréquent, car l’aire hachurée est bien supérieure à 50%. Interprétons cette aire hachurée. Si en vrai, il existe une réelle différence ∆ entre les deux indicateurs réels dans les populations A et B, il sera malgré tout fréquent de dire qu’il n’existe pas de réelle différence (puisque l’on dira que H0 est vraie). Cette erreur dans la conclusion fait référence à l’erreur de 2ème espèce, notée β. Et en l’occurrence, β est l’aire hachurée sous le trait rouge sur la figure 19 : c’est la probabilité d’accepter à tort H0. Figure 19 - Représentation graphique du risque d'erreur β Je voudrais maintenant faire deux remarques. Premièrement, les valeurs de -d2,5% et +d2,5% ne dépendent pas de la valeur de la différence réelle Δ53 : tout le raisonnement que vous aviez tenu au moment où je vous avais demandé de fournir la zone de tolérance pour le lancer de volant ne se basait absolument pas sur l’hypothèse selon laquelle Jacques et Jean avaient des forces de lancer différentes, n’est-ce pas ?! Au contraire, le raisonnement se basait uniquement sur l’hypothèse selon laquelle ils avaient tous les deux la même force de lancer. Deuxièmement, l’aire hachurée (β, donc) dépend de la valeur de ∆ : plus ∆ augmente (en valeur absolue), plus cette aire diminue (cf. figure 19 & figure 20 ; la place du « 0 », de d2,5%, et +d2,5% n’ont bien entendu pas changé entre les deux figures). 52 Non non, ce n’est pas une blague, cette question ! Je suis on ne peut plus sérieux. 53 on verra plus tard comment calculer ces valeurs de -d2,5% et +d2,5%. Bases en biostatistique – Loïc Desquilbet © – version v2.6 38/73 Figure 20 - Figure 19 avec ∆ qui a augmenté Par conséquent, lorsque l’on accepte H0, on commet potentiellement une erreur. Cette erreur dépend de la valeur de la différence réelle ∆, qui est inconnue. Par conséquent, l’erreur β est in-con-nue. Le corollaire, excessivement important pour un vétérinaire (tout comme pour un médecin en médecine humaine) qui souhaite se mettre à jour dans ses connaissances en lisant des articles scientifiques, est le suivant : lorsque l’on accepte H0, il est interdit d’être convaincu que H0 est vraie. Il est interdit de penser que l’on a réussi à prouver que les deux indicateurs θA et θB sont égaux en vrai. Le discours politiquement correct, nuancé par rapport à ce que je viens d’écrire, « H0 a été acceptée, donc les populations A et B sont similaires, ou comparables » est FAUX. C’est pourtant une erreur qui est malheureusement très fréquemment commise dans les articles scientifiques médicaux (vétérinaires)… Vous comprenez par conséquent pourquoi les tests statistiques ne sont faits que pour rejeter H0, pas pour l’accepter !54 Car lorsque l’on rejette H0, on a le droit d’en être convaincu, alors que l’on ne peut pas l’être lorsque l’on accepte H0. À vous de poser H0 en fonction de ce que vous souhaitez montrer ! Vous posez H0 : θA = θB quand vous voulez montrer avec conviction que θA est différent de θB, et vous posez H0 : θA – θB = ∆ ≠ 0 quand vous voulez montrer avec conviction que θA = θB. C’est tout bête55. 54 Cf. ce que je disais en fin de partie V.F.1 55 Cela dit, montrer avec conviction que θA = θB fait appel à une démarche statistique et clinique différente de celle énoncée dans tout ce document, une démarche qui fait référence à celle utilisée dans les essais cliniques d’équivalence ou de non infériorité (cf. partie V.F.1). Bases en biostatistique – Loïc Desquilbet © – version v2.6 39/73 G. Le degré de signification 1. Remarques introductives De nombreux ouvrages de stat’ présentent le degré de signification (« p-value » en anglais, noté aussi « p ») avant de présenter les tests statistiques. C’est une façon de voir les choses à laquelle je n’adhère pas car elle ne permet pas de comprendre que l’on teste une hypothèse, et que le rejet de cette hypothèse se base sur une zone de « tolérance » qui est fixée a priori, avant d’avoir observé les résultats. Parler du degré de signification avant de présenter les tests introduit de plus une grande confusion (et probablement de nombreuses erreurs) dans l’interprétation du degré de signification. Je vais commencer cette partie par une citation56 qui ne dit pas mieux les choses que je n’aurais pu le faire (cf. figure 21) !... Figure 21 - Citation traitant le degré de signification comme le Mal Ce que l’auteur écrit n’est pas exagéré. Certaines revues scientifiques ont déjà banni le degré de signification des articles. Et vous allez comprendre pourquoi en lisant la suite dans quelques instants… 56 https://www.sciencenews.org/blog/context/p-value-ban-small-step-journal-giant-leap-science ; le lien hypertexte quand l’auteur écrit « They are misused, misunderstood and misrepresented. » est le suivant : https://www.sciencenews.org/article/odds-are-its-wrong Bases en biostatistique – Loïc Desquilbet © – version v2.6 40/73 2. Définition du degré de signification Pour définir le degré de signification (p), rien de mieux qu’un graphique (figure 22) ! Si vous savez lire ce graphique (et vous savez le faire, si vous en êtes arrivé(e) jusqu’ici sans décrocher), vous saurez facilement, sans mon aide, interpréter le degré de signification. Figure 22 - Représentation graphique du degré de signification Le degré de signification est l’aire hachurée sous la courbe de la figure 2257. En math’, cela donne : p = Pr(observer une |différence| ≥ |dobs|, sous H0). En français, c’est beaucoup plus compliqué, mais beaucoup plus important à comprendre (car dans la vie de tous les jours, on communique en français, pas en math’ !) : p est la probabilité d’observer une différence au moins égale à celle que l’on vient d’observer sous l’hypothèse qu’en vrai, il n’y a aucune différence réelle entre les indicateurs comparés. Autrement dit, si en vrai il n’y avait aucune différence réelle, il y aurait eu p % de chances d’observer une différence au moins égale à celle que l’on a observée. J’ai exceptionnellement souligné la première partie de cette phrase, car c’est son omission dans la tête de nombreux chercheurs qui génère les erreurs d’interprétation du degré de signification et donc l’interprétation des résultats d’un test statistique ; cette partie soulignée est aussi celle qui conduit à une relative inutilité du degré de signification (d’où la raison pour laquelle certaines revues scientifiques ont banni ce degré de signification). Pourquoi ? Parce qu’elle montre que le degré de signification est une probabilité conditionnelle, conditionnelle au fait que H0 soit vraie. Or, comme on ne sait pas si, en vrai, H0 est vraie ou non, la valeur du degré de signification n’a pas d’interprétation pratique. 3. Commentaires sur la définition du degré de signification Relisez maintenant la partie IV.A.2. (…) Vous voyez qu’il était évidemment impossible de calculer la probabilité d’observer ce que l’on avait observé (4 billes rouges parmi les 4 billes tirées au sort) sans connaître la proportion de billes rouge dans le sac ! La seule façon de calculer cette probabilité, ça avait été de se placer sous une hypothèse. Et vous avez vu en relisant cette partie IV.A.2 qu’en fonction de l’hypothèse sous laquelle on s’était placé, la probabilité d’observer ce que l’on avait observé change, bien sûr !!! Ici, c’est exactement pareil. On ne peut pas connaître la probabilité d’observer une différence au moins égale à celle que l’on vient d’observer, comme ça. On ne peut le faire qu’en se plaçant sous une hypothèse, quelle qu’elle soit, d’ailleurs. On aurait pu vouloir calculer la probabilité d’observer une différence au moins égale à celle que l’on vient d’observer sous l’hypothèse 57 Vous ne vous souvenez plus de ce que représente la courbe de Gauss de cette figure ? Revoyez la Figure 10 et la Figure 13 (et le texte qui va avec, éventuellement…). Bases en biostatistique – Loïc Desquilbet © – version v2.6 41/73 qu’en vrai, il existe une différence réelle de 5,3 ! Sauf que cette probabilité n’est pas le p. Le p, c’est cette probabilité sous l’hypothèse que la différence réelle est nulle. Je ne vais pas vous dire toutes les façons de mal interpréter le degré de signification. Je vous recommande la lecture de l’article de Goodman pour cela58, que vous pouvez trouver ici : http://eve.vet-alfort.fr/course/view.php?id=353, section 3. Voici une façon plus pragmatique (quoique) de voir les choses. Supposons que vous meniez une étude qui vise à montrer l’efficacité d’un traitement par rapport à un placebo sur la disparition de symptômes, avec 25 animaux dans le groupe placebo, et 20 animaux dans le groupe traité59. Dans le groupe des animaux sous placebo, vous en observez 5 animaux (soit 20%) pour lesquels les symptômes ont (spontanément) disparu ; dans le groupe des animaux sous traitement, vous en observez 9 animaux (soit 45%) pour lesquels les symptômes ont disparu. Vous testez la différence de ces deux pourcentages, et vous obtenez un degré de signification égal à 0,07 (soit, 7%). Cela signifie la chose suivante : Si en vrai, il n’avait absolument aucun effet du traitement sur la disparition des symptômes, il y aurait eu 7% de chances d’observer une différence de pourcentages au moins aussi grande que celle observée (45% - 25% = 20%). Dit encore autrement, si en vrai, il n’y avait eu absolument aucun effet du traitement, et si vous aviez effectué l’essai clinique 100 fois avec à chaque fois 25 animaux sous placebo et 20 animaux traités, 7 essais cliniques parmi ces 100 auraient fourni une différence de pourcentage au moins aussi grande que 45% - 25% = 20%. Si l’on revient sur les lancers de volant de Jacques et de Jean, et choisissons l’espace-temps n°1, le degré de signification p dans cet espace-temps-là serait la probabilité d’observer une différence entre deux moyennes des distances au moins aussi grande que 5,26 - 4,91 = 0,35 m, sous l’hypothèse qu’en vrai, Jacques et Jean lancent le volant avec la même force60. Vous vous rendez maintenant compte à quel point l’interprétation du degré de signification est … théorique ! Elle est adaptée pour celles et ceux qui planent dans les hautes sphères de la Statistique, et ne l’est pas du tout à la réalité clinique de terrain ! Ça nous fait effectivement une belle jambe, de connaître la proportion d’essais cliniques qui auraient montré une différence au moins aussi grande que celle observée en faisant l’hypothèse que le traitement n’a pas d’effet !! Et pourtant, qu’est-ce qu’il plait, ce degré de signification ! (Et nous allons maintenant voir pourquoi…) 58 Goodman S. A dirty dozen: twelve p-value misconceptions. Semin Hematol. 2008;45:135-140. 59 Cette différence d’effectif ne doit pas vous effrayer : en théorie, c’est mieux d’avoir le même nombre d’individus par groupe. Cela dit, des données manquantes, ou des individus souhaitant quitter l’étude prématurément sont des phénomènes qui arrivent, et qui finissent par déséquilibrer les groupes. Ce n’est a priori pas grave. 60 Ce calcul de probabilité demande de très sérieuses connaissances sur les lois physiques qui gouvernent l'évolution atmosphérique : principalement les lois de la mécanique des fluides, complétées par celles qui régissent les changements d'état de l'eau (condensation, évaporation, formation des précipitations), la turbulence, le rayonnement ou encore les nombreuses interactions avec la surface terrestre et même l'espace. Donc, … bon courage. Bases en biostatistique – Loïc Desquilbet © – version v2.6 42/73 4. Lien entre le degré de signification et le risque d’erreur de 1ère espèce Il existe (malheureusement) un fort lien entre le degré de signification p et le risque d’erreur de 1ère espèce α. Ce lien est présenté sur la figure 23. Figure 23 - Lien entre le degré de signification p et α Dans la figure 23.a, vous pouvez voir que si vous observez une différence dobs pile égale à la valeur d2,5%, la valeur du degré de signification sera de fait pile égale à α=5%. (Regardez à nouveau la figure 15, la figure 16, et la figure 22, au besoin.) Si vous observez une différence dobs strictement inférieure, en valeur absolue, à +d2,5%, la valeur du degré de signification sera de fait strictement supérieure à α=5% (figure 23.b). Si vous observez une différence dobs strictement supérieure, en valeur absolue, à +d2,5%, la valeur du degré de signification sera de fait strictement inférieure à α=5% (figure 23.c). Par conséquent, confronter la différence observée à d2,5% (comme je viens de vous l’apprendre pendant pas mal de pages dans ce document) pour savoir si l’on accepte ou rejette H0 est mathématiquement équivalent à confronter la valeur du degré de signification à la valeur de α=5%. Si p < α, on rejette H0 au risque d’erreur α, et si p > α, on accepte H0 au risque d’erreur β inconnu. Je pense que vous pouvez désormais vous rendre compte à quel point il est … tentant de penser que le degré de signification est un risque d’erreur de 1ère espèce observé… Mais c’est tout simplement faux. Cela dit, si vous observez une différence dobs qui conduit à un degré de signification égal à 0,0001, cela signifie que si en vrai il n’existait aucune différence réelle, il n’y aurait eu qu’une chance sur 10.000 d’observer une différence au moins aussi grande que celle que vous avez Bases en biostatistique – Loïc Desquilbet © – version v2.6 43/73 observée. Mais dès que vous allez dire « je rejette H0 », là, c’est le risque d’erreur α=5% qu’il faut invoquer61. Et là, je vous vois venir… Vous obtenez un p=0,0001, donc vous pourriez vous dire « je vais fixer α=1%, p < 1%, donc je rejette H0 au risque d’erreur α=1% ! ». Bien essayé. Mais ce raisonnement est faux. Relisez encore la fin de la partie IV.B.3. (…) C’est comme si vous aviez fixé votre zone de tolérance après avoir observé les deux distances de lancers de Jacques, pour juger si Jacques lance ou non le volant avec une force différente de celle de Jean ! 5. Sur-interprétations malheureusement classiques du degré de signification La première sur-interprétation malheureusement classique du degré de signification est de penser que le degré de signification est un risque d’erreur, celui en l’occurrence que l’on commet en rejeter H0. C’est faux, et je viens d’en parler ci-dessus. La seconde sur-interprétation tout aussi malheureusement classique, mais bien plus grave en termes de conséquence sur les pratiques cliniques : Ce n’est pas parce qu’une différence n’est pas significative (p > 0,05) que l’on a prouvé voire même le droit de penser que les deux groupes comparés sont « comparables », « similaires », ou « équivalents ». La raison est décrite en fin de partie V.F.4. À ce stade-là, vous avez le droit de faire une pause. Ce qui suit va être plus simple. Si vous avez tout compris jusque-là62, alors vous avez franchi le cap. Le reste, c’est du vent arrière… Ça va aller tout seul… 61 Puisque p=0,0001, il est < 0,05. Donc, forcément, la différence observée dobs > d2,5% (cf. Figure 23). Vous allez donc rejeter H0 au risque d’erreur α=5%. 62 Peu importe (quoique) le nombre de fois que vous avez dû relire les différentes précédentes parties. Bases en biostatistique – Loïc Desquilbet © – version v2.6 44/73 VI. LA NOTION D’INDEPENDANCE DES INDIVIDUS A. Introduction Certains tests statistiques nécessitent, pour être valides, que les individus soient indépendants les uns vis-à-vis des autres. D’autres tests statistiques prennent justement en compte cette non indépendance. Il est donc important de déceler les situations où les individus sont indépendants, et celles où ils ne le sont pas. Avant de définir ce terme d’ « indépendance », je dois introduire celui d’ « individu ». Un « individu », dans une étude, est l’unité statistique sur laquelle sont calculés les indicateurs statistiques (moyenne, médiane, pourcentage, …). L’individu peut être par exemple, le prélèvement sanguin, l’animal, l’élevage, ou le propriétaire d’un animal. En règle générale, dans un fichier de données, les « individus » sont placés en ligne, et il y a donc autant de lignes que d’ « individus ». Et en colonne figurent les caractéristiques qui sont mesurées chez les « individus ». B. Définition d’ « indépendance » On considère qu’il y a « indépendance » sur le caractère (par exemple, la production laitière mensuelle) dont on calcule un indicateur (par exemple, la moyenne), si la valeur du caractère d’un individu de l’échantillon est indépendante de la valeur de ce caractère d’un autre individu de l’échantillon. Dans l’exemple de la production laitière moyenne, si les individus constituant l’échantillon sont plusieurs vaches laitières d’un même élevage, et que l’on utilise plusieurs élevages pour constituer l’échantillon, les vaches de l’échantillon provenant d’un même élevage ne sont probablement pas indépendantes sur le caractère « production laitière mensuelle », car dans l’échantillon, la valeur de la production laitière d’une vache d’un élevage va probablement davantage ressembler à la production laitière d’une autre vache du même élevage qu’à celle d’une autre vache d’un élevage différent (car au sein d’un même élevage, il y a la même alimentation, les mêmes conditions d’élevage, etc.). Vous pouvez noter que pour un même échantillon, deux individus peuvent être considérés comme indépendants sur un caractère, et comme non indépendants sur un autre. C. Situations classiques de non indépendance Lorsque le phénomène de non indépendance est pressenti (plusieurs animaux d’un même élevage, plusieurs animaux d’une même portée, plusieurs prélèvements sanguins d’un même animal, …), il faut réfléchir au cas par cas s’il y a effectivement non indépendance sur le caractère dont on calcule l’indicateur statistique. Classiquement, lorsqu’il y a au moins deux prélèvements sanguins d’un même animal, et si les statistiques portent sur les marqueurs biologiques quantifiés à partir de ces prélèvements, il n’y a clairement pas indépendances des individus (ici, l’individu est le prélèvement sanguin). Une autre situation classique est celle qui va être décrite plus précisément dans la partie XI : un animal est vu deux fois, une fois avant intervention (traitement, opération, …) et une fois après intervention, et l’on veut savoir s’il existe une évolution entre ces deux moments. On mesure un caractère deux fois sur un même animal, donc ces mesures (individus) ne sont pas indépendantes. Bases en biostatistique – Loïc Desquilbet © – version v2.6 45/73 D. Que faire en cas de non indépendance ? Il y a différentes choses à faire lorsque vous vous trouvez confronté(e) à une situation de non indépendance (par exemple, quand vous serez amené(e) à analyser des données dans le cadre de votre thèse vétérinaire). Première chose, avouer que vous êtes dans une situation de non indépendance, que les méthodes stat’ que vous avez utilisées ne sont donc probablement pas adaptées, donc les résultats issus des tests statistiques sont à prendre avec précaution, et donc il faudrait confirmer vos résultats en prenant en compte cette non indépendance. Deuxième chose, vous utilisez les méthodes stat’ prenant en compte la non indépendance63. Sans entrer dans les détails, disons que tout dépend si vous recherchez l’association causale ou pas64. Si vous voulez atteindre la relation causale, alors il faudra utiliser des modèles statistiques peu accessibles (des modèles à effets mixtes65 ou des modèles de type GEE66). Si ce n’est pas la relation causale qui vous intéresse, mais seulement, humblement oserais-je dire, l’association tout court, alors ce qui est écrit dans la partie XI pourrait vous intéresser !... 63 Evident, non ? Oui, mais dans certaines situations, les méthodes stat’ sont trop compliquées ou demandent trop de compétences en stat’, et alors, on se rabat sur la première chose à faire. 64 Et là, je ne peux absolument pas du tout passer de temps là-dessus, cela sort complètement du propos de ce document. En revanche, si cette nuance vous titille, je vous invite à lire le document « La relation de cause à effet en médecine – application à la médecine vétérinaire, accessible ici : http://eve.vetalfort.fr/course/view.php?id=353, section 2. 65 Cf. https://en.wikipedia.org/wiki/Mixed_model 66 Cf. https://en.wikipedia.org/wiki/Generalized_estimating_equation Bases en biostatistique – Loïc Desquilbet © – version v2.6 46/73 VII. LE TEST DE STUDENT POUR SERIES NON APPARIEES (COMPARAISON DE DEUX MOYENNES) A. Contexte du test de Student pour séries non appariées Le test de Student s’utilise lorsque l’on souhaite savoir si deux populations diffèrent sur la moyenne d’un caractère quantitatif. Ce test ne peut s’utiliser que si les individus issus des deux populations à comparer, et qui constituent l’échantillon, peuvent être considérés comme indépendants. Le test de Student utilise les lois de Student. Cependant, dès que les tailles des deux échantillons dépassent 30, on peut approcher la loi de Student par la loi normale centrée réduite, ce qui simplifie les calculs à la main67. B. Notations Soit {DIFF} l’ensemble de toutes les différences observables entre deux moyennes calculées chacune à partir de deux échantillons, issus respectivement des populations A et B que l’on souhaite comparer. Cet ensemble suit une loi de Gauss, centrée sur la vraie différence ∆ = μA - μB (avec μA et μB respectivement les moyennes dans les populations A et B)68. Ainsi, lorsqu’en vrai, il n’existe aucune différence de moyennes entre les deux populations A et B (c’est-à-dire, μA = μB), la distribution de {DIFF} est centrée sur 0, et d’écart-type s{DIFF} (cf. figure 24). Figure 24 - Ensemble des différences observables entre deux moyennes sous l'hypothèse d'absence de réelle différence Soient mA et mB respectivement les moyennes effectivement observées dans les échantillons A et B, et dobs la valeur de la différence mA - mB. Soient sA et sB respectivement les écarttypes dans les échantillons A et B69, de tailles respectives nA et nB. 67 Mais lorsque les calculs sont faits par des logiciels, cette approximation n’est pas faite. Ce sont réellement les lois de Student qui sont utilisées !... 68 Revoyez les figures 10 & 11, si besoin… 69 Attention, je parle bien d’écart-types dans les échantillons, et non pas les écart-types des moyennes mA et mB… (Relisez les parties III.C.3 et III.D.1 si vous êtes perdu(e) !) Bases en biostatistique – Loïc Desquilbet © – version v2.6 47/73 C. Conditions de validité du test de Student pour séries non appariées Trois conditions doivent être vérifiées avant d’effectuer le test de Student pour séries non appariées. 1) Les individus issus des populations comparées doivent être considérés comme indépendants. 2) Les variances dans les deux échantillons (sA2 et sB2) ne doivent pas être trop différentes. En pratique dans le programme de 1ère année, on les considèrera comme « pas trop différentes » si < 5 8 7 8 9 < 3. 3) La variable quantitative dont on calcule la moyenne dans chacun des deux échantillons doit suivre une loi normale dans chacun des deux échantillons. D. Rejeter ou accepter H0 avec le test de Student pour séries non appariées 1. Démarche de calcul Première chose, définissons H0 pour le test de Student pour séries non appariées ! En stat’ / math’, H0, c’est : μA = μB. Ok, sauf que « ça », ça ne parle à personne ! En français, H0, c’est : « la moyenne réelle de l’indicateur dans la population A est égale à la moyenne réelle de l’indicateur dans la population B ». Je vous rappelle le principe même de tout test statistique : on peut rejeter H0 avec conviction (car au risque d’erreur α connu, valant seulement 5%) si la différence que l’on observe fait partie d’un ensemble de différences rarement observables lorsque H0 est vraie. Comment est défini cet ensemble ? Par les valeurs de -d2,5% et +d2,5%. La figure 25 présente deux cas de figure où H0 peut être rejetée avec conviction : (a) la différence observée dobs > +d2,5%, (b) la différence observée dobs < -d2,5%. Quand |dobs| < +d2,5%, on ne peut qu’accepter H0, au risque d’erreur β inconnu. Figure 25 - H0 rejetée avec le test de Student pour séries non appariées Bases en biostatistique – Loïc Desquilbet © – version v2.6 48/73 La question est désormais : « comment calculer cette valeur – si fatidique – de d2,5% ? ». Pour répondre à cette question, nous allons utiliser le fait que la taille des deux échantillons soit supérieure à 30, et donc nous allons pouvoir passer par la loi normale centrée réduite. Soit d’2,5% la valeur telle que l’aire sous la loi normale centrée réduite à droite de d’2,5% soit égale à 2,5%. Dans la mesure où la distribution est centrée sur 0, l’aire à gauche de -d’2,5% est aussi égale à 2,5% (figure 26, pan de droite). La relation mathématique entre d2,5% et d’2,5% est toute simple (vous l’avez apprise avant de venir à l’EnvA), et se trouve aussi sur la figure 26. Figure 26 - Détermination de d2,5% dans le test de Student pour séries non appariées Donc, d2,5% = d’2,5% x s{DIFF}. Or, que vaut la valeur d’2,5% qui est telle qu’il y ait une aire sous la loi normale centrée réduite à droite de d’2,5% égale à 2,5% ? Réponse sur la figure 27 : 1,96. Figure 27 - Lecture de la valeur de 1,96 dans la table de la loi N(0,1) Par ailleurs, {<=>>} = '@' . A 7 + 9 B avec '@' = 7 8 . 7 C 7C 9 9 8 . 9 Par conséquent, d2,5% = 1,96 x s{DIFF} dont la formule est donnée ci-dessus70. 70 ère Cette formule n’est pas à connaître par cœur : un formulaire est donné aux élèves de 1 évaluations, et comprend entre autres cette formule. Bases en biostatistique – Loïc Desquilbet © – version v2.6 année lors des 49/73 Je vous rappelle71 que l’on rejette H0 lorsque la différence que l’on observe (dobs) fait partie d’un ensemble de différences rarement observables lorsque H0 est vraie. C’est-à-dire lorsque |dobs| > +d2,5%. Dans le cas contraire, on ne peut qu’accepter H0. Pour savoir si l’on peut rejeter (avec conviction) H0 ou l’accepter (sans en être convaincu), il faut tout simplement confronter la différence des deux moyennes que vous observez (dobs = mA - mB) à d2,5% que vous venez de calculer. 2. Conclusion à l’issue du test lors du rejet de H0 Si |dobs| > +d2,5%, il faut citer quatre phrases72. - On rejette H0 au risque d’erreur α de 5%. - La moyenne de [caractère mesuré] dans [l’échantillon A] (mA=[…]) était73 significativement différente de la moyenne de [caractère mesuré] dans [l’échantillon B] (mB=[…]). - Dans l’échantillon, la moyenne de [caractère mesuré] était [supérieure, ou inférieure] dans [l’échantillon A] à celle dans [l’échantillon B]. - Sous l’hypothèse d’absence de biais d’association, dans la [population], il y a de fortes chances (fort degré de confiance) pour qu’il existe une association réelle entre [caractère mesuré] et [le fait d’appartenir à la population A ou B]. 3. Conclusion à l’issue du test lors de l’acceptation de H0 Si |dobs| ≤ +d2,5%, il faut citer trois phrases. - On accepte H0 au risque d’erreur β inconnu. - La moyenne de [caractère mesuré] dans [l’échantillon A] (mA=[…]) n’est pas significativement différente de la moyenne de [caractère mesuré] dans [l’échantillon B] (mB=[…]). - Sous l’hypothèse d’absence de biais d’association, dans la [population], il y a des chances pour qu’il n’existe pas d’association réelle entre [caractère mesuré] et [le fait d’appartenir à la population A ou B], mais on ne peut absolument pas en être sûr (très faible degré de confiance). 71 Je me permets de le faire un nombre assez important de fois, car je juge qu’il est fondamental de connaître la base du raisonnement d’un test statistique (rejeter ou accepter H0) pour être capable de l’interpréter correctement. 72 Devoir citer quatre phrases peut vous paraître très scolaire. Cela dit, ces quatre phrases sont indispensables à avoir en tête lorsque vous lisez les résultats d’un test dans un article : les auteurs ne citent pas les quatre phrases, mais ils ne les pensent pas moins, et vous devez faire de même. 73 De façon très générale (mais vous aurez l’occasion de revoir cela dans tous les articles que vous lirez dans la suite de votre cursus), les résultats d’une étude doivent être cités au passé. Le présent est réservé à la généralisation, à l’inférence, aux choses admises depuis un certain temps et validées par la grande majorité des scientifiques/cliniciens. Bases en biostatistique – Loïc Desquilbet © – version v2.6 50/73 4. Commentaires sur la conclusion du test (1) Il est indispensable de citer les erreurs α ou β en spécifiant le fait qu’elles soient ou non connues (respectivement connue valant 5%, et inconnue) car c’est cela qui permet de savoir que vous avez ou non le droit d’être confiant dans votre conclusion : un risque d’erreur à 5% permet d’être confiant dans la conclusion d’un test, et donc de dire « de grandes chances », alors qu’un risque d’erreur inconnu ne permet pas du tout d’être confiant (d’où le « des chances », qui est volontairement vague). (2) Il est indispensable de fournir les valeurs des moyennes estimées dans chacun des deux échantillons car (1) une différence de moyennes peut être (statistiquement) significative mais cliniquement non pertinente ou (2) une différence de moyennes peut (statistiquement) non significative mais cliniquement pertinente (on reverra ça plus précisément en fin de partie IX.D). (3) Quand une différence de moyennes est significative, il est important de dire dans quel sens va la relation. Par exemple, ce n’est pas tout de savoir que la moyenne de la production laitière des vaches de race Prim’ Holstein est significativement différente de celle des vaches de races Vosgienne ! Il est important de savoir si ce sont les vaches Prim’ Holstein qui ont une moyenne de la production laitière supérieure à celle des vache Vosgienne, ou bien l’inverse ! En revanche, quand la différence n’est pas significative, vous n’avez pas à écrire dans quel sens va la relation. (4) Les biais d’association ne sont pas au programme de 1ère année, ils le seront (ne soyez pas impatients – quoique, c’est super intéressant !) en revanche en 2ème année. (5) La dernière phrase fait référence à l’inférence statistique, puisqu’à partir des résultats de l’échantillon, vous dites ce qu’il semble se passer dans la population. (6) Dans les phrases types ci-dessus, tout ce qui est écrit entre crochets doit être remplacé par vous. Vous devez en particulier citer explicitement la population sur laquelle vous travaillez. Si vous n’êtes pas explicite, on (je) ne comprendra(i) pas ce que vous dites – et vous imaginez ce qu’il pourra alors se passer, lors de la correction d’un examen !... De même, j’ai écrit de façon générique « association réelle entre [caractère mesuré] et [le fait d’appartenir à la population A ou B] ». Soyez explicite ! Par exemple, si l’on compare les mâles aux femelles, la phrase deviendra « association réelle entre [caractère mesuré] et le sexe de l’animal ». Si l’on compare les vaches primipares aux vaches multipares, la phrase deviendra « association réelle entre [caractère mesuré] et la parité de la vache (primipare versus multipare) ». Etc. (7) Si vous vous posez la question de savoir s’il est vraiment important d’écrire « mais on ne peut absolument pas en être sûr (très faible degré de confiance) » quand on fait de l’inférence statistique après acceptation de H0, la réponse est évidente74. 74 Oui, car elle fait référence à, à la limite, la seule et unique chose qu’un(e) véto doit savoir en sortant d’une école vétérinaire pour qu’il ne commette pas de mauvaises interprétations en lisant un article, lorsque p > 0,05 (d’où la citation en page de couverture de ce document). Bases en biostatistique – Loïc Desquilbet © – version v2.6 51/73 E. Calcul du degré de signification p Je vous laisse relire la définition du degré de signification (partie V.G.2), cela peut être utile pour comprendre ce qui suit. (…) Vous devez donc calculer l’aire hachurée sur la figure 28 cidessous. Figure 28 - Représentation graphique du degré de signification avec le test de Student pour séries non appariées Comment ? En passant, là encore, par la loi normale centrée réduite ! Tout est indiqué sur la figure 29… Une fois que vous avez calculé d’obs à partir de dobs et de s{DIFF}, vous lisez l’aire sur la loi normale centrée réduite à gauche et à droite respectivement de -d’obs et de +d’obs dans une table de la loi normale centrée réduite. Figure 29 - Aide au calcul du degré de signification dans le test de Student pour séries non appariées Bases en biostatistique – Loïc Desquilbet © – version v2.6 52/73 F. De quoi dépend le degré de signification ? 1. Cas particulier du test de Student pour séries non appariées Regardez la figure 28, de quoi dépend le degré de signification ? Premièrement, et de façon (j’espère) flagrante : de dobs. En effet, si dobs augmente, l’aire hachurée (le degré de signification) diminue. Ensuite, à dobs fixée, de quoi dépend encore le degré de signification ? (Je vous donne le droit de regarder à nouveau la figure 28.) De s{DIFF]. En effet, si s{DIFF} diminue alors que dobs ne bouge pas, le degré de signification diminue. Or, de quoi dépend s{DIFF} ? De nA, nB, sA, et sB : {<=>>} = '@' . A 7 + 9 B avec '@' = 7 8 . 7 C 7C 9 9 8 . 9 Par conséquent, si nA et/ou nB augmente(nt), s{DIFF} diminue, et donc le degré de signification diminue. 2. Généralisation à tous les tests statistiques Ce que j’ai écrit ci-dessus peut se généraliser aux degrés de signification de (quasiment) tous les tests statistiques : le degré de signification diminue (a) lorsque la différence observée entre les deux indicateurs qui sont comparés augmente, et/ou lorsque (b) la taille des échantillons augmente. C’est cette assertion (b) qui va conduire aux deux conséquences très importantes ci-dessous. 3. Conséquences Première conséquence. Un degré de signification peut être inférieur à 0,05 (la différence entre les deux indicateurs comparés sera donc significative) non pas forcément parce que la différence observée est numériquement importante, mais parce que la taille des échantillons est importante. Ainsi, une différence statistiquement significative n’est pas synonyme d’une différence cliniquement pertinente. Deuxième conséquence. Un degré de signification peut être supérieur à 0,05 (la différence entre les deux indicateurs comparés sera donc non significative) non pas forcément parce que la différence observée est numériquement faible, mais parce que la taille des échantillons est faible. Ainsi, une différence statistiquement non significative n’est pas synonyme d’une différence non cliniquement pertinente. Bases en biostatistique – Loïc Desquilbet © – version v2.6 53/73 VIII. LE TEST DU CHI2 (COMPARAISON DE DEUX POURCENTAGES) A. Contexte du test du Chi2 Le test du Chi2 s’utilise lorsque l’on souhaite savoir si deux (ou plus de deux) populations diffèrent sur le pourcentage d’un caractère binaire (ou qualitatif). Dans cette partie VIII, nous nous limiterons au cas de figure où il n’y a que 2 populations à comparer, et où le caractère est binaire. Les autres cas de figure sont décrits dans la partie X. Comme dans le cas du test de Student pour séries non appariées, les individus issus des deux populations à comparer, et qui constituent l’échantillon, doivent être considérés comme indépendants. B. Notations Je vais supposer que le caractère binaire est la présence d’une maladie M. Voici comment se répartissent les effectifs observés dans chacune des quatre cases du tableau (cf. tableau 1). Tableau 1 Échantillon A B Total Présence de la maladie Malade (M) Non malade (NM) OANM OAM (pAM %) OBM (pBM %) OBNM nNM nM (pM %) Total nA nB nT Par exemple, OAM est le nombre d’individus malades observé dans l’échantillon A, OBNM le nombre d’individus non malades observé dans l’échantillon B. Il y a en tout nA individus dans l’échantillon A et en tout nM individus malades dans l’ensemble de deux échantillons. Les pourcentages observés d’individus malades parmi les individus des échantillons A et B sont respectivement pAM % et pBM %, et le pourcentage d’individus malades dans l’ensemble des deux échantillons A et B réunis est pM %. C. Citations correctes et incorrectes de pourcentages à comparer 1. Problématique Avant de vous ruer sur le test statistique ou de vous ruer sur le degré de signification du test du Chi2 lorsque vous lisez un article, vous devez savoir quels sont les pourcentages qui sont comparés. En effet, écrire « l’effet d’un traitement (versus placebo) est significatif sur le taux de guérison (p=0,02) », semble beaucoup apporter à la science (vétérinaire). Sauf que si l’on nous dit que le pourcentage de guérison chez les animaux traités est de 35% et chez les animaux non traités de 29% (guérison spontanée), tous deux significativement différents l’un de l’autre, alors là vous vous demandez, à juste titre, si la différence de taux de guérison vaut le coup de traiter l’animal, sachant que le traitement a probablement des effets indésirables !... Bases en biostatistique – Loïc Desquilbet © – version v2.6 54/73 Fréquemment, les auteurs d’études testent l’association entre deux variables en « programmant » correctement les choses dans le logiciel (et ce logiciel fournit le degré de signification) sans fournir les pourcentages comparés. Par conséquent, il est fréquent de voir dans des articles des degrés de signification sans que les valeurs comparées ne soient fournies – ce qui est une aberration75. 2. Comment bien citer deux pourcentages à comparer ? Pour savoir si deux variables binaires sont associées, il faut comparer (puis tester) deux pourcentages. Les pourcentages que vous citez doivent être tels que s’ils sont égaux, ils traduisent une absence d’association, et s’ils sont différents, ils peuvent traduire une association. Par exemple, vous êtes d’accord avec le fait que la couleur bleue des yeux (versus une autre couleur) n’est pas du tout associée à la présence de cancer de l’œsophage. Pour le prouver (s’il en était besoin), il faudrait comparer deux pourcentages. Il y a de nombreuses façons de mal citer ces pourcentages. Je vais me focaliser sur la suivante. Si vous dites « je vais comparer le pourcentage de personnes avec les yeux bleus parmi les personnes qui ont le cancer au pourcentage de personnes qui n’ont pas les yeux bleus parmi les personnes qui ont le cancer », c’est faux. Pourquoi ? Parce que le premier pourcentage est forcément différent du second76, laissant alors penser à tort qu’il existe une association… Il y a deux (parmi quatre) façons correctes de citer les pourcentages qui vont être comparés (puis testés) : (1) le pourcentage de personnes avec cancer de l’œsophage parmi celles avec les yeux bleus à comparer au pourcentage de personnes avec cancer de l’œsophage parmi celles qui n’ont pas les yeux bleus, et (2) le pourcentage de personnes avec les yeux bleus parmi celles qui ont un cancer de l’œsophage à comparer au pourcentage de personnes avec les yeux bleus parmi celles qui n’ont pas de cancer de l’œsophage. 75 Mais passons. Sinon, je passerais trop de temps ici, dans ce document, à parler du problème beaucoup plus général du manque parfois de compétences en épidémiologie clinique (incluant les biostat’ qui n’en sont qu’un outil) des relecteurs qui par conséquent peuvent laisser passer des erreurs d’interprétations faites par les auteurs. 76 Puisque la somme fait 100%, et que rien (ou quasiment) n’est pile réparti à 50/50 dans la nature, même pas le sexe des animaux domestiques ou sauvages (Nager RG, Monaghan P, Griffiths R, Houston DC, Dawson R. Experimental demonstration that offspring sex ratio varies with maternal condition. Proc Natl Acad Sci U S A. 1999;96:570-573 ; Cameron EZ, Linklater WL. Extreme sex ratio variation in relation to change in condition around conception. Biol Lett. 2007;3:395-397) Bases en biostatistique – Loïc Desquilbet © – version v2.6 55/73 3. (Mauvais) exemple issu de la littérature Cela pourrait vous paraître étonnant, mais il arrive parfois que les auteurs fournissent de mauvais pourcentages dans les tableaux (c’est-à-dire que le degré de signification ne correspond pas aux pourcentages cités). La figure 30 illustre cela77. Figure 30 - Tableau issu d'un article avec erreur de pourcentages Dans le tableau présenté sur la figure 30, ce que j’ai entouré en pointillés verts est la façon correcte de présenter les pourcentages. Parmi les 212 chiens (de stade ACVIM binaire : soit de stade B2, soit de stade C), 100 étaient au stade B2, soit effectivement, 100/212=47% (colonne « All n=212 »). Parmi les 129 chiens sans hypertension pulmonaire (HP), 76 étaient B2, soit 76/129=59%, et parmi les 83 chiens avec HP, 24 (29%) étaient B2. Le degré de signification en dernière colonne (0,0022) compare bien ces deux pourcentages. Maintenant, si vous regardez la ligne « RV enlargement » encadré en trait plein rouge, vous voyez qu’il n’y a plus que 123 chiens dont on connait l’information sur la dilation ventriculaire droite (DVD)78. Parmi ces 123 chiens dont l’information est renseignée, 15 ont présenté une DVD, soit, comme l’écrivent correctement les auteurs de l’article, 15/123=12%. Parmi maintenant les X79 chiens sans HP, 7 ont présenté une DVD, et parmi les Y80 les chiens avec HP, 8 ont présenté une DVD. Le gros problème est le suivant : les auteurs ont mis les mauvais pourcentages entre parenthèses, puisqu’ils ont fourni les pourcentages 7/15 (47%) et 8/15 (53%). Ces pourcentages en français sont : le pourcentage de chiens sans HP parmi les chiens avec DVD et le pourcentage de chiens avec HP parmi les chiens avec DVD. En mettant un degré de signification à côté (p=0,067), on a l’impression que ces pourcentages 47% et 53% ne sont pas significativement différents, alors que ce ne sont pas ces pourcentages qui ont été comparés par le logiciel ! Sauf que les auteurs n’ont pas pris l’habitude de se poser la question de savoir à quels pourcentages un degré de signification fait référence. Et le pire, dans l’histoire, est que l’on ne peut pas retrouver les valeurs des 77 Peu importe qui sont les auteurs de l’article, là n’est pas la question. 78 Ce n’est pas le fait qu’il y ait près de 50% de données manquantes, qui est gênant ici, mais la suite… 79 Que l’on ne connait pas, qui ne vaut probablement pas 129 (cf. entête de colonne du tableau) puisqu’il y a des données manquantes, et que l’on ne pourra pas retrouver, à cause de l’erreur dont je vais parler dans deux secondes… 80 Même commentaire que ci-dessus. Bases en biostatistique – Loïc Desquilbet © – version v2.6 56/73 pourcentages qui sont comparés puis testés (et dont le degré de signification est 0,067) : le pourcentage de DVD parmi les chiens sans HP (7/?) et le pourcentage de DVD parmi les chiens avec HP (8/?)… Regardez les deux tableaux suivants (tableau 2 et tableau 3), ils font référence à deux situations cliniques diamétralement opposées, et pourtant, j’utilise les mêmes chiffres que ceux de l’article : ils portent sur 123 chiens, les nombres et pourcentages sont ceux de l’article (n=7 avec 47% et n=8 avec 53%), et les degrés de signification sont très proches de celui du tableau (p=0,067). Tableau 2 Tension pulmonaire Sans HP HP Oui 8 7 DVD Non 32 76 Total 40 83 DVD, dilatation ventriculaire droite ; HP, hypertension pulmonaire Total 15 108 123 Dans le tableau 2 ci-dessus, on retrouve bien les 8 et 7 chiens respectivement sans et avec HP parmi les 15 chiens avec DVD. Mais le pourcentage de chiens avec DVD parmi les chiens sans HP est de 20% (8/40) et le pourcentage de chiens avec DVD parmi les chiens avec HP de 8% (7/83 ; p=0,066, très proche de celui du tableau de l’article). Tableau 3 Tension pulmonaire Sans HP HP Oui 8 7 DVD Non 82 26 Total 90 33 DVD, dilatation ventriculaire droite ; HP, hypertension pulmonaire Total 15 108 123 Dans le tableau 3 ci-dessus, on retrouve là encore les 8 et 7 chiens respectivement sans et avec HP parmi les 15 chiens avec DVD. Mais cette fois-ci, les pourcentages sont diamétralement opposés : le pourcentage de chiens avec DVD parmi les chiens sans HP est de 9% (8/90) et le pourcentage de chiens avec DVD parmi les chiens avec HP de 24% (7/33), avec cependant un degré de signification quasi identique au précédent (p=0,064, très proche là encore de celui du tableau de l’article). Cliniquement parlant, le tableau 2 et le tableau 3 ne fournissent pas du tout les mêmes choses : dans le premier cas (tableau 2), le pourcentage de DVD est deux fois plus fréquent parmi les chiens sans HP que parmi les chiens avec HP (20% versus 8%), et dans le deuxième cas (tableau 3), le pourcentage de DVD est plus de deux fois moins fréquent parmi les chiens sans HP que parmi les chiens avec HP (9% versus 24%). Et en lisant le tableau de l’article, on ne peut bien entendu pas savoir dans quelle situation clinique l’on se trouve, parmi les deux diamétralement opposées ci-dessus. Bases en biostatistique – Loïc Desquilbet © – version v2.6 57/73 Vous avez la démonstration81 que (1) ne pas fournir les bons pourcentages peut vous faire dire de sacrées bêtises dans le domaine de la clinique vétérinaire (comme par exemple, « les pourcentages de 47% et 53% ne sont pas significativement différents (p=0,067), donc il n’y a pas d’association entre la présence de DVD et l’HP ») et (2) ne pas fournir les (bons) pourcentages ne vous donne aucune information clinique, or, c’est bien pour améliorer l’état des connaissances cliniques que l’on utilise les outils de la biostatistique ! D. Conditions de validité du test du Chi2 Deux conditions doivent être vérifiées avant d’effectuer le test du Chi2. 1) Les individus issus des populations comparées doivent être considérés comme indépendants. 2) Les quatre effectifs attendus sous H0 doivent être tous les quatre supérieurs à 5. Vous allez voir ci-dessous ce que sont ces « effectifs attendus sous H0 » qui sortent un peu de nulle part, je vous l’accorde… E. Rejeter ou accepter H0 avec le test du Chi2 1. Démarche de calcul Le test du Chi2 ne compare pas, numériquement, les pourcentages de malades dans les deux échantillons (pAM et pBM), contrairement au test de Student qui compare numériquement les moyennes mA et mB. Le test du Chi2 compare des effectifs. Il compare notamment des effectifs observés à des effectifs … attendus (sous H0). Avant d’aller plus loin, un petit rappel (probabiliste). Deux événements A et B sont purement indépendants si et seulement si D 0|F = D 0|FG = D 0 Par exemple, prenons deux événements purement indépendants : A = « avoir les yeux bleus » et B = « aimer le chocolat »82. L’égalité ci-dessus devient, en français : « En France, la proportion d’individus aux yeux bleus parmi ceux qui aiment le chocolat est égale à la proportion d’individus aux yeux bleus parmi ceux qui n’aiment pas le chocolat ; ces deux proportions sont égales et donc égales à la proportion d’individus aux yeux bleus en France. » (En effet, s’il y a 24% d’individus aux yeux bleus parmi ceux qui aiment le chocolat, et si la couleur des yeux est indépendante du goût pour le chocolat, alors il y a forcément aussi 24% d’individus aux yeux bleus parmi ceux qui n’aiment pas le chocolat. Et si en France, il y a 24% d’individus aux yeux bleus parmi ceux qui aiment le chocolat et 24% d’individus aux yeux bleus parmi ceux qui n’aiment pas le chocolat, c’est qu’il y a forcément, en France, 24% d’individus aux yeux bleus !) L’hypothèse nulle H0 du test du Chi2 est la suivante : πA = πB, avec πA la proportion réelle d’individus « malades » dans la population A (et idem pour πB). 81 En espérant vivement qu’elle vous aura convaincu(e) ! 82 Si vous pensez qu’il existe une association entre ces deux événements, (…), essayez d’imaginer qu’elle n’existe pas (normalement, vous ne devriez pas avoir trop de mal à le faire…). Bases en biostatistique – Loïc Desquilbet © – version v2.6 58/73 Le principe de calcul du test du Chi2 consiste à calculer les effectifs attendus sous H0, c’est-àdire « les effectifs que l’on aurait dû observer dans l’échantillon, si dans l’échantillon, H0 avait été observée ». Si, dans l’échantillon, H0 avait été observée, on aurait observé une parfaite indépendance entre la présence de maladie et le fait d’appartenir au groupe A ou B dans l’échantillon. On aurait alors dû observer pAM = pBM. Et si ces deux pourcentages sont égaux dans l’échantillon, alors ils sont forcément égaux à pM83. Par conséquent, si H0 avait été observée dans l’échantillon, alors on aurait dû observer pAM = pBM = pM. Les « effectifs attendus sous H0 » sont les effectifs qui permettent d’obtenir pAM = pBM = pM, sachant que le nombre d’individus dans l’échantillon A vaut nA, celui dans l’échantillon B vaut nB, et celui d’individus malades vaut nM. (Les marges du tableau restent fixées, c’est ce qui est à l’intérieur du tableau, qui peut varier…) Il faut donc remplir le tableau des effectifs attendus sous H0 ci-dessous (cf. tableau 4). Tableau 4 Présence de la maladie Malade (M) Non malade (NM) EAM (pM %) EANM EBM (pM %) EBNM nM (pM %) nNM A B Total Échantillon Total nA nB nT Pour observer pM % d’individus malades dans l’échantillon A de taille nA, il doit y avoir EAM = nA x pM individus malades. Pour observer pM % d’individus malades dans l’échantillon B de taille nB, il doit y avoir EBM = nB x pM individus malades. Les deux autres effectifs attendus sous H0 (EANM et EBNM) s’obtiennent pas simple soustraction (nA - EAM et nB - EBM, respectivement). Une fois que ces quatre effectifs attendus sous H0 sont calculés, la démarche consiste à calculer la différence entre les effectifs observés et les effectifs attendus sous H0. La formule est la suivante : H@I (KK(L'*K = MNO − PNO PNO + MQO − PQO PQO + MNRO − PNRO PNRO + MQRO − PQRO PQRO Plus cette différence entre effectifs observés et effectifs attendus sous H0 est importante, plus ce que l’on a observé est éloigné de H0, et plus on va donc avoir tendance à rejetter H0. Si en vrai, H0 est vraie, alors l’ensemble des différences observables entre effectifs observés et effectifs attendus sous H0 suit une loi du Chi2 à 1 degré de liberté (ddl). Cette loi est représentée sur la figure 31. 83 Si ce n’est pas clair, relisez (plusieurs fois ?) ce que j’ai écrit sur la couleur des yeux et le fait d’aimer le chocolat plus haut !... Bases en biostatistique – Loïc Desquilbet © – version v2.6 59/73 2 Figure 31 - Loi du Chi à 1 degré de liberté Lorsque H0 est vraie, il arrive dans 5% des cas d’observer une différence entre effectifs observés et effectifs attendus sous H0 au moins égale à 3,8484. Cette valeur de 3,84 est la valeur au-delà de laquelle on va considérer que ce que l’on observe comme différence entre effectifs observés et effectifs attendus sous H0 fait partie des événements rarement observables lorsque H0 est vraie ; elle est donc la valeur à laquelle il faudra confronter la valeur de dobs effectifs calculée pour accepter ou rejeter H0. 2. Conclusion à l’issue du test lors du rejet de H0 Si dobs effectifs > 3,84, il faut citer quatre phrases, identiques dans le fond à celles qu’il faut citer lorsque l’on rejette H0 avec le test de Student. - On rejette H0 au risque d’erreur α de 5%. - La proportion de [caractère binaire] parmi [les individus de l’échantillon A] (pAM=[…]) était significativement différente de la proportion de [caractère binaire] parmi [les individus de l’échantillon B] (pBM=[…]). - Dans l’échantillon, la proportion de [caractère binaire] était [supérieure ou inférieure] parmi [les individus de l’échantillon A] à celle parmi [les individus de l’échantillon B]. - Sous l’hypothèse d’absence de biais d’association, dans la [population], il y a de fortes chances (fort degré de confiance) pour qu’il existe une association réelle entre [la présence du caractère binaire] et [le fait d’appartenir à la population A ou B]. 84 2 Cette valeur se retrouve dans la table d’une loi du Chi à 1 degré de liberté. Bases en biostatistique – Loïc Desquilbet © – version v2.6 60/73 3. Conclusion à l’issue du test lors de l’acceptation de H0 Si dobs effectifs ≤ 3,84, il faut citer trois phrases, identiques dans le fond à celles qu’il faut citer lorsque l’on accepte H0 avec le test de Student. - On accepte H0 au risque d’erreur β inconnu. - La proportion de [caractère binaire] parmi [les individus de l’échantillon A] (pAM=[…]) n’était pas significativement différente de la proportion de [caractère binaire] parmi [les individus de l’échantillon B] (pBM=[…]). - Sous l’hypothèse d’absence de biais d’association, dans la [population], il y a des chances pour qu’il n’existe pas d’association réelle entre [la présence du caractère binaire] et [le fait d’appartenir à la population A ou B], mais on ne peut absolument pas en être sûr (très faible degré de confiance). 4. Commentaires sur la conclusion du test Les commentaires que je pourrais faire ici sont identiques à ceux que j’ai faits lors du test de Student. Je vous invite à les relire, en les adaptant le cas échéant au fait que l’on parle ici de proportions. Je vais cependant en remettre une couche sur un point. La relecture de la partie VIII.C.3 vous présente les arguments pour vous sanctionner si vous oubliez de citer les valeurs des pourcentages (ou des moyennes, bien entendu) qui sont comparés puis testés… F. Calcul du degré de signification Comme pour le test de Student, je vous laisse relire la définition du degré de signification (partie V.G.2), ainsi que ce j’ai écrit autour de la figure 31. Vous devez donc calculer l’aire hachurée sur la figure 32 ci-dessous, à l’aide de la table de la loi du Chi2 à 1 ddl. Cette aire est le degré de signification. 2 Figure 32 - Degré de signification avec une loi du Chi Contrairement au test de Student pour séries non appariées, il n’y a pas besoin de multiplier l’aire sous la loi par deux. Le degré de signification se lit directement dans la table. Bases en biostatistique – Loïc Desquilbet © – version v2.6 61/73 IX. LA PUISSANCE STATISTIQUE D’UNE ETUDE A. Remarque préliminaire Toutes les illustrations de cette partie font référence à la comparaison de moyennes, avec le test de Student pour séries non appariées. Mais bien entendu, tout le raisonnement que je vais appliquer pourrait s’appliquer à n’importe quel test statistique. B. Définition & commentaires La puissance statistique d’une étude est « la capacité d’une étude à mettre en évidence statistiquement une différence qui est réelle ». Dans cette définition, « mettre en évidence statistiquement » est équivalent à « la différence observée est significativement différente de 0 ». Autrement dit, la puissance statistique d’une étude est sa capacité à obtenir une différence significativement différente de 0 sous l’hypothèse qu’il existe une différence réelle. Énoncée de façon plus statistique, la puissance statistique d’une étude est « la probabilité qu’a cette étude de rejeter H0 en supposant qu’en vrai, H0 est fausse ». La figure 33 illustre cette probabilité (en faisant l’hypothèse qu’il existe une réelle différence ∆ > 0) avec l’aire hachurée. Figure 33 - Représentation graphique de la puissance statistique L’aire hachurée sur la figure 33 que pointent les deux flèches est bien la probabilité de rejeter H0 (puisque cette aire représente la proportion de l’ensemble des différences observables qui conduisent au rejet de H0, car plus grandes en valeur absolue à +d2,5%) lorsque H0 est fausse (puisque cette distribution est centrée sur ∆ ≠ 0). Remarquez que l’aire à gauche de -d2,5% existe, mais est toute petite sur cette figure… Maintenant, comparez la figure 33 à la figure 19 ! (…) En effet, la puissance statistique vaut 1-β. Cela dit, tout comme β était inconnue, la puissance statistique d’une étude est inconnue (parce que la valeur de ∆ est inconnue). Bases en biostatistique – Loïc Desquilbet © – version v2.6 62/73 C. De quoi dépend la puissance statistique d’une étude ? Regardez à nouveau la figure 33. (…) Qu’est-ce qui fait que l’aire hachurée (la puissance statistique) augmente ? Première chose : ∆ (la différence réelle entre les deux moyennes μA et μB dans les populations A et B). Lorsque ∆ augmente, la puissance statistique augmente (figure 34). Figure 34 - La puissance statistique augmente quand la réelle différence augmente Maintenant, imaginez que ∆ reste fixée, qu’est-ce qui peut faire que la puissance stat’ augmente (retour sur la figure 33 ) ? (…) Réponse, si -d2,5% et +d2,5% se rapprochent de 0 (figure 35). Figure 35 - La puissance statistique augmente si d2,5% diminue Or, d2,5% = 1,96 x s{DIFF} avec {<=>>} = '@' . A 7 + 9 B S2 '@' = 7 8 . 7 C 7C 9 9 8 . 9 Regardez l’impact des effectifs (nA et nB) sur d2,5%. Vous remarquez en effet que d2,5% diminue (donc -d2,5% et + d2,5% se rapprochent de 0) lorsque nA et/ou nB augmente(nt). Bases en biostatistique – Loïc Desquilbet © – version v2.6 63/73 D. En résumé & commentaires En résumé, et en généralisant à tous les tests statistiques comparant deux indicateurs, on peut dire que la puissance statistique d’une étude augmente (c’est-à-dire sa capacité à mettre en évidence statistiquement une différence réelle), lorsque la différence réelle augmente et/ou lorsque la taille des échantillons augmente. En pratique, les investigateurs des études cliniques ont peu d’impact sur la différence réelle. Elle est en quelque sorte fixée par la nature85. En revanche, la taille des échantillons est un vrai moyen d’augmenter la puissance statistique d’une étude. Autre commentaire. Je vous rappelle la définition du risque d’erreur α (égal à 5%) : c’est la probabilité de rejeter H0 à tort, c’est-à-dire rejeter H0 lorsque H0 est vraie. En clinique, cela signifie que si un caractère chez un animal n’est absolument pas du tout associé à la présence d’une maladie, il y a quand même 5% de chances/risques que, dans l’échantillon, à cause uniquement de la fluctuation d’échantillonnage, il existe une association significative entre ce caractère et la présence de la maladie, qui vous fasse donc conclure que « sous l’hypothèse d’absence de biais d’association, il y a de fortes chances qu’il existe une association réelle entre la présence de ce caractère et celle de la maladie » ! Cela ne doit pas vous faire peur. En revanche, c’est évidemment quelque chose qu’il faut avoir en tête quand vous lisez les résultats d’une étude dans un article… Pourquoi une telle question ici, dans cette partie sur la puissance stat’ ? Pour vous rappeler que si en vrai, H0 est vraie, (heureusement qu’) il ne sert à rien d’augmenter la taille de l’échantillon pour augmenter la puissance statistique ! Pourquoi ? Parce que si H0 est vraie, la probabilité d’obtenir une différence significative vaut pile 5%, indépendamment de la taille des échantillons ! L’augmentation de la taille des échantillons augmente la puissance statistique seulement lorsqu’en vrai, il existe une réelle différence ! Dernier commentaire. Vous avez vu que, lorsqu’il existe une réelle différence, une taille d’échantillon élevée permet de gagner en puissance statistique. Par conséquent, une étude qui comprend énormément d’individus va être capable de mettre en évidence statistiquement de toutes petites différences réelles (le mauvais impact d’une faible différence réelle sur la puissance stat’ va être contre-balancé par une taille élevée d’échantillon). C’est d’ailleurs la raison pour laquelle certaines enquêtes en épidémiologie nutritionnelle doivent recruter un nombre très important d’individus : parfois, les effets bénéfiques de certains éléments nutritionnels sur l’état de santé sont relativement faibles et nécessitent par conséquent des enquêtes avec une taille d’échantillon importante pour mettre en évidence statistiquement ces faibles effets sur l’état de santé. Le corollaire est le suivant. Ce n’est pas parce qu’une étude a obtenu une association significative que cette association est cliniquement pertinente. Si la taille de l’échantillon est très importante, une différence réelle mais non cliniquement pertinente peut être statistiquement mise en évidence dans une étude (rejet de H0). De façon générale, ne confondez donc pas « association significative » et « association cliniquement pertinente ». (Cela se saurait si les stat’ savaient évaluer la pertinence clinique d’une différence !) 85 Ceci n’est pas totalement vrai en clinique thérapeutique. En comparant un groupe traité à un groupe placebo, on augmente la différence réelle entre deux pourcentages de guérisons (par exemple), l’un calculé dans le groupe traité, et l’autre dans le groupe placebo, en augmentant la dose de traitement – mais le risque est qu’en augmentant cette dose, on augmente les risques d’effets indésirables… Bases en biostatistique – Loïc Desquilbet © – version v2.6 64/73 E. Manque de puissance statistique ? Il arrive parfois (malheureusement pour les investigateurs d’une étude) qu’une étude ait manqué de puissance statistique. Qu’est-ce que cela signifie ? Cela signifie qu’une étude n’a pas réussi à montrer statistiquement une différence réelle. Quand est-ce qu’une étude ne « réussit pas à montrer statistiquement (…) » ? Quand la différence testée n’est pas significative. Et quand est-ce que cela arrive ? Quand le degré de signification p est > 0,0586. En pratique, on invoque le manque de puissance statistique quand on a failli montrer statistiquement une différence que l’on pense réelle. Le seuil communément admis pour « failli montrer statistiquement » est « 0,10 » pour le p. Et ce qui fait penser qu’il existe une réelle différence, c’est le fait d’observer une différence (ou un effet) qui est cliniquement importante. Ainsi, dans une étude clinique, si la différence observée est jugée comme importante, et si le degré de signification p est compris entre 0,05 et 0,10, l’association n’est certes pas significative, mais on peut dire que l’on a probablement87 manqué de puissance statistique, et qu’avec une taille d’échantillon plus élevée, la différence aurait probablement été significative. 86 Relisez la partie V.G.4 si vous ne vous souvenez plus pourquoi… 87 Oui, il ne faut quand même pas l’oublier, ce terme ! Il faut marcher sur des œufs, quand on invoque le manque de puissance stat’ !... Sinon, ça serait trop simple ! Bases en biostatistique – Loïc Desquilbet © – version v2.6 65/73 X. AUTRES TESTS STATISTIQUES SUR DES DONNEES INDEPENDANTES A. Présentation générale Tous les tests statistiques dont je vais parler dans cette partie considèrent que les individus sont indépendants (cf. partie VI). Ce qui guide le choix d’un test statistique est le type des deux variables88 dont on cherche à savoir si elles sont associées. Le site Internet BiostatGV vous fournit un beau tableau des différents tests statistiques, avec en plus la possibilité de les réaliser en ligne ! Voici le lien : http://marne.u707.jussieu.fr/biostatgv/?module=tests Voici une autre façon de présenter les choses, à l’aide d’une carte mentale (figure 36). Cette carte mentale est illisible ici, mais vous pouvez y accéder ici89. Cette carte vous guide dans le choix de tel ou tel test statistique en fonction du type des variables (quantitatif, qualitatif, binaire) que vous souhaitez croiser pour savoir si elles sont statistiquement associées. Figure 36 - Carte mentale de la démarche du choix d’un test statistique Je vais être très succinct, dans ce qui suit. L’objectif est de vous apprendre à choisir le test statistique adapté en fonction de la question de recherche d’une étude et des hypothèses de distributions qui sont faites (distributions normales / non normales) lorsqu’il s’agit de variables quantitatives. De plus, des infos supplémentaires sur les différents tests peuvent se retrouver dans tout livre de stat’90. 88 Il existe quatre types de variables (numériques) : binaire, qualitative nominale (l’ordre des chiffres affectés aux classes n’a pas de sens particulier, comme par exemple la race d’un vache codée en « 1 », « 2 », « 3 », ou « 4 »), qualitative ordinale (l’ordre des chiffres affectés aux classes a un sens, comme par exemple la fréquence de vomissements d’un chien codée en « 1 » pour « < 1 fois par mois », « 2 » pour « entre 1 fois par mois et 1 fois par semaine », ou « 3 » pour « ≥ 1 fois par semaine »), et quantitative. 89 En cliquant sur « Carte mentale pour savoir quel outil statistique utiliser », sur la page EVE suivante : http://eve.vet-alfort.fr/course/view.php?id=353&section=6 90 Je recommande en particulier celui de T. Ancelle, intitulé « Statistique Epidémiologie », cf. http://www.unitheque.com/Livre/maloine/Sciences_fondamentales/Statistique_epidemiologie-38398.html, normalement disponible à la bibliothèque de l’EnvA Bases en biostatistique – Loïc Desquilbet © – version v2.6 66/73 B. Le test du Chi2 testant l’association entre une variable binaire et une variable qualitative Le test du Chi2 peut s’effectuer lorsque les deux variables sont toutes les deux qualitatives non binaires, mais l’interprétation des pourcentages calculés est impossible. Je ne traite donc par conséquent pas ce cas de figure, statistiquement valable, mais tout simplement inapplicable ! Le plus dur dans la situation d’une variable binaire croisée avec une variable qualitative est de savoir quels sont les pourcentages que vous allez comparer avant de les tester. Supposons que l’on veuille savoir si la race des vaches laitières est associée à la présence de mammites (tableau 5). Tableau 5 Race A Race B Race C Total Présence de mammites Oui Non 5 29 20 54 4 49 29 132 Total 34 74 53 161 Il y a de nombreuses façons de mal citer les pourcentages qui vont être comparés puis testés (cf. discussion partie VIII.C). Je vous propose une bonne façon de citer les pourcentages qui vont ensuite être testés dans le cas du tableau 5 : le pourcentage de vaches avec mammites parmi les vaches de race A (5/34=15%), celui parmi les vaches de race B (27%), et celui parmi les vaches de race C (8%). S’il y avait parfaite indépendance entre la race des vaches et la présence de mammites, ces trois pourcentages auraient dû être égaux. Et s’ils avaient été égaux, ils auraient été tous les trois égaux au pourcentage global de vaches avec mammites parmi l’ensemble des vaches de l’échantillon (soit 29/161=18%)91. Ainsi, l’hypothèse nulle H0 de ce test est la suivante : πA = πB = πC (en prenant l’exemple de trois groupes, bien entendu). Fournir cette hypothèse est tout sauf anodin. Si vous rejetez H0, vous rejetez le fait qu’en vrai, les trois pourcentages soient égaux. Rejeter cela, c’est « affirmer » (puisque l’on rejette H0) son alternative, c’est-à-dire « il y a de grandes chances pour qu’il existe au moins un des trois pourcentages réellement différent des autres ». La suite n’est que du calcul, sans intérêt à présenter ici… (Une remarque, cependant. Si par hasard vous vous étiez dit « tiens, mais comment peut-il faire un test du Chi2 avec un des six effectifs égal à 4 ? », je vous aurais répondu « calculez les effectifs attendus sous H0, et vous verrez qu’ils sont tous les six supérieurs à 5… ») Attention, lorsqu’une des deux variables est qualitative ordinale, le test du Chi2 ne teste pas de tendance ! Si vous observez que plus la variable qualitative (ordinale) augmente et plus le pourcentage d’individus malades augmente, et si par ailleurs le degré de signification du test du Chi2 est inférieur à 0,05, vous n’avez pas le droit de dire qu’il existe une augmentation 91 Si vous ne comprenez pas pourquoi, relisez la partie VIII.E.1. Bases en biostatistique – Loïc Desquilbet © – version v2.6 67/73 significative de la présence de la maladie lorsque la variable qualitative augmente !92 Autre chose, revenons à nos vaches et à nos mammites. Vous observez que la race B est beaucoup plus fréquemment atteinte par les mammites (27%) que les deux autres races (15% et 8%, respectivement pour les races A et C). Vous n’avez cependant pas le droit de dire que la race B est significativement plus fréquemment atteinte que les deux autres races. Relisez ce qui précède ci-dessus une nouvelle fois, quand j’ai parlé de H0 et du rejet de H0 avec ce test du Chi2… Le test du Chi2 est un test global, testant l’égalité des pourcentages versus « au moins un différent des autres ». C. Le test exact de Fisher Ce test doit être utilisé quand le test du Chi2 n’est pas applicable parce qu’au moins un des effectifs attendus est inférieur à 5. L’utilisation et l’interprétation reste identique à celle d’un test du Chi2 : H0, pourcentages à comparer, conclusion à l’issue du test. Seul le calcul du degré de signification est différent, car il utilise la loi binomiale, plutôt que la loi du Chi2. D. L’analyse de variance (Anova, pour Analysis of variance) L’Anova, comme son nom (en anglais) ne l’indique par vraiment, permet de tester trois moyennes ou plus. L’Anova permet donc de tester l’association entre une variable qualitative et une variable quantitative93. C’est en quelque sorte une généralisation du test de Student qui, lui, ne permet de tester que deux moyennes. L’Anova doit être l’une des méthodes les plus décrites dans les « choses » (cours, livres, pdf en ligne, forum de stat’, …) de statistique, donc je ne vais que très peu en parler ici. Je vais en revanche vous parler de choses à ne pas oublier, quand vous faites une Anova ou lisez les résultats d’une Anova dans un article. Le principe de l’analyse de variance est de comparer la variance inter-groupe (le groupe étant l’une des classes de la variable qualitative) à la variance intra-groupe (cf. figure 37). Figure 37 - Représentation graphique de l'Anova 92 H0 est l’égalité des pourcentages ; rejeter H0, c’est rejeter l’égalité. Et le contraire d’ « égalité », ce n’est pas « augmentation » (ou « diminution »), mais c’est « différent ». 93 Si par hasard vous vous posez la question de savoir quel est le test statistique qui permet de tester l’association entre une variable binaire et une variable quantitative, la réponse fait l’objet de la partie VII en entier… ! (On va donc dire que vous ne vous êtes pas posé la question, n’est-ce pas ?!) Bases en biostatistique – Loïc Desquilbet © – version v2.6 68/73 Deux remarques. La première, il est très fréquent que des auteurs mentionnent le degré de signification issu d’une Anova (testant donc X moyennes) sans fournir les moyennes qui sont comparées. Ne vous faites pas avoir par des auteurs qui veulent vous communiquer leur joie d’avoir une association significative entre une variable qualitative et une variable quantitative en ne vous fournissant qu’un degré de signification (certes, bien inférieur à 0,05) : une association significative n’est pas synonyme d’une association cliniquement pertinente (cf. partie IX.D). Deuxième remarque, comme dans le test du Chi2 testant l’association entre une variable qualitative et une variable binaire, l’hypothèse nulle est l’égalité de toutes les moyennes dans la population, et l’hypothèse alternative est donc « il existe au moins une moyenne réellement différente des autres ». Ainsi, ce n’est pas parce qu’une Anova fournit un degré de signification < 0,05 que vous avez montré qu’une moyenne en particulier était significativement différente des autres. Le test teste l’ensemble des moyennes. E. Le test de Mann-Whitney (comparaison de deux médianes) Le test statistique de Mann-Whitney fait partie des tests statistiques dits « non paramétriques », c’est-à-dire qu’ils ne sont pas basés sur des hypothèses de distribution de probabilités94. Le test de Mann-Whitney est un test de somme de rangs, qui permet de comparer puis de tester deux médianes. Le principe est décrit dans la figure 38, en prenant comme exemple la comparaison de la médiane de croissance pondérale de chatons entre deux groupes (les groupes 1 et 2 sur la figure). La première étape consiste à classer tous les chatons par ordre de croissance pondérale croissante, indépendamment du groupe d’appartenance. La deuxième étape consiste à regrouper les chatons par groupe, puis à faire la somme des rangs dans chacun des deux groupes. Le test de Mann-Whitney teste si la somme des rangs dans le premier groupe est significativement différente de la somme des rangs dans le second groupe. Cela revient à tester si la médiane dans le premier groupe est significativement différente de la médiane dans le second groupe. Figure 38 - Principe du test de Mann-Whitney 94 Cf. https://en.wikipedia.org/wiki/Nonparametric_statistics Bases en biostatistique – Loïc Desquilbet © – version v2.6 69/73 F. Le test de Kruskal-Wallis Le test de Kruskal-Wallis peut être vu comme une généralisation du test de Mann-Whitney, de la même façon que l’Anova est une généralisation du test de Student. Le test de KruskalWallis est un test non paramétrique testant trois médianes ou plus. Les détails de ce test peuvent se retrouver ici95. 95 Cf. https://en.wikipedia.org/wiki/Kruskal%E2%80%93Wallis_one-way_analysis_of_variance Bases en biostatistique – Loïc Desquilbet © – version v2.6 70/73 XI. LES TESTS STATISTIQUES SUR SERIES APPARIEES A. Introduction Les « séries appariées » sont des cas particuliers où les « individus » ne sont pas indépendants. Le cas le plus fréquent (et celui dont je vais parler) est décrit sur la figure 39. Il s’agit de la situation où les animaux vont subir une intervention (un traitement, une opération, …) et l’on souhaite savoir si cette intervention a un impact sur un caractère. Le caractère peut être binaire ou quantitatif96. Il est évalué à t0 (CAR0), l’animal subit l’intervention, et à un instant t1, l’animal est ré-évalué (CAR1). Figure 39 - Illustration d'un cas fréquent de « séries appariées » Je rappelle la définition de l’ « indépendance » des individus (cf. partie VI.B) : « on considère qu’il y a indépendance sur le caractère dont on calcule un indicateur si la valeur du caractère d’un individu de l’échantillon est indépendante de la valeur de ce caractère d’un autre individu de l’échantillon. » Dans cette situation, les « individus » sont les évaluations à t0 et à t1 effectuées chez les N animaux de l’échantillon. Il y a donc 2N individus. Clairement l’ « individu » CAR0 d’un animal n’est pas indépendant de l’individu CAR1 de ce même animal, puisque ces deux évaluations proviennent du même animal ! Donc, ces 2N individus ne peuvent pas être considérés comme indépendants sur le caractère évalué. Il n’est pas donc pas possible de comparer la moyenne du caractère (quantitatif) évalué à t0 à la moyenne du caractère évalué à t1 avec le test de Student pour séries non appariées, tout comme il n’est pas possible de comparer le pourcentage de présence du caractère (binaire) à t0 au pourcentage de présence du caractère à t1 avec le test du Chi2. Je vais présenter trois tests statistiques pour séries appariées qu’il faut utiliser lorsque l’on se trouve dans la situation décrite sur la figure 39. Ces tests peuvent être utilisés dans d’autres situations où les individus ne sont pas indépendants, mais cela sort du cadre de ce document. B. Le test de Student pour séries appariées (comparaison de deux moyennes) Ce test doit être utilisé lorsque le caractère est quantitatif. Je ne vais pas entrer dans les détails de ce test. Déjà, si vous savez que vous devez utiliser ce test dans la situation que j’ai décrite ci-dessus, ce sera très bien (et cela vous permettra de repérer dans les articles ceux qui ont utilisé un vulgaire test de Student pour séries non appariées alors qu’ils n’auraient pas dû le faire !). Le principe général de ce test est le suivant : pour chacun des N animaux, il faut calculer la différence du caractère entre t1 et t0. Ensuite, la moyenne de toutes ces N différences (une par animal) doit être testée à 0 (c’est-à-dire que l’on va vouloir savoir si la moyenne des différences observées entre t1 et t0 est significativement différente de 0). La 96 Le cas de figure où le critère serait qualitatif n’est pas traité dans ce document. Bases en biostatistique – Loïc Desquilbet © – version v2.6 71/73 figure 40 présente un exemple de calcul, avec deux groupes de chiens (un groupe traité et un groupe sous placebo), une mesure de score de prurit à t0 (SCORE_J0), jour de l’initiation du traitement, et une mesure du score à t1, 21 jours après l’initiation du traitement (SCORE_J21). Vous pouvez voir sur la figure 40 qu’il faut créer une nouvelle variable (que j’ai appelée « Différence », qui vaut la différence de score de prurit entre J21 et J0). C’est la moyenne de cette nouvelle variable qui sera testée à 0. Figure 40 - Illustration de la démarche du test de Student pour séries appariées Le test de Student pour séries appariées ne peut pas s’utiliser si la distribution des différences sur les N animaux ne suit pas une loi normale. C. Le test de Wilcoxon pour séries appariées (comparaison de médianes) Ce test doit être utilisé lorsque le test de Student pour séries appariées ne peut pas s’utiliser (c’est-à-dire lorsque la distribution des différences ne suit pas une loi normale). Ce test permet de tester si la médiane du caractère quantitatif à t0 est ou non significativement différente de la médiane du caractère quantitatif à t1. D. Le test de McNemar pour séries appariées (comparaison de deux pourcentages) Ce test doit être utilisé lorsque le caractère évalué à t0 et à t1 est binaire. L’exemple présenté dans le tableau ci-dessous est celui où le caractère évalué est la présence de symptômes. Les données doivent être présentées tel qu’indiqué dans le tableau 6. Tableau 6 Symptômes à t0 Symptômes à t1 Oui Non Total Oui a c a+c Non b d b+d Total a+b c+d a+b+c+d Par exemple, c = « le nombre d’animaux qui présentaient des symptômes à t0 et qui n’en présentaient pas à t1 ». Si N animaux sont évalués deux fois (à t0 et à t1), alors a+b+c+d = N. &CL Pour savoir si le pourcentage d’animaux symptomatiques à t0 A&CICLCTB est &CI significativement différent du pourcentage d’animaux symptomatiques à t1 A&CICLCTB, il faut utiliser le test de McNemar. Sans entrer dans les détails, ce test teste l’hypothèse nulle selon laquelle il n’y a pas de différence du nombre de paires discordantes entre t0 (c) et t1 Bases en biostatistique – Loïc Desquilbet © – version v2.6 72/73 (b)97. (D’ailleurs, vous voyez bien que si b=c, alors les deux pourcentages que j’ai cités plus haut seront égaux.) La figure 41 ci-dessous vous présente un exemple avec des données chiffrées telles que vous pourriez les recueillir pour une étude, et les placer dans le tableau de la bonne façon pour effectuer le test statistique98. Figure 41 - Illustration pour le test de McNemar Dans l’exemple ci-dessus, on veut savoir si le pourcentage d’animaux symptomatiques à t0 (6/9=66%) est significativement différent du pourcentage d’animaux symptomatiques à t1 (3/9=33%)99. *** – That’s all, folks! – XII. REMERCIEMENTS Je tiens à remercier toutes celles et ceux qui m’ont transmis leurs remarques afin de rendre document plus facile à lire et à comprendre, et tout particulièrement Chloé Defives et Nicolas Van Caenegem pour leurs corrections, suggestions, et commentaires très pertinents. 97 Cf. https://en.wikipedia.org/wiki/McNemar's_test 98 Veuillez noter cependant que pour faire le test de McNemar sur de si faibles effectifs, une correction dite de « continuité » est nécessaire. 99 Après avoir effectué le test statistique sur le site de BiotstatGV (http://marne.u707.jussieu.fr/biostatgv/?module=tests), p=0,37 > 0,05 donc les deux pourcentages cités ne sont pas significativement différents. Bases en biostatistique – Loïc Desquilbet © – version v2.6 73/73