Bases en biostatistique v2.6 CA - Eve

publicité
Bases en biostatistique
Loïc Desquilbet
Département des Sciences Biologiques et Pharmaceutiques
Ecole nationale vétérinaire d’Alfort
Version 2.6
11/07/2016
TABLE DES MATIERES
Introduction....................................................................................................................... 8
I.
A. Prologue .......................................................................................................................... 8
B. Quel intérêt d’enseigner les stat’ dans un cursus vétérinaire ? ..................................... 8
II.
1.
Contexte d’enseignement ........................................................................................ 8
2.
Compétences générales visées ................................................................................ 9
3.
Biostatistique & épidémiologie : unies pour la vie (des animaux) .......................... 9
Définitions et présentation des concepts ....................................................................... 10
A. La notion d’ « étude » ................................................................................................... 10
B. Échantillon ..................................................................................................................... 10
C. Population cible ............................................................................................................. 10
D. Population source.......................................................................................................... 11
E. La fluctuation d’échantillonnage ................................................................................... 11
F.
III.
L’inférence statistique ................................................................................................... 12
Statistique descriptive ..................................................................................................... 13
A. Objectif .......................................................................................................................... 13
B. Notations ....................................................................................................................... 13
C. Indicateurs usuels de statistique descriptive ................................................................ 13
1.
Le taux de prévalence ............................................................................................ 13
2.
La moyenne ............................................................................................................ 13
3.
La variance et l’écart-type dans l’échantillon ........................................................ 13
4.
La médiane ............................................................................................................. 14
5.
Les quartiles ........................................................................................................... 14
D. Qualité d’une estimation............................................................................................... 14
1.
Problématique ....................................................................................................... 14
2.
Précision ................................................................................................................. 15
3.
Exactitude............................................................................................................... 16
4.
En résumé .............................................................................................................. 17
E. Interprétation d’une estimation ................................................................................... 17
Bases en biostatistique – Loïc Desquilbet © – version v2.6
2/73
F.
IV.
Intervalle de confiance d’une estimation ..................................................................... 18
1.
Théorie et interprétation ....................................................................................... 18
2.
Intervalle de confiance d’un pourcentage ............................................................. 19
3.
Intervalle de confiance d’une moyenne ................................................................ 19
4.
Application sur deux exemples concrets ............................................................... 20
Jouons un peu avant de passer aux choses sérieuses… .................................................. 21
A. Le jeu du sac de billes .................................................................................................... 21
1.
Petit rappel de probabilité ..................................................................................... 21
2.
Le jeu proprement dit ............................................................................................ 21
B. Le jeu du lancer de volant de Badminton ..................................................................... 23
V.
1.
Remarques préalables ........................................................................................... 23
2.
Jean lance aussi fort que possible un volant de Badminton ................................. 23
3.
Jacques pense lancer le volant plus fort que Jean................................................. 25
La théorie des tests statistique ....................................................................................... 29
A. Définition du « test statistique » ................................................................................... 29
B. Quand faire et quand ne pas faire de tests statistiques ? ............................................ 29
C. La « double » fluctuation d’échantillonnage................................................................. 29
D. Problématique ............................................................................................................... 31
E. Retour sur les lancers de Jean et de Jacques, et analogie ............................................ 32
F.
Les tests statistiques sont des tests d’hypothèse assortis de risques d’erreur ............ 32
1.
Les hypothèses nulle et alternative ....................................................................... 32
2.
Accepter ou rejeter l’hypothèse nulle ? ................................................................ 33
3.
Le risque d’erreur de 1ère espèce (erreur de type I) .............................................. 36
4.
Le risque d’erreur de 2ème espèce (erreur de type II) ............................................ 37
G. Le degré de signification................................................................................................ 40
1.
Remarques introductives ....................................................................................... 40
2.
Définition du degré de signification....................................................................... 41
3.
Commentaires sur la définition du degré de signification..................................... 41
4.
Lien entre le degré de signification et le risque d’erreur de 1ère espèce............... 43
5.
Sur-interprétations malheureusement classiques du degré de signification........ 44
Bases en biostatistique – Loïc Desquilbet © – version v2.6
3/73
VI.
La notion d’indépendance des individus......................................................................... 45
A. Introduction................................................................................................................... 45
B. Définition d’ « indépendance » ..................................................................................... 45
C. Situations classiques de non indépendance ................................................................. 45
D. Que faire en cas de non indépendance ? ...................................................................... 46
VII. Le test de Student pour séries non appariées (comparaison de deux moyennes) ........ 47
A. Contexte du test de Student pour séries non appariées .............................................. 47
B. Notations ....................................................................................................................... 47
C. Conditions de validité du test de Student pour séries non appariées .......................... 48
D. Rejeter ou accepter H0 avec le test de Student pour séries non appariées ................. 48
1.
Démarche de calcul ................................................................................................ 48
2.
Interprétation du test lors du rejet de H0 .............................................................. 50
3.
Interprétation du test lors de l’acceptation de H0 ................................................. 50
4.
Commentaires sur les interprétations du test ....................................................... 51
E. Calcul du degré de signification p ................................................................................. 52
F.
De quoi dépend le degré de signification ? ................................................................... 53
1.
Cas particulier du test de Student pour séries non appariées............................... 53
2.
Généralisation à tous les tests statistiques ........................................................... 53
3.
Conséquences ........................................................................................................ 53
VIII. Le test du Chi2 (comparaison de deux pourcentages) .................................................... 54
A. Contexte du test du Chi2 ............................................................................................... 54
B. Notations ....................................................................................................................... 54
C. Interprétations correctes et incorrectes de pourcentages à comparer ....................... 54
1.
Problématique ....................................................................................................... 54
2.
Comment bien citer deux pourcentages à comparer ? ......................................... 55
3.
(Mauvais) exemple issu de la littérature ............................................................... 56
D. Conditions de validité du test du Chi2 ........................................................................... 58
E. Rejeter ou accepter H0 avec le test du Chi2 .................................................................. 58
F.
1.
Démarche de calcul ................................................................................................ 58
2.
Interprétation du test lors du rejet de H0 .............................................................. 60
3.
Interprétation du test lors de l’acceptation de H0 ................................................. 61
4.
Commentaires sur les interprétations du test ....................................................... 61
Calcul du degré de signification .................................................................................... 61
Bases en biostatistique – Loïc Desquilbet © – version v2.6
4/73
IX.
La puissance statistique d’une étude .............................................................................. 62
A. Remarque préliminaire ................................................................................................. 62
B. Définition & commentaires ........................................................................................... 62
C. De quoi dépend la puissance statistique d’une étude ? ............................................... 63
D. En résumé & commentaires .......................................................................................... 64
E. Manque de puissance statistique ? ............................................................................... 65
X.
Autres tests statistiques sur des données indépendantes ............................................. 66
A. Présentation générale ................................................................................................... 66
B. Le test du Chi2 testant l’association entre une variable binaire et une variable
qualitative............................................................................................................................. 67
C. Le test exact de Fisher ................................................................................................... 68
D. L’analyse de variance (Anova, pour Analysis of variance) ............................................ 68
E. Le test de Mann-Whitney (comparaison de deux médianes) ....................................... 69
F.
XI.
Le test de Kruskal-Wallis ............................................................................................... 70
Les tests statistiques sur séries appariées ...................................................................... 71
A. Introduction................................................................................................................... 71
B. Le test de Student pour séries appariées (comparaison de deux moyennes) .............. 71
C. Le test de Wilcoxon pour séries appariées (comparaison de médianes) ..................... 72
D. Le test de McNemar pour séries appariées (comparaison de deux pourcentages) ..... 72
XII. Remerciements ............................................................................................................... 73
Bases en biostatistique – Loïc Desquilbet © – version v2.6
5/73
INDEX DES FIGURES
Figure 1 - Processus théorique d'échantillonnage et d’estimation multiples ......................... 15
Figure 2 - Estimation précise mais biaisée ............................................................................... 16
Figure 3 - Estimation imprécise mais non biaisée .................................................................... 16
Figure 4 - Représentation graphique de l’Inférence statistique .............................................. 18
Figure 5 - Tirage de billes rouges d'un sac de billes avec proportion connue ......................... 21
Figure 6 - Tirage de billes rouges d'un sac de billes avec proportion inconnue ...................... 21
Figure 7 - Lancers de volant de Badminton de Jean ................................................................ 24
Figure 8 - Lancers de Jacques dans l'espace-temps n°1........................................................... 27
Figure 9 - Lancers de Jacques dans l'espace-temps n°2........................................................... 27
Figure 10 - Illustration théorique de la double fluctuation d'échantillonnage ........................ 30
Figure 11 - Distribution des différences théoriquement observées ........................................ 30
Figure 12 - Distribution des différences théoriquement observées centrée sur ∆ = 4 ........... 31
Figure 13 - Distribution des différences théoriquement observées centrée sur 0.................. 31
Figure 14 - Ensemble des distributions observables sous l'hypothèse d'absence de réelle
différence ................................................................................................................................. 34
Figure 15 - Figure 14 en quantifiant par α l'aire sous la courbe .............................................. 35
Figure 16 - Figure 14 en quantifiant par α=5% l'aire sous la courbe ....................................... 36
Figure 17 - Ensemble des distributions observables sous l'hypothèse de présence d'une
réelle différence ....................................................................................................................... 37
Figure 18 - Ensemble des différences observables conduisant à accepter H0......................... 38
Figure 19 - Représentation graphique du risque d'erreur β .................................................... 38
Figure 20 - Figure 19 avec ∆ qui a augmenté........................................................................... 39
Figure 21 - Citation traitant le degré de signification comme le Mal ...................................... 40
Figure 22 - Représentation graphique du degré de signification............................................. 41
Figure 23 - Lien entre le degré de signification p et α ............................................................. 43
Figure 24 - Ensemble des différences observables entre deux moyennes sous l'hypothèse
d'absence de réelle différence ................................................................................................. 47
Figure 25 - H0 rejetée avec le test de Student pour séries non appariées .............................. 48
Figure 26 - Détermination de d2,5% dans le test de Student pour séries non appariées.......... 49
Figure 27 - Lecture de la valeur de 1,96 dans la table de la loi N(0,1) ..................................... 49
Figure 28 - Représentation graphique du degré de signification avec le test de Student pour
séries non appariées ................................................................................................................ 52
Figure 29 - Aide au calcul du degré de signification dans le test de Student pour séries non
appariées .................................................................................................................................. 52
Bases en biostatistique – Loïc Desquilbet © – version v2.6
6/73
Figure 30 - Tableau issu d'un article avec erreur de pourcentages ......................................... 56
Figure 31 - Loi du Chi2 à 1 degré de liberté .............................................................................. 60
Figure 32 - Degré de signification avec une loi du Chi2 ............................................................ 61
Figure 33 - Représentation graphique de la puissance statistique .......................................... 62
Figure 34 - La puissance statistique augmente quand la réelle différence augmente ............ 63
Figure 35 - La puissance statistique augmente si d2,5% diminue .............................................. 63
Figure 36 - Carte conceptuelle du panel de différents tests statistiques ................................ 66
Figure 37 - Représentation graphique de l'Anova ................................................................... 68
Figure 38 - Principe du test de Mann-Whitney ........................................................................ 69
Figure 39 - Illustration d'un cas fréquent de « séries appariées » ........................................... 71
Figure 40 - Illustration de la démarche du test de Student pour séries appariées ................. 72
Figure 41 - Illustration pour le test de McNemar..................................................................... 73
Bases en biostatistique – Loïc Desquilbet © – version v2.6
7/73
I.
INTRODUCTION
A. Prologue
Ce document est tout d’abord destiné aux élèves de 1ère année de l’EnvA. Cela dit, un certain
de nombre de parties de ce document n’est pas au programme de 1ère année. C’est normal,
ce document est destiné à être gardé tout au long du cursus, et c’est parfois en 4ème voire
5ème année que l’on peut avoir besoin de choses dans le domaine de la biostat’, à des
moments dans le cursus où je n’interviens plus… Ce document est aussi destiné aux
enseignants-chercheurs, internes, assistants-hospitaliers, résidents, diplômés, dans le
domaine vétérinaire, mais pas seulement, qui souhaiteraient avoir un bon aperçu des
concepts de la biostatistique…
Ce document devrait se lire comme une histoire. Les parties s’entremêlent, je ne cesse de
faire référence à ce que j’ai pu écrire avant. Les parties sont donc tout sauf indépendantes
les unes des autres. (J’exagère probablement un peu, mais c’est pour vous avertir que si
vous lisez les parties les unes indépendamment des autres, en ne vous focalisant notamment
que sur une partie parce que c’est celle qui vous intéresse à ce moment-là, ça risque alors
d’être un peu dur…) Il y a du concept (parties II, III, V, VI, et IX), du jeu que je juge
indispensable à la compréhension des concepts (partie IV), et de la « technique » concernant
l’application des intervalles de confiance (partie III) et des tests statistiques (parties VII, VIII,
X, XI).
Je vous recommande de vous munir de post-it® pour marquer les pages où se trouvent les
différentes figures auxquelles je fais souvent référence !
Enfin, dernière chose pour terminer ce prologue, cf. ici1.
B. Quel intérêt d’enseigner les stat’ dans un cursus vétérinaire ?
1. Contexte d’enseignement
Il existe probablement autant de réponses que d’enseignants en biostatistique dans les
écoles ou facultés vétérinaires. Je vous propose ma réponse : « pour préparer la
compréhension et l’utilisation des outils issus de l’épidémiologie ». Je vous l’accorde, le fait
que je sois épidémiologiste de formation n’est pas probablement étranger à ma réponse…
Cela dit, c’est à partir de nombreux échanges, quasi quotidiens, avec mes collègues
vétérinaires et souvent cliniciens, que j’ai au fur et à mesure élaboré mes enseignements
dans le domaine de la biostatistique (en 1ère année) puis dans le domaine de l’épidémiologie
clinique (en 2ème et 3ème année) à l’EnvA. Parmi les échanges qui ont eu un impact décisif
dans le choix des compétences générales visées, je peux citer en premier ceux issus de mes
participations aux différents « Journal Club »2 de différents services (médecine interne,
chirurgie, et cardiologie). C’est au cours de ces « Journal Club » que je me suis rendu compte
1
Si la lecture de ce document vous fait un peu penser au roman La caverne des idées (de José Carlos Somoza),
cela ne sera pas étonnant. N’allez cependant pas maintenant sur Wikipédia (pour une fois) pour en apprendre
davantage sur le roman, sinon, c’est comme si vous connaissiez la fin d’un film avant de l’avoir vu !
2
Séance d’analyse critique d’articles de recherche clinique, organisée par les chefs de service, au cours de
laquelle un ou plusieurs résidents / assistants hospitaliers présente(nt) puis critique(nt) un ou plusieurs articles.
Bases en biostatistique – Loïc Desquilbet © – version v2.6
8/73
de ce qui était indispensable à enseigner dans un cursus vétérinaire en tronc commun, et de
ce qui l’était moins, voire … beaucoup moins !
2. Compétences générales visées
J’ai très souvent observé mes collègues cliniciens lire plus qu’en diagonal la partie « Matériel
et méthodes » d’un article de recherche clinique car ne se sentant pas à même de
comprendre toutes les subtilités de « langage ». Or, des choses éminemment importantes
sont écrites dans cette partie. Ce qui y est écrit ou justement, pas écrit, peut totalement
remettre en cause la conclusion des auteurs. C’est malheureusement parce qu’un certain
nombre de relecteurs dans les revues internationales de médecine clinique vétérinaire n’ont
pas de formation en épidémiologie clinique ni en biostatistique, que les vétérinaires
devraient être capables de critiquer un article aussi dans sa méthodologie statistique dont
dépend, entre autres, la véracité des propos énoncés dans la conclusion d’un article. C’est
donc les compétences générales que je souhaite faire acquérir aux étudiants tout au long de
leur cursus : avoir un esprit critique face à la lecture (ou à l’audition, dans le cas de
conférences) d’un document scientifique vétérinaire contenant des analyses statistiques,
qu’il émane d’une revue francophone de vulgarisation tout comme d’une a priori
« excellente » revue internationale vétérinaire. Autrement dit, être capable de savoir si les
messages que font passer les auteurs (et qui peuvent avoir un impact sur entre autres la
prise en charge thérapeutique d’un animal malade) sont étayés par des arguments rigoureux
d’un point de vue méthodologie statistique et par une discussion rigoureuse sur la présence
et/ou l’impact des biais.
3. Biostatistique & épidémiologie : unies pour la vie (des animaux)
Cette capacité à critiquer un document dans sa méthodologie statistique demande de
bonnes connaissances de base en biostatistique, mais aussi et surtout, de bonnes
connaissances en épidémiologie. Qu’est-ce que l’épidémiologie ? Pour faire simple, disons
que c’est la science médicale permettant de comprendre les mécanismes de survenue d’un
mauvais état de santé d’un être vivant. On peut distinguer l’épidémiologie descriptive et
l’épidémiologie analytique. La première a principalement pour objectif de décrire et
d’anticiper l’apparition d’un mauvais état de santé ; la seconde a principalement pour
objectif de rechercher les facteurs de risque d’un mauvais état de santé afin, entre autres,
de faire de la prévention efficace. Les articles scientifiques vétérinaires font souvent appel
aux outils issus de l’épidémiologie. Soit parce qu’ils veulent décrire la maladie étudiée dans
une population donnée, soit parce qu’ils veulent identifier les facteurs de risque d’une
maladie. Or, pour maîtriser les outils issus de l’épidémiologie, il faut de façon indispensable
maîtriser les bases en biostatistique. Donc, si vous n’avez pas acquis les bases en
biostatistique, vous ne pourrez pas acquérir des connaissances / compétences solides en
épidémiologie qui sont, entre autres, indispensables à la réalisation d’une analyse critique
d’un article.
Bases en biostatistique – Loïc Desquilbet © – version v2.6
9/73
II.
DEFINITIONS ET PRESENTATION DES CONCEPTS
A. La notion d’ « étude »
Dans tout ce document, je vais utiliser le terme « étude ». Ce terme, générique, peut faire
référence à une étude clinique, un essai clinique3, une étude épidémiologique, ou une
enquête épidémiologique4, dont les objectifs peuvent être très variés. Le point commun
parmi ces études ou enquêtes est le fait qu’elles aient pour objectif de faire porter leurs
résultats issus d’un échantillon sur une population d’individus.
B. Échantillon
L’échantillon est le groupe d’« individus » sur lesquels sont effectuées les analyses
statistiques. Dans le domaine de la bovine, il faut bien faire attention si l’échantillon est
constitué d’élevages (auquel cas, l’ « individu » est l’élevage, et les données recueillies le
sont à l’échelle de l’élevage en entier ; citons par exemple la taille de l’élevage, l’hygiène de
l’élevage, le type de stabulation, le type de l’élevage allaitant/laitier/mixte, …) ou bien
constitué de vaches (auquel cas, l’ « individu » est la vache, et les données recueillies le sont
à l’échelle de la vache ; citons par exemple la note d’état corporel, la parité, les antécédents
de mammites, …). La « taille de l’échantillon » est le nombre d’individus que compte
l’échantillon.
C. Population cible
La population cible est la population que l’on vise, quand on met en place une étude ; c’est
la population à laquelle on voudrait pouvoir étendre les résultats. Il est fondamental de
correctement définir la population cible quand on met en place une étude, car elle va
permettre de choisir la population source (cf. ci-dessous) de telle façon à ce que cette
dernière soit la plus proche possible de la population cible. Il est par ailleurs tout aussi
important de savoir quelle est la population cible quand vous lisez un article scientifique car
vous saurez ainsi les individus sur lesquels on peut a priori appliquer les résultats de l’étude,
et ceux sur lesquels on ne le peut a priori pas.
Dans la très grande majorité des cas, la population cible est mentionnée au moment où
l’objectif principal de l’étude est mentionné.
3
Un essai clinique est une étude médicale ayant très souvent pour objectif de vérifier l'efficacité ou la
tolérance d'une molécule, d'un traitement ou d'une méthode diagnostique.
4
Le mot « enquête » en français est la traduction de « study » en anglais (par exemple, « a cohort study » se
traduit en français par « une enquête de cohorte »). Cela dit, le mot « étude » en français peut aussi se
retrouver dans des articles francophones, pour signifier la même chose que le mot « enquête ».
Bases en biostatistique – Loïc Desquilbet © – version v2.6
10/73
D. Population source
La population source est constituée des individus d’où sont extraits ceux qui ont fait partie
de l’échantillon. Dit autrement, et plus pragmatiquement, la population source est
l’ensemble des individus susceptibles5 de faire partie de l’échantillon. Ce mot « susceptible »
est fondamental. Pour définir la population cible, il faut imaginer6 tous les individus qui
auraient pu faire partie de l’échantillon si le processus d’échantillonnage avait été réalisé
une infinité de fois ! C’est uniquement la lecture du protocole d’une étude qui vous permet
de définir la population source de cette étude. Une autre façon de définir de façon
pragmatique la population source est (là encore) d’imaginer tous les individus qui ne
pourraient jamais faire partie de l’échantillon compte tenu du protocole de l’étude, et la
population source est alors constituée de tous les autres individus.
Par ailleurs, le verbe « échantillonner » signifie « créer un échantillon à partir de la
population source ».
E. La fluctuation d’échantillonnage
La fluctuation d’échantillonnage est la manifestation du hasard dans la constitution de
l’échantillon à partir de la population source. La fluctuation d’échantillonnage est i-né-luc-table. Vous dev(r)ez vivre avec, si vous menez une étude, et elle doit toujours être dans votre
tête lorsque vous lisez les résultats d’une étude. Quelle est la conséquence majeure de cette
« fluctuation d’échantillonnage » ? C’est le fait que si l’on tirait au sort deux échantillons
issus de la même population source, les résultats dans chacun de ces deux échantillons (deux
moyennes ou deux pourcentages) ne seraient jamais identiques (à la troisième ou quatrième
décimale, si besoin, mais il n’y a souvent pas besoin d’aller aussi loin dans les décimales pour
observer cette différence !). En pratique, il n’y a qu’un seul échantillon tiré au sort (ou pas
« au sort », d’ailleurs) à partir de la population source. Donc, vous ne verrez pas la
manifestation de cette fluctuation d’échantillonnage. Mais vous devrez en avoir conscience !
Conscience du fait que ce que vous avez observé a été coloré par le hasard, sans connaître
l’épaisseur de cette hasardeuse couche de peinture qui a été ajoutée… ! En revanche, vous
aurez le droit de penser et de dire que, sous certaines hypothèses (cf. plus loin dans ce
document7), le résultat qui aura été observé dans l’échantillon aura de grandes chances
d’être proche de celui dans la population source, voire même cible.
5
Certains vont probablement penser que j’abuse de l’écriture en italique ! Oui, c’est vrai, je ne vais pas la
réserver aux seuls termes latins. Il ne s’agit pas d’ « abus » ! Simplement, dans le domaine de la biostatistique
et l’épidémiologie (comme dans beaucoup d’autres domaines – tous ?...), les mots sont très importants, et je
les souligne en italique (plutôt qu’en les soulignant, physiquement parlant).
6
Là, c’est une autre raison pour laquelle je souligne ce mot : je mets ce mot en italique pour le mettre en
valeur, comme je l’aurais mis en valeur à l’oral en faisant une pause, juste après l’avoir énoncé.
7
J’aime l’effet de surprise, je ne vais donc pas tout dévoiler dès maintenant, quand même !...
Bases en biostatistique – Loïc Desquilbet © – version v2.6
11/73
F. L’inférence statistique
De façon générale, faire de l’inférence statistique, ou « inférer statistiquement », c’est
étendre les résultats observés dans l’échantillon à la population cible. Toute étude a pour
objectif de faire de l’inférence statistique (ou causale, mais là, on sort du programme de 1ère
année !). En effet, quel serait l’intérêt d’une étude qui cantonne ses résultats à son propre
échantillon ? Entre le moment où les résultats sortent de l’ordinateur et le moment où les
résultats sont publiés, probablement qu’une partie non négligeable des individus est déjà
morte !
Bases en biostatistique – Loïc Desquilbet © – version v2.6
12/73
III.
STATISTIQUE DESCRIPTIVE
A. Objectif
L’un des objectifs de la statistique descriptive est de fournir une estimation d’un indicateur
(une moyenne, un pourcentage, …), calculée dans un échantillon, qui soit la plus proche
possible de la valeur réelle de cet indicateur dans la population cible, valeur qui est par
définition inconnue.
B. Notations
De façon générale, dans ce document, les caractères grecs vont toujours faire référence à
des indicateurs dans la population cible. Je vais noter « θ » la valeur d’un indicateur
quelconque, « μ » la moyenne d’un caractère quantitatif, et « π » le pourcentage d’un
caractère binaire. Les caractères grecs avec un chapeau au-dessus vont faire référence à la
valeur estimée de l’indicateur dans l’échantillon.
C. Indicateurs usuels de statistique descriptive
1. Le taux de prévalence
Le taux de prévalence (d’une maladie) est le pourcentage d’individus atteints d’une
« maladie » (au sens général du terme).
2. La moyenne
Tout le monde sait ce qu’est une moyenne !... En revanche, petite info comme ça en passant,
on ne peut interpréter correctement une moyenne que si la distribution de la variable
quantitative dont on souhaite calculer la moyenne suit (à peu près) une loi normale. Pour
effectuer cette vérification, j’ai déposé sur EVE un fichier Excel vous permettant de dresser
facilement un histogramme avec un nombre de barres adapté à la taille de l’échantillon
(http://eve.vet-alfort.fr/course/view.php?id=353 ; section 5).
3. La variance et l’écart-type dans l’échantillon
Ne comptez pas sur moi pour vous fournir des formules mathématiques (vous savez
probablement même mieux que moi où les retrouver sur Internet). En revanche, plusieurs
choses importantes. La première, c’est que la variance et l’écart-type dans l’échantillon
quantifient la variabilité du caractère quantitatif mesuré. Cette variabilité est en quelque
sorte fixée par la « nature », parfois avec l’aide de l’Homme… Deuxième chose importante,
l’écart-type dans l’échantillon (« standard deviation », en anglais) ne doit pas être confondu
avec l’écart-type de la moyenne (« standard error », en anglais) que l’on verra plus tard…
Troisième chose, la variabilité d’un caractère quantitatif, fixée par la nature, ne dépend pas
de la taille de l’échantillon ! En effet, le nombre de doigts sur une main (humaine) est un
caractère quantitatif très peu variable. Certes, sur 10.000 individus, il y a plus de chances
d’en observer au moins un avec 4 doigts que sur 100 individus, mais, si dans la population, la
proportion d’individus avec 4 doigts sur une main est de 0,1%, en espérance, la proportion
d’individus avec 4 doigts dans un échantillon tiré au sort de la population sera elle aussi de
0,1%, quelle que soit la taille de l’échantillon !
Bases en biostatistique – Loïc Desquilbet © – version v2.6
13/73
Pour décrire un caractère quantitatif qui suit (à peu près) une loi normale, on utilise la
moyenne ainsi que l’écart-type dans l’échantillon ; la moyenne et l’écart-type dans
l’échantillon ne doivent pas être fournis si la distribution du caractère n’est pas (à peu près)
normale. Dans ce cas de figure-là, on fournit la médiane et les quartiles.
4. La médiane
La médiane se calcule pour un caractère quantitatif. Soit Vmed la valeur de la médiane
calculée dans un échantillon. Cette valeur est telle que 50% des individus de l’échantillon ont
une valeur inférieure à Vmed, et 50% des individus de l’échantillon ont une valeur supérieure
à Vmed. On présente la médiane d’un caractère quantitatif lorsque, entre autres, la moyenne
n’est pas interprétable en raison d’une distribution non normale. Dans ce même cas de
figure, on fournit les 1er et 3ème quartiles (cf. ci-dessous) pour donner une bonne idée de la
variabilité du caractère quantitatif mesuré.
5. Les quartiles
Le 1er quartile, ou 25ème percentile noté « Q1 », est la valeur du caractère quantitatif telle
que 25% des individus de l’échantillon ont une valeur inférieure à Q1, et 75% des individus
de l’échantillon ont une valeur supérieure à Q1. Le 3ème quartile, ou 75ème percentile noté
Q3, est la valeur du caractère quantitatif telle que 75% des individus de l’échantillon ont une
valeur inférieure à Q3, et 25% des individus de l’échantillon ont une valeur supérieure à Q3.
La distance interquartile (« interquartile range », en anglais) est l’intervalle [Q1 ; Q3] ; il
fournit une indication de la variabilité du caractère mesuré (tout comme le fait l’écart-type
dans l’échantillon) car on peut affirmer que dans l’échantillon, 50% des individus ont une
valeur du caractère quantitatif comprise entre Q1 et Q3.
D. Qualité d’une estimation
1. Problématique
Supposons que vous souhaitiez connaître le pourcentage de chiens adultes en France qui
présentent des problèmes neurolocomoteurs. Vous allez mettre en place votre petite étude,
c’est-à-dire demander à vos amis qui ont des chiens s’ils ont observé récemment des
problèmes neurolocomoteurs (déjà, au moment où vous leur dites cela, certains vous
regardent un peu méchamment, comme si vous aviez insulté leur chien !). Parmi 18 chiens
de votre proche ou lointain entourage, 4 ont semble-t-il présenté récemment des problèmes
neurolocomoteurs, ce qui conduit à un pourcentage estimé de 4/18=22%. La question est
désormais la suivante : votre estimation est-elle suffisamment de qualité pour permettre de
faire de l’inférence à l’ensemble de la population des chiens adultes de France ? Pour y
répondre, il faut s’assurer que cette estimation est précise et exacte ! Et c’est ce que je vous
propose de voir désormais.
Bases en biostatistique – Loïc Desquilbet © – version v2.6
14/73
2. Précision
Une estimation est dite précise si (attention, ça va être théorique), en imaginant8 que l’on
échantillonne n fois et que l’on calcule n fois (cf. figure 1), on avait ces n valeurs de
proches les unes des autres.
Si , , …,
étaient proches les unes des
autres, on pourrait dire que la façon d’estimer
θ (ou autrement dit, « l’estimation de θ ») est
précise.
Figure 1 - Processus théorique d'échantillonnage et d’estimation multiples
Dire que ces valeurs sont très proches les unes des autres, c’est aussi dire qu’elles sont très
peu « dispersées », ou sont très peu « variables », les unes par rapport aux autres. A
contrario, plus les valeurs sont variables les unes par rapport aux autres, plus on peut se
dire intuitivement que chacune de ces estimations est imprécise (car d’une estimation à
l’autre, on obtient des valeurs très différentes).
Tout ça est très théorique puisqu’en pratique, on ne prélève qu’un seul échantillon de la
population (source) ! En pratique, pour quantifier cette précision, on quantifie (à partir de
notre seul échantillon) la variabilité de toutes ces . Comment ? En calculant la variance (et
par voie de conséquence, l’écart-type) de cette estimation. Ainsi, la variance d’une
estimation, ou l’écart-type d’une estimation, quantifie la précision avec laquelle
est
calculée. Plus la variance ou l’écart-type de l’estimation diminue, plus l’estimation est
précise.
Ainsi, pour un caractère quantitatif quelconque, l’écart-type dans l’échantillon quantifie la
variabilité du caractère entre les différents animaux. L’écart-type de la moyenne de ce
caractère quantitatif quantifie quant à lui la variabilité théorique de toutes les moyennes qui
auraient9 été calculées dans une infinité d’échantillons issus de la même population source,
variabilité (des moyennes) que je souhaite que vous nommiez « précision » (de la moyenne).
8
(Je ne vais pas vous rassurer en disant cela, mais tant pis.) Je suis désolé (non, ce n’est pas vrai), mais vous
n’avez pas fini de devoir « imaginer » des choses, en lisant ce document. Accrochez-vous si vous n’avez pas
pour habitude de faire fortement travailler votre imagination !
9
Le conditionnel est très important ! Car en pratique, on ne calcule bien évidemment pas toutes ces
moyennes !
Bases en biostatistique – Loïc Desquilbet © – version v2.6
15/73
3. Exactitude
Une estimation
est dite exacte si elle n’est pas biaisée. Qu’est-ce qu’un « biais
d’estimation » ? Théoriquement, c’est l’écart entre la moyenne de toutes les estimations
que l’on aurait calculées à partir d’une infinité de tirage au sort d’échantillons et la vraie
valeur inconnue θ (cf. figure 2). Vous trouverez ci-dessous deux situations bien différentes.
La première, celle où la façon d’estimer θ est précise, mais biaisée car ces estimations ,
bien que proches les unes des autres, sont systématiquement inférieures à la vraie valeur θ
(figure 2). La seconde situation présente une façon imprécise d’estimer θ car les sont très
dispersées, mais exacte car les
sont autour de la vraie valeur de θ, ce qui fait que la
moyenne de toutes ces est égale à la vraie valeur θ (figure 3).
Figure 2 - Estimation précise mais biaisée
Figure 3 - Estimation imprécise mais non biaisée
Une autre définition d’un biais d’estimation est la suivante : le biais d’estimation est l’écart
systématique entre la valeur estimée et la valeur réelle θ. « Systématique » dans le sens où
si l’on refaisait l’échantillonnage une infinité de fois, on aurait un écart entre la valeur
estimée et la valeur réelle systématiquement du même ordre non nul de grandeur (la
fluctuation d’échantillonnage va faire varier cet écart, d’un échantillon théorique à l’autre).
Bases en biostatistique – Loïc Desquilbet © – version v2.6
16/73
Tout ça encore n’est que de la théorie. Car en pratique, non seulement on ne connait pas la
vraie valeur de θ, mais en plus, on n’estime qu’une seule valeur de θ, c’est . Le biais ne peut
donc pas se quantifier. Il peut en revanche s’apprécier, se discuter10.
L’origine des biais d’estimation n’est pas décrite dans ce document, car n’étant pas au
programme du module de Bases en biostatistique de 1ère année. Cela dit, sachez qu’il existe
deux biais d’estimation en épidémiologie descriptive : le biais d’échantillonnage et le biais de
mesure.
4. En résumé
Une estimation est de bonne qualité si elle est précise et exacte, c’est-à-dire exempt de biais
(d’échantillonnage et de mesure). Dans la mesure où l’on arrive davantage à quantifier
l’imprécision que l’inexactitude, il vaut à la limite mieux estimer un indicateur de façon
imprécise qu’inexacte !...
E. Interprétation d’une estimation
Interpréter une estimation, c’est obligatoirement la mettre en rapport avec la valeur réelle
inconnue de l’indicateur que l’on a estimé dans la population cible (figure 4). C’est-à-dire
que lorsque l’on vous demande d’interpréter une estimation, on vous demande, tout
simplement, de faire … de l’inférence statistique !
Soit la valeur de l’estimation d’un indicateur dans un échantillon. On fait de l’inférence
statistique en disant : « sous l’hypothèse d’absence de biais d’estimation, alors il y a de
grandes chances pour que la valeur réelle θ de l’indicateur dans la population cible soit
proche de ». Vous pouvez voir dans la figure ci-dessous le cercle plus ou moins vertueux du
processus d’estimation d’un indicateur. Il peut ne pas être « vertueux » si θsource est différent
de θ (ce qui est le cas lorsque des biais d’échantillonnage sont présents), et/ou lorsque est
systématiquement éloigné de θsource (ce qui est le cas lorsque des biais d’échantillonnage ou
des biais de mesure sont présents).
10
D’ailleurs, c’est l’une des immenses et non moins intéressantes tâches de l’épidémiologiste : discuter (et
prendre en compte quand c’est possible) la présence de biais et l’impact qu’ont ces biais sur la capacité à faire
de l’inférence statistique.
Bases en biostatistique – Loïc Desquilbet © – version v2.6
17/73
Figure 4 - Représentation graphique de l’Inférence statistique
Cela dit, même s’il n’y a aucun biais, il ne faut pas oublier que la fluctuation
d’échantillonnage (le Hasard, avec un grand H) peut conduire à une estimation
très
éloignée de la valeur réelle θ dans la population cible, sans bien entendu que l’on s’en rende
compte, puisque θ est inconnue. C’est normal, acceptable, il faut vivre avec11.
Je peux cependant vous rassurer en écrivant ceci : sous réserve d’absence de biais
d’estimation, plus l’estimation est précise, plus θ a de chances d’être proche de la valeur
estimée .
F. Intervalle de confiance d’une estimation
1. Théorie et interprétation
Cette théorie ne va pas aller très loin. L’idée ici n’est pas de vous apprendre les statistiques
pour que vous deveniez des biostatisticiens. J’ai donc pris le parti de bien davantage vous
apprendre à interpréter les choses qu’à vous apprendre les démonstrations mathématiques
/ statistiques pour obtenir différentes formules.
Un intervalle de confiance d’une estimation est un intervalle dans lequel on peut être
confiant dans le fait d’affirmer que la valeur réelle θ dans la population cible se trouve dans
cet intervalle. Cette « confiance » doit être quantifiée. Dans la très grande majorité des cas,
on fixe ce degré de confiance à 95%. Ainsi, un intervalle de confiance à 95% de est
l’intervalle dans lequel il y a 95% de chances que la valeur réelle θ dans la population cible
s’y trouve12. Pour que l’interprétation de l’intervalle de confiance soit complète, il faut
ajouter « sous l’hypothèse que l’estimation ne soit pas biaisée ».
11
De la même façon que dans la vie, on a appris à vivre avec cette incertitude, heureusement présente – sinon
la vie serait atrocement prévisible et par conséquent tellement ennuyeuse, non ?!
12
L’interprétation rigoureuse (mais hors programme) d’un intervalle de confiance est un peu plus compliquée
que cela : il y a 95% de chances pour que l’intervalle de confiance à 95% comprenne la valeur réelle θ.
Bases en biostatistique – Loïc Desquilbet © – version v2.6
18/73
Ainsi, si [ICinf ; ICsup]95% est l’intervalle de confiance à 95% de , cela signifie que si n’est pas
biaisée par du biais d’estimation, il y a 95% de chances pour que la valeur réelle θ dans la
population cible soit comprise entre ICinf et ICsup.
La formule générale de l’intervalle de confiance à 95% d’une estimation
+/- Tconf x
où
est la suivante :
est l’écart-type de l’estimation de .
Tconf est un coefficient qui dépend du type d’estimation (moyenne, pourcentage, …) et de la
taille de l’échantillon. Parfois, dans des cas notamment où les effectifs sont trop petits, cette
formule n’est plus applicable.
2. Intervalle de confiance d’un pourcentage
Soit
l’estimation d’un pourcentage dans un échantillon de taille n. L’écart-type de
l’estimation
vaut :
=
Si n x > 5 et si n x (1 - ) > 5, alors la formule de l’intervalle de confiance à 95% d’un
pourcentage estimé est : +/- 1,96 x
Si n x ≤ 5 ou si n x (1 - ) ≤ 5 (situation hors programme), alors je vous invite à aller sur un
site Internet13 pour calculer l’intervalle de confiance d’un pourcentage, en lisant les bornes
calculées à l’aide de la méthode exacte (binomiale).
3. Intervalle de confiance d’une moyenne
Soit ̂ l’estimation d’une moyenne dans un échantillon de taille n. L’écart-type de la
moyenne ̂ (« standard error », en anglais ; à ne pas confondre avec l’écart-type dans
l’échantillon, je vous le rappelle !) vaut : = où s est l’écart-type dans l’échantillon.
√
Si n > 30 et si la variable quantitative dont on calcule la moyenne suit (à peu près) une loi
normale, alors la formule de l’intervalle de confiance à 95% d’une moyenne estimée ̂ est : ̂
+/- 1,96 x
Si n < 30 (situation hors programme), je vous suggère d’aller sur un autre site Internet14 où
tout est bien expliqué !
13
http://epitools.ausvet.com.au/content.php?page=CIProportion&SampleSize=20&Positive=5&Conf=0.95&Digits
=3
14
http://www.dummies.com/how-to/content/how-to-calculate-a-confidence-interval-for-a-popu0.html
Bases en biostatistique – Loïc Desquilbet © – version v2.6
19/73
4. Application sur deux exemples concrets
Prenons le premier exemple. Supposons que l’on veuille estimer le taux de prévalence
d’hyperkaliémie15 chez les chiens domestiques de toutes races atteints de pancréatite en
France. Pour cela, on constitue un échantillon de 49 chiens atteints de pancréatite. Parmi ces
49 chiens, 6 chiens sont atteints d’hyperkaliémie. Le taux de prévalence est donc de 6/49
soit 12%. On peut d’ores et déjà interpréter ce pourcentage de 12% : sous l’hypothèse que
l’estimation de 12% ne soit pas biaisée par du biais d’estimation, alors il y a de grandes
chances pour que le taux de prévalence réel d’hyperkaliémie dans la population des chiens
domestiques de toutes races atteints de pancréatite en France soit proche de 12%.
Calculons maintenant l’intervalle à 95% de cette estimation de 12%. Il faut tout d’abord
vérifier que l’on puisse effectuer ce calcul : n x > 5 et n x (1 - ) > 5. Ici, cela donne n x 0,12
= 6 et n x (1 – 0,12) = 43. Ces deux nombres sont > 5, donc on peut utiliser la formule de
l’intervalle de confiance à 95% pour un pourcentage fournie ci-dessus :
0,12 +/- 1,96 x
,
,
= 0,12 +/- 0,09 = [0,03 ; 0,21]
Par conséquent, si l’estimation de 12% n’est pas biaisée, alors il y a 95% de chances pour que
le taux de prévalence réel d’hyperkaliémie dans la population des chiens domestiques de
toutes races atteints de pancréatite en France soit compris entre 3% et 21%.
Prenons un deuxième exemple sur la même thématique. Supposons que l’on veuille estimer
la moyenne du taux de potassium chez des chiens domestiques de toutes races atteints de
pancréatite en France. Supposons que le taux de potassium suive une loi normale. Dans le
même échantillon de 49 chiens que précédemment, on estime la moyenne du taux de
potassium à 4,5 mmol/l, avec un écart-type dans l’échantillon de 1,8 mmol/l. On peut d’ores
et déjà interpréter cette moyenne de 4,5 mmol/l : sous l’hypothèse que l’estimation de 4,5
ne soit pas biaisée par du biais d’estimation, alors il y a de grandes chances pour que la
moyenne réelle du taux de potassium dans la population des chiens domestiques de toutes
races atteints de pancréatite en France soit proche de 4,5 mmol/l.
Calculons maintenant l’intervalle à 95% de cette estimation de 4,5. Il faut tout d’abord
vérifier que l’on puisse effectuer ce calcul : n > 30 et l’on a supposé que le taux de potassium
suivait une loi normale. Donc on peut utiliser la formule de l’intervalle de confiance à 95%
,
fournie ci-dessus : 4,5 +/- 1,96 x
= 4,5 +/- 0,50 = [4,0 ; 5,0]
√
Par conséquent, si l’estimation de la moyenne de 4,5 n’est pas biaisée, alors il y a 95% de
chances pour que la moyenne réelle du taux de potassium dans la population des chiens
domestiques de toutes races atteints de pancréatite en France soit comprise entre 4,0 et 5,0
mmol/l.
15
Excès de potassium dans le plasma sanguin : chez le chien, si le taux de potassium (kaliémie) est > 5,8
mmol/l.
Bases en biostatistique – Loïc Desquilbet © – version v2.6
20/73
IV.
JOUONS UN PEU AVANT DE PASSER AUX CHOSES SERIEUSES…
A. Le jeu du sac de billes
1. Petit rappel de probabilité
Si deux événements A et B sont indépendants, alors P(A ∩ B)16 = P(A) x P(B).
Supposons maintenant un sac de billes contenant 70% de billes rouges et 30% de billes
jaunes. Je tire au sort (tirage avec remise) 4 billes de ce sac (figure 5).
Figure 5 - Tirage de billes rouges d'un sac de billes avec proportion connue
Quelle est la probabilité que j’avais de tirer 4 billes rouges parmi 4 billes tirées au sort du sac
de billes ? Réponse : 0,70 x 0,70 x 0,70 x 0,70 = 0,704 = 0,24 = 24%.
Ok, pour l’instant, vous n’avez pas besoin d’en savoir davantage... Jouons maintenant !
2. Le jeu proprement dit
Supposons un autre sac de billes rouges et jaunes, rempli par Pierre, un ami17. Ce sac ne
contient pas forcément 70% de billes rouges, puisque c’est Pierre qui l’a cette fois-ci rempli.
Je tire au sort (tirage avec remise) 4 billes de ce sac (figure 6).
Figure 6 - Tirage de billes rouges d'un sac de billes avec proportion inconnue
Quelle est la probabilité que j’avais de tirer 4 billes rouges parmi 4 billes tirées au sort du sac
de billes ? Réponse ici18.
16
Traduction en un langage plus chaste : « la probabilité que les événements A et B se produisent ».
17
Pierre n’est pas son vrai prénom, il a souhaité garder l’anonymat et m’a demandé de se faire appeler Pierre.
18
On ne peut pas savoir, car on ne connaît pas la proportion de billes rouges dans le sac !
Bases en biostatistique – Loïc Desquilbet © – version v2.6
21/73
Sauf que Pierre est parti vivre sur une île déserte, sans réseau 3G, E, H (ou je ne sais encore
quelle autre lettre) bien entendu, donc impossible de le contacter pour savoir quelle est la
proportion de billes rouges dans le sac19. Or, on veut avoir une idée de la proportion de billes
rouges dans le sac ! Nous allons donc formuler plusieurs hypothèses.
Première hypothèse, que je vais noter H30% : on fait l’hypothèse qu’il y a 30% de billes rouges
dans le sac. Quelle est, sous cette hypothèse, la probabilité de tirer 4 billes rouges parmi les
4 tirées au sort ? Réponse : 0,304 = 0,008 = 0,8%.
Deuxième hypothèse, que je vais noter H60% : on fait l’hypothèse qu’il y a 60% de billes
rouges dans le sac. Quelle est, sous cette nouvelle hypothèse, la probabilité de tirer 4 billes
rouges parmi les 4 tirées au sort ? Réponse : 0,604 = 0,13 = 13%.
Troisième hypothèse, que je vais noter H90% : on fait l’hypothèse qu’il y a 90% de billes
rouges dans le sac. Quelle est, sous cette dernière hypothèse, la probabilité de tirer 4 billes
rouges parmi les 4 tirées au sort ? Réponse : 0,904 = 0,66 = 66%.
Alors, selon vous, quelle est l’hypothèse la plus probable, concernant la proportion de billes
rouges dans le sac de billes ? Qu’il y 30%, 60%, ou 90% de billes rouges ? Réponse ici20.
Réponse à nouveau ici21. Pensez-vous que H30% soit vraie ? Réponse ici22. Pensez-vous que
H90% soit vraie ? Réponse ici23.
La morale de cette histoire, c’est que l’on peut arriver à avoir une idée de la proportion de
billes rouges dans le sac, alors même que l’on ne saura jamais la vérité (elle est, comme vous
le savez, ailleurs® – sur cette île déserte en l’occurrence). Pas mal, non ? Allez, on passe au
jeu suivant…
19
De plus, et ne me demandez pas pourquoi, il n’est pas possible d’ouvrir ou de déchirer le sac de billes – cela
restera ad vitam un mystère...
20
Non non, réfléchissez un peu, ne vous ruez pas comme ça sur la note de bas de page. Il est peut-être (très)
tard, mais prenez votre temps. Ce temps que vous allez passer, là, c’est du temps de gagné pour la suite …
21
C’est l’hypothèse H90%. Pourquoi ? Car c’est sous cette hypothèse que l’on avait le plus de chances d’observer
ce que l’on a effectivement observé ! C’est cette hypothèse qui est la plus compatible avec notre observation
de 4 billes rouges parmi 4.
22
Non, on ne le pense pas. Car si H30% avait été vraie, il n’y aurait eu que 0,8% de chances d’observer ce que
l’on a effectivement observé (4 billes rouges parmi 4) ! A moins d’avoir eu un coup de chance terrible, ce que
l’on va toujours exclure dans le raisonnement stat’, H30% n’a donc quasiment aucune chance d’être vraie. On va
donc affirmer qu’elle est fausse ! Si vous êtes persuadé(e)s que dans la vie, vous tombez toujours sur des
choses improbables, alors je pense que vous devriez travailler sur votre mégalomanie !
23
Si H90% avait été vraie, ce que l’on a observé aurait été fréquemment observable (66% de chances de
l’observer). Donc notre observation est compatible avec l’hypothèse H90%. Cela ne veut pas dire qu’il y a de
grandes chances (d’ailleurs, on ne peut pas du tout quantifier ces chances-là) pour que l’hypothèse H90% soit
vraie, mais on peut en revanche dire « qu’il est possible » que l’hypothèse H90% soit vraie. On accepte donc
cette hypothèse (à défaut de la rejeter) parce que l’on n’a pas la preuve du contraire, comme ça avait été le cas
avec H30%.
Bases en biostatistique – Loïc Desquilbet © – version v2.6
22/73
B. Le jeu du lancer de volant de Badminton
1. Remarques préalables
Première remarque préalable, car sinon vous ne pourriez pas saisir la subtilité de ce
jeu (cette remarque ne concerne cependant que ceux qui n’ont jamais joué au Badminton) :
un volant de Badminton est extrêmement sensible aux perturbations météorologiques.
Essayez en extérieur de lancer deux fois un volant de Badminton avec la même force de
lancer et la même direction, et vous verrez qu’il ne va pas du tout atterrir au même endroit !
Deuxième remarque (qui est un rappel de connaissances a priori acquises au lycée) : si l’on
connait la vitesse V0 et l’angle A0 d’un lancer de projectile, on peut déterminer la distance
Datterrissage à laquelle il va atterrir en résolvant l’équation suivante (en faisant abstraction des
frottements de l’air, bien entendu), après avoir exclu la solution Datterrissage = 0 :
$%&''())* &+( ,
1
0 = − . #.
+ %&''())*
2
- . $./ 0 ,
&+( . 234
0
Troisième remarque, je vais faire l’hypothèse que la « vitesse de lancer » et la « force de
lancer » sont totalement proportionnelles. Ainsi, je vais écrire « vitesse de lancer » quand je
parlerai des résultats de l’expérience, et de « force de lancer » pour interpréter plus
facilement les résultats.
Quatrième remarque. Ce n’est pas parce que je présente les choses sous forme de jeux qu’il
faut lire cette partie-là en dilettante. Si vous ne jouez pas le jeu, à essayer notamment de
répondre aux questions que je vous pose, vous aurez des risques de ne pas comprendre la
partie suivante, qui là, n’est plus du tout rigolote. Vous voilà averti(e). Retour au jeu, avec le
sourire 24…
2. Jean lance aussi fort que possible un volant de Badminton
Imaginez que vous êtes sur des gradins, en plein air, mon ami Jean25 est à mes côté en bas
des gradins. Il fait beau, une légère brise vous rafraîchit le visage, le prochain week-end
d’astreinte est loin, vous êtes … bien. Vous ne connaissez pas Jean, mais ce que je peux vous
dire sans trop vous donner d’éléments de réflexion dans ce qui va suivre, c’est que Jean est
une personne en qui l’on ne peut pas avoir une totale confiance26…
Je demande à Jean de lancer deux fois aussi fort que possible un volant de Badminton, avec
un angle de 60°. Les résultats de ses deux lancers sont présentés sur la figure 7.
24
Je ne voulais pas plomber l’ambiance, désolé.
25
Même remarque que celle que j’avais faite pour Pierre et sa volonté d’anonymat.
26
Le débat sur la façon dont je choisis mes amis est, vous me le concèderez, hors de propos dans un document
censé parler de biostatistique.
Bases en biostatistique – Loïc Desquilbet © – version v2.6
23/73
La distance de 1er lancer = 4,98 m
La distance de 2ème lancer = 4,83 m
Figure 7 - Lancers de volant de Badminton de Jean
Jean ne comprend pas bien pourquoi en lançant le volant avec la même force la 2ème fois, le
volant a atterri 15 cm plus près… Vous souriez (oui, Jean n’est pas non plus un foudre de
guerre intellectuellement parlant27) et vous lui dites qu’il a effectivement pu le lancer avec la
stricte même force, mais que par malchance, il y a eu un léger coup de vent qui a un peu
freiné le volant… En supposant que l’on ait le droit de calculer la moyenne de ces deux
distances, on la calcule et on obtient : 4,91 m.
Rassuré par votre explication, Jean vous dit fièrement « vous avez vu comme je l’ai lancé
fort ? Je l’ai lancé à 80 km/h ! ». Je le regarde en souriant (c’est mon ami), je vous regarde et
vous demande « alors, qu’en pensez-vous ? Vous le croyez ?28 » J’entends murmurer dans
les gradins… Je n’ai pas d’ordinateur ni de vidéoprojecteur, donc je ne suis pas capable de
lancer un sondage sur Poll Everywhere. Dommage. Je sens en revanche de votre part des
doutes… La question est en effet : « est-il possible de lancer le volant à 4,91 m (en moyenne)
avec une vitesse initiale de 80 km/h et avec un angle de 60° ? » Difficile de répondre comme
ça… Je vais donc vous simplifiez la tâche. Si l’on résout l’équation ci-dessus, on obtient une
distance théorique d’environ 50 m. Ahhh, là, maintenant, vous pouvez mieux répondre à la
question ! Vous pouvez vous dire qu’il y a très peu de chances pour que Jean ait lancé le
volant à 80 km/h, car sous l’hypothèse que le volant ait été lancé à 80 km/h avec un angle de
60°, le volant aurait dû théoriquement tomber autour de 50 m ; il y aurait donc eu très très
peu de chances de le voir atterrir aux environs de 4,9 m ! Cette hypothèse a de très fortes
chances d’être fausse, car si elle avait été vraie, le volant n’aurait quasiment eu aucune
chance d’arriver 4,9 m plus loin ! Vous ne croyez donc pas Jean.
Jean se rend compte qu’il a été un peu trop prétentieux. Il vous dit, un peu en rougissant,
« non non, ok, j’avoue, je n’ai pas lancé le volant aussi fort que ça, je l’ai lancé à … 30
km/h ». Là encore, vous ne pouvez pas savoir s’il peut ou non avoir raison, pour la même
raison que tout à l’heure. Je vous donne maintenant l’information : théoriquement, l’objet
aurait atterri à environ 7 m. Alors là, vous êtes plus sceptique que tout à l’heure, quand je
vous avais annoncé 50 m. Car cette fois-ci, il est tout à fait possible qu’un coup de vent ait
suffisamment freiné le volant de telle façon à ce qu’il atterrisse un peu avant 7 m – en
l’occurrence à 4,83 et 4,98 m. Donc, vous ne pouvez plus rejeter son affirmation « j’ai lancé
le volant à 30 km/h » avec autant que de véhémence que tout à l’heure ! Vous n’avez
désormais plus de preuve que Jean est encore en train de vous raconter des bêtises. Vous
allez donc, par défaut, accepter ce qu’il vous dit, autrement dit accepter « l’hypothèse qu’il a
27
Cf. la précédente note de bas de page, d’accord ?
28
Autant vous n’avez pas vu la vitesse de lancer du haut des gradins, autant vous avez pu voir qu’il avait lancé
le volant, les deux fois, à 60° – il n’est quand même pas si nul, mon ami Jean…
Bases en biostatistique – Loïc Desquilbet © – version v2.6
24/73
lancé le volant à 30 km/h », parce que vous n’avez pas de fortes raisons de penser que cette
hypothèse est fausse.
3. Jacques pense lancer le volant plus fort que Jean
Tout d’un coup, vous entendez l’un d’entre vous, Jacques pour ne pas le nommer, s’écrier
« Haha, 30 km/h, mais c’est ridicule ! Moi, avec mon super entrainement d’athlète, je peux
vous affirmer que je lance le volant bien plus fort ! » Il n’en faut pas plus pour que je le
mette au défi. « Descendez des gradins, s’il vous plait, et prouvez-nous ça ! »
Jacques se rue sur le volant qui trainait par terre, s’apprête à lancer le volant, … … … mais le
temps se fige. Je m’adresse à vous. Vous qui lisez ce document29. Imaginez, imaginez que
Jacques lance le volant avec exactement la même force que Jean (et avec le même angle de
60°), est-ce que vous pensez que vous allez observer que la moyenne de ses deux lancers
(parce que bien évidemment, je vais replacer Jacques dans les mêmes conditions
expérimentales que Jean) va être pile égale à celle de Jean, à savoir 4,91 m ?30 Réponse ici31.
… Mais alors, à partir de quelles valeurs de la moyenne des lancers de Jacques vous allez être
persuadé(e) que la différence qui sera observée ne sera pas due aux conditions météos, mais
plutôt due à une vraie différence de force de lancer de la part de Jacques ? 4,91 m +/- 20
cm ? 4,91 m +/- 50 cm ? Réponse ici32. La question était très importante : quel est l’impact
d’une telle réponse ?... Je reprends le raisonnement. Si Jacques et Jean lancent le volant
avec exactement la même force (et le même angle), vous accepteriez le fait que l’on ne va
pas observer deux moyennes strictement identiques, parce que les conditions météo
peuvent influencer la distance de lancer de Jacques. Mais cette « tolérance » que vous
octroyez ne va pas au-delà de +/- 30 cm. Permettez-moi donc d’appeler cette zone ([4,61 –
5,21]33) une zone de « tolérance ». C’est-à-dire que l’on va tolérer que, compte tenu des
conditions météo, deux moyennes observées vont être voisines et incluses dans cette zone
de tolérance si elles sont égales en toute théorie, et qu’il va falloir attendre qu’elles ne
soient vraiment plus voisines (c’est-à-dire, être en dehors de la zone de tolérance) pour
vraiment croire que les deux vitesses de lancer sont vraiment différente. Ok avec tout ça ?
Ok34. Je demande à Jacques de lancer deux fois le volant aussi fort que possible, et avec un
angle de 60°. Voici les résultats de ses deux lancers :
29
Ca y est, on passe de l’autre côté du miroir… (Je ne veux en effet pas que Jacques entende toute la
conversation que nous allons avoir, vous et moi.)
(Cf. ici : https://fr.wikipedia.org/wiki/De_l'autre_c%C3%B4t%C3%A9_du_miroir)
30
Je vous invite à relire cette question, pour être sûr(e) que vous l’avez bien saisie.
31
Après avoir relu une seconde fois ma question, j’imagine votre réponse ainsi : « non, pas pile ! Il peut y avoir
des coups de vent qui peuvent modifier un peu la trajectoire du volant, bien que lancé avec la même force et
avec le même angle. » Et là je vous réponds : « excellente réponse ! Mais …….. »
32
Là, je vous imagine songeur/euse… Vous vous souvenez alors de la différence entre les deux lancers de Jean,
tout à l’heure… Une différence de 15 cm, alors qu’il avait lancé le volant avec la même force… il y avait eu
effectivement un peu de vent… Vous réfléchissez un peu, puis vous me répondez « +/- 30 cm », car vous vous
dites « quand même, il va bien falloir une différence d’au moins 30 cm pour vraiment penser que la différence
ne va pas être due au vent ! ».
33
4,91 m - 30 cm ; 4,91 m + 30 cm.
34
Je repasse alors de l’autre côté du miroir, et m’adresse à nouveau à Jacques, qui n’a absolument rien suivi de
notre conversation, puisqu’étant de l’autre côté du miroir…
Bases en biostatistique – Loïc Desquilbet © – version v2.6
25/73
Oups, j’ai oublié de vous dire, nous allons pendant quelques minutes imaginer deux espacestemps parallèles35. Un espace-temps n°1, et un espace-temps n°2. Dans la théorie de la
physique quantique, ces espaces-temps sont totalement parallèles, de sorte que ce qu’il s’y
passe dans l’un est totalement et purement indépendant de ce qu’il se passe dans l’autre.
C’est exactement ce que je vais vous demander de faire : de dédoubler votre raisonnement,
en ne laissant aucune porosité entre les deux raisonnements.
35
Pour davantage d’explications sur ces conditions d’expériences qui peuvent vous paraître totalement
inapplicables, cf. ici : https://fr.wikipedia.org/wiki/Chat_de_Schr%C3%B6dinger. Dans la mesure où, en plus, j’ai
rajouté la notion de miroir, cela fait donc deux fois deux espaces-temps… C’est bon ? Vous suivez ?
Bases en biostatistique – Loïc Desquilbet © – version v2.6
26/73
Espace-temps n°1
Espace-temps n°2
Figure 8 - Lancers de Jacques dans l'espace-temps n°1
Figure 9 - Lancers de Jacques dans l'espace-temps n°2
La distance moyenne des deux lancers est égale à 5,26 m. Jacques
vous lance un regard de fierté absolue. Cette moyenne est à
l’extérieure de la zone de tolérance qui était de [4,61 – 5,21]. Et vous
aviez anticipé le fait que si la moyenne que vous alliez observer allait
être à l’extérieur de la zone de tolérance, alors vous vous accorderiez
le fait de fermement croire que la force de lancer de Jacques serait
vraiment différente de celle de Jean. C’est ce qu’il vient de se passer.
La réaction de Jacques vous ennuie par sa prétention, mais il a réussi
son coup. Il vous a apporté des preuves fortes que sa force de lancer
est différente de celle de Jean. Cela ne veut pas dire que Jacques
lance le volant avec une force différente (le vent a pu tout à fait être
de la partie de jeu), cela veut dire qu’il y a cependant de fortes raisons
de le penser.
La distance moyenne des deux lancers est égale à 5,16 m. Jacques
vous lance un regard de fierté absolue. Sauf que cette moyenne est
comprise dans la zone de tolérance qui était de [4,61 – 5,21]. Et je
vous rappelle la chose suivante : vous aviez considéré que pour
fortement croire que les deux moyennes soient réellement
différentes, il aurait fallu que la moyenne de lancer de Jacques soit à
l’extérieur de la zone de tolérance. Là, vous observez que la moyenne
des deux lancers de Jacques est incluse dans cette zone de tolérance…
Ce que vous venez d’observer est compatible avec le fait que Jacques
lance le volant avec la même force que Jean (c’est-à-dire compatible
avec le fait que cette différence observée ne provienne que des
conditions météo), parce que l’observation ne vous apporte pas la
preuve que les forces de lancer sont différentes. Cela ne veut pas dire
que Jacques lance le volant avec la même force, mais cela veut dire
que cette possibilité est tout à fait envisageable, au regard de ce qu’il
vient de se produire. Vous allez donc devoir accepter le fait que
Jacques lance le volant avec la même force que Jean, à défaut d’avoir
des preuves suffisantes qu’il le lance avec une force différente.
Bases en biostatistique – Loïc Desquilbet © – version v2.6
27/73
Imaginons maintenant qu’au moment où Jacques commençait à faire le geste de lancer,
vous (et moi de même) étiez restés du même côté du miroir que Jacques, c’est-à-dire que le
temps ne se serait pas figé et que je ne vous aurais pas posé la question de la zone de
tolérance. Que se serait-il passé ? Les deux mêmes espaces-temps se seraient quand même
produits, ainsi que les deux mêmes observations en parallèles. Première observation, une
moyenne de 5,26 m, et une seconde de 5,16 m. Qu’auriez-vous conclu quant au fait de
savoir si Jacques, dans ces deux espaces-temps bien distincts, avait lancé le volant avec la
même force que Jean ? Qu’auriez-vous pu conclure, après avoir observé le résultat de
l’expérience ? Rien. Ah, si, finalement (et malheureusement). Vous auriez peut-être conclu
« j’observe une différence entre les deux moyennes, donc il existe une réelle différence ». Et
le vent dans tout ça ? Pff, vous n’y auriez probablement même pas pensé. Ou bien refoulé
illico. C’est trop tentant d’affirmer qu’il existe une différence réelle quand on observe (dans
la deuxième situation) une différence aussi grande que 5,16 – 4,91 m (plus de 20 cm) ! Oui,
car après avoir observé les choses se produire, il devient impossible de raisonner … ob-jec-tive-ment. C’est trop tard. Vous auriez très probablement été influencé(e) par votre
observation.
Ce que je viens de vous dire, là, est on ne peut plus fondamental dans le raisonnement en
statistique : une interprétation des résultats a posteriori n’a pas la même valeur36 qu’une
anticipation d’un résultat. L’anticipation garantit a priori l’objectivité de la conclusion, alors
qu’un résultat a posteriori empêche d’exclure la subjectivité de la conclusion. Dans certaines
situations, cette subjectivité est indispensable au raisonnement scientifique. Mais pas en
stat’.
Maintenant, cher/chère lecteur/trice, fusionnons ces espaces-temps, et faisons s’évanouir ce
miroir37.
36
Je ne juge pas cette valeur, soyons bien clairs là-dessus.
37
Autrement dit, sortez doucement de ce rêve – car oui, vous étiez en train de rêver… Le réveil va être
douloureux, car nous allons maintenant arrêter de jouer, et passer aux choses sérieuses…
Bases en biostatistique – Loïc Desquilbet © – version v2.6
28/73
V.
LA THEORIE DES TESTS STATISTIQUE
A. Définition du « test statistique »
C’est un outil standardisé, objectif, qui permet de prendre la décision de dire si oui ou non,
les populations étudiées sont très vraisemblablement différentes sur l’indicateur étudié.
B. Quand faire et quand ne pas faire de tests statistiques ?
Quand est-ce que l’on doit utiliser, comme outil, un test statistique ? Réponse : quand on
souhaite montrer, avec conviction, que deux (ou plus) populations diffèrent sur un
indicateur donné (une moyenne, un pourcentage, etc.). J’insiste sur l’assertion
complémentaire : quand on ne souhaite pas montrer, avec conviction, que deux (ou plus)
populations diffèrent sur un indicateur donné, on n’utilise pas de test statistique. Par
exemple, utiliser un test statistique (comme nombre de personnes le font) pour montrer que
dans l’échantillon, une hypothèse est (ou n’est pas) vérifiée n’est pas justifié. Certaines
personnes ont l’impression que plus elles font de tests statistiques dans leur étude, et plus
leur étude est pertinente : c’est tout simplement faux.
C. La « double » fluctuation d’échantillonnage
Nous avons vu dans la partie III que, sous l’hypothèse d’absence de biais d’estimation, une
estimation dans un échantillon, a « de grandes chances d’être proche de la valeur de
l’indicateur dans la population cible ». Vous êtes donc sensibilisé(e) au fait que ce que l’on
peut observer dans un échantillon peut être loin de la réalité. J’étends maintenant cette
notion-là à deux échantillons. Et l’occurrence, la différence que l’on peut observer entre
deux indicateurs estimés dans deux échantillons issus de deux populations que l’on souhaite
comparer (donc tous les deux soumis à de la fluctuation d’échantillonnage) peut être très
éloignée de la réelle différence sur cet indicateur entre ces deux populations – d’où la
« double » fluctuation d’échantillonnage : une par échantillon.
Supposons qu’un indicateur (la moyenne de la production laitière par exemple) dans la
population A vaille θA et que cet indicateur dans la population B vaille θB. Soit Δ = θA – θB.
Imaginons maintenant que l’on tire au sort n couples d’échantillons que l’on extrait des deux
populations A et B (figure 10).
Bases en biostatistique – Loïc Desquilbet © – version v2.6
29/73
Figure 10 - Illustration théorique de la double fluctuation d'échantillonnage
À partir de ces n couples d’échantillons, il faut imaginer que l’on va calculer n différences
observées entre les deux indicateurs estimés dans chacun des échantillons (dobs 1, dobs 2, …,
dobs n ; figure 10). Ces différences observées sont toutes différentes (à cause de la double
fluctuation d’échantillonnage), mais elles ont quand même de grandes chances d’être
proches de la vraie différence Δ, puisque chacun des couples d’échantillons est tiré au sort
des populations A et B qui, elles, différent de Δ sur l’indicateur. Toutes ces différences
observées (et théoriques) sont distribuées de la façon présentée sur la figure 11 (chaque
tiret vertical représente une dobs parmi les n).
Figure 11 - Distribution des différences théoriquement observées
Maintenant, cessons d’être 200% théorique, et redescendons un peu sur Terre. En pratique,
on ne tire au sort bien évidemment jamais n couples d’échantillons ! On n’en tire qu’un seul
(de couple). On n’observe donc en pratique qu’une seule différence observée. Je vais donc
définir l’ensemble ci-dessus dont la distribution ressemblait (à juste titre) à une loi de Gauss :
il s’agit de l’ensemble des différences observables sous l’hypothèse qu’en vrai, la réelle
différence sur θ entre la population A (θA) et la population B (θB) est égale à Δ (Δ = θA - θB).
Bases en biostatistique – Loïc Desquilbet © – version v2.6
30/73
D. Problématique
Faisons l’hypothèse qu’en vrai il existe une réelle différence ∆, entre θA et θB, égale à 5. Vous
avez sur la figure 12 l’ensemble des différences observables sous cette hypothèse.
Il est tout à fait possible d’observer une
différence égale à 3,5 sous l’hypothèse
que la différence réelle = 5 (le hasard a
pu avoir un peu décalé la différence
vers la gauche, de 1,5 en l’occurrence).
Figure 12 - Distribution des différences théoriquement observées centrée sur ∆ = 5
Faisons maintenant l’hypothèse qu’en vrai il n’existe aucune réelle différence entre θA et θB,
c’est-à-dire que ∆=0. Vous avez sur la figure 13 l’ensemble des différences observables sous
cette nouvelle hypothèse.
Sous cette nouvelle hypothèse (différence
réelle nulle), il reste tout à fait possible
d’observer une différence égale à 3,5 (par
le simple et unique fait du hasard).
Figure 13 - Distribution des différences théoriquement observées centrée sur 0
La problématique est la suivante. Vous ne savez bien évidemment pas du tout si, en vrai, il
existe ou non une réelle différence entre les deux indicateurs θA et θB dans chacune des deux
populations A et B, et vous voulez absolument le savoir ! Supposons que vous observiez à
partir de vos deux sous-échantillons (issus des deux populations A et B) une différence égale
à 3,5. Puisqu’observer « 3,5 » peut tout à fait être observable sous l’hypothèse qu’il existe
une réelle différence (figure 12) tout comme sous l’hypothèse qu’il n’existe pas de réelle
différence (figure 13), votre seule observation de « 3,5 » ne vous permet donc pas de savoir
s’il existe ou non une réelle différence, puisque cette observation était observable sous les
deux hypothèses !
La question que l’on se pose donc est la suivante : la différence de « 3,5 » que j’observe me
laisse-t-elle fortement penser au fait qu’il existe une réelle différence dans la population, ou
bien me laisse-t-elle penser au fait qu’il n’existe pas de réelle différence ?
Bases en biostatistique – Loïc Desquilbet © – version v2.6
31/73
Le test statistique répond à cette question ! Le test statistique prend en compte le fait que ce
que vous avez observé peut avoir été coloré un peu, beaucoup, voire même passionnément
par l’hasardeuse couche de peinture dont j’avais parlé au tout début de ce document (le
Hasard) !
E. Retour sur les lancers de Jean et de Jacques, et analogie
Rappelez-moi, s’il vous plait, ce qui vous avait permis de croire (ou pas) que Jacques avait
très certainement lancé le volant à une vitesse différente de Jean, sachant que le vent a été
de la partie, mais sans savoir dans quelle mesure ?
Vous aviez fixé une zone de tolérance qui était telle que si la moyenne des distances des
deux lancers de Jacques avait été à l’extérieur de cette zone, vous auriez fortement cru au
fait que Jacques avait lancé le volant avec une force différente. Par quel raisonnement ? Je le
rappelle. Vous vous étiez dit38 : « si Jacques avait lancé le volant avec la même force que
Jean, les moyennes n’auraient cependant pas été identiques, car le vent aurait de toute
façon fait varier les distances. Donc nous allons fixer une zone à l’intérieur de laquelle la
moyenne de Jacques peut être considérée comme égale à celle de Jean en théorie mais
différente en pratique à cause du vent. Si en revanche la moyenne de Jacques est à
l’extérieur de la zone de tolérance, alors on ne pourra plus croire que ce n’est que le vent qui
a conduit à une différence de moyennes aussi importante, et l’on croira alors que la force de
lancer de Jacques est vraiment différente de celle de Jean. »
Et bien voilà, il est là, le principe de tous les tests statistiques ! Il faut fixer une zone de
tolérance, qui est telle que lorsque l’on observe une différence à l’extérieur de cette zone,
on peut fortement penser que cette différence observée provient d’une réelle différence, et
lorsque l’on observe une différence à l’intérieur de cette zone, sans pouvoir affirmer qu’il n’y
a pas de différence réelle, on peut du moins accepter cette hypothèse (comme on avait
accepté le fait que Jacques avait lancé le volant avec la même force que Jean, dans l’espacetemps n°2). Que signifie cette zone de tolérance ? C’est39 la zone qui est telle que l’on peut
observer des différences incluses dans cette zone sans pour autant penser qu’il existe une
différence réelle, car on sait que le vent (oups, pardon, le hasard) en étant de la partie, et
fait varier les observations par rapport à ce qui aurait dû être théoriquement observé !
F. Les tests statistiques sont des tests d’hypothèse assortis de risques d’erreur
1. Les hypothèses nulle et alternative
De façon générale, l’hypothèse nulle (H0) est l’hypothèse que l’on souhaite rejeter avec
force, pour affirmer son alternative avec force. Par exemple, si l’on souhaite montrer avec
force qu’un traitement A est vraiment différent d’un traitement B quant à ses effets
indésirables, l’hypothèse nulle sera « les deux traitements sont égaux en termes de
proportion d’effets indésirables ». Si maintenant on souhaite montrer avec force qu’un
traitement A provoque des effets indésirables dans les mêmes proportions qu’un traitement
B, l’hypothèse nulle sera « les deux traitements provoquent des effets indésirables dans des
38
Ok, je vous avais un peu aidés…
39
Je le répète, mais je ne suis pas sûr que ce soit de trop !
Bases en biostatistique – Loïc Desquilbet © – version v2.6
32/73
proportions différentes ». Dans la très grande majorité des études cliniques ou
épidémiologiques avec tests statistiques, les auteurs souhaitent montrer avec force des
différences, donc dans la très grande majorité des études, H0 pose l’égalité des indicateurs à
comparer. Dans toute la suite de ce document, je ne traiterai que ce type de cas de figure40.
L’hypothèse nulle H0 porte sur les populations cibles A et B que l’on compare à l’aide
d’échantillons. En math’, H0 s’écrit : θA = θB. En français, elle s’écrit : « la valeur réelle de
l’indicateur dans la population A (θA) est égale à la valeur réelle de l’indicateur dans la
population B (θB) ».
J’expliquerai bien entendu dans la suite de ce document pourquoi on ne peut que rejeter
avec force H0 et pourquoi on ne peut donc pas non plus accepter avec force H0. Cette notion
est l’une des (sinon la) plus importantes notions à avoir acquises en tant que (futur)
vétérinaire qui va lire un article scientifique rapportant des résultats issus de tests
statistiques.
Dans la très grande majorité des études, l’hypothèse alternative H1 est l’hypothèse selon
laquelle « la valeur réelle de l’indicateur dans la population A (θA) est différente de la valeur
réelle de l’indicateur dans la population B (θB) ». Soit en math’ : θA ≠ θB. Quand on rejette H0,
on accepte H1, et vice-versa. H1 peut aussi s’écrire H∆ en faisant l’hypothèse que |θA – θB| =
∆ ≠ 0.
2. Accepter ou rejeter l’hypothèse nulle ?
Que signifie « accepter H0 » ? Cela signifie « accepter le fait que la valeur réelle de
l’indicateur dans la population A (θA) soit égale à la valeur réelle de l’indicateur dans la
population B (θB) ». Rejeter H0 est donc tout simplement l’inverse, c’est-à-dire, « rejeter le
fait que la valeur réelle de l’indicateur dans la population A (θA) soit égale à la valeur réelle
de l’indicateur dans la population B (θB) ». Le « rejet » est quelque chose en français de plus
fort que l’acceptation. Cette différence sémantique est analogue en stat’. C’est pour cette
raison que je ne vais jamais utiliser H1 dans les interprétations. Car en stat’, rejeter H0, c’est
affirmer H1, bien plus que simplement accepter H1. Ainsi, rejeter H0, c’est « affirmer le fait
que la valeur réelle de l’indicateur dans la population A (θA) soit différente de la valeur réelle
de l’indicateur dans la population B (θB) ».
Revenons41 à l’exemple du lancer de volant. Une fois que Jean avait lancé son volant,
Jacques s’était levé dans les gradins et avait affirmé qu’il lançait le volant plus fort que Jean.
Je lui avais demandé de me le prouver. Prouver que sa force de lancer était donc différente.
S’il arrivait à me (nous) le prouver, alors il aurait le droit d’affirmer que sa force de lancer
était différente (tout en étant supérieure). Jacques veut montrer avec force que sa vitesse
de lancer est différente ? Très bien, il va nous le prouver par … un test statistique !
L’hypothèse nulle H0 de ce test statistique que l’on avait fait sans vous en être rendu compte
était : Jacques et Jean lancent le volant avec la même vitesse de lancer42 : vitJacques = vitJean,
40
L’autre cas de figure où l’on souhaite montrer avec force l’égalité de deux indicateurs entre deux populations
fait référence aux « essais cliniques d’équivalence » ou aux « essais cliniques de non infériorité ».
41
Et je ne vais pas cesser de le faire !
42
Rappelez-vous ce que je vous avais dit dès le début de ce document : considérez que « vitesse de lancer » est
égale à « force de lancer ».
Bases en biostatistique – Loïc Desquilbet © – version v2.6
33/73
où « vit » est la vitesse (force) intrinsèque des deux individus, la vitesse théorique, réelle.
Nous n’avons pas mesuré les vitesses, mais nous avons mesuré les distances. Or, à angle de
lancer constant (60°), si les deux vitesses de lancer sont égales, alors les deux distances de
lancers le sont aussi. Il va maintenant falloir être (encore) un peu imaginatif, en l’occurrence
imaginer que la population A, c’est la population des millions de distances de lancers de
Jacques, et que μJacques est la moyenne de ces millions de distances. Même chose pour Jean,
avec μJean. H0 devient donc : μJacques = μJean.
Ce qui avait permis à Jacques de nous prouver qu’il avait lancé le volant avec une force
différente de celle de Jean s’était produit dans l’espace-temps n°1 : la moyenne observée
des deux distances de lancer avait été à l’extérieur de la zone de tolérance fixée par vous.
Dans les tests statistiques, qu’est-ce que cette « zone de tolérance » ? Cette zone est
l’ensemble des différences fréquemment observables lorsque H0 est vraie. De la même façon
que la zone de tolérance que vous aviez fixée était la zone dans laquelle il était tout à fait
concevable d’observer la moyenne des distances de lancers de Jacques en faisant
l’hypothèse que Jacques lance le volant avec la même force que Jean (à cause du vent qui
peut conduire à observer des différences de moyennes alors qu’en vrai, elles sont égales).
La figure 14 ci-dessous dresse la distribution théorique de l’ensemble des différences
observables entre les deux indicateurs estimés dans les deux sous-échantillons issus des
deux populations A et B lorsqu’il n’existe aucune différence réelle sur θ entre les populations
A et B (c’est-à-dire, lorsque H0 est vraie)43. Cette figure nous montre que, lorsque H0 est
vraie, il est fréquent d’observer malgré tout une différence44 entre les deux indicateurs
estimés dans les deux sous-échantillons comprise entre -d1 et +d1 (aire hachurée
relativement importante) :
Figure 14 - Ensemble des distributions observables sous l'hypothèse d'absence de réelle différence
Par conséquent (et l’on revient dans le monde pratique), cela signifie que si vous observez
une différence dobs comprise entre -d1 et +d1, cela veut dire que ce que vous avez observé
fait partie d’un ensemble45 fréquemment observable lorsque H0 est vraie. Ainsi, en
observant dobs, votre observation est compatible avec le fait que H0 soit vraie – mais cela ne
veut bien entendu pas dire que H0 est vraie (ça, on n’en sait absolument rien).
43
Si cette phrase est pour vous incompréhensible, revenez aux figures 10 et 11
44
A cause de la fluctuation d’échantillonnage
45
L’ensemble hachuré sur la Figure 14
Bases en biostatistique – Loïc Desquilbet © – version v2.6
34/73
La conséquence directe de ce que je viens d’écrire est la suivante : si vous observez une
différence dobs telle que |dobs| est supérieure à +d1, cela veut dire que ce que vous avez
observé fait partie d’un ensemble rarement observable lorsque H0 est vraie. Et si vous
observez quelque chose de rare lorsque H0 est vraie, c’est qu’il y a de grandes chances que
H0 soit fausse46.
En pratique, un ensemble d’événements « rarement observables » sous une hypothèse est
un ensemble d’événements qui s’observent dans α% des cas sous cette hypothèse, avec α
faible. La figure 14 devient la figure 15, « d1 » devient dα/2, l’aire hachurée vaut 1 - α, l’aire à
gauche de -dα/2 vaut α/2 et l’aire à droite de +d2,5% vaut α/2.
Figure 15 - Figure 14 en quantifiant par α l'aire sous la courbe
Dans notre cas de la figure 15, si l’on tirait au sort 100 couples d’échantillons issus des deux
populations A et B comparées qui ne diffèrent pas sur θ (∆=0), et si l’on calculait dans
chacun de ces 100 couples la différence entre les deux indicateurs estimés, α différences sur
les 100 calculées seraient, en valeur absolue, supérieures à +dα/247.
En pratique, α est quasiment toujours fixé à 5% (cf. figure 16). Ainsi, si vous observez une
différence dobs supérieure, en valeur absolue, à +d2,5%, vous allez pouvoir affirmer que H0 est
fausse, car ce que vous avez observé fait partie des événements rarement observables sous
H0. Si maintenant vous observez une différence dobs inférieure, en valeur absolue, à +d2,5%
vous allez devoir accepter que H0 est vraie, à défaut de pouvoir la rejeter, car ce que vous
avez observé fait partie des événements non rarement observables sous H0 ; votre
observation est compatible avec H0. Et là, vous retrouvez toute la démarche que nous avions
suivie pour savoir si Jacques avait raison lorsqu’il affirmait qu’il lançait le volant plus fort que
Jean (figure 8 et figure 9).
46
Un conseil, si vous venez de décrocher, relisez le jeu du sac de billes…
47
Au cas où vous vous poseriez la question de savoir s’il faut relire cette phrase, la réponse est sans aucun
doute « oui » : elle va vous permettre de comprendre la suite…
Bases en biostatistique – Loïc Desquilbet © – version v2.6
35/73
Figure 16 - Figure 14 en quantifiant par α=5% l'aire sous la courbe
3. Le risque d’erreur de 1ère espèce (erreur de type I)
Le risque d’erreur de 1ère espèce (aussi appelé « risque d’erreur de type I ») est noté α48, fixé
à 5%. Comme vous pouvez le voir dans la figure 16, lorsque H0 est vraie, il est possible
d’observer une différence supérieure, en valeur absolue, à d2,5%49. C’est rare, certes, mais
c’est possible. Donc, quand on rejette H0, on commet potentiellement une erreur. Cette
erreur est faible, car lorsque H0 est vraie, rejeter à tort H0 n’arrive que dans 5% des cas. La
définition du risque d’erreur de 1ère espèce α est la suivante : « c’est la probabilité de rejeter
à tort H0 »50. C’est parce que cette erreur est faible que l’on peut être convaincu lorsque l’on
affirme que H0 est fausse.
Vous vous souvenez, dans l’espace-temps n°1 (figure 8), Jacques vous avait prouvé qu’il avait
lancé le volant avec une force différente de celle de Jean, car la moyenne de ses deux lancers
était hors zone de tolérance. Il vous avait apporté les « preuves » qu’il fallait. C’est vrai qu’il
aurait pu y avoir un (ou deux) fort(s) coup(s) de vent pile aux moments où il avait lancé le
volant. On n’est donc pas certain à 100% que Jacques lance le volant plus fort que Jean.
Cette erreur est consentie, et fait référence à l’erreur de 1ère espèce α.
Relisez maintenant ce que j’ai écrit à la fin de la partie IV.B.3, juste après avoir présenté ce
qu’il se passait dans les deux espaces-temps. (…) Ce que j’avais écrit est fondamental : on
doit toujours définir la zone de tolérance avant d’avoir regardé les résultats. L’analogie ici
est la suivante. Les valeurs seuil qui permettent de rejeter H0, –dα/2 et +dα/2, dépendent de la
valeur risque d’erreur α. Donc, il faut toujours s’être fixé la valeur de α avant de regarder les
résultats. (Ça tombe bien, dans 99,9% des études cliniques – très probablement 100% –, le
risque d’erreur α est égal à 5%, donc il sera très difficile de prouver qu’un choix de votre part
d’une valeur de α autre que 5% n’a pas été guidé par vos résultats !)
48
Oui oui, le même α dont j’ai parlé juste au-dessus !...
49
Par conséquent par le seul fait du hasard, puisque H0 est vraie (en effet, si H0 est vraie, la seule raison
d’observer une différence est que le hasard s’est manifesté).
50
ère
Ce que je vais écrire maintenant n’est pas au programme de 1 année. Quand vous, vous rejetez H0, vous ne
commettez pas une erreur de α=5%. Car vous ne savez pas si vous rejetez à tort H0 (vous ne savez pas si en vrai,
H0 est vraie ou fausse). Vous savez simplement que si H0 avait été vraie, vous auriez fait ce que vous êtes en
train de faire (rejeter H0) dans 5% des cas.
Bases en biostatistique – Loïc Desquilbet © – version v2.6
36/73
4. Le risque d’erreur de 2ème espèce (erreur de type II)
Je vais commencer par reparler du lancer de volant. Dans l’espace-temps n°2 (figure 9),
Jacques n’avait pas réussi à nous prouver qu’il lançait le volant avec une force différente de
celle de Jean. Pourquoi ? Parce que la moyenne de ses deux lancers (5,16 m) avait « atterri »
dans la zone de tolérance [4,61 – 5,21], ce qui avait impliqué par conséquent que
l’observation de cette moyenne de lancer était compatible avec le fait que Jacques lançait le
volant avec la même force que Jean. Nous avions donc décidé d’accepter le fait que Jacques
lance probablement le volant avec la même force que Jean, à défaut d’avoir des preuves
suffisantes qu’il le lance à une vitesse différente. Vous vous rendez évidemment compte que
l’on peut commettre une erreur, en décidant cela. Car il se peut tout à fait que cette
différence de moyenne de distances de lancer soit due à une vraie différence51.
Revenons à la comparaison des deux populations A et B. Partons maintenant du principe
qu’il existe une réelle différence ∆ > 0 sur θ entre les deux populations (θA – θB = ∆ > 0). On
part donc du principe que l’hypothèse H∆ est vraie. La figure 17 ci-dessous dresse la
distribution théorique de l’ensemble des différences observables entre les deux indicateurs
estimés dans les deux sous-échantillons issus des deux populations A et B, sous H∆.
Figure 17 - Ensemble des distributions observables sous l'hypothèse de présence d'une réelle différence
Maintenant, question : est-il possible, alors que H∆ est vraie, que la différence que l’on
observe nous fasse dire que H0 est vraie (donc dire que H∆ est fausse) ? Autrement dit, est-il
possible que la différence observée nous fasse dire à tort que H0 est vraie ?
Avant de répondre à cette question, petit rappel. Quand est-ce qu’une différence observée
nous fait dire que H0 est vraie ? Lorsque la différence observée fait partie d’un ensemble de
différences fréquemment observables lorsque H0 est vraie. Quand est-ce que la différence
observée fait partie de cet ensemble ? Lorsqu’elle est comprise entre -d2,5% et +d2,5%. Donc,
je repose la question autrement : est-il possible d’observer une différence comprise entre d2,5% et +d2,5% lorsque H∆ est vraie ? Oui ! Et c’est l’ensemble en trait plein rouge sur la figure
18.
51
Sous-entendu, Jacques et Jean lance le volant avec une force différente.
Bases en biostatistique – Loïc Desquilbet © – version v2.6
37/73
Figure 18 - Ensemble des différences observables conduisant à accepter H0
Est-ce que cela arrive souvent de dire que H0 est vraie, alors qu’en vrai, elle est fausse ?52
Réponse : c’est l’aire hachurée sous le trait rouge de la figure 18 (cf. figure 19). Donc, dans le
cas de la figure 19, oui, c’est un phénomène fréquent, car l’aire hachurée est bien supérieure
à 50%. Interprétons cette aire hachurée. Si en vrai, il existe une réelle différence ∆ entre les
deux indicateurs réels dans les populations A et B, il sera malgré tout fréquent de dire qu’il
n’existe pas de réelle différence (puisque l’on dira que H0 est vraie). Cette erreur dans la
conclusion fait référence à l’erreur de 2ème espèce, notée β. Et en l’occurrence, β est l’aire
hachurée sous le trait rouge sur la figure 19 : c’est la probabilité d’accepter à tort H0.
Figure 19 - Représentation graphique du risque d'erreur β
Je voudrais maintenant faire deux remarques. Premièrement, les valeurs de -d2,5% et +d2,5%
ne dépendent pas de la valeur de la différence réelle Δ53 : tout le raisonnement que vous
aviez tenu au moment où je vous avais demandé de fournir la zone de tolérance pour le
lancer de volant ne se basait absolument pas sur l’hypothèse selon laquelle Jacques et Jean
avaient des forces de lancer différentes, n’est-ce pas ?! Au contraire, le raisonnement se
basait uniquement sur l’hypothèse selon laquelle ils avaient tous les deux la même force de
lancer. Deuxièmement, l’aire hachurée (β, donc) dépend de la valeur de ∆ : plus ∆ augmente
(en valeur absolue), plus cette aire diminue (cf. figure 19 & figure 20 ; la place du « 0 », de d2,5%, et +d2,5% n’ont bien entendu pas changé entre les deux figures).
52
Non non, ce n’est pas une blague, cette question ! Je suis on ne peut plus sérieux.
53
on verra plus tard comment calculer ces valeurs de -d2,5% et +d2,5%.
Bases en biostatistique – Loïc Desquilbet © – version v2.6
38/73
Figure 20 - Figure 19 avec ∆ qui a augmenté
Par conséquent, lorsque l’on accepte H0, on commet potentiellement une erreur. Cette
erreur dépend de la valeur de la différence réelle ∆, qui est inconnue. Par conséquent,
l’erreur β est in-con-nue. Le corollaire, excessivement important pour un vétérinaire (tout
comme pour un médecin en médecine humaine) qui souhaite se mettre à jour dans ses
connaissances en lisant des articles scientifiques, est le suivant : lorsque l’on accepte H0, il
est interdit d’être convaincu que H0 est vraie. Il est interdit de penser que l’on a réussi à
prouver que les deux indicateurs θA et θB sont égaux en vrai. Le discours politiquement
correct, nuancé par rapport à ce que je viens d’écrire, « H0 a été acceptée, donc les
populations A et B sont similaires, ou comparables » est FAUX. C’est pourtant une erreur qui
est malheureusement très fréquemment commise dans les articles scientifiques médicaux
(vétérinaires)…
Vous comprenez par conséquent pourquoi les tests statistiques ne sont faits que pour
rejeter H0, pas pour l’accepter !54 Car lorsque l’on rejette H0, on a le droit d’en être
convaincu, alors que l’on ne peut pas l’être lorsque l’on accepte H0. À vous de poser H0 en
fonction de ce que vous souhaitez montrer ! Vous posez H0 : θA = θB quand vous voulez
montrer avec conviction que θA est différent de θB, et vous posez H0 : θA – θB = ∆ ≠ 0 quand
vous voulez montrer avec conviction que θA = θB. C’est tout bête55.
54
Cf. ce que je disais en fin de partie V.F.1
55
Cela dit, montrer avec conviction que θA = θB fait appel à une démarche statistique et clinique différente de
celle énoncée dans tout ce document, une démarche qui fait référence à celle utilisée dans les essais cliniques
d’équivalence ou de non infériorité (cf. partie V.F.1).
Bases en biostatistique – Loïc Desquilbet © – version v2.6
39/73
G. Le degré de signification
1. Remarques introductives
De nombreux ouvrages de stat’ présentent le degré de signification (« p-value » en anglais,
noté aussi « p ») avant de présenter les tests statistiques. C’est une façon de voir les choses
à laquelle je n’adhère pas car elle ne permet pas de comprendre que l’on teste une
hypothèse, et que le rejet de cette hypothèse se base sur une zone de « tolérance » qui est
fixée a priori, avant d’avoir observé les résultats. Parler du degré de signification avant de
présenter les tests introduit de plus une grande confusion (et probablement de nombreuses
erreurs) dans l’interprétation du degré de signification.
Je vais commencer cette partie par une citation56 qui ne dit pas mieux les choses que je
n’aurais pu le faire (cf. figure 21) !...
Figure 21 - Citation traitant le degré de signification comme le Mal
Ce que l’auteur écrit n’est pas exagéré. Certaines revues scientifiques ont déjà banni le degré
de signification des articles. Et vous allez comprendre pourquoi en lisant la suite dans
quelques instants…
56
https://www.sciencenews.org/blog/context/p-value-ban-small-step-journal-giant-leap-science ; le lien
hypertexte quand l’auteur écrit « They are misused, misunderstood and misrepresented. » est le suivant :
https://www.sciencenews.org/article/odds-are-its-wrong
Bases en biostatistique – Loïc Desquilbet © – version v2.6
40/73
2. Définition du degré de signification
Pour définir le degré de signification (p), rien de mieux qu’un graphique (figure 22) ! Si vous
savez lire ce graphique (et vous savez le faire, si vous en êtes arrivé(e) jusqu’ici sans
décrocher), vous saurez facilement, sans mon aide, interpréter le degré de signification.
Figure 22 - Représentation graphique du degré de signification
Le degré de signification est l’aire hachurée sous la courbe de la figure 2257. En math’, cela
donne : p = Pr(observer une |différence| ≥ |dobs|, sous H0). En français, c’est beaucoup plus
compliqué, mais beaucoup plus important à comprendre (car dans la vie de tous les jours, on
communique en français, pas en math’ !) : p est la probabilité d’observer une différence au
moins égale à celle que l’on vient d’observer sous l’hypothèse qu’en vrai, il n’y a aucune
différence réelle entre les indicateurs comparés. Autrement dit, si en vrai il n’y avait aucune
différence réelle, il y aurait eu p % de chances d’observer une différence au moins égale à
celle que l’on a observée. J’ai exceptionnellement souligné la première partie de cette
phrase, car c’est son omission dans la tête de nombreux chercheurs qui génère les erreurs
d’interprétation du degré de signification et donc l’interprétation des résultats d’un test
statistique ; cette partie soulignée est aussi celle qui conduit à une relative inutilité du degré
de signification (d’où la raison pour laquelle certaines revues scientifiques ont banni ce
degré de signification). Pourquoi ? Parce qu’elle montre que le degré de signification est une
probabilité conditionnelle, conditionnelle au fait que H0 soit vraie. Or, comme on ne sait pas
si, en vrai, H0 est vraie ou non, la valeur du degré de signification n’a pas d’interprétation
pratique.
3. Commentaires sur la définition du degré de signification
Relisez maintenant la partie IV.A.2. (…) Vous voyez qu’il était évidemment impossible de
calculer la probabilité d’observer ce que l’on avait observé (4 billes rouges parmi les 4 billes
tirées au sort) sans connaître la proportion de billes rouge dans le sac ! La seule façon de
calculer cette probabilité, ça avait été de se placer sous une hypothèse. Et vous avez vu en
relisant cette partie IV.A.2 qu’en fonction de l’hypothèse sous laquelle on s’était placé, la
probabilité d’observer ce que l’on avait observé change, bien sûr !!! Ici, c’est exactement
pareil. On ne peut pas connaître la probabilité d’observer une différence au moins égale à
celle que l’on vient d’observer, comme ça. On ne peut le faire qu’en se plaçant sous une
hypothèse, quelle qu’elle soit, d’ailleurs. On aurait pu vouloir calculer la probabilité
d’observer une différence au moins égale à celle que l’on vient d’observer sous l’hypothèse
57
Vous ne vous souvenez plus de ce que représente la courbe de Gauss de cette figure ? Revoyez la Figure 10
et la Figure 13 (et le texte qui va avec, éventuellement…).
Bases en biostatistique – Loïc Desquilbet © – version v2.6
41/73
qu’en vrai, il existe une différence réelle de 5,3 ! Sauf que cette probabilité n’est pas le p. Le
p, c’est cette probabilité sous l’hypothèse que la différence réelle est nulle.
Je ne vais pas vous dire toutes les façons de mal interpréter le degré de signification. Je vous
recommande la lecture de l’article de Goodman pour cela58, que vous pouvez trouver ici :
http://eve.vet-alfort.fr/course/view.php?id=353, section 3.
Voici une façon plus pragmatique (quoique) de voir les choses. Supposons que vous meniez
une étude qui vise à montrer l’efficacité d’un traitement par rapport à un placebo sur la
disparition de symptômes, avec 25 animaux dans le groupe placebo, et 20 animaux dans le
groupe traité59. Dans le groupe des animaux sous placebo, vous en observez 5 animaux (soit
20%) pour lesquels les symptômes ont (spontanément) disparu ; dans le groupe des animaux
sous traitement, vous en observez 9 animaux (soit 45%) pour lesquels les symptômes ont
disparu. Vous testez la différence de ces deux pourcentages, et vous obtenez un degré de
signification égal à 0,07 (soit, 7%). Cela signifie la chose suivante : Si en vrai, il n’avait
absolument aucun effet du traitement sur la disparition des symptômes, il y aurait eu 7% de
chances d’observer une différence de pourcentages au moins aussi grande que celle
observée (45% - 25% = 20%). Dit encore autrement, si en vrai, il n’y avait eu absolument
aucun effet du traitement, et si vous aviez effectué l’essai clinique 100 fois avec à chaque
fois 25 animaux sous placebo et 20 animaux traités, 7 essais cliniques parmi ces 100 auraient
fourni une différence de pourcentage au moins aussi grande que 45% - 25% = 20%.
Si l’on revient sur les lancers de volant de Jacques et de Jean, et choisissons l’espace-temps
n°1, le degré de signification p dans cet espace-temps-là serait la probabilité d’observer une
différence entre deux moyennes des distances au moins aussi grande que 5,26 - 4,91 =
0,35 m, sous l’hypothèse qu’en vrai, Jacques et Jean lancent le volant avec la même force60.
Vous vous rendez maintenant compte à quel point l’interprétation du degré de signification
est … théorique ! Elle est adaptée pour celles et ceux qui planent dans les hautes sphères de
la Statistique, et ne l’est pas du tout à la réalité clinique de terrain ! Ça nous fait
effectivement une belle jambe, de connaître la proportion d’essais cliniques qui auraient
montré une différence au moins aussi grande que celle observée en faisant l’hypothèse que
le traitement n’a pas d’effet !!
Et pourtant, qu’est-ce qu’il plait, ce degré de signification ! (Et nous allons maintenant voir
pourquoi…)
58
Goodman S. A dirty dozen: twelve p-value misconceptions. Semin Hematol. 2008;45:135-140.
59
Cette différence d’effectif ne doit pas vous effrayer : en théorie, c’est mieux d’avoir le même nombre
d’individus par groupe. Cela dit, des données manquantes, ou des individus souhaitant quitter l’étude
prématurément sont des phénomènes qui arrivent, et qui finissent par déséquilibrer les groupes. Ce n’est a
priori pas grave.
60
Ce calcul de probabilité demande de très sérieuses connaissances sur les lois physiques qui gouvernent
l'évolution atmosphérique : principalement les lois de la mécanique des fluides, complétées par celles qui
régissent les changements d'état de l'eau (condensation, évaporation, formation des précipitations), la
turbulence, le rayonnement ou encore les nombreuses interactions avec la surface terrestre et même l'espace.
Donc, … bon courage.
Bases en biostatistique – Loïc Desquilbet © – version v2.6
42/73
4. Lien entre le degré de signification et le risque d’erreur de 1ère espèce
Il existe (malheureusement) un fort lien entre le degré de signification p et le risque d’erreur
de 1ère espèce α. Ce lien est présenté sur la figure 23.
Figure 23 - Lien entre le degré de signification p et α
Dans la figure 23.a, vous pouvez voir que si vous observez une différence dobs pile égale à la
valeur d2,5%, la valeur du degré de signification sera de fait pile égale à α=5%. (Regardez à
nouveau la figure 15, la figure 16, et la figure 22, au besoin.) Si vous observez une différence
dobs strictement inférieure, en valeur absolue, à +d2,5%, la valeur du degré de signification
sera de fait strictement supérieure à α=5% (figure 23.b). Si vous observez une différence dobs
strictement supérieure, en valeur absolue, à +d2,5%, la valeur du degré de signification sera
de fait strictement inférieure à α=5% (figure 23.c).
Par conséquent, confronter la différence observée à d2,5% (comme je viens de vous
l’apprendre pendant pas mal de pages dans ce document) pour savoir si l’on accepte ou
rejette H0 est mathématiquement équivalent à confronter la valeur du degré de signification
à la valeur de α=5%. Si p < α, on rejette H0 au risque d’erreur α, et si p > α, on accepte H0 au
risque d’erreur β inconnu.
Je pense que vous pouvez désormais vous rendre compte à quel point il est … tentant de
penser que le degré de signification est un risque d’erreur de 1ère espèce observé… Mais
c’est tout simplement faux.
Cela dit, si vous observez une différence dobs qui conduit à un degré de signification égal à
0,0001, cela signifie que si en vrai il n’existait aucune différence réelle, il n’y aurait eu qu’une
chance sur 10.000 d’observer une différence au moins aussi grande que celle que vous avez
Bases en biostatistique – Loïc Desquilbet © – version v2.6
43/73
observée. Mais dès que vous allez dire « je rejette H0 », là, c’est le risque d’erreur α=5% qu’il
faut invoquer61.
Et là, je vous vois venir… Vous obtenez un p=0,0001, donc vous pourriez vous dire « je vais
fixer α=1%, p < 1%, donc je rejette H0 au risque d’erreur α=1% ! ». Bien essayé. Mais ce
raisonnement est faux. Relisez encore la fin de la partie IV.B.3. (…) C’est comme si vous aviez
fixé votre zone de tolérance après avoir observé les deux distances de lancers de Jacques,
pour juger si Jacques lance ou non le volant avec une force différente de celle de Jean !
5. Sur-interprétations malheureusement classiques du degré de signification
La première sur-interprétation malheureusement classique du degré de signification est de
penser que le degré de signification est un risque d’erreur, celui en l’occurrence que l’on
commet en rejeter H0. C’est faux, et je viens d’en parler ci-dessus.
La seconde sur-interprétation tout aussi malheureusement classique, mais bien plus grave
en termes de conséquence sur les pratiques cliniques :
Ce n’est pas parce qu’une différence n’est pas significative (p > 0,05) que l’on a prouvé voire
même le droit de penser que les deux groupes comparés sont « comparables »,
« similaires », ou « équivalents ». La raison est décrite en fin de partie V.F.4.
À ce stade-là, vous avez le droit de faire une pause. Ce qui suit va être plus simple. Si vous
avez tout compris jusque-là62, alors vous avez franchi le cap. Le reste, c’est du vent arrière…
Ça va aller tout seul…
61
Puisque p=0,0001, il est < 0,05. Donc, forcément, la différence observée dobs > d2,5% (cf. Figure 23). Vous allez
donc rejeter H0 au risque d’erreur α=5%.
62
Peu importe (quoique) le nombre de fois que vous avez dû relire les différentes précédentes parties.
Bases en biostatistique – Loïc Desquilbet © – version v2.6
44/73
VI.
LA NOTION D’INDEPENDANCE DES INDIVIDUS
A. Introduction
Certains tests statistiques nécessitent, pour être valides, que les individus soient
indépendants les uns vis-à-vis des autres. D’autres tests statistiques prennent justement en
compte cette non indépendance. Il est donc important de déceler les situations où les
individus sont indépendants, et celles où ils ne le sont pas.
Avant de définir ce terme d’ « indépendance », je dois introduire celui d’ « individu ». Un
« individu », dans une étude, est l’unité statistique sur laquelle sont calculés les indicateurs
statistiques (moyenne, médiane, pourcentage, …). L’individu peut être par exemple, le
prélèvement sanguin, l’animal, l’élevage, ou le propriétaire d’un animal. En règle générale,
dans un fichier de données, les « individus » sont placés en ligne, et il y a donc autant de
lignes que d’ « individus ». Et en colonne figurent les caractéristiques qui sont mesurées chez
les « individus ».
B. Définition d’ « indépendance »
On considère qu’il y a « indépendance » sur le caractère (par exemple, la production laitière
mensuelle) dont on calcule un indicateur (par exemple, la moyenne), si la valeur du
caractère d’un individu de l’échantillon est indépendante de la valeur de ce caractère d’un
autre individu de l’échantillon. Dans l’exemple de la production laitière moyenne, si les
individus constituant l’échantillon sont plusieurs vaches laitières d’un même élevage, et que
l’on utilise plusieurs élevages pour constituer l’échantillon, les vaches de l’échantillon
provenant d’un même élevage ne sont probablement pas indépendantes sur le caractère
« production laitière mensuelle », car dans l’échantillon, la valeur de la production laitière
d’une vache d’un élevage va probablement davantage ressembler à la production laitière
d’une autre vache du même élevage qu’à celle d’une autre vache d’un élevage différent (car
au sein d’un même élevage, il y a la même alimentation, les mêmes conditions d’élevage,
etc.). Vous pouvez noter que pour un même échantillon, deux individus peuvent être
considérés comme indépendants sur un caractère, et comme non indépendants sur un
autre.
C. Situations classiques de non indépendance
Lorsque le phénomène de non indépendance est pressenti (plusieurs animaux d’un même
élevage, plusieurs animaux d’une même portée, plusieurs prélèvements sanguins d’un
même animal, …), il faut réfléchir au cas par cas s’il y a effectivement non indépendance sur
le caractère dont on calcule l’indicateur statistique. Classiquement, lorsqu’il y a au moins
deux prélèvements sanguins d’un même animal, et si les statistiques portent sur les
marqueurs biologiques quantifiés à partir de ces prélèvements, il n’y a clairement pas
indépendances des individus (ici, l’individu est le prélèvement sanguin). Une autre situation
classique est celle qui va être décrite plus précisément dans la partie XI : un animal est vu
deux fois, une fois avant intervention (traitement, opération, …) et une fois après
intervention, et l’on veut savoir s’il existe une évolution entre ces deux moments. On mesure
un caractère deux fois sur un même animal, donc ces mesures (individus) ne sont pas
indépendantes.
Bases en biostatistique – Loïc Desquilbet © – version v2.6
45/73
D. Que faire en cas de non indépendance ?
Il y a différentes choses à faire lorsque vous vous trouvez confronté(e) à une situation de
non indépendance (par exemple, quand vous serez amené(e) à analyser des données dans le
cadre de votre thèse vétérinaire).
Première chose, avouer que vous êtes dans une situation de non indépendance, que les
méthodes stat’ que vous avez utilisées ne sont donc probablement pas adaptées, donc les
résultats issus des tests statistiques sont à prendre avec précaution, et donc il faudrait
confirmer vos résultats en prenant en compte cette non indépendance. Deuxième chose,
vous utilisez les méthodes stat’ prenant en compte la non indépendance63. Sans entrer dans
les détails, disons que tout dépend si vous recherchez l’association causale ou pas64. Si vous
voulez atteindre la relation causale, alors il faudra utiliser des modèles statistiques peu
accessibles (des modèles à effets mixtes65 ou des modèles de type GEE66). Si ce n’est pas la
relation causale qui vous intéresse, mais seulement, humblement oserais-je dire,
l’association tout court, alors ce qui est écrit dans la partie XI pourrait vous intéresser !...
63
Evident, non ? Oui, mais dans certaines situations, les méthodes stat’ sont trop compliquées ou demandent
trop de compétences en stat’, et alors, on se rabat sur la première chose à faire.
64
Et là, je ne peux absolument pas du tout passer de temps là-dessus, cela sort complètement du propos de ce
document. En revanche, si cette nuance vous titille, je vous invite à lire le document « La relation de cause à
effet en médecine – application à la médecine vétérinaire, accessible ici : http://eve.vetalfort.fr/course/view.php?id=353, section 2.
65
Cf. https://en.wikipedia.org/wiki/Mixed_model
66
Cf. https://en.wikipedia.org/wiki/Generalized_estimating_equation
Bases en biostatistique – Loïc Desquilbet © – version v2.6
46/73
VII. LE TEST DE STUDENT POUR SERIES NON APPARIEES (COMPARAISON DE DEUX MOYENNES)
A. Contexte du test de Student pour séries non appariées
Le test de Student s’utilise lorsque l’on souhaite savoir si deux populations diffèrent sur la
moyenne d’un caractère quantitatif. Ce test ne peut s’utiliser que si les individus issus des
deux populations à comparer, et qui constituent l’échantillon, peuvent être considérés
comme indépendants. Le test de Student utilise les lois de Student. Cependant, dès que les
tailles des deux échantillons dépassent 30, on peut approcher la loi de Student par la loi
normale centrée réduite, ce qui simplifie les calculs à la main67.
B. Notations
Soit {DIFF} l’ensemble de toutes les différences observables entre deux moyennes calculées
chacune à partir de deux échantillons, issus respectivement des populations A et B que l’on
souhaite comparer. Cet ensemble suit une loi de Gauss, centrée sur la vraie différence ∆ = μA
- μB (avec μA et μB respectivement les moyennes dans les populations A et B)68. Ainsi,
lorsqu’en vrai, il n’existe aucune différence de moyennes entre les deux populations A et B
(c’est-à-dire, μA = μB), la distribution de {DIFF} est centrée sur 0, et d’écart-type s{DIFF} (cf.
figure 24).
Figure 24 - Ensemble des différences observables entre deux moyennes sous l'hypothèse d'absence de réelle
différence
Soient mA et mB respectivement les moyennes effectivement observées dans les échantillons
A et B, et dobs la valeur de la différence mA - mB. Soient sA et sB respectivement les écarttypes dans les échantillons A et B69, de tailles respectives nA et nB.
67
Mais lorsque les calculs sont faits par des logiciels, cette approximation n’est pas faite. Ce sont réellement les
lois de Student qui sont utilisées !...
68
Revoyez les figures 10 & 11, si besoin…
69
Attention, je parle bien d’écart-types dans les échantillons, et non pas les écart-types des moyennes mA et
mB… (Relisez les parties III.C.3 et III.D.1 si vous êtes perdu(e) !)
Bases en biostatistique – Loïc Desquilbet © – version v2.6
47/73
C. Conditions de validité du test de Student pour séries non appariées
Trois conditions doivent être vérifiées avant d’effectuer le test de Student pour séries non
appariées.
1) Les individus issus des populations comparées doivent être considérés comme
indépendants.
2) Les variances dans les deux échantillons (sA2 et sB2) ne doivent pas être trop différentes. En
pratique dans le programme de 1ère année, on les considèrera comme « pas trop
différentes » si <
5
8
7
8
9
< 3.
3) La variable quantitative dont on calcule la moyenne dans chacun des deux échantillons
doit suivre une loi normale dans chacun des deux échantillons.
D. Rejeter ou accepter H0 avec le test de Student pour séries non appariées
1. Démarche de calcul
Première chose, définissons H0 pour le test de Student pour séries non appariées !
En stat’ / math’, H0, c’est : μA = μB.
Ok, sauf que « ça », ça ne parle à personne ! En français, H0, c’est : « la moyenne réelle de
l’indicateur dans la population A est égale à la moyenne réelle de l’indicateur dans la
population B ».
Je vous rappelle le principe même de tout test statistique : on peut rejeter H0 avec conviction
(car au risque d’erreur α connu, valant seulement 5%) si la différence que l’on observe fait
partie d’un ensemble de différences rarement observables lorsque H0 est vraie. Comment
est défini cet ensemble ? Par les valeurs de -d2,5% et +d2,5%. La figure 25 présente deux cas de
figure où H0 peut être rejetée avec conviction : (a) la différence observée dobs > +d2,5%, (b) la
différence observée dobs < -d2,5%. Quand |dobs| < +d2,5%, on ne peut qu’accepter H0, au risque
d’erreur β inconnu.
Figure 25 - H0 rejetée avec le test de Student pour séries non appariées
Bases en biostatistique – Loïc Desquilbet © – version v2.6
48/73
La question est désormais : « comment calculer cette valeur – si fatidique – de d2,5% ? ». Pour
répondre à cette question, nous allons utiliser le fait que la taille des deux échantillons soit
supérieure à 30, et donc nous allons pouvoir passer par la loi normale centrée réduite. Soit
d’2,5% la valeur telle que l’aire sous la loi normale centrée réduite à droite de d’2,5% soit égale
à 2,5%. Dans la mesure où la distribution est centrée sur 0, l’aire à gauche de -d’2,5% est aussi
égale à 2,5% (figure 26, pan de droite). La relation mathématique entre d2,5% et d’2,5% est
toute simple (vous l’avez apprise avant de venir à l’EnvA), et se trouve aussi sur la figure 26.
Figure 26 - Détermination de d2,5% dans le test de Student pour séries non appariées
Donc, d2,5% = d’2,5% x s{DIFF}. Or, que vaut la valeur d’2,5% qui est telle qu’il y ait une aire sous la
loi normale centrée réduite à droite de d’2,5% égale à 2,5% ? Réponse sur la figure 27 : 1,96.
Figure 27 - Lecture de la valeur de 1,96 dans la table de la loi N(0,1)
Par ailleurs,
{<=>>}
=
'@' . A
7
+
9
B avec
'@'
=
7
8
. 7
C
7C 9
9
8
. 9
Par conséquent, d2,5% = 1,96 x s{DIFF} dont la formule est donnée ci-dessus70.
70
ère
Cette formule n’est pas à connaître par cœur : un formulaire est donné aux élèves de 1
évaluations, et comprend entre autres cette formule.
Bases en biostatistique – Loïc Desquilbet © – version v2.6
année lors des
49/73
Je vous rappelle71 que l’on rejette H0 lorsque la différence que l’on observe (dobs) fait partie
d’un ensemble de différences rarement observables lorsque H0 est vraie. C’est-à-dire lorsque
|dobs| > +d2,5%. Dans le cas contraire, on ne peut qu’accepter H0. Pour savoir si l’on peut
rejeter (avec conviction) H0 ou l’accepter (sans en être convaincu), il faut tout simplement
confronter la différence des deux moyennes que vous observez (dobs = mA - mB) à d2,5% que
vous venez de calculer.
2. Conclusion à l’issue du test lors du rejet de H0
Si |dobs| > +d2,5%, il faut citer quatre phrases72.
- On rejette H0 au risque d’erreur α de 5%.
- La moyenne de [caractère mesuré] dans [l’échantillon A] (mA=[…]) était73
significativement différente de la moyenne de [caractère mesuré] dans [l’échantillon B]
(mB=[…]).
- Dans l’échantillon, la moyenne de [caractère mesuré] était [supérieure, ou inférieure]
dans [l’échantillon A] à celle dans [l’échantillon B].
- Sous l’hypothèse d’absence de biais d’association, dans la [population], il y a de fortes
chances (fort degré de confiance) pour qu’il existe une association réelle entre [caractère
mesuré] et [le fait d’appartenir à la population A ou B].
3. Conclusion à l’issue du test lors de l’acceptation de H0
Si |dobs| ≤ +d2,5%, il faut citer trois phrases.
- On accepte H0 au risque d’erreur β inconnu.
- La moyenne de [caractère mesuré] dans [l’échantillon A] (mA=[…]) n’est pas
significativement différente de la moyenne de [caractère mesuré] dans [l’échantillon B]
(mB=[…]).
- Sous l’hypothèse d’absence de biais d’association, dans la [population], il y a des chances
pour qu’il n’existe pas d’association réelle entre [caractère mesuré] et [le fait d’appartenir
à la population A ou B], mais on ne peut absolument pas en être sûr (très faible degré de
confiance).
71
Je me permets de le faire un nombre assez important de fois, car je juge qu’il est fondamental de connaître la
base du raisonnement d’un test statistique (rejeter ou accepter H0) pour être capable de l’interpréter
correctement.
72
Devoir citer quatre phrases peut vous paraître très scolaire. Cela dit, ces quatre phrases sont indispensables à
avoir en tête lorsque vous lisez les résultats d’un test dans un article : les auteurs ne citent pas les quatre
phrases, mais ils ne les pensent pas moins, et vous devez faire de même.
73
De façon très générale (mais vous aurez l’occasion de revoir cela dans tous les articles que vous lirez dans la
suite de votre cursus), les résultats d’une étude doivent être cités au passé. Le présent est réservé à la
généralisation, à l’inférence, aux choses admises depuis un certain temps et validées par la grande majorité des
scientifiques/cliniciens.
Bases en biostatistique – Loïc Desquilbet © – version v2.6
50/73
4. Commentaires sur la conclusion du test
(1) Il est indispensable de citer les erreurs α ou β en spécifiant le fait qu’elles soient ou non
connues (respectivement connue valant 5%, et inconnue) car c’est cela qui permet de savoir
que vous avez ou non le droit d’être confiant dans votre conclusion : un risque d’erreur à 5%
permet d’être confiant dans la conclusion d’un test, et donc de dire « de grandes chances »,
alors qu’un risque d’erreur inconnu ne permet pas du tout d’être confiant (d’où le « des
chances », qui est volontairement vague).
(2) Il est indispensable de fournir les valeurs des moyennes estimées dans chacun des deux
échantillons car (1) une différence de moyennes peut être (statistiquement) significative
mais cliniquement non pertinente ou (2) une différence de moyennes peut (statistiquement)
non significative mais cliniquement pertinente (on reverra ça plus précisément en fin de
partie IX.D).
(3) Quand une différence de moyennes est significative, il est important de dire dans quel
sens va la relation. Par exemple, ce n’est pas tout de savoir que la moyenne de la production
laitière des vaches de race Prim’ Holstein est significativement différente de celle des vaches
de races Vosgienne ! Il est important de savoir si ce sont les vaches Prim’ Holstein qui ont
une moyenne de la production laitière supérieure à celle des vache Vosgienne, ou bien
l’inverse ! En revanche, quand la différence n’est pas significative, vous n’avez pas à écrire
dans quel sens va la relation.
(4) Les biais d’association ne sont pas au programme de 1ère année, ils le seront (ne soyez
pas impatients – quoique, c’est super intéressant !) en revanche en 2ème année.
(5) La dernière phrase fait référence à l’inférence statistique, puisqu’à partir des résultats de
l’échantillon, vous dites ce qu’il semble se passer dans la population.
(6) Dans les phrases types ci-dessus, tout ce qui est écrit entre crochets doit être remplacé
par vous. Vous devez en particulier citer explicitement la population sur laquelle vous
travaillez. Si vous n’êtes pas explicite, on (je) ne comprendra(i) pas ce que vous dites – et
vous imaginez ce qu’il pourra alors se passer, lors de la correction d’un examen !... De
même, j’ai écrit de façon générique « association réelle entre [caractère mesuré] et [le fait
d’appartenir à la population A ou B] ». Soyez explicite ! Par exemple, si l’on compare les
mâles aux femelles, la phrase deviendra « association réelle entre [caractère mesuré] et le
sexe de l’animal ». Si l’on compare les vaches primipares aux vaches multipares, la phrase
deviendra « association réelle entre [caractère mesuré] et la parité de la vache (primipare
versus multipare) ». Etc.
(7) Si vous vous posez la question de savoir s’il est vraiment important d’écrire « mais on ne
peut absolument pas en être sûr (très faible degré de confiance) » quand on fait de
l’inférence statistique après acceptation de H0, la réponse est évidente74.
74
Oui, car elle fait référence à, à la limite, la seule et unique chose qu’un(e) véto doit savoir en sortant d’une
école vétérinaire pour qu’il ne commette pas de mauvaises interprétations en lisant un article, lorsque p > 0,05
(d’où la citation en page de couverture de ce document).
Bases en biostatistique – Loïc Desquilbet © – version v2.6
51/73
E. Calcul du degré de signification p
Je vous laisse relire la définition du degré de signification (partie V.G.2), cela peut être utile
pour comprendre ce qui suit. (…) Vous devez donc calculer l’aire hachurée sur la figure 28 cidessous.
Figure 28 - Représentation graphique du degré de signification avec le test de Student pour séries non
appariées
Comment ? En passant, là encore, par la loi normale centrée réduite ! Tout est indiqué sur la
figure 29… Une fois que vous avez calculé d’obs à partir de dobs et de s{DIFF}, vous lisez l’aire sur
la loi normale centrée réduite à gauche et à droite respectivement de -d’obs et de +d’obs dans
une table de la loi normale centrée réduite.
Figure 29 - Aide au calcul du degré de signification dans le test de Student pour séries non appariées
Bases en biostatistique – Loïc Desquilbet © – version v2.6
52/73
F. De quoi dépend le degré de signification ?
1. Cas particulier du test de Student pour séries non appariées
Regardez la figure 28, de quoi dépend le degré de signification ? Premièrement, et de façon
(j’espère) flagrante : de dobs. En effet, si dobs augmente, l’aire hachurée (le degré de
signification) diminue. Ensuite, à dobs fixée, de quoi dépend encore le degré de signification ?
(Je vous donne le droit de regarder à nouveau la figure 28.) De s{DIFF]. En effet, si s{DIFF}
diminue alors que dobs ne bouge pas, le degré de signification diminue. Or, de quoi dépend
s{DIFF} ? De nA, nB, sA, et sB :
{<=>>}
=
'@' . A
7
+
9
B avec
'@'
=
7
8
. 7
C
7C 9
9
8
. 9
Par conséquent, si nA et/ou nB augmente(nt), s{DIFF} diminue, et donc le degré de signification
diminue.
2. Généralisation à tous les tests statistiques
Ce que j’ai écrit ci-dessus peut se généraliser aux degrés de signification de (quasiment) tous
les tests statistiques : le degré de signification diminue (a) lorsque la différence observée
entre les deux indicateurs qui sont comparés augmente, et/ou lorsque (b) la taille des
échantillons augmente. C’est cette assertion (b) qui va conduire aux deux conséquences très
importantes ci-dessous.
3. Conséquences
Première conséquence. Un degré de signification peut être inférieur à 0,05 (la différence
entre les deux indicateurs comparés sera donc significative) non pas forcément parce que la
différence observée est numériquement importante, mais parce que la taille des
échantillons est importante. Ainsi, une différence statistiquement significative n’est pas
synonyme d’une différence cliniquement pertinente.
Deuxième conséquence. Un degré de signification peut être supérieur à 0,05 (la différence
entre les deux indicateurs comparés sera donc non significative) non pas forcément parce
que la différence observée est numériquement faible, mais parce que la taille des
échantillons est faible. Ainsi, une différence statistiquement non significative n’est pas
synonyme d’une différence non cliniquement pertinente.
Bases en biostatistique – Loïc Desquilbet © – version v2.6
53/73
VIII. LE TEST DU CHI2 (COMPARAISON DE DEUX POURCENTAGES)
A. Contexte du test du Chi2
Le test du Chi2 s’utilise lorsque l’on souhaite savoir si deux (ou plus de deux) populations
diffèrent sur le pourcentage d’un caractère binaire (ou qualitatif). Dans cette partie VIII, nous
nous limiterons au cas de figure où il n’y a que 2 populations à comparer, et où le caractère
est binaire. Les autres cas de figure sont décrits dans la partie X.
Comme dans le cas du test de Student pour séries non appariées, les individus issus des deux
populations à comparer, et qui constituent l’échantillon, doivent être considérés comme
indépendants.
B. Notations
Je vais supposer que le caractère binaire est la présence d’une maladie M. Voici comment se
répartissent les effectifs observés dans chacune des quatre cases du tableau (cf. tableau 1).
Tableau 1
Échantillon
A
B
Total
Présence de la maladie
Malade (M)
Non malade (NM)
OANM
OAM (pAM %)
OBM (pBM %)
OBNM
nNM
nM (pM %)
Total
nA
nB
nT
Par exemple, OAM est le nombre d’individus malades observé dans l’échantillon A, OBNM le
nombre d’individus non malades observé dans l’échantillon B. Il y a en tout nA individus dans
l’échantillon A et en tout nM individus malades dans l’ensemble de deux échantillons. Les
pourcentages observés d’individus malades parmi les individus des échantillons A et B sont
respectivement pAM % et pBM %, et le pourcentage d’individus malades dans l’ensemble des
deux échantillons A et B réunis est pM %.
C. Citations correctes et incorrectes de pourcentages à comparer
1. Problématique
Avant de vous ruer sur le test statistique ou de vous ruer sur le degré de signification du test
du Chi2 lorsque vous lisez un article, vous devez savoir quels sont les pourcentages qui sont
comparés. En effet, écrire « l’effet d’un traitement (versus placebo) est significatif sur le taux
de guérison (p=0,02) », semble beaucoup apporter à la science (vétérinaire). Sauf que si l’on
nous dit que le pourcentage de guérison chez les animaux traités est de 35% et chez les
animaux non traités de 29% (guérison spontanée), tous deux significativement différents l’un
de l’autre, alors là vous vous demandez, à juste titre, si la différence de taux de guérison
vaut le coup de traiter l’animal, sachant que le traitement a probablement des effets
indésirables !...
Bases en biostatistique – Loïc Desquilbet © – version v2.6
54/73
Fréquemment, les auteurs d’études testent l’association entre deux variables en
« programmant » correctement les choses dans le logiciel (et ce logiciel fournit le degré de
signification) sans fournir les pourcentages comparés. Par conséquent, il est fréquent de voir
dans des articles des degrés de signification sans que les valeurs comparées ne soient
fournies – ce qui est une aberration75.
2. Comment bien citer deux pourcentages à comparer ?
Pour savoir si deux variables binaires sont associées, il faut comparer (puis tester) deux
pourcentages. Les pourcentages que vous citez doivent être tels que s’ils sont égaux, ils
traduisent une absence d’association, et s’ils sont différents, ils peuvent traduire une
association. Par exemple, vous êtes d’accord avec le fait que la couleur bleue des yeux
(versus une autre couleur) n’est pas du tout associée à la présence de cancer de l’œsophage.
Pour le prouver (s’il en était besoin), il faudrait comparer deux pourcentages. Il y a de
nombreuses façons de mal citer ces pourcentages. Je vais me focaliser sur la suivante. Si
vous dites « je vais comparer le pourcentage de personnes avec les yeux bleus parmi les
personnes qui ont le cancer au pourcentage de personnes qui n’ont pas les yeux bleus parmi
les personnes qui ont le cancer », c’est faux. Pourquoi ? Parce que le premier pourcentage
est forcément différent du second76, laissant alors penser à tort qu’il existe une association…
Il y a deux (parmi quatre) façons correctes de citer les pourcentages qui vont être comparés
(puis testés) : (1) le pourcentage de personnes avec cancer de l’œsophage parmi celles avec
les yeux bleus à comparer au pourcentage de personnes avec cancer de l’œsophage parmi
celles qui n’ont pas les yeux bleus, et (2) le pourcentage de personnes avec les yeux bleus
parmi celles qui ont un cancer de l’œsophage à comparer au pourcentage de personnes avec
les yeux bleus parmi celles qui n’ont pas de cancer de l’œsophage.
75
Mais passons. Sinon, je passerais trop de temps ici, dans ce document, à parler du problème beaucoup plus
général du manque parfois de compétences en épidémiologie clinique (incluant les biostat’ qui n’en sont qu’un
outil) des relecteurs qui par conséquent peuvent laisser passer des erreurs d’interprétations faites par les
auteurs.
76
Puisque la somme fait 100%, et que rien (ou quasiment) n’est pile réparti à 50/50 dans la nature, même pas
le sexe des animaux domestiques ou sauvages (Nager RG, Monaghan P, Griffiths R, Houston DC, Dawson R.
Experimental demonstration that offspring sex ratio varies with maternal condition. Proc Natl Acad Sci U S A.
1999;96:570-573 ; Cameron EZ, Linklater WL. Extreme sex ratio variation in relation to change in condition
around conception. Biol Lett. 2007;3:395-397)
Bases en biostatistique – Loïc Desquilbet © – version v2.6
55/73
3. (Mauvais) exemple issu de la littérature
Cela pourrait vous paraître étonnant, mais il arrive parfois que les auteurs fournissent de
mauvais pourcentages dans les tableaux (c’est-à-dire que le degré de signification ne
correspond pas aux pourcentages cités). La figure 30 illustre cela77.
Figure 30 - Tableau issu d'un article avec erreur de pourcentages
Dans le tableau présenté sur la figure 30, ce que j’ai entouré en pointillés verts est la façon
correcte de présenter les pourcentages. Parmi les 212 chiens (de stade ACVIM binaire : soit
de stade B2, soit de stade C), 100 étaient au stade B2, soit effectivement, 100/212=47%
(colonne « All n=212 »). Parmi les 129 chiens sans hypertension pulmonaire (HP), 76 étaient
B2, soit 76/129=59%, et parmi les 83 chiens avec HP, 24 (29%) étaient B2. Le degré de
signification en dernière colonne (0,0022) compare bien ces deux pourcentages.
Maintenant, si vous regardez la ligne « RV enlargement » encadré en trait plein rouge, vous
voyez qu’il n’y a plus que 123 chiens dont on connait l’information sur la dilation
ventriculaire droite (DVD)78. Parmi ces 123 chiens dont l’information est renseignée, 15 ont
présenté une DVD, soit, comme l’écrivent correctement les auteurs de l’article, 15/123=12%.
Parmi maintenant les X79 chiens sans HP, 7 ont présenté une DVD, et parmi les Y80 les chiens
avec HP, 8 ont présenté une DVD. Le gros problème est le suivant : les auteurs ont mis les
mauvais pourcentages entre parenthèses, puisqu’ils ont fourni les pourcentages 7/15 (47%)
et 8/15 (53%). Ces pourcentages en français sont : le pourcentage de chiens sans HP parmi
les chiens avec DVD et le pourcentage de chiens avec HP parmi les chiens avec DVD. En
mettant un degré de signification à côté (p=0,067), on a l’impression que ces pourcentages
47% et 53% ne sont pas significativement différents, alors que ce ne sont pas ces
pourcentages qui ont été comparés par le logiciel ! Sauf que les auteurs n’ont pas pris
l’habitude de se poser la question de savoir à quels pourcentages un degré de signification
fait référence. Et le pire, dans l’histoire, est que l’on ne peut pas retrouver les valeurs des
77
Peu importe qui sont les auteurs de l’article, là n’est pas la question.
78
Ce n’est pas le fait qu’il y ait près de 50% de données manquantes, qui est gênant ici, mais la suite…
79
Que l’on ne connait pas, qui ne vaut probablement pas 129 (cf. entête de colonne du tableau) puisqu’il y a
des données manquantes, et que l’on ne pourra pas retrouver, à cause de l’erreur dont je vais parler dans deux
secondes…
80
Même commentaire que ci-dessus.
Bases en biostatistique – Loïc Desquilbet © – version v2.6
56/73
pourcentages qui sont comparés puis testés (et dont le degré de signification est 0,067) : le
pourcentage de DVD parmi les chiens sans HP (7/?) et le pourcentage de DVD parmi les
chiens avec HP (8/?)… Regardez les deux tableaux suivants (tableau 2 et tableau 3), ils font
référence à deux situations cliniques diamétralement opposées, et pourtant, j’utilise les
mêmes chiffres que ceux de l’article : ils portent sur 123 chiens, les nombres et pourcentages
sont ceux de l’article (n=7 avec 47% et n=8 avec 53%), et les degrés de signification sont très
proches de celui du tableau (p=0,067).
Tableau 2
Tension pulmonaire
Sans HP
HP
Oui
8
7
DVD
Non
32
76
Total
40
83
DVD, dilatation ventriculaire droite ; HP, hypertension pulmonaire
Total
15
108
123
Dans le tableau 2 ci-dessus, on retrouve bien les 8 et 7 chiens respectivement sans et avec
HP parmi les 15 chiens avec DVD. Mais le pourcentage de chiens avec DVD parmi les chiens
sans HP est de 20% (8/40) et le pourcentage de chiens avec DVD parmi les chiens avec HP de
8% (7/83 ; p=0,066, très proche de celui du tableau de l’article).
Tableau 3
Tension pulmonaire
Sans HP
HP
Oui
8
7
DVD
Non
82
26
Total
90
33
DVD, dilatation ventriculaire droite ; HP, hypertension pulmonaire
Total
15
108
123
Dans le tableau 3 ci-dessus, on retrouve là encore les 8 et 7 chiens respectivement sans et
avec HP parmi les 15 chiens avec DVD. Mais cette fois-ci, les pourcentages sont
diamétralement opposés : le pourcentage de chiens avec DVD parmi les chiens sans HP est
de 9% (8/90) et le pourcentage de chiens avec DVD parmi les chiens avec HP de 24% (7/33),
avec cependant un degré de signification quasi identique au précédent (p=0,064, très proche
là encore de celui du tableau de l’article).
Cliniquement parlant, le tableau 2 et le tableau 3 ne fournissent pas du tout les mêmes
choses : dans le premier cas (tableau 2), le pourcentage de DVD est deux fois plus fréquent
parmi les chiens sans HP que parmi les chiens avec HP (20% versus 8%), et dans le deuxième
cas (tableau 3), le pourcentage de DVD est plus de deux fois moins fréquent parmi les chiens
sans HP que parmi les chiens avec HP (9% versus 24%). Et en lisant le tableau de l’article, on
ne peut bien entendu pas savoir dans quelle situation clinique l’on se trouve, parmi les deux
diamétralement opposées ci-dessus.
Bases en biostatistique – Loïc Desquilbet © – version v2.6
57/73
Vous avez la démonstration81 que (1) ne pas fournir les bons pourcentages peut vous faire
dire de sacrées bêtises dans le domaine de la clinique vétérinaire (comme par exemple, « les
pourcentages de 47% et 53% ne sont pas significativement différents (p=0,067), donc il n’y a
pas d’association entre la présence de DVD et l’HP ») et (2) ne pas fournir les (bons)
pourcentages ne vous donne aucune information clinique, or, c’est bien pour améliorer
l’état des connaissances cliniques que l’on utilise les outils de la biostatistique !
D. Conditions de validité du test du Chi2
Deux conditions doivent être vérifiées avant d’effectuer le test du Chi2.
1) Les individus issus des populations comparées doivent être considérés comme
indépendants.
2) Les quatre effectifs attendus sous H0 doivent être tous les quatre supérieurs à 5.
Vous allez voir ci-dessous ce que sont ces « effectifs attendus sous H0 » qui sortent un peu
de nulle part, je vous l’accorde…
E. Rejeter ou accepter H0 avec le test du Chi2
1. Démarche de calcul
Le test du Chi2 ne compare pas, numériquement, les pourcentages de malades dans les deux
échantillons (pAM et pBM), contrairement au test de Student qui compare numériquement les
moyennes mA et mB. Le test du Chi2 compare des effectifs. Il compare notamment des
effectifs observés à des effectifs … attendus (sous H0).
Avant d’aller plus loin, un petit rappel (probabiliste). Deux événements A et B sont purement
indépendants si et seulement si D 0|F = D 0|FG = D 0
Par exemple, prenons deux événements purement indépendants : A = « avoir les yeux
bleus » et B = « aimer le chocolat »82. L’égalité ci-dessus devient, en français :
« En France, la proportion d’individus aux yeux bleus parmi ceux qui aiment le chocolat est
égale à la proportion d’individus aux yeux bleus parmi ceux qui n’aiment pas le chocolat ; ces
deux proportions sont égales et donc égales à la proportion d’individus aux yeux bleus en
France. » (En effet, s’il y a 24% d’individus aux yeux bleus parmi ceux qui aiment le chocolat,
et si la couleur des yeux est indépendante du goût pour le chocolat, alors il y a forcément
aussi 24% d’individus aux yeux bleus parmi ceux qui n’aiment pas le chocolat. Et si en France,
il y a 24% d’individus aux yeux bleus parmi ceux qui aiment le chocolat et 24% d’individus
aux yeux bleus parmi ceux qui n’aiment pas le chocolat, c’est qu’il y a forcément, en France,
24% d’individus aux yeux bleus !)
L’hypothèse nulle H0 du test du Chi2 est la suivante : πA = πB, avec πA la proportion réelle
d’individus « malades » dans la population A (et idem pour πB).
81
En espérant vivement qu’elle vous aura convaincu(e) !
82
Si vous pensez qu’il existe une association entre ces deux événements, (…), essayez d’imaginer qu’elle
n’existe pas (normalement, vous ne devriez pas avoir trop de mal à le faire…).
Bases en biostatistique – Loïc Desquilbet © – version v2.6
58/73
Le principe de calcul du test du Chi2 consiste à calculer les effectifs attendus sous H0, c’est-àdire « les effectifs que l’on aurait dû observer dans l’échantillon, si dans l’échantillon, H0
avait été observée ». Si, dans l’échantillon, H0 avait été observée, on aurait observé une
parfaite indépendance entre la présence de maladie et le fait d’appartenir au groupe A ou B
dans l’échantillon. On aurait alors dû observer pAM = pBM. Et si ces deux pourcentages sont
égaux dans l’échantillon, alors ils sont forcément égaux à pM83. Par conséquent, si H0 avait
été observée dans l’échantillon, alors on aurait dû observer pAM = pBM = pM. Les « effectifs
attendus sous H0 » sont les effectifs qui permettent d’obtenir pAM = pBM = pM, sachant que le
nombre d’individus dans l’échantillon A vaut nA, celui dans l’échantillon B vaut nB, et celui
d’individus malades vaut nM. (Les marges du tableau restent fixées, c’est ce qui est à
l’intérieur du tableau, qui peut varier…)
Il faut donc remplir le tableau des effectifs attendus sous H0 ci-dessous (cf. tableau 4).
Tableau 4
Présence de la maladie
Malade (M)
Non malade (NM)
EAM (pM %)
EANM
EBM (pM %)
EBNM
nM (pM %)
nNM
A
B
Total
Échantillon
Total
nA
nB
nT
Pour observer pM % d’individus malades dans l’échantillon A de taille nA, il doit y avoir EAM =
nA x pM individus malades. Pour observer pM % d’individus malades dans l’échantillon B de
taille nB, il doit y avoir EBM = nB x pM individus malades. Les deux autres effectifs attendus
sous H0 (EANM et EBNM) s’obtiennent pas simple soustraction (nA - EAM et nB - EBM,
respectivement).
Une fois que ces quatre effectifs attendus sous H0 sont calculés, la démarche consiste à
calculer la différence entre les effectifs observés et les effectifs attendus sous H0. La formule
est la suivante :
H@I
(KK(L'*K
=
MNO − PNO
PNO
+
MQO − PQO
PQO
+
MNRO − PNRO
PNRO
+
MQRO − PQRO
PQRO
Plus cette différence entre effectifs observés et effectifs attendus sous H0 est importante,
plus ce que l’on a observé est éloigné de H0, et plus on va donc avoir tendance à rejetter H0.
Si en vrai, H0 est vraie, alors l’ensemble des différences observables entre effectifs observés
et effectifs attendus sous H0 suit une loi du Chi2 à 1 degré de liberté (ddl). Cette loi est
représentée sur la figure 31.
83
Si ce n’est pas clair, relisez (plusieurs fois ?) ce que j’ai écrit sur la couleur des yeux et le fait d’aimer le
chocolat plus haut !...
Bases en biostatistique – Loïc Desquilbet © – version v2.6
59/73
2
Figure 31 - Loi du Chi à 1 degré de liberté
Lorsque H0 est vraie, il arrive dans 5% des cas d’observer une différence entre effectifs
observés et effectifs attendus sous H0 au moins égale à 3,8484. Cette valeur de 3,84 est la
valeur au-delà de laquelle on va considérer que ce que l’on observe comme différence entre
effectifs observés et effectifs attendus sous H0 fait partie des événements rarement
observables lorsque H0 est vraie ; elle est donc la valeur à laquelle il faudra confronter la
valeur de dobs effectifs calculée pour accepter ou rejeter H0.
2. Conclusion à l’issue du test lors du rejet de H0
Si dobs effectifs > 3,84, il faut citer quatre phrases, identiques dans le fond à celles qu’il faut citer
lorsque l’on rejette H0 avec le test de Student.
- On rejette H0 au risque d’erreur α de 5%.
- La proportion de [caractère binaire] parmi [les individus de l’échantillon A] (pAM=[…]) était
significativement différente de la proportion de [caractère binaire] parmi [les individus de
l’échantillon B] (pBM=[…]).
- Dans l’échantillon, la proportion de [caractère binaire] était [supérieure ou inférieure]
parmi [les individus de l’échantillon A] à celle parmi [les individus de l’échantillon B].
- Sous l’hypothèse d’absence de biais d’association, dans la [population], il y a de fortes
chances (fort degré de confiance) pour qu’il existe une association réelle entre [la
présence du caractère binaire] et [le fait d’appartenir à la population A ou B].
84
2
Cette valeur se retrouve dans la table d’une loi du Chi à 1 degré de liberté.
Bases en biostatistique – Loïc Desquilbet © – version v2.6
60/73
3. Conclusion à l’issue du test lors de l’acceptation de H0
Si dobs effectifs ≤ 3,84, il faut citer trois phrases, identiques dans le fond à celles qu’il faut citer
lorsque l’on accepte H0 avec le test de Student.
- On accepte H0 au risque d’erreur β inconnu.
- La proportion de [caractère binaire] parmi [les individus de l’échantillon A] (pAM=[…])
n’était pas significativement différente de la proportion de [caractère binaire] parmi [les
individus de l’échantillon B] (pBM=[…]).
- Sous l’hypothèse d’absence de biais d’association, dans la [population], il y a des chances
pour qu’il n’existe pas d’association réelle entre [la présence du caractère binaire] et [le
fait d’appartenir à la population A ou B], mais on ne peut absolument pas en être sûr (très
faible degré de confiance).
4. Commentaires sur la conclusion du test
Les commentaires que je pourrais faire ici sont identiques à ceux que j’ai faits lors du test de
Student. Je vous invite à les relire, en les adaptant le cas échéant au fait que l’on parle ici de
proportions.
Je vais cependant en remettre une couche sur un point. La relecture de la partie VIII.C.3 vous
présente les arguments pour vous sanctionner si vous oubliez de citer les valeurs des
pourcentages (ou des moyennes, bien entendu) qui sont comparés puis testés…
F. Calcul du degré de signification
Comme pour le test de Student, je vous laisse relire la définition du degré de signification
(partie V.G.2), ainsi que ce j’ai écrit autour de la figure 31. Vous devez donc calculer l’aire
hachurée sur la figure 32 ci-dessous, à l’aide de la table de la loi du Chi2 à 1 ddl. Cette aire est
le degré de signification.
2
Figure 32 - Degré de signification avec une loi du Chi
Contrairement au test de Student pour séries non appariées, il n’y a pas besoin de multiplier
l’aire sous la loi par deux. Le degré de signification se lit directement dans la table.
Bases en biostatistique – Loïc Desquilbet © – version v2.6
61/73
IX.
LA PUISSANCE STATISTIQUE D’UNE ETUDE
A. Remarque préliminaire
Toutes les illustrations de cette partie font référence à la comparaison de moyennes, avec le
test de Student pour séries non appariées. Mais bien entendu, tout le raisonnement que je
vais appliquer pourrait s’appliquer à n’importe quel test statistique.
B. Définition & commentaires
La puissance statistique d’une étude est « la capacité d’une étude à mettre en évidence
statistiquement une différence qui est réelle ».
Dans cette définition, « mettre en évidence statistiquement » est équivalent à « la différence
observée est significativement différente de 0 ». Autrement dit, la puissance statistique
d’une étude est sa capacité à obtenir une différence significativement différente de 0 sous
l’hypothèse qu’il existe une différence réelle.
Énoncée de façon plus statistique, la puissance statistique d’une étude est « la probabilité
qu’a cette étude de rejeter H0 en supposant qu’en vrai, H0 est fausse ». La figure 33 illustre
cette probabilité (en faisant l’hypothèse qu’il existe une réelle différence ∆ > 0) avec l’aire
hachurée.
Figure 33 - Représentation graphique de la puissance statistique
L’aire hachurée sur la figure 33 que pointent les deux flèches est bien la probabilité de
rejeter H0 (puisque cette aire représente la proportion de l’ensemble des différences
observables qui conduisent au rejet de H0, car plus grandes en valeur absolue à +d2,5%)
lorsque H0 est fausse (puisque cette distribution est centrée sur ∆ ≠ 0). Remarquez que l’aire
à gauche de -d2,5% existe, mais est toute petite sur cette figure…
Maintenant, comparez la figure 33 à la figure 19 ! (…) En effet, la puissance statistique vaut
1-β. Cela dit, tout comme β était inconnue, la puissance statistique d’une étude est inconnue
(parce que la valeur de ∆ est inconnue).
Bases en biostatistique – Loïc Desquilbet © – version v2.6
62/73
C. De quoi dépend la puissance statistique d’une étude ?
Regardez à nouveau la figure 33. (…) Qu’est-ce qui fait que l’aire hachurée (la puissance
statistique) augmente ? Première chose : ∆ (la différence réelle entre les deux moyennes μA
et μB dans les populations A et B). Lorsque ∆ augmente, la puissance statistique augmente
(figure 34).
Figure 34 - La puissance statistique augmente quand la réelle différence augmente
Maintenant, imaginez que ∆ reste fixée, qu’est-ce qui peut faire que la puissance stat’
augmente (retour sur la figure 33 ) ? (…) Réponse, si -d2,5% et +d2,5% se rapprochent de 0
(figure 35).
Figure 35 - La puissance statistique augmente si d2,5% diminue
Or, d2,5% = 1,96 x s{DIFF} avec
{<=>>}
=
'@' . A
7
+
9
B S2
'@'
=
7
8
. 7
C
7C 9
9
8
. 9
Regardez l’impact des effectifs (nA et nB) sur d2,5%. Vous remarquez en effet que d2,5%
diminue (donc -d2,5% et + d2,5% se rapprochent de 0) lorsque nA et/ou nB augmente(nt).
Bases en biostatistique – Loïc Desquilbet © – version v2.6
63/73
D. En résumé & commentaires
En résumé, et en généralisant à tous les tests statistiques comparant deux indicateurs, on
peut dire que la puissance statistique d’une étude augmente (c’est-à-dire sa capacité à
mettre en évidence statistiquement une différence réelle), lorsque la différence réelle
augmente et/ou lorsque la taille des échantillons augmente.
En pratique, les investigateurs des études cliniques ont peu d’impact sur la différence réelle.
Elle est en quelque sorte fixée par la nature85. En revanche, la taille des échantillons est un
vrai moyen d’augmenter la puissance statistique d’une étude.
Autre commentaire. Je vous rappelle la définition du risque d’erreur α (égal à 5%) : c’est la
probabilité de rejeter H0 à tort, c’est-à-dire rejeter H0 lorsque H0 est vraie. En clinique, cela
signifie que si un caractère chez un animal n’est absolument pas du tout associé à la
présence d’une maladie, il y a quand même 5% de chances/risques que, dans l’échantillon, à
cause uniquement de la fluctuation d’échantillonnage, il existe une association significative
entre ce caractère et la présence de la maladie, qui vous fasse donc conclure que « sous
l’hypothèse d’absence de biais d’association, il y a de fortes chances qu’il existe une
association réelle entre la présence de ce caractère et celle de la maladie » ! Cela ne doit pas
vous faire peur. En revanche, c’est évidemment quelque chose qu’il faut avoir en tête quand
vous lisez les résultats d’une étude dans un article…
Pourquoi une telle question ici, dans cette partie sur la puissance stat’ ? Pour vous rappeler
que si en vrai, H0 est vraie, (heureusement qu’) il ne sert à rien d’augmenter la taille de
l’échantillon pour augmenter la puissance statistique ! Pourquoi ? Parce que si H0 est vraie,
la probabilité d’obtenir une différence significative vaut pile 5%, indépendamment de la
taille des échantillons ! L’augmentation de la taille des échantillons augmente la puissance
statistique seulement lorsqu’en vrai, il existe une réelle différence !
Dernier commentaire. Vous avez vu que, lorsqu’il existe une réelle différence, une taille
d’échantillon élevée permet de gagner en puissance statistique. Par conséquent, une étude
qui comprend énormément d’individus va être capable de mettre en évidence
statistiquement de toutes petites différences réelles (le mauvais impact d’une faible
différence réelle sur la puissance stat’ va être contre-balancé par une taille élevée
d’échantillon). C’est d’ailleurs la raison pour laquelle certaines enquêtes en épidémiologie
nutritionnelle doivent recruter un nombre très important d’individus : parfois, les effets
bénéfiques de certains éléments nutritionnels sur l’état de santé sont relativement faibles et
nécessitent par conséquent des enquêtes avec une taille d’échantillon importante pour
mettre en évidence statistiquement ces faibles effets sur l’état de santé. Le corollaire est le
suivant. Ce n’est pas parce qu’une étude a obtenu une association significative que cette
association est cliniquement pertinente. Si la taille de l’échantillon est très importante, une
différence réelle mais non cliniquement pertinente peut être statistiquement mise en
évidence dans une étude (rejet de H0). De façon générale, ne confondez donc pas
« association significative » et « association cliniquement pertinente ». (Cela se saurait si les
stat’ savaient évaluer la pertinence clinique d’une différence !)
85
Ceci n’est pas totalement vrai en clinique thérapeutique. En comparant un groupe traité à un groupe
placebo, on augmente la différence réelle entre deux pourcentages de guérisons (par exemple), l’un calculé
dans le groupe traité, et l’autre dans le groupe placebo, en augmentant la dose de traitement – mais le risque
est qu’en augmentant cette dose, on augmente les risques d’effets indésirables…
Bases en biostatistique – Loïc Desquilbet © – version v2.6
64/73
E. Manque de puissance statistique ?
Il arrive parfois (malheureusement pour les investigateurs d’une étude) qu’une étude ait
manqué de puissance statistique. Qu’est-ce que cela signifie ? Cela signifie qu’une étude n’a
pas réussi à montrer statistiquement une différence réelle. Quand est-ce qu’une étude ne
« réussit pas à montrer statistiquement (…) » ? Quand la différence testée n’est pas
significative. Et quand est-ce que cela arrive ? Quand le degré de signification p est > 0,0586.
En pratique, on invoque le manque de puissance statistique quand on a failli montrer
statistiquement une différence que l’on pense réelle. Le seuil communément admis pour
« failli montrer statistiquement » est « 0,10 » pour le p. Et ce qui fait penser qu’il existe une
réelle différence, c’est le fait d’observer une différence (ou un effet) qui est cliniquement
importante. Ainsi, dans une étude clinique, si la différence observée est jugée comme
importante, et si le degré de signification p est compris entre 0,05 et 0,10, l’association n’est
certes pas significative, mais on peut dire que l’on a probablement87 manqué de puissance
statistique, et qu’avec une taille d’échantillon plus élevée, la différence aurait probablement
été significative.
86
Relisez la partie V.G.4 si vous ne vous souvenez plus pourquoi…
87
Oui, il ne faut quand même pas l’oublier, ce terme ! Il faut marcher sur des œufs, quand on invoque le
manque de puissance stat’ !... Sinon, ça serait trop simple !
Bases en biostatistique – Loïc Desquilbet © – version v2.6
65/73
X.
AUTRES TESTS STATISTIQUES SUR DES DONNEES INDEPENDANTES
A. Présentation générale
Tous les tests statistiques dont je vais parler dans cette partie considèrent que les individus
sont indépendants (cf. partie VI). Ce qui guide le choix d’un test statistique est le type des
deux variables88 dont on cherche à savoir si elles sont associées. Le site Internet BiostatGV
vous fournit un beau tableau des différents tests statistiques, avec en plus la possibilité de
les réaliser en ligne ! Voici le lien : http://marne.u707.jussieu.fr/biostatgv/?module=tests
Voici une autre façon de présenter les choses, à l’aide d’une carte mentale (figure 36). Cette
carte mentale est illisible ici, mais vous pouvez y accéder ici89. Cette carte vous guide dans le
choix de tel ou tel test statistique en fonction du type des variables (quantitatif, qualitatif,
binaire) que vous souhaitez croiser pour savoir si elles sont statistiquement associées.
Figure 36 - Carte mentale de la démarche du choix d’un test statistique
Je vais être très succinct, dans ce qui suit. L’objectif est de vous apprendre à choisir le test
statistique adapté en fonction de la question de recherche d’une étude et des hypothèses de
distributions qui sont faites (distributions normales / non normales) lorsqu’il s’agit de
variables quantitatives. De plus, des infos supplémentaires sur les différents tests peuvent se
retrouver dans tout livre de stat’90.
88
Il existe quatre types de variables (numériques) : binaire, qualitative nominale (l’ordre des chiffres affectés
aux classes n’a pas de sens particulier, comme par exemple la race d’un vache codée en « 1 », « 2 », « 3 », ou
« 4 »), qualitative ordinale (l’ordre des chiffres affectés aux classes a un sens, comme par exemple la fréquence
de vomissements d’un chien codée en « 1 » pour « < 1 fois par mois », « 2 » pour « entre 1 fois par mois et 1
fois par semaine », ou « 3 » pour « ≥ 1 fois par semaine »), et quantitative.
89
En cliquant sur « Carte mentale pour savoir quel outil statistique utiliser », sur la page EVE suivante :
http://eve.vet-alfort.fr/course/view.php?id=353&section=6
90
Je recommande en particulier celui de T. Ancelle, intitulé « Statistique Epidémiologie », cf.
http://www.unitheque.com/Livre/maloine/Sciences_fondamentales/Statistique_epidemiologie-38398.html,
normalement disponible à la bibliothèque de l’EnvA
Bases en biostatistique – Loïc Desquilbet © – version v2.6
66/73
B. Le test du Chi2 testant l’association entre une variable binaire et une variable
qualitative
Le test du Chi2 peut s’effectuer lorsque les deux variables sont toutes les deux qualitatives
non binaires, mais l’interprétation des pourcentages calculés est impossible. Je ne traite
donc par conséquent pas ce cas de figure, statistiquement valable, mais tout simplement
inapplicable !
Le plus dur dans la situation d’une variable binaire croisée avec une variable qualitative est
de savoir quels sont les pourcentages que vous allez comparer avant de les tester.
Supposons que l’on veuille savoir si la race des vaches laitières est associée à la présence de
mammites (tableau 5).
Tableau 5
Race A
Race B
Race C
Total
Présence de mammites
Oui
Non
5
29
20
54
4
49
29
132
Total
34
74
53
161
Il y a de nombreuses façons de mal citer les pourcentages qui vont être comparés puis testés
(cf. discussion partie VIII.C). Je vous propose une bonne façon de citer les pourcentages qui
vont ensuite être testés dans le cas du tableau 5 : le pourcentage de vaches avec mammites
parmi les vaches de race A (5/34=15%), celui parmi les vaches de race B (27%), et celui parmi
les vaches de race C (8%). S’il y avait parfaite indépendance entre la race des vaches et la
présence de mammites, ces trois pourcentages auraient dû être égaux. Et s’ils avaient été
égaux, ils auraient été tous les trois égaux au pourcentage global de vaches avec mammites
parmi l’ensemble des vaches de l’échantillon (soit 29/161=18%)91.
Ainsi, l’hypothèse nulle H0 de ce test est la suivante : πA = πB = πC (en prenant l’exemple de
trois groupes, bien entendu). Fournir cette hypothèse est tout sauf anodin. Si vous rejetez
H0, vous rejetez le fait qu’en vrai, les trois pourcentages soient égaux. Rejeter cela, c’est
« affirmer » (puisque l’on rejette H0) son alternative, c’est-à-dire « il y a de grandes chances
pour qu’il existe au moins un des trois pourcentages réellement différent des autres ».
La suite n’est que du calcul, sans intérêt à présenter ici… (Une remarque, cependant. Si par
hasard vous vous étiez dit « tiens, mais comment peut-il faire un test du Chi2 avec un des six
effectifs égal à 4 ? », je vous aurais répondu « calculez les effectifs attendus sous H0, et vous
verrez qu’ils sont tous les six supérieurs à 5… »)
Attention, lorsqu’une des deux variables est qualitative ordinale, le test du Chi2 ne teste pas
de tendance ! Si vous observez que plus la variable qualitative (ordinale) augmente et plus le
pourcentage d’individus malades augmente, et si par ailleurs le degré de signification du test
du Chi2 est inférieur à 0,05, vous n’avez pas le droit de dire qu’il existe une augmentation
91
Si vous ne comprenez pas pourquoi, relisez la partie VIII.E.1.
Bases en biostatistique – Loïc Desquilbet © – version v2.6
67/73
significative de la présence de la maladie lorsque la variable qualitative augmente !92 Autre
chose, revenons à nos vaches et à nos mammites. Vous observez que la race B est beaucoup
plus fréquemment atteinte par les mammites (27%) que les deux autres races (15% et 8%,
respectivement pour les races A et C). Vous n’avez cependant pas le droit de dire que la race
B est significativement plus fréquemment atteinte que les deux autres races. Relisez ce qui
précède ci-dessus une nouvelle fois, quand j’ai parlé de H0 et du rejet de H0 avec ce test du
Chi2… Le test du Chi2 est un test global, testant l’égalité des pourcentages versus « au moins
un différent des autres ».
C. Le test exact de Fisher
Ce test doit être utilisé quand le test du Chi2 n’est pas applicable parce qu’au moins un des
effectifs attendus est inférieur à 5. L’utilisation et l’interprétation reste identique à celle d’un
test du Chi2 : H0, pourcentages à comparer, conclusion à l’issue du test. Seul le calcul du
degré de signification est différent, car il utilise la loi binomiale, plutôt que la loi du Chi2.
D. L’analyse de variance (Anova, pour Analysis of variance)
L’Anova, comme son nom (en anglais) ne l’indique par vraiment, permet de tester trois
moyennes ou plus. L’Anova permet donc de tester l’association entre une variable
qualitative et une variable quantitative93. C’est en quelque sorte une généralisation du test
de Student qui, lui, ne permet de tester que deux moyennes. L’Anova doit être l’une des
méthodes les plus décrites dans les « choses » (cours, livres, pdf en ligne, forum de stat’, …)
de statistique, donc je ne vais que très peu en parler ici. Je vais en revanche vous parler de
choses à ne pas oublier, quand vous faites une Anova ou lisez les résultats d’une Anova dans
un article.
Le principe de l’analyse de variance est de comparer la variance inter-groupe (le groupe
étant l’une des classes de la variable qualitative) à la variance intra-groupe (cf. figure 37).
Figure 37 - Représentation graphique de l'Anova
92
H0 est l’égalité des pourcentages ; rejeter H0, c’est rejeter l’égalité. Et le contraire d’ « égalité », ce n’est pas
« augmentation » (ou « diminution »), mais c’est « différent ».
93
Si par hasard vous vous posez la question de savoir quel est le test statistique qui permet de tester
l’association entre une variable binaire et une variable quantitative, la réponse fait l’objet de la partie VII en
entier… ! (On va donc dire que vous ne vous êtes pas posé la question, n’est-ce pas ?!)
Bases en biostatistique – Loïc Desquilbet © – version v2.6
68/73
Deux remarques. La première, il est très fréquent que des auteurs mentionnent le degré de
signification issu d’une Anova (testant donc X moyennes) sans fournir les moyennes qui sont
comparées. Ne vous faites pas avoir par des auteurs qui veulent vous communiquer leur joie
d’avoir une association significative entre une variable qualitative et une variable
quantitative en ne vous fournissant qu’un degré de signification (certes, bien inférieur à
0,05) : une association significative n’est pas synonyme d’une association cliniquement
pertinente (cf. partie IX.D).
Deuxième remarque, comme dans le test du Chi2 testant l’association entre une variable
qualitative et une variable binaire, l’hypothèse nulle est l’égalité de toutes les moyennes
dans la population, et l’hypothèse alternative est donc « il existe au moins une moyenne
réellement différente des autres ». Ainsi, ce n’est pas parce qu’une Anova fournit un degré
de signification < 0,05 que vous avez montré qu’une moyenne en particulier était
significativement différente des autres. Le test teste l’ensemble des moyennes.
E. Le test de Mann-Whitney (comparaison de deux médianes)
Le test statistique de Mann-Whitney fait partie des tests statistiques dits « non
paramétriques », c’est-à-dire qu’ils ne sont pas basés sur des hypothèses de distribution de
probabilités94.
Le test de Mann-Whitney est un test de somme de rangs, qui permet de comparer puis de
tester deux médianes. Le principe est décrit dans la figure 38, en prenant comme exemple la
comparaison de la médiane de croissance pondérale de chatons entre deux groupes (les
groupes 1 et 2 sur la figure). La première étape consiste à classer tous les chatons par ordre
de croissance pondérale croissante, indépendamment du groupe d’appartenance. La
deuxième étape consiste à regrouper les chatons par groupe, puis à faire la somme des
rangs dans chacun des deux groupes. Le test de Mann-Whitney teste si la somme des rangs
dans le premier groupe est significativement différente de la somme des rangs dans le
second groupe. Cela revient à tester si la médiane dans le premier groupe est
significativement différente de la médiane dans le second groupe.
Figure 38 - Principe du test de Mann-Whitney
94
Cf. https://en.wikipedia.org/wiki/Nonparametric_statistics
Bases en biostatistique – Loïc Desquilbet © – version v2.6
69/73
F. Le test de Kruskal-Wallis
Le test de Kruskal-Wallis peut être vu comme une généralisation du test de Mann-Whitney,
de la même façon que l’Anova est une généralisation du test de Student. Le test de KruskalWallis est un test non paramétrique testant trois médianes ou plus. Les détails de ce test
peuvent se retrouver ici95.
95
Cf. https://en.wikipedia.org/wiki/Kruskal%E2%80%93Wallis_one-way_analysis_of_variance
Bases en biostatistique – Loïc Desquilbet © – version v2.6
70/73
XI.
LES TESTS STATISTIQUES SUR SERIES APPARIEES
A. Introduction
Les « séries appariées » sont des cas particuliers où les « individus » ne sont pas
indépendants. Le cas le plus fréquent (et celui dont je vais parler) est décrit sur la figure 39. Il
s’agit de la situation où les animaux vont subir une intervention (un traitement, une
opération, …) et l’on souhaite savoir si cette intervention a un impact sur un caractère. Le
caractère peut être binaire ou quantitatif96. Il est évalué à t0 (CAR0), l’animal subit
l’intervention, et à un instant t1, l’animal est ré-évalué (CAR1).
Figure 39 - Illustration d'un cas fréquent de « séries appariées »
Je rappelle la définition de l’ « indépendance » des individus (cf. partie VI.B) : « on considère
qu’il y a indépendance sur le caractère dont on calcule un indicateur si la valeur du caractère
d’un individu de l’échantillon est indépendante de la valeur de ce caractère d’un autre
individu de l’échantillon. » Dans cette situation, les « individus » sont les évaluations à t0 et à
t1 effectuées chez les N animaux de l’échantillon. Il y a donc 2N individus. Clairement
l’ « individu » CAR0 d’un animal n’est pas indépendant de l’individu CAR1 de ce même animal,
puisque ces deux évaluations proviennent du même animal ! Donc, ces 2N individus ne
peuvent pas être considérés comme indépendants sur le caractère évalué. Il n’est pas donc
pas possible de comparer la moyenne du caractère (quantitatif) évalué à t0 à la moyenne du
caractère évalué à t1 avec le test de Student pour séries non appariées, tout comme il n’est
pas possible de comparer le pourcentage de présence du caractère (binaire) à t0 au
pourcentage de présence du caractère à t1 avec le test du Chi2. Je vais présenter trois tests
statistiques pour séries appariées qu’il faut utiliser lorsque l’on se trouve dans la situation
décrite sur la figure 39. Ces tests peuvent être utilisés dans d’autres situations où les
individus ne sont pas indépendants, mais cela sort du cadre de ce document.
B. Le test de Student pour séries appariées (comparaison de deux moyennes)
Ce test doit être utilisé lorsque le caractère est quantitatif. Je ne vais pas entrer dans les
détails de ce test. Déjà, si vous savez que vous devez utiliser ce test dans la situation que j’ai
décrite ci-dessus, ce sera très bien (et cela vous permettra de repérer dans les articles ceux
qui ont utilisé un vulgaire test de Student pour séries non appariées alors qu’ils n’auraient
pas dû le faire !). Le principe général de ce test est le suivant : pour chacun des N animaux, il
faut calculer la différence du caractère entre t1 et t0. Ensuite, la moyenne de toutes ces N
différences (une par animal) doit être testée à 0 (c’est-à-dire que l’on va vouloir savoir si la
moyenne des différences observées entre t1 et t0 est significativement différente de 0). La
96
Le cas de figure où le critère serait qualitatif n’est pas traité dans ce document.
Bases en biostatistique – Loïc Desquilbet © – version v2.6
71/73
figure 40 présente un exemple de calcul, avec deux groupes de chiens (un groupe traité et
un groupe sous placebo), une mesure de score de prurit à t0 (SCORE_J0), jour de l’initiation
du traitement, et une mesure du score à t1, 21 jours après l’initiation du traitement
(SCORE_J21). Vous pouvez voir sur la figure 40 qu’il faut créer une nouvelle variable (que j’ai
appelée « Différence », qui vaut la différence de score de prurit entre J21 et J0). C’est la
moyenne de cette nouvelle variable qui sera testée à 0.
Figure 40 - Illustration de la démarche du test de Student pour séries appariées
Le test de Student pour séries appariées ne peut pas s’utiliser si la distribution des
différences sur les N animaux ne suit pas une loi normale.
C. Le test de Wilcoxon pour séries appariées (comparaison de médianes)
Ce test doit être utilisé lorsque le test de Student pour séries appariées ne peut pas s’utiliser
(c’est-à-dire lorsque la distribution des différences ne suit pas une loi normale). Ce test
permet de tester si la médiane du caractère quantitatif à t0 est ou non significativement
différente de la médiane du caractère quantitatif à t1.
D. Le test de McNemar pour séries appariées (comparaison de deux pourcentages)
Ce test doit être utilisé lorsque le caractère évalué à t0 et à t1 est binaire. L’exemple présenté
dans le tableau ci-dessous est celui où le caractère évalué est la présence de symptômes. Les
données doivent être présentées tel qu’indiqué dans le tableau 6.
Tableau 6
Symptômes à t0
Symptômes
à t1
Oui
Non
Total
Oui
a
c
a+c
Non
b
d
b+d
Total
a+b
c+d
a+b+c+d
Par exemple, c = « le nombre d’animaux qui présentaient des symptômes à t0 et qui n’en
présentaient pas à t1 ». Si N animaux sont évalués deux fois (à t0 et à t1), alors a+b+c+d = N.
&CL
Pour savoir si le pourcentage d’animaux symptomatiques à t0 A&CICLCTB est
&CI
significativement différent du pourcentage d’animaux symptomatiques à t1 A&CICLCTB, il
faut utiliser le test de McNemar. Sans entrer dans les détails, ce test teste l’hypothèse nulle
selon laquelle il n’y a pas de différence du nombre de paires discordantes entre t0 (c) et t1
Bases en biostatistique – Loïc Desquilbet © – version v2.6
72/73
(b)97. (D’ailleurs, vous voyez bien que si b=c, alors les deux pourcentages que j’ai cités plus
haut seront égaux.) La figure 41 ci-dessous vous présente un exemple avec des données
chiffrées telles que vous pourriez les recueillir pour une étude, et les placer dans le tableau
de la bonne façon pour effectuer le test statistique98.
Figure 41 - Illustration pour le test de McNemar
Dans l’exemple ci-dessus, on veut savoir si le pourcentage d’animaux symptomatiques à t0
(6/9=66%) est significativement différent du pourcentage d’animaux symptomatiques à t1
(3/9=33%)99.
***
– That’s all, folks! –
XII. REMERCIEMENTS
Je tiens à remercier toutes celles et ceux qui m’ont transmis leurs remarques afin de rendre
document plus facile à lire et à comprendre, et tout particulièrement Chloé Defives et
Nicolas Van Caenegem pour leurs corrections, suggestions, et commentaires très pertinents.
97
Cf. https://en.wikipedia.org/wiki/McNemar's_test
98
Veuillez noter cependant que pour faire le test de McNemar sur de si faibles effectifs, une correction dite de
« continuité » est nécessaire.
99
Après
avoir
effectué
le
test
statistique
sur
le
site
de
BiotstatGV
(http://marne.u707.jussieu.fr/biostatgv/?module=tests), p=0,37 > 0,05 donc les deux pourcentages cités ne
sont pas significativement différents.
Bases en biostatistique – Loïc Desquilbet © – version v2.6
73/73
Téléchargement