Tests paramétrique et non paramétrique La plupart des tests statistiques sont construits à partir d'hypothèses sur les distributions des variables étudiées chez les individus. Dans un grand nombre de situations, la distribution utilisée est la loi normale. Si l'on dit : la glycémie suit une loi normale, cela signifie que la densité de probabilité de la variable glycémie est gaussienne ou normale. D'autres distributions de probabilités peuvent être plus adaptées comme par exemple une distribution binomiale ou une distribution de Poisson pour les variables catégorielles. L'utilisation d'un test paramétrique suppose de connaître la loi (ou la famille de lois) sous-jacente et que les densités de probabilités associées dépendent de paramètres donnés de la loi tels la moyenne et la variance pour la loi normale [19]. Lorsque la famille à laquelle appartiennent les densités de probabilités est inconnue, on optera pour un test non paramétrique. Par exemple, le test de comparaison de 2 moyennes sur des petits échantillons suppose que la loi parente soit normale. Si on ne peut le prouver directement ou par transformation de variable, on utilisera alors par exemple un test de rang. Ce type de tests ne traite pas des valeurs numériques mais de leurs rangs. On rappellera que le terme non-paramétrique s'applique aux méthodes statistiques utilisées et que ce n'est pas une propriété des données [19]. Un exemple de tests paramétriques et des équivalents non paramétriques est donné au tableau 2. Tableau 2 : Exemple de tests paramétriques et de leurs équivalents non paramétriques Test paramétrique Test non paramétrique Test t de Student non apparié Test de Mann et Whitney Test t de Student apparié Test de Wilcoxon Analyse de variance Test de Kruskall et Wallis* Corrélation linéaire Test de Spearman * cas particulier de 2 variables Type de variable considéré On distingue plusieurs types de variables, schématiquement les variables qualitatives et les variables quantitatives. Les variables qualitatives comprennent les variables nominales et ordinales. Les variables nominales ont deux modalités (homme/femme), ou plus de deux modalités (insuffisance rénale aiguë prérénale/rénale/post rénale). Si il y a une structure d'ordre entre les catégories d'une variable on parle de variable ordinale (stades TNM des tumeurs). La différence entre deux catégories adjacentes n'est pas forcément homogène sur toute l'étendue de la variable (score d'Apgar). Les variables qualitatives sont généralement représentées sous forme de pourcentages ou de proportions. Les variables quantitatives sont de deux types, soient continues lorsqu'elles peuvent prendre toutes les valeurs d'un continuum (âge, glycémie, pression artérielle), soient discrètes lorsqu'elles prennent des valeurs entières (nombre de transfusions, nombre de grossesses). Elles peuvent aussi être censurées lorsqu'il s'agit d'analyser des durées. Si au cours du suivi l'événement étudié (décès, ou récidive, ou rechute, …) n'est pas survenue la variable est dite censurée. Selon le type de variable analysé, des tests différents sont utilisés, un test du Chi2 par exemple pour comparer des pourcentages, un test t de Student pour la comparaison de deux moyennes de lois normales. Définition des hypothèses testées. Nous l'avons vu, il est nécessaire de définir les conditions dans lesquelles le ou les tests statistiques seront employés. Ceci impose donc de définir a priori les hypothèses testées, et les risques et consentis. On se donne ensuite une valeur (cliniquement pertinente) de pour calculer le nombre d'observations nécessaire qu'il faudra étudier. On définira dans le protocole si des analyses intermédiaires seront réalisées et leur périodicité. De la même façon, des tests appropriés doivent être choisis en cas de comparaisons multiples. Vérification des conditions d'application des tests choisis La plupart des tests statistiques ne sont utilisables que dans des conditions bien définies, desquelles on peut être autorisé ou non à s'écarter. Il s'agit de la nature de la distribution de la variable, des effectifs, ou de conditions plus particulières comme l'égalité des variances, l'indépendances ou non des variables, ... Pour les variables a priori normales (une pression artérielle, une glycémie), on vérifie si l'hypothèse de normalité de la distribution est acceptable. Plusieurs procédures permettent d'accomplir cette tâche. Deux situations extrêmes peuvent être illustrées. Soit l'effectif considéré est faible et la puissance associée sera faible. Soit l'effectif est important, et les tests de normalité ont des chances de mettre en évidence un écart à la normalité modeste (mais statistiquement significatif) qui n'aurait pas vraiment gêné l'application de tests paramétriques. Aussi, de nombreux auteurs conseillent-ils de se contenter de vérifications graphiques de la normalité. Il est probablement nécessaire de limiter cette vérification aux situations où la nature même de la variable fait suspecter une distribution non normale. Des transformations de variables, par exemple de type logarithmique (log x) ou inverse distribution normale. , peuvent permettre de se ramener à une Séries appariées La comparaison de deux moyennes (de lois normales) entre deux groupes de patients peut faire appel au test t de Student. Que se passe-t-il si ces moyennes proviennent du même groupe, mesurées à deux temps différents ? On dit que ces mesures sont appariées. L'utilisation du test t de Student usuel n'est plus approprié car les deux séries de mesure ne sont pas indépendantes sur le plan statistique. Il convient d'utiliser un test qui prenne en compte le fait que la mesure a été effectuée deux fois sur les mêmes patients comme un test t de Student pour séries appariées (ou un test de Wilcoxon dans le cas non paramétrique). Dans le cas de plusieurs mesures temps, des stratégies variées peuvent être retenues Comparaisons entre plusieurs traitements répétées au cours du La deuxième situation concerne la comparaison de plusieurs traitements par exemple la comparaison de trois agents anesthésiques (B, C et D) à un agent anesthésique A sur l'incidence des vomissements post opératoires. Cette incidence est de 40 % avec B, 30 % avec C, et 20 % avec D (n=100 dans chaque groupe). L'analyse statistique réalisée en comparant A vs B, A vs C, A vs D conduit à conclure que seul D est différent de A. Du fait des comparaisons multiples, il faut bien noter que le risque de première espèce consenti n'est plus de 0,05 mais de 0,11 (3 comparaisons). Si l'on comparait 100 agents anesthésiques à l'agent A, avec un risque , on pourrait attendre que 5 d'entre eux soient différents de A, seulement par hasard ! L'analyse statistique doit tenir compte des comparaisons multiples afin de garantir in fine un risque global de première espèce de 0,05 [23]. Le risque étant considéré comme essentiel dans les tests d'hypothèses, il est important de s'assurer que le risque consenti lors de l'analyse est effectivement celui qui était prévu initialement. Cinq situations seront examinées. A partir du moment où la comparaison statistique est effectuée sur plusieurs moyennes (plus de 2), il n'est pas possible d'utiliser un test prévu pour comparer deux moyennes une seule fois. Il convient d'utiliser une méthode statistique qui garantisse la conservation du risque . Sans entrer dans le détail des nombreux choix possibles, on peut indiquer quelques pistes. L'analyse de variance qui permet sous certaines hypothèses (mesures obtenues dans des conditions indépendantes, données de moyennes distribution gaussienne, même variance entre groupes) de tester si n moyennes différentes entre elles. Si c'est le cas on peut s'interroger alors pour savoir quelle moyenne diffère de quelle autre. On comprendra qu'en fonction du nombre de groupes testés, le nombre de comparaisons peut être important. Aussi des tests particuliers ont été proposés pour la réalisation de ces comparaisons dites a posteriori ou post hoc. Si on compare plusieurs groupes à un groupe de référence on utilisera le test de Dunnett. Si on compare plusieurs groupes entre eux, on utilisera un test de Tukey ou un test de Newman-Keuls. Il est toujours possible aussi d'utiliser la correction dite de Bonferroni. Elle consiste à diviser le risque par le nombre n de comparaisons à tester. Si on compare 3 valeurs de pression artérielle entre elles (1 avec 2, 1 avec 3 et 2 avec 3), le risque sera de . Si une valeur de p est inférieure à 0,016, on écrira alors que la différence est significative au risque de 0,05. Mesures répétées Imaginons que nous comparions les vomissements induits par A ou B toutes les heures pendant les 24 premières heures post-opératoires. Là encore, si on désire maintenir un risque de 0,05, il faut tenir compte du fait que 24 comparaisons successives ont été effectuées, ou se contenter d'une analyse globale sur l'ensemble des 24 heures. Plusieurs stratégies d'analyse sont envisageables dans le cadre de mesures répétées [22]. Analyse par sous-groupes Nous avons comparé l'incidence de vomissements entre A et B et conclu à l'absence de différence significative. Il vient alors l'idée de répartir les patients en différents sous-groupes (hommes et femmes, patients de plus ou moins de 60 ans, suivant la classe ASA (American Society of Anaesthesiology) ou le type de chirurgie réalisé). Là encore, l'analyse par sous-groupes expose au risque de conclure à tort à une différence significative si des tests séparés sont réalisés par sous-groupes et doit donc tenir compte de la multiplicité des comparaisons. De plus, une analyse par sous-groupes suppose que ceux-ci soient comparables (selon A et B), que ceci ait été prévu à l'avance dans l'élaboration du protocole et que les interactions soient prises en compte dans l'analyse. Une interaction, au sens statistique, décrit une situation pour laquelle l'impact d'un facteur sur la réponse mesurée dépend de la valeur d'un autre facteur [24, 25, 26]. Critères de jugement multiples Dans une même étude comparant les agents anesthésiques A et B, nous étudions plusieurs paramètres différents (dont l'incidence des vomissements) au risque =0,05. La réalisation de tests séparés pour chaque critère de jugement augmente le risque de faux résultats positifs [27]. C'est pourquoi une bonne étude s'efforce de ne répondre qu'à une seule question principale (l'IEC ralentit-il la progression de l'IRC?) avec un seul critère de jugement (la mesure du débit de filtration glomérulaire), dit critère de jugement principal. Si toutefois l'on veut tenir compte de plusieurs critères de manière concomitante il est possible de définir à l'avance des priorités dans l'analyse des critères de jugement. Un critère est par exemple privilégié par rapport aux autres. Il est possible aussi de combiner la réponse à plusieurs critères dans un score global. Toutefois, la constitution d'un tel score est une tâche délicate en particulier pour fixer le poids relatif de chacun des critères de jugement au sein de ce score global. C'est pour ces raisons qu'une bonne analyse statistique doit être définie a priori et non a posteriori. La méthodologie statistique d'une investigation clinique ou expérimentale doit être définie lors de la conception initiale du projet. L'avis d'un statisticien est envisagé selon le degré de complexité du problème abordé dès la conception du projet. Analyses intermédiaires Dans un protocole où l'on compare deux agents anesthésiques, une analyse est réalisée tous les 50 patients inclus. Ce type d'analyse séquentielle groupée permet de ne pas prolonger indûment une étude dont les résultats apparaissent significatifs avant que l'ensemble de l'effectif total prévu ait été inclus. Après 200 patients inclus, les vomissements sont survenus chez 40 patients ayant reçu A et chez 25 patients ayant reçu B. On rejette l'hypothèse nulle et on conclut que B est meilleur que A. Cependant, pour cette analyse finale, les 3 analyses précédentes infructueuses ont été oubliées. Tous calculs faits, le risque de première espèce consenti (tableau 4) n'est pas de 0,05 mais en fait de 0,13 [27]. L'analyse statistique aurait dû tenir compte des comparaisons multiples effectuées dans cet essai et retenir une valeur nominale de de 0,018 (tableau 5). L'utilisation d'une valeur seuil identique pour chaque analyse intermédiaire a l'avantage de la simplicité sinon celui de l'optimisation [28]. Ces analyses intermédiaires doivent être prévues a priori dans le protocole d'un essai ce qui était le cas de l'étude ramipril [8]. Cinq analyses intermédiaires avaient été prévues, une conclusion a pu être portée à la deuxième analyse pour le strate 2. Tableau 4 : Tests de signification répétés à intervalles équidistants dans le cas de 2 traitements, pour une réponse gausienne et de variance connue [27]. Nombre de tests répétés au seuil de 5 % Niveau global de signification 1 0.05 2 0.08 3 0.11 4 0.13 5 0.14 10 0.19 20 0.25 50 0.32 100 0.37 Tableau 5 : Niveau de signification requis dans le cas de tests bilatéraux répétés pour un seuil global de =5 % (réponse de distribution normale avec une variance connue pour un global de 0.05 [27]. Nombre de tests Valeur pour chaque test 2 0.029 3 0.022 4 0.018 5 0.016 10 0.0106 Puissance d'un test et nombre de sujets nécessaire Seulement 30 % d'un échantillon de 71 essais thérapeutiques publiés dans 20 journaux en 1978-79 étaient de taille suffisante pour avoir 90 % de chances de mettre en évidence une différence de 50 % d'efficacité entre traitements [13]. Dix ans plus tard, selon une approche analogue, les auteurs constataient le même phénomène lié à une inadaptation de la puissance de l'analyse par insuffisance d'effectif. L'absence d'évidence d'un effet n'est pas l'évidence de l'absence de cet effet. Ne pas mettre en évidence un effet dans un échantillon ne signifie pas qu'aucun effet n'existe en réalité. Tout essai thérapeutique doit faire état du calcul préalable du nombre de patients nécessaire et de la puissance de l'essai. C'est un des critères de bonne pratique méthodologique Puissance d'un test, différence attendue et variance de l'effet Sur la figure 2, trois situations sont représentées. La première (figure 2a) décrit un test d'hypothèse et la distribution sous H0 et sous H1 des moyennes de 2 groupes de sujets représentées en coordonnées normales centrées réduites. Si l'on diminue la différence à observer de 3 (figure 2a) à 1 (figure 2b) sans changer la variance des distributions, on note que croit et que la puissance du test diminue. Maintenant pour une même différence de 3, si on modifie la variance on note que la puissance du test figure 2a. augmente par rapport à la Ainsi, faut-il avoir à l'esprit l'impact que peuvent avoir d'une part la différence que l'on souhaite observer entre 2 traitements et la variance de l'effet sur la puissance du test. La conséquence est le nombre de sujets nécessaire à inclure dans un essai selon les hypothèses retenues pour pouvoir conclure avec une puissance satisfaisante c'est à dire avec une probabilité convenable de rejeter H0 si H1 est vraie. Nombre de sujets nécessaire Le nombre de sujets à inclure dans un essai est une fonction de 4 composantes : La réponse vis à vis du traitement de référence, le bénéfice attendu du nouveau traitement, le niveau de signification et la puissance. Notons c le taux de réponse vis à vis d'un traitement de référence. Il s'agit de la valeur de la population qu'il faut distinguer de la valeur qui sera obtenue avec l'essai, qui sera notée pc. L'expérience acquise avec des patients antérieurs et l'étude de la littérature permet généralement de fournir une estimation d'une précision raisonnable. Supposons que le traitement de référence donne 40 % de réponses favorables. Il est nécessaire de définir l'amplitude du bénéfice attendu avec le nouveau traitement. Si on attend que le nouveau traitement apporte 50 % de réponses favorables, alors la différence attendue entre les deux traitements est de 10 %. Bien sûr on ne sait pas a priori si le nouveau traitement aura l'effet escompté. Cependant l'essai sera réalisé de telle sorte que si ce bénéfice existe on ait une chance raisonnable de le mettre en évidence. Le risque de 1ère espèce , c'est à dire la probabilité de rejeter l'hypothèse nulle alors qu'elle est vraie, est choisi a priori ainsi que le caractère uni ou bilatéral du test retenu. La puissance , c'est à dire la probabilité de ne pas rejeter l'hypothèse alternative quand elle est vraie est choisie selon le type d'essai réalisé, généralement de 80 % ou plus. A partir des combinaisons possibles de ces éléments on peut en déduire le nombre de sujets nécessaire. Ainsi pour , avec et , si la différence attendue est de 10 % le nombre de sujets nécessaire est voisin de 400 par groupes. Si la différence attendue est de 30 % alors le nombre de sujets nécessaire est voisin de 40 par groupes. L'effectif retenu dépend des choix réalisés a priori, lors de la conception du protocole. Règle des 2 essais et puissance consentie Les résultats des essais cliniques doivent être reproductibles et démontrables. Ceci a conduit la Food and Drug Administration à exiger deux essais cliniques concordants pour démontrer l'efficacité d'un traitement. Quel est l'impact d'une telle décision sur la puissance? Supposons que la puissance de chaque essai soit de 0,80, la puissance globale des deux essais est : . Ainsi, la probabilité de détecter une différence cliniquement pertinente est de l'ordre de 2/3. Si l'on souhaite une puissance globale effective de 0,80 pour les 2 essais, alors la puissance à retenir pour chaque essai est de 0,90 [15]. Test unilatéral ou bilatéral Le plus souvent, l'hypothèse nulle H0 correspond à l'égalité des effets des traitements et l'hypothèse alternative H1 correspond à l'inégalité des effets. Dans notre exemple, l'effet du traitement a été comparé à un placebo. La littérature suggérait l'intérêt d'un effet des IEC, cependant aucune étude ne permettait de trancher, aussi les auteurs ont considéré que le traitement pouvait être différent du placebo sans préjuger du sens de cette différence. On dit alors que le test est effectué en situation bilatérale (14). La figure 3a représente la distribution de la différence entre deux traitements A et B, sous l'hypothèse nulle. La zone d'acceptation de l'hypothèse nulle est comprise entre les deux zones hachurées latérales qui constituent la zone de rejet de l'hypothèse nulle. Il existe d'autres situations : A est un placebo et B un anti-émétique. Il est possible de ne tester que l'éventualité où l'incidence des vomissements est plus faible avec B qu'avec A. Dans ce cas le test réalisé est dit unilatéral. Pour un test avec une distribution normale, le seuil de 5 % pour un test bilatéral est de 1,96. Pour un test unilatéral il est de 1,64. D'une manière générale, il est recommandé d'utiliser les tests statistiques en situation bilatérale, à moins d'avoir des raisons précises de choisir une situation unilatérale qu'il faudra justifier dans le protocole [15]. Dans certaines circonstances, l'utilisation de tests unilatéraux est judicieuse. L'industriel qui effectue un criblage de nombreuses molécules potentiellement actives réalisera ces études de manière unilatérale. De manière pragmatique dans une phase de dépistage, l'objectif est ici de ne pas ignorer une molécule potentiellement active. Les hypothèses généralement formulées dans le cadre du développement du médicament sont les suivantes (où l'on note la différence d'effet entre les traitements) : et . Le test est de type unilatéral. On notera que la notion d'hypothèse nulle ne signifie pas la nullité de la quantité . La valeur de sous l'hypothèse nulle est une fonction du problème posé. On réalise également des tests unilatéraux dans les essais d'équivalence [16, 17]. L'hypothèse que l'on souhaite tester n'est pas l'efficacité différentielle de deux (ou plusieurs) traitements mais leur équivalence. Par exemple, on veut montrer qu'un nouveau traitement B d'emploi plus aisé, présentant moins d'effets secondaires ou moins coûteux, est équivalent à un traitement de référence A. Dans ces essais d'équivalence, il convient de spécifier , la plus grande différence cliniquement acceptable entre les deux traitements. Le nouveau traitement B sera considéré comme non équivalent au traitement A de référence si l'hypothèse nulle est vraie. Le traitement B sera considéré comme équivalent à A si l'hypothèse alternative retenue. est Il est donc important de déterminer avant de faire un test statistique, quelle est l'hypothèse nulle et quelle est l'hypothèse alternative, et de choisir si le test est effectué en situation unilatérale ou bilatérale. Figure 3 : Zone d'acceptation et zone de rejet pour une distribution normale avec un risque de première espèce de 0.05, sous l'hypothèse nulle H0. Figure 3a : Test bilatéral Figure 3b : Test unilatéral Intervalles de confiance Un test d'hypothèse s'inscrit dans une procédure décisionnelle pour rejeter l'hypothèse nulle et avec quelle force. Si le test d'hypothèse renseigne sur la force de l'évidence qu'un traitement est meilleur qu'un autre, en revanche il ne dit pas de combien. Aussi l'analyse peut-elle être complétée par des méthodes comme l'estimation des limites de confiance. L'intervalle de confiance est défini comme un ensemble de valeurs qui inclut la vraie valeur de la population avec un degré de confiance donné. Par exemple, l'intervalle de confiance à 95 % de la moyenne d'un échantillon représente l'étendue des valeurs qui contient la vraie valeur de la moyenne dans la population avec une probabilité de 95 %. Dans un certain nombre d'études, l'objectif n'est pas de tester une hypothèse particulière sur un paramètre mais d'estimer un paramètre. C'est par exemple l'estimation d'une moyenne ou d'un odds ratio et leurs intervalles de confiance respectifs. Si un échantillon est de grande taille, une différence peut être statistiquement significative, même si elle est petite. Un intervalle de confiance qualifiera l'amplitude de cette différence. Le rôle joué par les effectifs est facilement appréciable avec les intervalles de confiance. Ce n'est pas toujours le cas avec un test d'hypothèse. Certains journaux privilégient la présentation des résultats sous la forme d'intervalles de confiance [18]. : le risque de première espèce Le risque de première espèce est à la probabilité de rejeter l'hypothèse H0 (et donc d'accepter l'hypothèse alternative H1), alors que H0 est vraie. C'est la pierre de touche des tests statistiques [9]. En effet, la principale crainte de l'investigateur dans une démarche expérimentale est de conclure à tort à la validité de l'hypothèse alternative H1. La valeur seuil de communément admise pour rejeter entre H0 est de 5%. Cette valeur est arbitraire. Il n'existe pas en effet de différence "fondamentale" entre et . Certains auteurs expliquent ce choix par le travail historique de Fisher en 1925. Il proposait dans ses tables des valeurs particulières de et notamment celle de 0,05 [10]. De nombreux livres de statistiques ne donnent que des tables valables uniquement pour , ignorant d'autres possibilités. D'autres auteurs insistent sur l'utilisation fréquente de dans les études de contrôle de qualité où l'accent est mis sur la performance de l'outil de décision lors de tests fréquemment répétés Principes généraux d'un test d'hypothèse Un test d'hypothèse en statistique est utilisé comme une règle de décision entre deux hypothèses. Il sous-entend une inférence c'est à dire un raisonnement par lequel on admet une proposition en vertu de sa liaison avec d'autres propositions déjà tenues pour vraies. Du résultat d'une expérience réalisée sur un échantillon fini d'observations issu d'une population source, on cherche à en déduire que les résultats ainsi observés sont «applicables» à une population plus large dite population cible (figure 1). Prenons un exemple. Un essai thérapeutique a été réalisé chez des sujets en insuffisance rénale chronique (IRC) présentant une néphropathie non diabétique, associée à une protéinurie. On cherchait à savoir si un inhibiteur de l'enzyme de conversion, le ramipril ralentirait la progression de l'IRC par rapport à un placebo, indépendamment du contrôle tensionnel réalisé par un traitement antihypertenseur conventionnel [8]. Il s'agit d'un essai thérapeutique prospectif en double aveugle, 352 patients ont été inclus et classés selon le niveau de protéinurie, de 1 à 3 g/24 h (strate 1) ou supérieur ou égal à 3 g/24 h (strate 2). Le traitement était randomisé, ramipril versus placebo, en sus d'un traitement antihypertenseur conventionnel pour obtenir une pression artérielle diastolique inférieure à 90 mm Hg. Le critère de jugement principal était la diminution du débit de filtration glomérulaire (DFG). A la seconde analyse intermédiaire, la différence de progression de l'IRC entre le groupe ramipril et le groupe placebo, pour la strate 2 était significative. Le panel d'expert a alors décidé de lever l'aveugle et de réaliser l'analyse finale dans cette strate. Au moins 2 mesures évolutives du DFG étaient disponibles pour 56 sujets sous ramipril et pour 61 sujets sous placebo. La diminution du DFG par mois était significativement plus basse dans le groupe ramipril que dans le groupe placebo. L'essai a été conçu à partir d'un échantillon issu de la population des insuffisants rénaux chroniques qui consultaient dans les centres recrutant pour l'étude (population source). L'essai terminé on souhaite inférer que les résultats observés sur cet échantillon de la population source sont "applicables" à la population des insuffisants rénaux partageant les mêmes caractéristiques que celles choisies pour l'inclusion dans l'essai (population cible). La question posée est celle de l'efficacité de l'IEC par rapport au placebo sur la progression de l'IRC. La différence observée peut-elle être attribuée à une différence réelle d'activité ou est-elle liée au hasard ? La majorité des analyses statistiques font appel à des tests. Notons la différence théorique des effets de l'IEC par rapport au placebo. On peut définir une première hypothèse dite hypothèse nulle, notée H0, pour laquelle est égal à 0. En complément on peut définir une seconde hypothèse dite hypothèse alternative que l'on veut démontrer, notée hypothèse H1. Celle-ci stipule, par exemple, que est différent de zéro : les effets des 2 traitements sont différents sur la progression de l'IRC. On remarquera que l'hypothèse alternative correspond à une multitude de situations couvrant toutes les possibilités où la différence des effets entre l'IEC et le placebo est distincte de 0. Choisir entre H0 et H1 c'est prendre le risque de se tromper par rapport à la vérité que l'on cherche à découvrir. En effet, il est sous-entendu que soit H0 est vraie, soit H1 est vraie. Le choix entre H0 et H1 est donc associé à un risque de se tromper lui-même quantifié par deux probabilités : - le risque de première espèce, , qui est la probabilité de rejeter H0 alors que H0 est vraie ; - le risque de deuxième espèce, , qui est la probabilité de ne pas rejeter H0 alors que H1 est vraie. Un test statistique guide un choix décisionnel sur des bases que l'on espère les plus objectives possibles. Des choix sont cependant opérés relativement au type de critère principal de jugement retenu et à la façon de le mesurer, à l'ampleur de la différence des effets attendus entre les traitements comparés, au risque de première espèce , à la puissance du test test, et au choix du test statistique retenu. , au caractère uni ou bilatéral du Figure 1 : Principe général de l'inférence en statistique. Loi de probabilités Plusieurs lois de probabilité permettent de s'adapter aux différentes situations rencontrées dans la pratique, selon la variable étudiée et la population concernée. Leur rôle est d'associer une probabilité de survenue à chaque événement possible. Ces lois permettent de représenter les distributions observées (la distribution des taux de LDL-cholestérol dans la population des patients coronariens par exemple) et autorisent des calculs statistiques. Parmi les plus répandues, la loi normale [6] revêt une grande importance en statistique. C'est une loi de probabilité continue dépendante de deux paramètres, l'espérance (µ) et la variance (2). On dit que la loi normale est centrée lorsque la moyenne est égale à zéro et réduite lorsque la variance est égale à 1. Dans tous les cas, on peut se ramener à une loi centrée réduite en effectuant un changement de variable [7]. La loi binomiale est elle aussi, fréquemment utilisée dans le cas des variables dichotomiques. L'utilisation de cette loi permet de répondre par exemple à la question suivante : dans une population donnée, une certaine proportion d'individus est atteinte d'une maladie, quelle est la probabilité que dans un échantillon de taille n tiré de cette population, m individus soient malades ? Dans l'étude qui nous intéresse cela revient à calculer la probabilité de trouver m sujets ayant eu infarctus du myocarde dans une population de coronariens ? Dans la population, l'alternative est : être malade (en proportion p) ou ne pas être malade (en proportion 1-p). Lorsque la survenue d'un événement est rare, la loi de Poisson est utilisée. Cette loi appelée quelquefois loi des petites probabilités, s'applique généralement en pharmacovigilance, lorsque les effets secondaires sont rares (réactions allergiques à une classe d'antibiotique, BCGites après vaccination par le BCG, thrombopénie à l'héparine, etc…). Une information synthétique sur les principales lois de probabilité est présentée dans le tableau 3. L'extrapolation des résultats issus d'un échantillon constitué d'individus particuliers à l'ensemble des individus possédant des caractéristiques similaires, amène à considérer un autre type de distribution appelée distribution d'échantillonnage. Tableau 3 : Principales lois de probabilité