Le test statistique fréquentiste --Concept(s) et limites Le test statistique : Notion indépendante du cadre fréquentiste/bayésien autre Le test est une procédure permettant de choisir entre plusieurs hypothèses En général seulement deux (plus simple) À une hypothèse correspond un paramètre ou une plage de valeur pour un paramètre : q=q0 ou bien q0=q1 ou q0<q1 Hypothesis test : the process of inferring from a sample whether or not to accept a certain statement about the population. The statement itself is called the hypothesis. La procédure de Neymann & Pearson Quand on compare deux hypothèses, on peut se tromper de deux façons différentes : Déclarer H1 vrai quand H0 vrai : erreur de type I Déclarer H0 vrai quand H1 vrai : erreur de type II Type I : risque a type II : risque b : manque de puissance → puissance : 1 - b Parmi toutes les statistiques de test on choisit la plus puissante A partir de la statistique de test, on définit une zone de rejet qui correspond au risque a de rejeter H0 à tort Puis on calcule la valeur de la statistique de test Si la valeur est dans la zone de rejet on rejette H0 et on déclare H1 vraie sinon, on conserve H0 On choisit a et b de manière à minimiser les coûts des erreurs lors de la décision La procédure de Fisher Seulement une hypothèse nulle Choix d'une statistique de test Calcul de p=Pr(Tobs>tseuil|H0) Pas de seuil de décision : le rejet de l'hypothèse nulle dépend de l'utilisateur Pas de notion de puissance Pas de alpha standard Raisonnement dans le concept de Fisher : Si les données observées donnent un p à 5%, cela signifie que la probabilité d'observer des données aussi éloignées de l'hypothèse nulle que celles observées est de 5%. C'est « donc » un événement peu probable. Donc, soit on a observé un événement rare sous l'hypothèse nulle, soit l'hypothèse nulle est fausse. On conclut en général que l'hypothèse nulle est fausse. Confusions entre N&P et Fisher Les deux méthodes actuellement systématiquement confondues L'expérience est en général planifié (NP) On prend une statistique de test (NP et F) en général la plus puissante (NP) On calcul p (F) et on compare par rapport à alpha (NP) Cette dernière étape a été vigoureusement rejetté par F et par NP ! Confusions entre N&P et Fisher (suite) NP : a priori (planification) F : entièrement a posteriori Comparer p (a posteriori et qui dépend uniquement des données) avec alpha (a priori et qui est indépendant des données) n'a pas de sens. Et pourtant... L'objectif de NP et de Fisher était d'éviter l'aspect subjectif du bayésien Principe : Méthode déductive au lieu d'être Inductive comme le bayésien On prédit la probabilité de données sous H0 et si elles sont peu probable, on rejette H0 (soit sans rien de plus (F) soit en acceptant H1 (NP) Relié à l'épistémologie de Popper : on peut rejeter une hypothèse mais on ne peut pas l'affirmer principe rejeté (...) par DeFinetti et Jaynes utilisateur de bayésien Théorie / hypothèse : - Tout les corbeaux sont noirs. L'observation de 10000 corbeaux noirs ne permet pas d'être certain de l'hypothèse. Par contre l'observation d'un seul corbeau non-noir permet de rejeter l'hypothèse. Problème avec la méthode de NP : L'une des deux hypothèses est obligatoirement « juste » et l'autre « fausse ». Le résultat de la décision est certain au risque alpha et beta de se tromper : ce qui est incertain c'est l'erreur dans la décision mais la probabilité de l'hypothèse est soit de 0 soit de 1. Ou plutôt, on fait comme si... Les critiques à l'égart du test statistique : deux catégories : les problèmes théoriques les problèmes dans l'utilisation par des usagers non avertis mais les uns entrainent les autres par des erreurs d'interprétations Le THN ne répond pas à la question d'intérêt Problème : le test selon NP (et un peu selon F) provoque une confusion importante : Il donne Pr(D | H0) alors que l'on voudrait en fait Pr(H0 | D) La procédure de NP ne peut pas donner Pr(H0 | D) car la probabilité a priori des Hx n'est pas introduite dans la procédure. H0 H1 Décision H1 a 1-b H0 1-a b Risque d'erreur dans la décision Mais le théorème de Bayes implique l'utilisation de la probabilité a priori des hypothèses ! Cohen : Si vous êtes français vous n'êtes probablement pas président (pr = 1/ 60 000 000) or vous êtes président, donc vous n'êtes pas français.... erreur de logique car raisonnement probabiliste : le raisonnement de type modus tollens : si A alors B or non B donc non A ne fonctionne pas dans sa version probabiliste. Mais pourquoi donc NP ont ignoré le théorème de Bayes ??? NP n'étaient pas des ignares en mathématique et ils connaissaient forcément le Théorème de Bayes. Alors, comment ont-ils raisonné pour faire comme si ce théorème n'existait pas et faire de la déduction là où on attend de l'induction ? H0 H1 Décision H1 a 1-b H0 1-a b Pr(H0) Pr(H1) On peut alors se baser sur un modèle d'urne pour prédire le risque de se tromper sur chaque hypothèse quand on a observé que p=5% ou que l'on est dans la zone de rejet : ceci implique l'usage du théorème de Bayes. Incidemment, le taux d'erreur dans la décision n'est plus de a% ou de b% (c'est comme confondre la Sensibilité ou la Spécificité avec la VPP et la VPN d'un test). Pr H1∨ D = Pr D∨ H1 ∗ Pr H1 / Pr D∨ H1 ∗ Pr H1 Pr D∨ H0 ∗ Pr Cette présentation du test est fallacieuse car elle laisse facilement penser que chaque hypothèse (H0 et H1) est doté d'une probabilité a priori (voir la présentation dans le livre de Valleron). Dans leur conception, il n'y a pas deux hypothèses mais une seule : celle qui est vraie ! Si l'une est vraie, l'autre est fausse et leur probabilités respectives sont donc de 1 et de 0. Dans ces cas limites, le théorème de Bayes ne change pas les probabilités a priori, quelque soit la vraisemblance des données. L'univers contient soit H0 soit H1 mais pas les deux, et il n'y a qu'un univers. Si l'univers contient H1, on ne se trompe que dans b% des cas si on affirme H1 et il n'y a pas lieu de considerer H0 puisqu'elle n'existe pas ! Et vice versa pour H0. La difficulté du raisonnement est partiellement sémantique : sur le plan linguistique, on est obligé d'énoncer une alternative (soit H0... soit H1...) mais dans le concept de NP l'univers ne contient qu'une seule des deux alternatives, et il s'agit de trouver la bonne. Alors, on n'a pas besoin du théorème de Bayes, et les taux d'erreurs annoncés sont corrects. La valeur de p résulte de la combinaison de la taille de l'effet et de la taille de l'échantillon P est proportionnelle à la différence entre les groupes qui peut être modifié à volonté dans les expérimentations à la puissance qui dépend notamment des effectifs un même p correspond à : grands effectifs et petite taille d'effet ~ petits effectifs avec grande taille d'effet Donc la seule valeur de p ne sert à rien (alors qu'elle est souvent la seule à être donnée dans les publications sans la taille d'effet) La valeur de p peut-être rendue arbitrairement petite en augmentant les effectifs, quelle que soit la taille de l'effet A l'extrème, on peut toujours rejeter l'hypothèse nulle en augmentant suffisamment les effectifs Ce qui rend l'hypothèse nulle inutile puisque l'on peut toujours la rejeter On peut donc toujours la rejeter sans faire d'expérimentation... Nombre de patients Recevant A et B 20 200 2000 2000000 Nombre de patients % p-valeur Préférant A Préférant A 15:5 75 0,04 115:86 57 0,04 1046:954 52 0,04 10001445:998555 50.07 0,04 Les erreurs d'interprétation qui en découle : le test est significatif donc la différence est cliniquement significative plus p est petit plus l'effet est grand si p pour un traitement est significatif dans un groupe et non significatif dans un autre, alors le traitement est efficace dans le premier groupe et pas dans le second un p non significatif implique un traitement inefficace la confusion entre p et a amène à penser que p est la mesure du risque a observé suite à l'expérience Autre conséquence : un test peu puissant tend à favoriser l'hypothèse nulle qui est fausse d'emblée. Donc conclure H0 quand p > a donne une conclusion contradictoire Autre conséquence : si on rejette H0 c'est souvent parce que ponctuellement la taille d'effet observée était suffisamment grande pour avoir la significativité. La taille de l'effet est sans doute sur-estimée par rapport à la vraie taille d'effet. L'hypothèse nulle n'a souvent pas de sens Les hypothèses nulles testées ne sont souvent pas pertinentes : entre deux groupes il y a presque toujours une différence (hommes-femmes, animaux dans deux zones différentes) surtout en ce qui concerne les études observationnelles : Pinheiro croissance mandibule fillesgarçons Dans les modèles multivariés : ajustement (sexe) mais avec p ce qui suggère une comparaison : sans intérêt L'hypothèse nulle est souvent fausse a priori Essai thérapeutique : le nouveau traitement, en phase III a déjà fait ses preuves en phase I et II et donc il est peu probable qu'il ne fasse pas mieux qu'un placebo Par rapport à un traitement de référence : si il arrive jusqu'à la phase III, c'est qu'on pense qu'il a un intérêt ! Donc Pr(H1=vraie) déjà importante Le test d'hypothèse nulle (NP, F) utilise des données non observées Le THN : ce n'est pas Pr(D|H0) mais Pr(D>= Dobs |H0) ou : Pr(Z>za|H0) Donc inclut des données que l'on a pas observé : les données plus extrèmes que celles obtenues De ce fait, le THN viole le principe de vraisemblance La vraisemblance dépend de la façon dont on obtient les données et pas des données ! 10 lancers : un pile et lancer jusqu'à obtenir pile qui survient au 10ème lancer, la vraisemblance ne sera pas la même ! Le p et la reproductibilité des réultats : Le p est souvent interprété comme la probabilité que les résultats se répètent dans une nouvelle expérimentation Pour que cela soit le cas, il faut introduire les probabilités a priori des hypothèses ce qui suppose l'utilisation du théorème de bayes. L'arbitraire du seuil a a est presque toujours = à 0,05 alors que NP ne l'ont pas voulu a = coût de l'erreur dans la décision de H1 quand H0 est vraie De nombreux auteurs oublient ce point ! Des ouvrages de statistiques et des cours de P2 : a = 0.05 toujours ! Car il ne doit pas changer selon le bon vouloir de l'utilisateur ! ... Le problème des comparaisons multiples En raison de la formulation : p = Pr(D|H0) (F) ou zone de rejet (NP) : il faut corriger les tests multiples pour que le a global soit toujours de a%. Pas de bonnes méthodes générales Comment corriger ? Sur n expériences ? Quid des expériences identiques dont on a pas connaissance ? Corriger sur combien de temps ? Problème quasiment inexistant en bayésien Les solutions : Intervalle de confiance : fausse bonne solution car équivalent direct du THN et compliqué à formuler : intervalle tel que (100-a)% des intervalles construits de la même façon contiennent la vraie valeur du paramètre (inconnue). Donc mal interprété : intervalle dans lequel la vraie valeur du paramètre a (100-a)% de chance de se trouver (bayésien...)