2016-11-30 L’interprétation des valeurs P: Nouvelles recommandations Bei Feng et Nadine Forget-Dubois le 29 novembre 2016 Niveaux de signification Un index informel pour évaluer la discordance entre les données et l’hypothèse nulle introduite par Ronald Fisher: années 1920 1 2016-11-30 Exemple Est-ce que nos données montrent une discordance avec l’hypothèse nulle ? Valeur P calculée: probabilité d’avoir une différence par hasard plus grand que une valeur observée dans l’echantillonage, étant donné que l’hypothèse nulle est vraie Ex. Si p =0.03, on rejette l’hypothèse nulle Utilisations des valeurs P ? • La valeur P détermine un seuil de signification arbitraire pour rejeter l’hypothèque nulle; • Obtenir des résultats significatifs augmente la chance de publier un article; • Obtenir des résultats significatifs augmente la chance d’avoir une subvention; • Interprétation facile des résultats selon la signification. 2 2016-11-30 Abus de l’utilisation des valeurs P • L’hypothèse nulle ne peut jamais être acceptée; • La signification statistique n’implique pas que le résultat est important; • Un paramètre significatif ne garantit pas une importance scientifique; Questions: Oui/Non • Q1: La valeur P est la probabilité que l’hypothèse du test soit vraie; si pour un test P = 0,01, l'hypothèse nulle a seulement 1% de chance d'être vraie; • Q2: Un résultat significatif (P <= 0,05) signifie que l'hypothèse du test est fausse et devrait être rejetée; • Q3: Un résultat non significatif (P> 0,05) signifie que l'hypothèse du test est vraie et devrait être acceptée; 3 2016-11-30 • Q4: La signification statistique indique qu’une relation scientifique ou importante a été détectée; • Q5: L’absence de signification statistique indique que la taille de l'effet est faible; • Q6: Un intervalle de confiance à 95% prédit que 95% des estimations des études futures tomberont à l'intérieur de l'intervalle observé. Déclaratons de l’ASA sur les valeurs P 1. P-values can indicate how incompatible the data are with a specified statistical model. 2. P-values do not measure the probability that the studied hypothesis is true, or the probability that the data were produced by random chance alone. 3. Scientific conclusions and business or policy decisions should not be based only on whether a p-value passes a specific threshold. 4. Proper inference requires full reporting and transparency. 5. A p-value, or statistical significance, does not measure the size of an effect or the importance of a result. 6. By itself, a p-value does not provide a good measure of evidence regarding a model or hypothesis. https://www.amstat.org/asa/files/pdfs/P-ValueStatement.pdf 4 2016-11-30 1. 2. 3. 4. 5. 6. La valeur-p peut être utile pour indiquer l’incompatibilité entre les données et un modèle statistique spécifié; La valeur-p ne mesure pas la probabilité que l’hypothèse étudiée soit vraie, ou la probabilité que les données aient été produites par le hasard seul; Les conclusions scientifiques ne devraient pas être fondées que sur le fait que la valeur-p se trouve au-delà ou non d’une valeur seuil; Afin d’être appropriée, l’inférence requiert que les résultats soient rapportés de façon complète et transparente (c’est-à-dire, ne pas rapporter seulement les résultats statistiquement significatifs); La valeur-p, ou la signification statistique, ne mesurent pas la taille d’un effet ou l’importance d’un résultat; En soi, la valeur-p ne fournit pas une bonne mesure de la preuve concernant un modèle ou hypothèse. Interpretation des valeurs P: Sterne and Davey Smith (2001). Sifting the evidence—what's wrong with significance tests? BMJ; 322: 226-231 5 2016-11-30 Taille d’effet La taille d’effet désigne à quel degré un phénomène donné est présent dans la population (Cohen 1988, p. 9) Critère de Cohen: 0.1: petit; 0.3: medium; 0.5:large; Intervalle de confiance (Neyman, 1937) Sous la distribution normale, 95% des observations tombent dans cet intervalle: (X -1.96*s.e. to + X 1.96*s.e.) • Un intervalle au lieu d’une valeur P; • Rapporter plus d’information que seulement la valeur P; 6 2016-11-30 Nouvelles recommandations • Ne plus utiliser le niveau de signification P = 0,05; • Ne plus utiliser plus le terme «signification»; • Rapporter toutes les valeurs P exacts; • Calculer la taille de l’effet; • Rapporter l’intervalle de confiance 95%; • La puissance statistique: 1- β; • Être prudents dans l’interprétation des résultats; Références • • • • • Fisher RA. The arrangement of field experiments. Journal of the Ministry of Agriculture of Great Britain 1926; 33:503-513. Nuzzo, R. (2014), “Scientific Method: Statistical Errors,” Nature, 506, 150– 152. Ronald L. Wasserstein & Nicole A. Lazar (2016). The ASA's Statement on pValues: Context, Process, and Purpose, The American Statistician, 70, 129133. Greenland S, Senn SJ, Rothman KJ, et al. Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations. Eur J Epidemiol 2016;31:337-50. Sterne and Davey Smith (2001). Sifting the evidence—what's wrong with significance tests? BMJ; 322: 226-231 7