Ch. 6. Introduction à l’Inférence Statistique 6.1 Intervalles de confiance Dans l'inférence statistique, on souhaite estimer des paramètres de population en utilisant des données observées d'échantillon. La notation commune pour le paramètre en question θ µ . Souvent, ce paramètre est la moyenne de population , qui est estimée par la est moyenne d'échantillon. Bien que la moyenne d’échantillon puisse servir comme un estimateur sans biais de la moyenne de la population, on ne peut qualifier la précision atteinte par une estimation ponctuelle. En fait, les mathématiques nous apprennent que la probabilité que la moyenne d’échantillon soit exactement égale à la moyenne de la population est nulle. Cette moyenne d’échantillon sera entachée alors d’une erreur. On aimerait bien connaître une borne supérieure ou inférieure de cette erreur. C’est justement ce que l’on obtient dans l’estimation par intervalle de confiance. Un intervalle de confiance donne un intervalle estimé de valeurs qui est susceptible d'inclure le paramètre inconnu de la population, l'intervalle estimé étant calculé à partir d'un ensemble indiqué de données d'échantillon. Également, il est plus instructif qu’une estimation ponctuelle puisqu'il fournit un intervalle de valeurs plausibles pour le paramètre inconnu de la population. Le niveau C d'un intervalle de confiance donne la probabilité que cet intervalle inclut la θ valeur vraie du paramètre . Il est souvent exprimé en pourcentage, soit par exemple un niveau de confiance de 95%. On peut aussi présenter un niveau de confiance, comme dans l’exemple qui suit. Supposons qu’un sondage d'opinion a prévu que, si l'élection était tenue aujourd'hui, la partie libérale gagnerait avec 42% des voix. Le sondeur pourrait attacher un niveau de confiance de 19 sur 20 à l'intervalle de 42%, plus ou moins 3.5%. C'est-à-dire, il pense avec une probabilité de 95% que la partie libérale obtiendrait entre 41.5% et 48.5% de toutes les voix. Exemple Supposons qu’un étudiant mesure la température d’ébullition d'un certain liquide. Il observe les lectures (en degrés Celsius) 102,5, 101,7, 103,1, 100,9, 100,5, et 102,2 d’un échantillon du liquide de taille 6. Il calcule la moyenne d'échantillon qui est de 101,82. S’il sait que l'écart type pour ce procédé est de 1,2 degrés, quel est l'intervalle de confiance pour la moyenne d’ébullition à un niveau de la confiance 95%? En d'autres termes, l'étudiant souhaite estimer la véritable température moyenne d’ébullition du liquide en utilisant les résultats de ses mesures. La sélection d'un niveau de confiance pour un intervalle détermine la probabilité que l'intervalle de confiance produit contiendra la véritable valeur de paramètre. Les choix communs pour le niveau C de confiance sont 0,90, 0,95, et 0,99. Ces niveaux correspondent aux pourcentages de l’aire sous la courbe normale de densité. Par exemple, un intervalle de confiance de 95% couvre 95% de l’aire sous la courbe normale et la probabilité d'observer une valeur en dehors de cette l’aire est de 5%. Puisque la courbe normale est symétrique, la moitié de cette l’aire est située dans l’extrémité gauche de la courbe et l'autre moitié de l’aire se trouve dans l’extrémité droite de la courbe. Comme montré dans le diagramme à gauche, pour un intervalle de confiance avec le niveau C, l’aire dans chaque extrémité de la courbe est égale à (1-C )/2. Pour un intervalle de la confiance de 95%, l’aire dans chaque extrémité est égale à 0,05/2 soit à 0,025 La valeur z* qui représente le point sous la courbe normale standard Z, tel que la probabilité d'observer une valeur de Z plus grand que z* est égale à p, est connue sous le nom de la valeur critique. Par exemple, si p = 0,025, la valeur critique z* tel que P(Z > z* ) = 0,025 ou P(Z < z* ) = 0,975, est égale à 1,96. Note : Pour un intervalle de confiance avec le niveau C, la valeur p est égale à (1-C )/2. Un intervalle de la confiance de 95% pour la distribution normale standard est alors l'intervalle (-1,96, 1,96), puisque 95% de la zone sous la courbe fait partie de cet intervalle. Intervalles de confiance pour la moyenne d’échantillon Un intervalle de confiance pour la moyenne type µ inconnue d’une population d'écart simple (SRS) de taille n, est σ connu, basé sur un échantillon aléatoire * x±z σ/ n où z * est la valeur critique de (1-C)/2 d’erreur à droite pour la distribution normale standard. Note: Cet intervalle est seulement exact quand la distribution de population est normale. Pour de grands échantillons provenant d'autres distributions de population, l'intervalle est approximativement correct selon le théorème de limite centrale. Exemple (suite) Dans l'exemple ci-dessus, si les mesures suivent une distribution normale, alors la µσ/ n moyenne d'échantillon aura la distribution N( , ). Puisque la taille de l'échantillon est 6, l'écart type de la moyenne d'échantillon est égale à (1.2)/(2.449)= 0,49. L'étudiant a calculé la moyenne d'échantillon des températures d’ébullition de 101,82 avec l'écart type de 0,49. La valeur critique pour un intervalle de confiance de 95% est de 1,96 où (1-0.95)/2 = 0,025 d’erreur à droite. Un intervalle de confiance de 95% pour la inconnue est donc: moyenne * = (101,82 - 1.96*0.49, 101,82 + 1.96*0.49) = (101,82 - 0,96, 101,82 + 0,96) = (100,86, 102,78) µ x±z σ/ n Supposez que l'étudiant était intéressé par un intervalle de confiance de 90% pour la température d’ébullition. Dans ce cas-ci, on aurait C = 0,90, et (1-C )/2 = 0,05. La valeur critique z * pour ce niveau est égale à 1,645. Ainsi, pour un intervalle de confiance de 90%, on aurait (101,01, 102,63). Note : plus le niveau de confiance diminue, plus la taille de l'intervalle correspondant diminue également. Une augmentation de la taille de l'échantillon diminuera la longueur de l'intervalle de confiance sans réduire le niveau de confiance. C'est parce que l'écart type diminue à mesure que n augmente. m=z σ/ n * La marge de l'erreur d'un intervalle de confiance est définie comme étant la valeur ajoutée ou soustraite de la moyenne d'échantillon et elle détermine la longueur de l'intervalle. En général, l’intervalle de confiance θ est donc : estimateur de θ ± la m arg e d ' erreur m Supposons, dans l'exemple ci-dessus, que le souhait de l'étudiant est d’avoir une marge d'erreur égale à 0,5 avec une confiance de 95%. En substituant les valeurs appropriées dans l'expression de m, la solution pour la taille de l’échantillon n donne le calcul suivant: n = (1.96*1.2/0.5)² = (2.35/0.5)² = 4.7² = 22,09. Pour réaliser un intervalle de confiance de 95% pour la température moyenne d’ébullition avec la longueur totale de moins d’un degré, l'étudiant devra prendre 23 mesures. C/c: La taille d’échantillon n pour une marge d’erreur donnée m est : * 2 n = ( z σ / m) 6.2 Test de signification (Test d’hypothèse) La théorie des tests t’hypothèses est équivalente à celle de l’estimation par intervalle de confiance. Nous tentons de décider si les données confirment ou contredisent une opinion a priori concernant la valeur d’un paramètre de la population. Une fois que les données d'échantillon ont été recueillies par une étude d'observation ou une expérience, l'inférence statistique permet à des analystes d'évaluer des arguments ou des propositions en faveur de la population de laquelle l'échantillon a été tiré. Les méthodes d'inférence supportant ou rejetant des suppositions basées sur des données d'échantillon sont connues sous ce nom de test de signification. Chaque test de signification commence par une hypothèse nulle H 0. H 0 représente une théorie qui a été proposée soit parce qu'on pense qu'elle est vraie, soit parce qu'elle sera utilisée comme base pour l'argument mais n'a pas été prouvée. Par exemple, dans un essai clinique d'un nouveau médicament, l'hypothèse nulle pourrait être que le nouveau médicament n'est pas meilleur, en moyenne, que le médicament actuel. Nous écririons alors H 0 : il n'y a aucune différence, en moyenne, entre les deux médicaments. L'hypothèse alternative H a énonce ce que le test statistique d'hypothèse est sensé prouver. Par exemple, dans un essai clinique d'un nouveau médicament, l'hypothèse alternative pourrait être que le nouveau médicament a un effet différent, en moyenne, comparé à celui du médicament actuel. Nous écririons alors H a : les deux médicaments ont, en moyenne, des effets différents. L'hypothèse alternative pourrait également être que le nouveau médicament est meilleur, en moyenne, que le médicament actuel. Dans ce cas-ci nous écririons H a : le nouveau médicament est meilleur, en moyenne, que le médicament actuel. La conclusion finale, une fois que l'essai effectué, est toujours donnée en termes d'hypothèse nulle. Soit que nous " rejetons H 0 en faveur de H a " ou nous " ne rejetons pas H 0 "; nous ne concluons jamais de " rejeter H a " ou même " d’accepter H a ". Si nous concluons de " ne pas rejeter H 0 ", ceci ne signifie pas nécessairement que l'hypothèse nulle est vraie mais suggère seulement qu'il n'y a pas de preuve suffisante contre H 0 en faveur de H a . Le rejet de l'hypothèse nulle suggère alors que l'hypothèse alternative pourrait être vraie. Des hypothèses sont toujours énoncées en termes de paramètre de population, tel que la moyenne . Une hypothèse alternative peut être unilatérale ou bilatérale. Une hypothèse unilatérale indique qu'un paramètre est plus grand ou plus petit que la valeur donnée par l'hypothèse nulle. Une hypothèse bilatérale indique qu'un paramètre n'est simplement pas égal à la valeur donnée par l'hypothèse nulle. µ Les hypothèses pour un test unilatéral pour une moyenne de population prennent la forme suivante: H 0: = k contre H a : >k ou H 0: = k contre H a : < k. Les hypothèses pour un test bilatéral pour une moyenne de population prennent la forme suivante: = k contre H a : k. H 0: µ µ µ µ µ µ Exemple Supposons qu’un test d’anglais a été donné à tous les étudiants d’un cégep à Montréal. La note moyenne du test pour l’ensemble des cégépiens de Montréal est de 70 avec un écart type de 10. L’administration pense que les étudiants féminins ont obtenu de plus hautes notes moyennes dans le test que les étudiants mâles, parce que la note moyenne d'un échantillon aléatoire de 64 étudiants féminins est égale à 73. Est-ce que ceci fournit une forte preuve que la note moyenne globale pour les étudiants féminins est plus haute? x L'hypothèse nulle H 0 énonce qu'il n'y a aucune différence entre la note moyenne pour les étudiants féminins et la note moyenne de la population entière, de sorte que = 70. µ L'hypothèse alternative énonce que la note moyenne pour les étudiants féminins est plus haute que la note moyenne de population entière des étudiants, de sorte que > 70. µ Test de signification pour une moyenne inconnue Une fois que des hypothèses nulles et alternatives ont été formulées pour une proposition particulière, la prochaine étape est de calculer une statistique du test. Une statistique du test est une quantité calculée à partir de notre échantillon de données. Sa valeur est utilisée pour décider si l'hypothèse nulle doit être rejetée ou non dans notre test d'hypothèse. Le choix d'une statistique du test (qui est une variable aléatoire) dépendra du modèle de probabilité et des hypothèses que nous vérifions. Pour des propositions au sujet d'une moyenne de population avec une distribution normale ou pour n'importe quel échantillon avec une grande taille n (on s’appuie alors sur le théorème de limite centrale), si l'écart type est connu, le test de signification approprié est connu sous le nom de z-test, où la statistique du test est définie ainsi: σ x − µo . z= σ/ n La statistique du test suit la distribution normale standard (avec la moyenne = 0 et l’écart type = 1). La statistique z du test est employée pour calculer la P-valeur pour la distribution normale standard, soit la probabilité qu'on observerait une valeur au moins aussi extrême que la statistique du test sous l'hypothèse nulle. Étant donné l'hypothèse nulle que la moyenne de population est égale à une valeur donnée 0, les P-valeurs pour tester H 0 contre chacune des hypothèses alternatives possibles sont: µ µ µ> µ : µ< µ : µ µ P(Z > z) pour H a : 0 P(Z < z) pour H a 0 2P(Z>|z|) pour H a 0 La probabilité est doublée pour un test bilatéral, puisque l'hypothèse alternative bilatérale considère la possibilité d'observer des valeurs extrêmes sur l'une ou l'autre extrémité de la distribution normale. La P-valeur est aussi la probabilité de rejeter incorrectement l'hypothèse nulle si elle est effectivement vraie. Elle est égale au niveau de signification (voir ci-dessous) du test pour lequel nous rejetterions l'hypothèse nulle. La P-valeur est comparée au niveau de signification et si elle est plus petite, le résultat est significatif. C'est-à-dire, si l'hypothèse nulle devait être rejetée à 5%, on aurait ' P-valeur < 0,05 '. Les petites P-valeurs suggèrent que l'hypothèse nulle est peu susceptible d'être vraie. Plus elle est petite, plus le rejet de l'hypothèse nulle est convaincant. Elle indique la force de l’expression « rejeter l'hypothèse nulle H 0 ». Exemple Dans l'exemple des notes du test d’anglais ci-dessus où la moyenne d'échantillon égale 73 et l'écart type de population est égale à 10, la statistique du test est calculée comme suit: z = (73 - 70)/(10/8) = 3/1,25 = 2,4 Puisque c'est un test bilatéral, la P-valeur est égale à la probabilité d'observer une valeur plus grande que 2,4 dans la distribution normale standard où : P(Z > 2,4) = 1 - P(Z < 2,4) = 1 - 0,9918 = 0,0082 La P-valeur est moins de 0,01, indiquant qu'il est fortement peu probable que ces résultats soient observés sous l'hypothèse nulle. L’administration peut rejeter H0 bien qu'ils ne puissent fournir aucune information supplémentaire sur la moyenne de la distribution. Niveaux de signification α Le niveau de signification pour un test d'hypothèse donné est une valeur pour laquelle « une P-valeur inférieure ou égale à » est considérée statistiquement significative. α α d’un test d’hypothèse est une probabilité fixée d’avance. Il Le niveau de signification représente la probabilité de rejeter incorrectement l’hypothèse nulle H 0 alors qu’elle est vraie. Les valeurs typiques pour sont 0,1, 0,05 et 0,01. α Dans l'exemple des notes du test d’anglais ci-dessus, la P-valeur étant 0,0082, la probabilité d'observer une telle valeur par hasard est moins que 0,01 et le résultat est de niveau de signification de 0,01. α α Dans un test unilatéral, correspond à la valeur critique « z * » tel que P(Z > z * ) = . Par exemple, si le niveau de signification désiré pour un résultat est de 0,05, la valeur correspondante pour « Z » doit être supérieure ou égale à z * = 1,645 (ou inférieure ou égale à -1,645 pour un alternatif unilatéral réclamant que la moyenne soit moindre que celle de l'hypothèse nulle). α Pour un test bilatéral, nous nous intéressons à la probabilité que 2P(Z > z * ) = , alors * que la valeur critique z correspond à un niveau de signification de / 2. Pour α atteindre un niveau de signification de 0,05 pour un test bilatéral, la valeur absolue de la statistique du test (| z |) doit être supérieure ou égale à la valeur critique 1,96 (qui correspond au niveau 0,025 pour test unilatéral). Exemple De tous les individus qui développent une certaine éruption cutanée, supposons que le temps moyen de guérison pour les individus qui n'utilisent aucun mode de traitement est de 30 jours avec un écart type égal à 8. Une compagnie pharmaceutique fabricant une certaine crème souhaite déterminer si la crème raccourcit, allonge ou n’a aucune incidence sur le temps de guérison. La compagnie choisit un échantillon aléatoire de 100 individus qui ont utilisé la crème et détermine que le moment moyen de guérison pour ces individus était de 28,5 jours. La crème a-t-elle un effet? Puisque la compagnie pharmaceutique s’intéresse à tout temps qui diffère du temps moyen de guérison pour tous les individus, l'hypothèse alternative H a est bilatérale: 30. La statistique du test est calculée comme suit : µ z = (28,5 - 30)/(8/sqrt(100)) = -1,5/0,8 = -1,875 La P-valeur pour cette statistique est : 2P(Z > 1,875) = 2(1 - P((Z < 1,875) = 2(1- 0,9693) = 2(0.0307) = 0,0614. H 0 n’est pas significatif au niveau de 0,05 cependant il l’est au niveau de 0,1.