Ch. 6.
Introduction à
l’Inférence Statistique
6.1 Intervalles de confiance
Dans l'inférence statistique, on souhaite estimer des paramètres de population en utilisant
des données observées d'échantillon. La notation commune pour le paramètre en question
est
θ
. Souvent, ce paramètre est la moyenne de population
µ
, qui est estimée par la
moyenne d'échantillon. Bien que la moyenne d’échantillon puisse servir comme un
estimateur sans biais de la moyenne de la population, on ne peut qualifier la précision
atteinte par une estimation ponctuelle. En fait, les mathématiques nous apprennent que la
probabilité que la moyenne d’échantillon soit exactement égale à la moyenne de la
population est nulle. Cette moyenne d’échantillon sera entachée alors d’une erreur. On
aimerait bien connaître une borne supérieure ou inférieure de cette erreur. C’est justement
ce que l’on obtient dans l’estimation par intervalle de confiance.
Un intervalle de confiance donne un intervalle estimé de valeurs qui est susceptible
d'inclure le paramètre inconnu de la population, l'intervalle estimé étant calculé à partir
d'un ensemble indiqué de données d'échantillon. Également, il est plus instructif qu’une
estimation ponctuelle puisqu'il fournit un intervalle de valeurs plausibles pour le
paramètre inconnu de la population.
Le niveau C d'un intervalle de confiance donne la probabilité que cet intervalle inclut la
valeur vraie du paramètre
θ
. Il est souvent exprimé en pourcentage, soit par exemple un
niveau de confiance de 95%.
On peut aussi présenter un niveau de confiance, comme dans l’exemple qui suit.
Supposons qu’un sondage d'opinion a prévu que, si l'élection était tenue aujourd'hui, la
partie libérale gagnerait avec 42% des voix. Le sondeur pourrait attacher un niveau de
confiance de 19 sur 20 à l'intervalle de 42%, plus ou moins 3.5%. C'est-à-dire, il pense
avec une probabilité de 95% que la partie libérale obtiendrait entre 41.5% et 48.5% de
toutes les voix.
Exemple
Supposons qu’un étudiant mesure la température d’ébullition d'un certain liquide. Il
observe les lectures (en degrés Celsius) 102,5, 101,7, 103,1, 100,9, 100,5, et 102,2 d’un
échantillon du liquide de taille 6. Il calcule la moyenne d'échantillon qui est de 101,82.
S’il sait que l'écart type pour ce procédé est de 1,2 degrés, quel est l'intervalle de
confiance pour la moyenne d’ébullition à un niveau de la confiance 95%? En d'autres
termes, l'étudiant souhaite estimer la véritable température moyenne d’ébullition du
liquide en utilisant les résultats de ses mesures.
La sélection d'un niveau de confiance pour un intervalle détermine la probabilité que
l'intervalle de confiance produit contiendra la véritable valeur de paramètre. Les choix
communs pour le niveau C de confiance sont 0,90, 0,95, et 0,99. Ces niveaux
correspondent aux pourcentages de l’aire sous la courbe normale de densité.
Par exemple, un intervalle de confiance de 95% couvre 95% de l’aire sous la courbe
normale et la probabilité d'observer une valeur en dehors de cette l’aire est de 5%.
Puisque la courbe normale est
symétrique, la moitié de cette l’aire est
située dans l’extrémité gauche de la
courbe et l'autre moitié de l’aire se
trouve dans l’extrémité droite de la
courbe. Comme montré dans le
diagramme à gauche, pour un intervalle
de confiance avec le niveau C, l’aire
dans chaque extrémité de la courbe est
égale à (1-C )/2. Pour un intervalle de la
confiance de 95%, l’aire dans chaque
extrémité est égale à 0,05/2 soit à 0,025
La valeur z* qui représente le point sous la courbe normale standard Z, tel que la
probabilité d'observer une valeur de Z plus grand que z* est égale à p, est connue sous le
nom de la valeur critique. Par exemple, si p = 0,025, la valeur critique z* tel que
P(Z > z* ) = 0,025 ou P(Z < z* ) = 0,975, est égale à 1,96.
Note : Pour un intervalle de confiance avec le niveau C, la valeur p est égale à (1-C )/2.
Un intervalle de la confiance de 95% pour la distribution normale standard est alors
l'intervalle (-1,96, 1,96), puisque 95% de la zone sous la courbe fait partie de cet
intervalle.
Intervalles de confiance pour la moyenne d’échantillon
Un intervalle de confiance pour la moyenne
µ
inconnue d’une population d'écart
type
σ
connu, basé sur un échantillon aléatoire simple (SRS) de taille n, est
nzx /
*
σ
±
z * est la valeur critique de (1-C)/2 d’erreur à droite pour la distribution normale
standard.
Note: Cet intervalle est seulement exact quand la distribution de population est normale.
Pour de grands échantillons provenant d'autres distributions de population, l'intervalle
est approximativement correct selon le théorème de limite centrale.
Exemple (suite)
Dans l'exemple ci-dessus, si les mesures suivent une distribution normale, alors la
moyenne d'échantillon aura la distribution N(
µ
,n/
σ
). Puisque la taille de
l'échantillon est 6, l'écart type de la moyenne d'échantillon est égale à (1.2)/(2.449)= 0,49.
L'étudiant a calculé la moyenne d'échantillon des températures d’ébullition de 101,82
avec l'écart type de 0,49. La valeur critique pour un intervalle de confiance de 95% est
de 1,96 où (1-0.95)/2 = 0,025 d’erreur à droite. Un intervalle de confiance de 95% pour la
moyenne
µ
inconnue est donc:
nzx /
*
σ
± = (101,82 - 1.96*0.49, 101,82 + 1.96*0.49)
= (101,82 - 0,96, 101,82 + 0,96)
= (100,86, 102,78)
Supposez que l'étudiant était intéressé par un intervalle de confiance de 90% pour la
température d’ébullition. Dans ce cas-ci, on aurait C = 0,90, et (1-C )/2 = 0,05. La valeur
critique z * pour ce niveau est égale à 1,645. Ainsi, pour un intervalle de confiance de
90%, on aurait (101,01, 102,63).
Note : plus le niveau de confiance diminue, plus la taille de l'intervalle correspondant
diminue également.
Une augmentation de la taille de l'échantillon diminuera la longueur de l'intervalle de
confiance sans réduire le niveau de confiance. C'est parce que l'écart type diminue à
mesure que n augmente.
La marge de l'erreur nzm /
*
σ
= d'un intervalle de confiance est définie
comme étant la valeur ajoutée ou soustraite de la moyenne d'échantillon et elle
détermine la longueur de l'intervalle. En général, l’intervalle de confiance
θ
est donc :
merreurdemladeestimateur 'arg
±
θ
Supposons, dans l'exemple ci-dessus, que le souhait de l'étudiant est d’avoir une marge
d'erreur égale à 0,5 avec une confiance de 95%. En substituant les valeurs appropriées
dans l'expression de m, la solution pour la taille de l’échantillon n donne le
calcul suivant:
n = (1.96*1.2/0.5)²
= (2.35/0.5)²
= 4.7² = 22,09.
Pour réaliser un intervalle de confiance de 95% pour la température moyenne
d’ébullition avec la longueur totale de moins d’un degré, l'étudiant devra prendre 23
mesures.
C/c: La taille d’échantillon n pour une marge d’erreur donnée m est :
2* )/( mzn
σ
=
6.2 Test de signification (Test d’hypothèse)
La théorie des tests t’hypothèses est équivalente à celle de l’estimation par intervalle de
confiance. Nous tentons de décider si les données confirment ou contredisent une
opinion a priori concernant la valeur d’un paramètre de la population.
Une fois que les données d'échantillon ont été recueillies par une étude d'observation ou
une expérience, l'inférence statistique permet à des analystes d'évaluer des arguments ou
des propositions en faveur de la population de laquelle l'échantillon a été tiré. Les
méthodes d'inférence supportant ou rejetant des suppositions basées sur des données
d'échantillon sont connues sous ce nom de test de signification.
Chaque test de signification commence par une hypothèse nulle H 0. H 0 représente une
théorie qui a été proposée soit parce qu'on pense qu'elle est vraie, soit parce qu'elle sera
utilisée comme base pour l'argument mais n'a pas été prouvée. Par exemple, dans un essai
clinique d'un nouveau médicament, l'hypothèse nulle pourrait être que le nouveau
médicament n'est pas meilleur, en moyenne, que le médicament actuel. Nous écririons
alors H 0 : il n'y a aucune différence, en moyenne, entre les deux médicaments.
L'hypothèse alternative H a énonce ce que le test statistique d'hypothèse est sensé
prouver. Par exemple, dans un essai clinique d'un nouveau médicament, l'hypothèse
alternative pourrait être que le nouveau médicament a un effet différent, en moyenne,
comparé à celui du médicament actuel. Nous écririons alors H a : les deux médicaments
ont, en moyenne, des effets différents. L'hypothèse alternative pourrait également être
que le nouveau médicament est meilleur, en moyenne, que le médicament actuel. Dans ce
cas-ci nous écririons H a : le nouveau médicament est meilleur, en moyenne, que le
médicament actuel.
La conclusion finale, une fois que l'essai effectué, est toujours donnée en termes
d'hypothèse nulle. Soit que nous " rejetons H 0 en faveur de H a " ou nous " ne rejetons
pas H 0 "; nous ne concluons jamais de " rejeter H a " ou même " d’accepter H a ".
Si nous concluons de " ne pas rejeter H 0 ", ceci ne signifie pas nécessairement que
l'hypothèse nulle est vraie mais suggère seulement qu'il n'y a pas de preuve suffisante
contre H 0 en faveur de H a . Le rejet de l'hypothèse nulle suggère alors que l'hypothèse
alternative pourrait être vraie.
Des hypothèses sont toujours énoncées en termes de paramètre de population, tel que la
moyenne
µ
. Une hypothèse alternative peut être unilatérale ou bilatérale. Une
hypothèse unilatérale indique qu'un paramètre est plus grand ou plus petit que la valeur
donnée par l'hypothèse nulle. Une hypothèse bilatérale indique qu'un paramètre n'est
simplement pas égal à la valeur donnée par l'hypothèse nulle.
Les hypothèses pour un test unilatéral pour une moyenne de population prennent la forme
suivante: H 0 :
µ
= k contre H a :
µ
> k
ou H 0 :
µ
= k contre H a :
µ
< k.
Les hypothèses pour un test bilatéral pour une moyenne de population prennent la forme
suivante:
H 0 :
µ
= k contre H a :
µ
k.
Exemple
Supposons qu’un test d’anglais a été donné à tous les étudiants d’un cégep à Montréal. La
note moyenne du test pour l’ensemble des cégépiens de Montréal est de 70 avec un écart
type de 10. L’administration pense que les étudiants féminins ont obtenu de plus hautes
notes moyennes dans le test que les étudiants mâles, parce que la note moyenne xd'un
échantillon aléatoire de 64 étudiants féminins est égale à 73. Est-ce que ceci fournit une
forte preuve que la note moyenne globale pour les étudiants féminins est plus haute?
L'hypothèse nulle H 0 énonce qu'il n'y a aucune différence entre la note moyenne pour les
étudiants féminins et la note moyenne de la population entière, de sorte que
µ
= 70.
1 / 8 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !