Résumé

Téléchargement

Ch. 6.

Introduction à

l’Inférence Statistique

6.1 Intervalles de confiance

Dans l'inférence statistique, on souhaite estimer des paramètres de population en utilisant

des données observées d'échantillon. La notation commune pour le paramètre en question

est

. Souvent, ce paramètre est la moyenne de population

, qui est estimée par la

moyenne d'échantillon. Bien que la moyenne d’échantillon puisse servir comme un

estimateur sans biais de la moyenne de la population, on ne peut qualifier la précision

atteinte par une estimation ponctuelle. En fait, les mathématiques nous apprennent que la

probabilité que la moyenne d’échantillon soit exactement égale à la moyenne de la

population est nulle. Cette moyenne d’échantillon sera entachée alors d’une erreur. On

aimerait bien connaître une borne supérieure ou inférieure de cette erreur. C’est justement

ce que l’on obtient dans l’estimation par intervalle de confiance.

Un intervalle de confiance donne un intervalle estimé de valeurs qui est susceptible

d'inclure le paramètre inconnu de la population, l'intervalle estimé étant calculé à partir

d'un ensemble indiqué de données d'échantillon. Également, il est plus instructif qu’une

estimation ponctuelle puisqu'il fournit un intervalle de valeurs plausibles pour le

paramètre inconnu de la population.

Le niveau C d'un intervalle de confiance donne la probabilité que cet intervalle inclut la

valeur vraie du paramètre

. Il est souvent exprimé en pourcentage, soit par exemple un

niveau de confiance de 95%.

On peut aussi présenter un niveau de confiance, comme dans l’exemple qui suit.

Supposons qu’un sondage d'opinion a prévu que, si l'élection était tenue aujourd'hui, la

partie libérale gagnerait avec 42% des voix. Le sondeur pourrait attacher un niveau de

confiance de 19 sur 20 à l'intervalle de 42%, plus ou moins 3.5%. C'est-à-dire, il pense

avec une probabilité de 95% que la partie libérale obtiendrait entre 41.5% et 48.5% de

toutes les voix.

Exemple

Supposons qu’un étudiant mesure la température d’ébullition d'un certain liquide. Il

observe les lectures (en degrés Celsius) 102,5, 101,7, 103,1, 100,9, 100,5, et 102,2 d’un

échantillon du liquide de taille 6. Il calcule la moyenne d'échantillon qui est de 101,82.

S’il sait que l'écart type pour ce procédé est de 1,2 degrés, quel est l'intervalle de

confiance pour la moyenne d’ébullition à un niveau de la confiance 95%? En d'autres

termes, l'étudiant souhaite estimer la véritable température moyenne d’ébullition du

liquide en utilisant les résultats de ses mesures.

La sélection d'un niveau de confiance pour un intervalle détermine la probabilité que

l'intervalle de confiance produit contiendra la véritable valeur de paramètre. Les choix

communs pour le niveau C de confiance sont 0,90, 0,95, et 0,99. Ces niveaux

correspondent aux pourcentages de l’aire sous la courbe normale de densité.

Par exemple, un intervalle de confiance de 95% couvre 95% de l’aire sous la courbe

normale et la probabilité d'observer une valeur en dehors de cette l’aire est de 5%.

Puisque la courbe normale est

symétrique, la moitié de cette l’aire est

située dans l’extrémité gauche de la

courbe et l'autre moitié de l’aire se

trouve dans l’extrémité droite de la

courbe. Comme montré dans le

diagramme à gauche, pour un intervalle

de confiance avec le niveau C, l’aire

dans chaque extrémité de la courbe est

égale à (1-C )/2. Pour un intervalle de la

confiance de 95%, l’aire dans chaque

extrémité est égale à 0,05/2 soit à 0,025

La valeur z* qui représente le point sous la courbe normale standard Z, tel que la

probabilité d'observer une valeur de Z plus grand que z* est égale à p, est connue sous le

nom de la valeur critique. Par exemple, si p = 0,025, la valeur critique z* tel que

P(Z > z* ) = 0,025 ou P(Z < z* ) = 0,975, est égale à 1,96.

Note : Pour un intervalle de confiance avec le niveau C, la valeur p est égale à (1-C )/2.

Un intervalle de la confiance de 95% pour la distribution normale standard est alors

l'intervalle (-1,96, 1,96), puisque 95% de la zone sous la courbe fait partie de cet

intervalle.

Intervalles de confiance pour la moyenne d’échantillon

Un intervalle de confiance pour la moyenne

inconnue d’une population d'écart

type

connu, basé sur un échantillon aléatoire simple (SRS) de taille n, est

nzx /

où z * est la valeur critique de (1-C)/2 d’erreur à droite pour la distribution normale

standard.

Note: Cet intervalle est seulement exact quand la distribution de population est normale.

Pour de grands échantillons provenant d'autres distributions de population, l'intervalle

est approximativement correct selon le théorème de limite centrale.

Exemple (suite)

Dans l'exemple ci-dessus, si les mesures suivent une distribution normale, alors la

moyenne d'échantillon aura la distribution N(

,n/

). Puisque la taille de

l'échantillon est 6, l'écart type de la moyenne d'échantillon est égale à (1.2)/(2.449)= 0,49.

L'étudiant a calculé la moyenne d'échantillon des températures d’ébullition de 101,82

avec l'écart type de 0,49. La valeur critique pour un intervalle de confiance de 95% est

de 1,96 où (1-0.95)/2 = 0,025 d’erreur à droite. Un intervalle de confiance de 95% pour la

moyenne

inconnue est donc:

nzx /

± = (101,82 - 1.96*0.49, 101,82 + 1.96*0.49)

= (101,82 - 0,96, 101,82 + 0,96)

= (100,86, 102,78)

Supposez que l'étudiant était intéressé par un intervalle de confiance de 90% pour la

température d’ébullition. Dans ce cas-ci, on aurait C = 0,90, et (1-C )/2 = 0,05. La valeur

critique z * pour ce niveau est égale à 1,645. Ainsi, pour un intervalle de confiance de

90%, on aurait (101,01, 102,63).

Note : plus le niveau de confiance diminue, plus la taille de l'intervalle correspondant

diminue également.

Une augmentation de la taille de l'échantillon diminuera la longueur de l'intervalle de

confiance sans réduire le niveau de confiance. C'est parce que l'écart type diminue à

mesure que n augmente.

La marge de l'erreur nzm /

= d'un intervalle de confiance est définie

comme étant la valeur ajoutée ou soustraite de la moyenne d'échantillon et elle

détermine la longueur de l'intervalle. En général, l’intervalle de confiance

est donc :

merreurdemladeestimateur 'arg

Supposons, dans l'exemple ci-dessus, que le souhait de l'étudiant est d’avoir une marge

d'erreur égale à 0,5 avec une confiance de 95%. En substituant les valeurs appropriées

dans l'expression de m, la solution pour la taille de l’échantillon n donne le

calcul suivant:

n = (1.96*1.2/0.5)²

= (2.35/0.5)²

= 4.7² = 22,09.

Pour réaliser un intervalle de confiance de 95% pour la température moyenne

d’ébullition avec la longueur totale de moins d’un degré, l'étudiant devra prendre 23

mesures.

C/c: La taille d’échantillon n pour une marge d’erreur donnée m est :

2* )/( mzn

6.2 Test de signification (Test d’hypothèse)

La théorie des tests t’hypothèses est équivalente à celle de l’estimation par intervalle de

confiance. Nous tentons de décider si les données confirment ou contredisent une

opinion a priori concernant la valeur d’un paramètre de la population.

Une fois que les données d'échantillon ont été recueillies par une étude d'observation ou

une expérience, l'inférence statistique permet à des analystes d'évaluer des arguments ou

des propositions en faveur de la population de laquelle l'échantillon a été tiré. Les

méthodes d'inférence supportant ou rejetant des suppositions basées sur des données

d'échantillon sont connues sous ce nom de test de signification.

Chaque test de signification commence par une hypothèse nulle H 0. H 0 représente une

théorie qui a été proposée soit parce qu'on pense qu'elle est vraie, soit parce qu'elle sera

utilisée comme base pour l'argument mais n'a pas été prouvée. Par exemple, dans un essai

clinique d'un nouveau médicament, l'hypothèse nulle pourrait être que le nouveau

médicament n'est pas meilleur, en moyenne, que le médicament actuel. Nous écririons

alors H 0 : il n'y a aucune différence, en moyenne, entre les deux médicaments.

L'hypothèse alternative H a énonce ce que le test statistique d'hypothèse est sensé

prouver. Par exemple, dans un essai clinique d'un nouveau médicament, l'hypothèse

alternative pourrait être que le nouveau médicament a un effet différent, en moyenne,

comparé à celui du médicament actuel. Nous écririons alors H a : les deux médicaments

ont, en moyenne, des effets différents. L'hypothèse alternative pourrait également être

que le nouveau médicament est meilleur, en moyenne, que le médicament actuel. Dans ce

cas-ci nous écririons H a : le nouveau médicament est meilleur, en moyenne, que le

médicament actuel.

La conclusion finale, une fois que l'essai effectué, est toujours donnée en termes

d'hypothèse nulle. Soit que nous " rejetons H 0 en faveur de H a " ou nous " ne rejetons

pas H 0 "; nous ne concluons jamais de " rejeter H a " ou même " d’accepter H a ".

Si nous concluons de " ne pas rejeter H 0 ", ceci ne signifie pas nécessairement que

l'hypothèse nulle est vraie mais suggère seulement qu'il n'y a pas de preuve suffisante

contre H 0 en faveur de H a . Le rejet de l'hypothèse nulle suggère alors que l'hypothèse

alternative pourrait être vraie.

Des hypothèses sont toujours énoncées en termes de paramètre de population, tel que la

moyenne

. Une hypothèse alternative peut être unilatérale ou bilatérale. Une

hypothèse unilatérale indique qu'un paramètre est plus grand ou plus petit que la valeur

donnée par l'hypothèse nulle. Une hypothèse bilatérale indique qu'un paramètre n'est

simplement pas égal à la valeur donnée par l'hypothèse nulle.

Les hypothèses pour un test unilatéral pour une moyenne de population prennent la forme

suivante: H 0 :

= k contre H a :

> k

ou H 0 :

= k contre H a :

< k.

Les hypothèses pour un test bilatéral pour une moyenne de population prennent la forme

H 0 :

= k contre H a :

Exemple

Supposons qu’un test d’anglais a été donné à tous les étudiants d’un cégep à Montréal. La

note moyenne du test pour l’ensemble des cégépiens de Montréal est de 70 avec un écart

type de 10. L’administration pense que les étudiants féminins ont obtenu de plus hautes

notes moyennes dans le test que les étudiants mâles, parce que la note moyenne xd'un

échantillon aléatoire de 64 étudiants féminins est égale à 73. Est-ce que ceci fournit une

forte preuve que la note moyenne globale pour les étudiants féminins est plus haute?

L'hypothèse nulle H 0 énonce qu'il n'y a aucune différence entre la note moyenne pour les

étudiants féminins et la note moyenne de la population entière, de sorte que

= 70.

1 / 8 100%

Documents connexes

TERMINALE S Chapitre: PROBABILITÉ 3/3 Exemple

Solutions du chapitre I

01749Q - 16ouplus

integrales

Le cours - pyreach.free.fr

Exercices

introduction - carabinsnicois.fr

Solutions chapitre 3

Exercices sur les statistiques d`ordre

Cours de maths - Terminale ES - Probabilités : lois à densité

I- Intervalle de fluctuation avec la loi binomiale

Document

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Résumé

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Résumé

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib