Echantillonnage M3
EchMod3 1/42
MODULE 3 : Construction d’un test d’hypothèses
Unité 1 : aspects méthodologiques
L’utilisation des intervalles de confiance comme moyen de décision est possible ; toutefois le
décideur, tout en connaissant l’existence des erreurs qu’il peut commettre, n’est pas en mesure
valuer les risques qui leur sont associés avant la prise de sa décision. La théorie des tests,
en ramenant cette dernière au choix entre deux hypothèses antagonistes, notées
0
H
et
1
H
,
rend la démarche plus rigoureuse.
L’hypothèse
0
H
est privilégiée dans le sens l’observateur souhaite la retenir tant qu’elle
n’est pas infirmée par l’expérience. Dès lors, le test a pour but de mesurer l’adéquation de cette
hypothèse à la réalité observable, c’est-à-dire aux résultats fournis par un échantillon.
La marche consiste tout d’abord à exprimer les erreurs en termes d’hypothèses « décider à
tort » devient « décider de retenir une hypothèse alors que l’autre est vraie ». Ainsi, il devient
possible de finir deux risques d’erreur et de calculer les probabilités qui leur correspondent,
les probabilités étant liées au caractère aléatoire de tous les échantillons susceptibles d’être
retenus.
Dans une deuxième étape, il s’agit de construire le test, c’est-à-dire de mettre au point
l’instrument de mesure de l’adéquation recherchée. A cette fin, et dans une formulation ex ante,
sont conjointement proposées une statistique d’échantillonage adéquate (appelée
conventionnellement fonction discriminante) et une zone de rejet de l’hypothèse
0
H
(ou région
critique) pour un risque d’erreur raisonnable. Une gle de décision est ensuite formulée, mais
la cision proprement dite n’est prise qu’ultérieurement au vu de la valeur particulière retenue
dans un échantillon particulier.
Comme pour tout instrument de mesure, il sera exigé d’un test d’hypothèse d’être performant.
La puissance d’un test, c’est-à-dire la probabilité de refuser l’hypothèse
0
H
quand elle est
fausse, est définie pour jouer ce rôle. Ainsi compte tenu de la diversité des situations concrètes
envisageables, le critère de choix entre différents tests possibles sera celui correspondant à la
puissance la plus élevée.
1. Risque d’erreur
Deux grands « cas » se présentent :
-
(
)
xFX
loi inconnue (1)
-
(
)
θ
,xFX
F connue, mais θ inconnu (2)
Les hypothèses à tester sont :
-
(
)
xFX:H
0
(1)
-
00
:H
θ
=
θ
(2)
Soit on conservera l’hypothèse
0
H
, soit on la rejettera.
Les risques d’erreurs encourus par l’observateur peuvent alors être définis par :
α : risque de première espèce : décider à tort que
0
H
est fausse. Sa probabilité s’écrit :
α = Prob[décider que
1
H
est vraie /
0
H
vraie] ou
α = Prob[rejeter
0
H
/
0
H
vraie]
α est fixé, souvent à 5%.
Echantillonnage M3
EchMod3 2/42
β : risque de deuxième espèce : décider à tort que
0
H
est vraie. Sa probabilité s’écrit :
β = Prob[décider que
0
H
est vraie /
1
H
vraie]
Il convient de noter que par un abus de langage, le risque et sa mesure sont confondus dans la
pratique courante. Par exemple, l’expression « risque de première espèce » est utilisée à la
place de « probabilité du risque de première espèce ».
Synthèse :
Décision
Décider
0
H
vraie Décider
1
H
vraie
0
H
α
Etat de nature
1
H
β
2. Efficacité d’un test
Les deux cases vides du tableau précédent correspondent aux prababilités complémentaires à
1 de α et de β, mais ne traduisent pas des risques puisque dans les deux cas il n’y a pas
d’erreur de décision. Dans celle de la première ligne, s’inscrirait la probabilité de retenir
0
H
quand celle-ci est vraie, cette probabilité doit être normalement élevée. En revanche, dans la
case vide de la deuxième ligne se trouverait l’expression :
1 - β = 1 – Prob[décider
0
H
vraie /
1
H
vraie] = Prob[décider
1
H
vraie /
1
H
vraie]
c’est-à-dire la probabilité de rejeter l’hypothèse
0
H
quand elle fausse. Cette dernière probabilité
est retenue comme caractéristique de la perfirmande d’un test d’hypothèses.
La puissance d’un test, notée η, est la probabilité de rejeter l’hypothèse
0
H
quand celle-ci n’est
pas vraie ; elle est égale à η = 1 - β β est le risque de deuxième espèce.
La puissance d’un test est la mesure de l’efficacité de ce test. Elle est comparable à la précision
dans le cas d’un instrument de mesure. Il devient évident qu’un test est considéré d’autant plus
précis (par rapport à l’adéquation entre
0
H
et l’observation) que sa puissance est plus grande.
3. Elaboration d’une règle de décision
La démarche qui conduit à la prise de décision s’effectue en deux étapes. La première consiste
à définir ex ante (avant tirage de l’échantillon) une statistique d’échantillonnage et une zone de
rejet de l’hypothèse
0
H
pour un risque d’erreur donné, puis à élaborer une règle de décision.
La deuxième étape s’accomplit ex post : une déicison est prise au vu d’une valeur particulière
de la statistique retenue, conformément à la règle précédemment proposée.
3.1. Fonction discriminante
Etant donné un test d’hypothèses, la fonction discriminante est la statistique
d’échantillonnage utilisée pour décider de l’acceptation ou du rejet de l’hypothèse
0
H
d’un test,
celle-ci étant choisie en fonction de la caractéristique objet de ce test. La fonction discriminante
retenue pour un test d’hypothèses doit être de loi de probabilité connue, lorsque l’hypothèse
0
H
d’un test s’exprime à l’aide d’une caractéristique θ d’une loi de probabilité.
Par exemple,
0
H
: « θ prend la valeur
0
θ
» (θ pouvant être aussi bien une moyenne qu’une
variance ou une proportion). La fonction discriminante du test est en général un estimateur de
la caractéristique (possédant les principales propriétés requises d’un bon estimateur) et sa loi
de probabilité dépend donc de θ.
Echantillonnage M3
EchMod3 3/42
3.2. Région critique
La région critique R d’un test d’hypothèses de fonction discriminante est l’ensemble des
valeurs de qui induisent au rejet de l’hypothèse
0
H
avec un risque d’erreur donné. Cette
nouvelle définition permet d’exprimer les décisions en termes de variables aléatoires. Les
événements « décider que
1
H
est vraie » et « décider que
0
H
est vraie » se traduisent
respectivement par les événements : « n’appartient pas à R » et « appartient à R’ », R étant
un intervalle de la droite des réels dont la forme (fermé, semi ouvert) et les bornes sont à
préciser.
Le calcul des bornes de la région critique passe par l’expression des risques α et β en fonction
de R, c’est-à-dire :
[
]
vraieH/CobPr
0
=
α
[
]
vraieH/CobPr
1
<
=
β
avec C : seuil critique.
3.3. Décision
Tous les éléments sont à présent unis pour mettre au point une règle de cision. Cette
dernière peut s’énoncer ex ante (avant tirage de l’échantillon) de la manière suivante : ne pas
accepter l’hypothèse
0
H
au risque d’erreur α, si la valeur particulière de la fonction
discriminante (qui est une variable aléatoire) dans l’échantillon qui sera prélevé
ultérieurement appartient à la région critique. Ainsi, il ne reste plus qu’à prendre la décision
finale au vu de l’échantillon particulier. L’échantillon en présence conduit à cette conclusion,
mais un autre échantillon peut très bien entraîner une décision contraire. On dira : j’accepte ou
je refuse l’hypothèse
0
H
au risque de α% et compte tenu de l’information à ma disposition.
4. Typologie des tests d’hypothèses
4.1. Tests non paramétriques
Un test est dit non paramétrique lorsque l’état de nature exprimé par les hypohtèses est formulé
en termes qualitatifs. Deux genres de tests non paramétriques seront présentés (appelés aussi
tests de concordance).
Test d’adéquation entre la distribution observée ou empirique et la distribution théorique de la
population.
Test d’indépendance : ici l’échantillon est assimilé à un tableau d’effectif ou de contingence
croisant deux caractères associés à chaque individu observé.
4.2. Tests paramétriques
Tests de signification d’un paramètre :
00
:H
θ
=
θ
(m, σ, p)
Tests de comparaison ou d’égalité de deux paramètres :
210
:H
θ
=
θ
(deux populations)
Echantillonnage M3
EchMod3 4/42
5. Synthèse : démarche à suivre pour construire un test d’hypothèses
Niveau
population Enoncer les hypothèses
0
H
et
1
H
Préciser les hypothèses de travail : loi de la variable dans la population…
Niveau
échantillon
ex ante
Trouver une forme discriminante et proposer en la justifiant une forme de
la région critique.
Spécifier la loi de probabilité de la fonction discriminante dans le cadre de
l’hypothèse
0
H
.
Calculer la frontière de la région critique, étant donné un risque de
première espèce α.
Niveau
échantillon
ex post
Décider au vu de la valeur prise par la fonction discriminante dans
l’échantillon particulier formuler une règle de décision :
Si valeur R,
0
H
rejetée
Si valeur R,
0
H
acceptée.
Unité 2 : Test du χ
2
1. Test d’adéquation
1.1. Données du problème
Soit un échantillon aléatoire de taille n prélevé dans une population à laquelle est associée une
variable aléatoire X. Un tableau des effectifs (fréquences absolues) est construit en regroupant
les observations en k classes qui sont suivant le cas, soit des intervalles de valeurs (des
classes), soit des valeurs entières uniques de la variable aléatoire X.
Classes Effectifs Effectifs
[
[
10
e,e
1
n
1
x
1
n
M
M
M
M
[
[
i1i
e,e
i
n
i
x
i
n
M
M
M
M
[
[
k1k
e,e
k
n
n
x
k
n
n n
La loi de la variable aléatoire X est soit :
- parfaitement déterminée,
- non parfaitement déterminée.
Les
i
x
sont-elles les images de X ?
1.2. Construction du test
La démarche analytique est comparable à celle retenue pour la théorie de l’estimation. Le
modèle théorique se situe ex ante, c’est-à-dire avant tirage. Ultérieurement, le prélévement d’un
échantillon permettra d’accepter ou de refuser l’hypothèse
0
H
avec, bien entendu, un risque
d’erreur toutefois mesurable.
Echantillonnage M3
EchMod3 5/42
1.2.1. La formulation de l’hypothèse
0
H
Soit une population à laquelle est associée une variable X liée à un paramètre θ et dont la loi de
probabilité est notée L(θ). La question que l’on se pose est la suivante : les observations
i
x
sont-elles adéquates au modèle. On fait l’hypothèse
0
H
selon laquelle
)(LX
θ
(par exemple
)6;m(NX
ou
)(PX
λ
avec m, σ, λ calculés sur les échantillons).
En posant comme vraie cette hypothèse, on peut calculer les probabilités
i
p
rattachées à
chaque classe i de la manière suivante :
X : variable aléatoire continue
[
]
i1ii
eXeobPrp
<
<
=
X : variable aléatoire discrète
[
]
ii
xXobPrp
=
=
Classes Effectifs Fréquences
relatives
i
f
Si
0
H
vraie
i
p
=
ii
pF
[
[
10
e,e
1
n
1
f
1
p
M
M
M
M
[
[
i1i
e,e
i
n
n
n
f
i
i
=
i
p
M
M
M
M
[
[
k1k
e,e
k
n
n
n
f
k
k
=
k
p
n
1f
k
1i i
=
=
soit lues dans les tables, dans le cas des variables aléatoires discrètes,
soit calculés, dans le cas des variables aléatoires continues.
Il faut centrer et réduire les bornes des classes :
(
)
σ
,mNX
[ ]
σ
<<
σ
=<<
mp
U
me
PeXeP
i1i
i1i
)1;0(NU
[
]
(
)
(
)
i1iii1i
PuFuFuUuP
=
=
<
<
1.2.2. La fonction discriminante
Les données en présence sont :
- Un échantillon aléatoire de taille n qui sera prélevé, l’effectif total de cet échantillon est réparti
au hasard sur les k classes formant ainsi le tableau des effectifs observés notés
i
n
pour la
classe i.
- Les probabilités
i
p
qui sont calculées sur la base de l’hypothèse
0
H
(et à la suite d’un
découpage de l’intervalle des valeurs possibles conformément aux classes du tableau de
l’échantillon).
1 / 42 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !