Construction d`un test d`hypothèses

Echantillonnage M3

EchMod3 1/42

MODULE 3 : Construction d’un test d’hypothèses

Unité 1 : aspects méthodologiques

L’utilisation des intervalles de confiance comme moyen de décision est possible ; toutefois le

décideur, tout en connaissant l’existence des erreurs qu’il peut commettre, n’est pas en mesure

dévaluer les risques qui leur sont associés avant la prise de sa décision. La théorie des tests,

en ramenant cette dernière au choix entre deux hypothèses antagonistes, notées

0

H

et

1

H

,

rend la démarche plus rigoureuse.

L’hypothèse

0

H

est privilégiée dans le sens où l’observateur souhaite la retenir tant qu’elle

n’est pas infirmée par l’expérience. Dès lors, le test a pour but de mesurer l’adéquation de cette

hypothèse à la réalité observable, c’est-à-dire aux résultats fournis par un échantillon.

La démarche consiste tout d’abord à exprimer les erreurs en termes d’hypothèses « décider à

tort » devient « décider de retenir une hypothèse alors que l’autre est vraie ». Ainsi, il devient

possible de définir deux risques d’erreur et de calculer les probabilités qui leur correspondent,

les probabilités étant liées au caractère aléatoire de tous les échantillons susceptibles d’être

retenus.

Dans une deuxième étape, il s’agit de construire le test, c’est-à-dire de mettre au point

l’instrument de mesure de l’adéquation recherchée. A cette fin, et dans une formulation ex ante,

sont conjointement proposées une statistique d’échantillonage adéquate (appelée

conventionnellement fonction discriminante) et une zone de rejet de l’hypothèse

0

H

(ou région

critique) pour un risque d’erreur raisonnable. Une règle de décision est ensuite formulée, mais

la décision proprement dite n’est prise qu’ultérieurement au vu de la valeur particulière retenue

dans un échantillon particulier.

Comme pour tout instrument de mesure, il sera exigé d’un test d’hypothèse d’être performant.

La puissance d’un test, c’est-à-dire la probabilité de refuser l’hypothèse

0

H

quand elle est

fausse, est définie pour jouer ce rôle. Ainsi compte tenu de la diversité des situations concrètes

envisageables, le critère de choix entre différents tests possibles sera celui correspondant à la

puissance la plus élevée.

1. Risque d’erreur

Deux grands « cas » se présentent :

-

(

)

→

≡

xFX

loi inconnue (1)

-

(

)

→

θ

≡

,xFX

F connue, mais θ inconnu (2)

Les hypothèses à tester sont :

-

(

)

xFX:H

0

≡

(1)

-

00

:H

θ

=

θ

(2)

Soit on conservera l’hypothèse

0

H

, soit on la rejettera.

Les risques d’erreurs encourus par l’observateur peuvent alors être définis par :

• α : risque de première espèce : décider à tort que

0

H

est fausse. Sa probabilité s’écrit :

α = Prob[décider que

1

H

est vraie /

0

H

vraie] ou

α = Prob[rejeter

0

H

/

0

H

vraie]

α est fixé, souvent à 5%.

Echantillonnage M3

EchMod3 2/42

• β : risque de deuxième espèce : décider à tort que

0

H

est vraie. Sa probabilité s’écrit :

β = Prob[décider que

0

H

est vraie /

1

H

vraie]

Il convient de noter que par un abus de langage, le risque et sa mesure sont confondus dans la

pratique courante. Par exemple, l’expression « risque de première espèce » est utilisée à la

place de « probabilité du risque de première espèce ».

Synthèse :

Décision

Décider

0

H

vraie Décider

1

H

vraie

0

H

α

Etat de nature

1

H

β

2. Efficacité d’un test

Les deux cases vides du tableau précédent correspondent aux prababilités complémentaires à

1 de α et de β, mais ne traduisent pas des risques puisque dans les deux cas il n’y a pas

d’erreur de décision. Dans celle de la première ligne, s’inscrirait la probabilité de retenir

0

H

quand celle-ci est vraie, cette probabilité doit être normalement élevée. En revanche, dans la

case vide de la deuxième ligne se trouverait l’expression :

1 - β = 1 – Prob[décider

0

H

vraie /

1

H

vraie] = Prob[décider

1

H

vraie /

1

H

vraie]

c’est-à-dire la probabilité de rejeter l’hypothèse

0

H

quand elle fausse. Cette dernière probabilité

est retenue comme caractéristique de la perfirmande d’un test d’hypothèses.

La puissance d’un test, notée η, est la probabilité de rejeter l’hypothèse

0

H

quand celle-ci n’est

pas vraie ; elle est égale à η = 1 - β où β est le risque de deuxième espèce.

La puissance d’un test est la mesure de l’efficacité de ce test. Elle est comparable à la précision

dans le cas d’un instrument de mesure. Il devient évident qu’un test est considéré d’autant plus

précis (par rapport à l’adéquation entre

0

H

et l’observation) que sa puissance est plus grande.

3. Elaboration d’une règle de décision

La démarche qui conduit à la prise de décision s’effectue en deux étapes. La première consiste

à définir ex ante (avant tirage de l’échantillon) une statistique d’échantillonnage et une zone de

rejet de l’hypothèse

0

H

pour un risque d’erreur donné, puis à élaborer une règle de décision.

La deuxième étape s’accomplit ex post : une déicison est prise au vu d’une valeur particulière

de la statistique retenue, conformément à la règle précédemment proposée.

3.1. Fonction discriminante

Etant donné un test d’hypothèses, la fonction discriminante ∆ est la statistique

d’échantillonnage utilisée pour décider de l’acceptation ou du rejet de l’hypothèse

0

H

d’un test,

celle-ci étant choisie en fonction de la caractéristique objet de ce test. La fonction discriminante

retenue pour un test d’hypothèses doit être de loi de probabilité connue, lorsque l’hypothèse

0

H

d’un test s’exprime à l’aide d’une caractéristique θ d’une loi de probabilité.

Par exemple,

0

H

: « θ prend la valeur

0

θ

» (θ pouvant être aussi bien une moyenne qu’une

variance ou une proportion). La fonction discriminante du test est en général un estimateur de

la caractéristique (possédant les principales propriétés requises d’un bon estimateur) et sa loi

de probabilité dépend donc de θ.

Echantillonnage M3

EchMod3 3/42

3.2. Région critique

La région critique R d’un test d’hypothèses de fonction discriminante ∆ est l’ensemble des

valeurs de ∆ qui induisent au rejet de l’hypothèse

0

H

avec un risque d’erreur donné. Cette

nouvelle définition permet d’exprimer les décisions en termes de variables aléatoires. Les

événements « décider que

1

H

est vraie » et « décider que

0

H

est vraie » se traduisent

respectivement par les événements : « ∆ n’appartient pas à R » et « ∆ appartient à R’ », R étant

un intervalle de la droite des réels dont la forme (fermé, semi ouvert) et les bornes sont à

préciser.

Le calcul des bornes de la région critique passe par l’expression des risques α et β en fonction

de R, c’est-à-dire :

[

]

vraieH/CobPr

0

≥

∆

=

α

[

]

vraieH/CobPr

1

<

∆

=

β

avec C : seuil critique.

3.3. Décision

Tous les éléments sont à présent réunis pour mettre au point une règle de décision. Cette

dernière peut s’énoncer ex ante (avant tirage de l’échantillon) de la manière suivante : ne pas

accepter l’hypothèse

0

H

au risque d’erreur α, si la valeur particulière de la fonction

discriminante ∆ (qui est une variable aléatoire) dans l’échantillon qui sera prélevé

ultérieurement appartient à la région critique. Ainsi, il ne reste plus qu’à prendre la décision

finale au vu de l’échantillon particulier. L’échantillon en présence conduit à cette conclusion,

mais un autre échantillon peut très bien entraîner une décision contraire. On dira : j’accepte ou

je refuse l’hypothèse

0

H

au risque de α% et compte tenu de l’information à ma disposition.

4. Typologie des tests d’hypothèses

4.1. Tests non paramétriques

Un test est dit non paramétrique lorsque l’état de nature exprimé par les hypohtèses est formulé

en termes qualitatifs. Deux genres de tests non paramétriques seront présentés (appelés aussi

tests de concordance).

• Test d’adéquation entre la distribution observée ou empirique et la distribution théorique de la

population.

• Test d’indépendance : ici l’échantillon est assimilé à un tableau d’effectif ou de contingence

croisant deux caractères associés à chaque individu observé.

4.2. Tests paramétriques

• Tests de signification d’un paramètre :

00

:H

θ

=

θ

(m, σ, p)

• Tests de comparaison ou d’égalité de deux paramètres :

210

:H

θ

=

θ

(deux populations)

Echantillonnage M3

EchMod3 4/42

5. Synthèse : démarche à suivre pour construire un test d’hypothèses

Niveau

population • Enoncer les hypothèses

0

H

et

1

H

• Préciser les hypothèses de travail : loi de la variable dans la population…

Niveau

échantillon

ex ante

• Trouver une forme discriminante et proposer en la justifiant une forme de

la région critique.

• Spécifier la loi de probabilité de la fonction discriminante dans le cadre de

l’hypothèse

0

H

.

• Calculer la frontière de la région critique, étant donné un risque de

première espèce α.

Niveau

échantillon

ex post

• Décider au vu de la valeur prise par la fonction discriminante dans

l’échantillon particulier ⇒ formuler une règle de décision :

Si valeur ∈ R,

0

H

rejetée

Si valeur ∉ R,

0

H

acceptée.

Unité 2 : Test du χ

2

1. Test d’adéquation

1.1. Données du problème

Soit un échantillon aléatoire de taille n prélevé dans une population à laquelle est associée une

variable aléatoire X. Un tableau des effectifs (fréquences absolues) est construit en regroupant

les observations en k classes qui sont suivant le cas, soit des intervalles de valeurs (des

classes), soit des valeurs entières uniques de la variable aléatoire X.

Classes Effectifs Effectifs

[

10

e,e

1

n

1

x

1

n

M

[

i1i

e,e

−

i

n

i

x

i

n

M

[

k1k

e,e

−

k

n

x

k

n

n n

La loi de la variable aléatoire X est soit :

- parfaitement déterminée,

- non parfaitement déterminée.

Les

i

x

sont-elles les images de X ?

1.2. Construction du test

La démarche analytique est comparable à celle retenue pour la théorie de l’estimation. Le

modèle théorique se situe ex ante, c’est-à-dire avant tirage. Ultérieurement, le prélévement d’un

échantillon permettra d’accepter ou de refuser l’hypothèse

0

H

avec, bien entendu, un risque

d’erreur toutefois mesurable.

Echantillonnage M3

EchMod3 5/42

1.2.1. La formulation de l’hypothèse

0

H

Soit une population à laquelle est associée une variable X liée à un paramètre θ et dont la loi de

probabilité est notée L(θ). La question que l’on se pose est la suivante : les observations

i

x

sont-elles adéquates au modèle. On fait l’hypothèse

0

H

selon laquelle

)(LX

θ

≡

(par exemple

)6;m(NX

≡

ou

)(PX

λ

≡

avec m, σ, λ calculés sur les échantillons).

En posant comme vraie cette hypothèse, on peut calculer les probabilités

i

p

rattachées à

chaque classe i de la manière suivante :

 X : variable aléatoire continue

[

]

i1ii

eXeobPrp

<

=

−

 X : variable aléatoire discrète

[

]

ii

xXobPrp

=

Classes Effectifs Fréquences

relatives

i

f

Si

0

H

vraie

i

p

∑

=

ii

pF

[

10

e,e

1

n

1

f

1

p

M

[

i1i

e,e

−

i

n

f

i

=

i

p

M

[

k1k

e,e

−

k

n

f

k

=

k

p

n

1f

k

1i i

=

∑

=

• soit lues dans les tables, dans le cas des variables aléatoires discrètes,

• soit calculés, dans le cas des variables aléatoires continues.

Il faut centrer et réduire les bornes des classes :

(

)

σ

≡

,mNX

[ ]













σ

−

<<

σ

−

=<<

−

mp

U

me

PeXeP

i1i

)1;0(NU

≡

[

]

(

)

(

)

i1iii1i

PuFuFuUuP

=

−

=

<

−−

1.2.2. La fonction discriminante

Les données en présence sont :

- Un échantillon aléatoire de taille n qui sera prélevé, l’effectif total de cet échantillon est réparti

au hasard sur les k classes formant ainsi le tableau des effectifs observés notés

i

n

pour la

classe i.

- Les probabilités

i

p

qui sont calculées sur la base de l’hypothèse

0

H

(et à la suite d’un

découpage de l’intervalle des valeurs possibles conformément aux classes du tableau de

l’échantillon).

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

Construction d`un test d`hypothèses

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Construction d`un test d`hypothèses

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib