test - WordPress.com

publicité
- 10 Tests d’hypothèses
Version 1.2
1
Sujets abordés
Tests d’hypothèses
 Paramétriques
 Non-paramétriques
 Illustration sur Excel
 Calculs de valeurs critiques
 Calculs de tests

2
Introduction

Un test d’hypothèse est une démarche consistant à
rejeter ou ne par rejeter (accepter) une hypothèse en
fonction d’un jeu de données

Les hypothèses souvent testées concernent les
caractéristiques statistiques d’une population :
 La moyenne
 La variance
 La comparaison de la moyenne de 2(+) jeux de données
 La comparaison de la variance de 2(+) jeux de données
 La forme de la distribution
…

Chaque catégorie d’hypothèse fera appel à un type de
test particulier
3
Introduction
Nous pouvons classer les tests d’hypothèses en 2
grandes catégories :
Les tests paramétriques :
Une hypothèse est dite paramétrique s’il s’agit d’un
énoncé quantitatif concernant un paramètre de la ou des
populations (moyenne ou écart-type)
Les tests non-paramétriques :
Lorsque l’énoncé concerne la forme de la distribution
alors il s’agit d’une hypothèse non paramétrique
4
Étapes d’un test d’hypothèse
1.
Poser une hypothèse
2.
Identifier le test statistique et la distribution de probabilité
adéquats
3.
Spécifier le seuil de signification du test
4.
Énoncer une règle de décision
5.
Récupérer des données (échantillon), calculer le test
statistique et prendre la décision
5
Les hypothèses
La première étape de tout test d’hypothèse consiste à
poser l’hypothèse que nous testerons, ainsi que
l’hypothèse alternative
H0 : Hypothèse nulle
C’est l’hypothèse que nous voudrons tester selon laquelle
on fixe a priori un paramètre d’une population à une valeur
particulière. Elle est considérée comme vraie sauf si les
résultats du test d’hypothèse permettent de la rejeter.
Ha : Hypothèse alternative
C’est l’hypothèse que l’on « accepte » lorsque les résultats
d’un test d’hypothèse permettent de rejeter l’hypothèse
nulle.
6
Les hypothèses
Il y a 3 formulations possibles pour les hypothèses :
1) H0 : θ = θ0

Ha : θ ≠ θ0
2) H0 : θ ≤ θ0

Ha : θ > θ0
3) H0 : θ ≥ θ0

Ha : θ < θ0
La première formulation fait référence à un test bilatéral
Les deux dernières formulations font référence à un test
unilatéral
7
Les hypothèses
Exemple :
Nous désirons tester si le rendement mensuel moyen des
actions de la banque Laurentienne est de 1 %
Hypothèse nulle : Le rendement mensuel moyen des
actions est de 1 %
θ  Le paramètre évalué sera la moyenne (μ)
θ0  La valeur particulière de μ sera 1%
H0 : μ = 1%
Hypothèse alternative : Le rendement mensuel moyen
des actions n’est pas de 1 %
Ha : μ ≠ 1%
8
Les tests statistiques
La deuxième étape dans un test d’hypothèse consiste à
identifier le test statistique et la distribution de probabilité
adéquats
La forme la plus courante d’un test statistique est la
suivante :
Valeur de θ – Valeur de θ selon H0
Erreur standard de θ
C’est notamment la forme que prendra les tests
statistiques concernant les moyennes
9
Les tests statistiques
Une fois que le test statistique est bien identifié, nous
devons choisir la distribution de probabilité que suivra ce
test
Les quatre distributions les plus fréquemment utilisées sont
les suivantes :

La distribution de Student (t-test)

La distribution Normale centrée réduite (z-test)

La distribution du Khi-Carré (χ² test)

La distribution de Fisher (F-test)
10
Les tests statistiques
t-test
Un t-test suit une distribution de Student
Il s’agit d’une distribution symétrique et leptokurtique
Le résultat d’un t-test sera toutefois valide tant que l’asymétrie ou
l’excès de kurtose n’est pas trop important…
Ce test sera utilisé pour :
1) Test de moyenne
2) Test de comparaison de moyennes
11
Les tests statistiques
t-test
Lorsque nous testons une moyenne, nous avons le choix
entre le t-test et le z-test
Quand choisir le t-test ?
 La variance de la population est inconnue
Possibilité 1 :
Possibilité 2 :
ET
Taille de l’échantillon important
Population distribuée quasi-normalement
Sinon :
Ni le t-test, ni le z-test ne s’appliquera
 La variance de la population est connue
ET
Petite taille de l’échantillon (n < 30)
Sinon :
Le z-test sera préféré
12
Les tests statistiques
t-test
Test de moyenne :
1. Poser une hypothèse :  0
2. Calculer la statistique t :
x  0
t n 1 
s n
3. Comparer la statistique t avec la valeur critique
correspondante (table de Student)
13
Les tests statistiques
t-test
Différence de moyenne
Cas 1 : variance des 2 populations est assumée identique et
les 2 populations sont assumées indépendantes
t n1  n2  2 
où :
( x1  x2 )  ( 1   2 )
12
s
s 
  
n n 
2 
 1
2
p
2
p
Moyenne
pondérée des
variances
2
2
(
n

1
)
s

(
n

1
)
s
1
2
2
s 2p  1
n1  n2  2
14
Les tests statistiques
t-test
Différence de moyenne
Cas 2 : variance des 2 populations est assumée différente
et les 2 populations sont assumées indépendantes
tk 
( x1  x2 )  ( 1   2 )
12
s
s 
  
 n1 n2 
2
1
2
2
Addition des
variances
normalisées
k  min( n1 1, n2 1)
15
Les tests statistiques
t-test
Différence de moyenne
Cas 3 : Les 2 populations sont corrélées ensemble
(dépendantes)
Nous devons modifier le t-test pour tenir compte de cette dépendance
1) Calculons di = distance entre les paires
(exemple : di = RA,i – RB,i)
2) La statistique t sera :
d  d
tn 1 
sd n
d

où : d 
i
n
sd2 
2
(
d

d
)
 i
n 1
16
Les tests statistiques
z-test
Un z-test suit une distribution Normale centrée réduite
Il s’agit d’une distribution symétrique et mésokurtique
Ce test sera utilisé pour :
1) Test de moyenne
2) Test de comparaison de moyennes
17
Les tests statistiques
z-test
Lorsque nous testons une moyenne, nous avons le choix
entre le t-test et le z-test
Quand choisir le z-test ?
 La variance de la population est connue
La taille de l’échantillon est importante
Sinon :
ET
Le t-test sera préféré
 La variance de la population est inconnue
Les données sont distribués quasi-normalement
La taille de l’échantillon est importante
ET
ET
18
Les tests statistiques
z-test
Un z-test suit une distribution Normale centrée réduite
Test de moyenne (variance inconnue) :
x  0
z
s n
Test de moyenne (variance connue) :
x  0
z
 n
19
Les tests statistiques
χ² - test
Le test du Khi carré est principalement utilisé en finance pour
tester une hypothèse concernant la variance d’une population
Contrairement aux distributions Normale et de Student, la
distribution du Khi carré est asymétrique et bornée
négativement par 0
Pour que ce test puisse s’appliquer, il faut que la population
soit normalement (ou quasi-normalement) distribuée et que
toutes les observations soient indépendantes

2
n 1

(n  1) s 2
 02
20
Les tests statistiques
χ² - test
La forme de la distribution du Khi carré dépend de la valeur de
son paramètre (k = nombre de degré de liberté)
21
Les tests statistiques
F - test
Les tests concernant la différence entre la variance de 2
populations se font à l’aide d’un F-test qui décrit le ratio entre
la variance de deux échantillons
La distribution de Fisher est asymétrique et bornée
négativement par 0. Chaque distribution est décrite par 2
paramètres appelé « degré de liberté du numérateur » et
« degré de liberté du dénominateur ». Elle s’applique à des
populations distribuées normalement (ou quasi-normalement).
s12
Fn1 1,n2 1  2
s2
Par convention, nous calculons le ratio le plus élevé entre les
2 variances (ratio > 1)
22
Les tests statistiques
F - test
La forme de la distribution de Fisher dépendra de la valeur de
ses deux paramètres
23
Seuil de signification
Suite à la réalisation d’un test statistique, nous avons une
décision à prendre :
Allons-nous rejeter l’hypothèse nulle ou non ?
Cette décision sera prise en comparant le résultat d’un test
statistique avec une valeur théorique correspondant au
niveau de signification désiré (table de probabilité)
Le seuil de signification d’un test statistique représente le
risque que nous rejetions à tort l’hypothèse nulle (erreur de
type I)
Les seuils de signification les plus utilisés sont :
10%, 5% et 1%
24
Seuil de signification
Ne pas rejeter H0
H0 vraie
H0 fausse
Bonne décision
Erreur de type
II (β)
Rejeter H0
Erreur de type I
(α)
Bonne décision
Puissance d’un test
statistique (1-β)
La probabilité d’une erreur de type I est noté α. Cette
probabilité représente également le seuil de signification
pour un test d’hypothèse.
25
Seuil de signification
Règle générale, plus on diminue la probabilité d’une erreur de
type I (diminuer le seuil de signification), plus on augmente le
risque de faire une erreur de type II.

Car nous allons rejeter moins fréquemment l’hypothèse
nulle, même lorsqu’elle est fausse
Il est difficile d’équilibrer les risques entre les erreurs de type I
et les erreurs de type II car les probabilités d’erreur de type II
sont difficiles à quantifier
La seule façon de réduire à la fois les risques d’erreur de
type I et de type II consiste à augmenter la taille de
l’échantillon
26
Règle de décision
Dans le cas d’un test bilatéral,
deux bornes de rejet existent. Le
résultat du test statistique doit
donc se situer entre ces deux
bornes
α/2
α/2
Dans le cas d’un test unilatéral,
une seule borne de rejet existe.
Pour un test unilatéral à droite, le
résultat du test doit donc être
inférieur à la borne de rejet
27
Règle de décision
Une alternative souvent utilisée aux règles de décision
associées aux tests statistiques est le seuil descriptif du
test « p-value »
Par définition, la « p-value » est le plus petit niveau de
signification pour lequel l’hypothèse nulle peut être rejetée
L’utilisation de la p-value permet donc d’accélérer la prise
de décision lors d’un test statistique puisqu’elle évite le
recours à une table de valeur des distributions
La p-value associée à un test statistique peut être
calculée manuellement, mais il est habituel d’obtenir cette
valeur via des logiciels statistiques (et Excel)
28
Application d’un test
Exemple Banque Laurentienne :
1.
H0 : μ = 1 %
versus Ha : μ ≠ 1 %
2.
Nous utiliserons un t-test
3.
Avec un seuil de signification de 5 %
4.
À l’aide d’une table de la loi Student, nous pouvons
identifier les deux bornes de rejet. Il s’agit respectivement
de -1.98 et +1.98. Nous ne rejetterons pas l’hypothèse
nulle si -1.98 < t < +1.98
5.
Nous avons récupéré les données sur les rendements
mensuels des actions de la banque Laurentienne
29
Application d’un test
Exemple Banque Laurentienne (suite) :
Le rendement mensuel moyen des actions de janvier 2000 à
octobre 2008 (105 observations) est de 1.26 %
L’écart-type de ces rendements est de 5.96 %
Notre statistique t sera donc égale à :
t104 
x   0 1.26%  1.00%

 0.4397
s n
5.96% 105
Puisque le résultat de notre test statistique se situe entre
nos 2 bornes de rejets, nous ne pouvons pas rejeter
l’hypothèse nulle
30
Tests non-paramétriques
Un analyste peut parfois désirer tester une hypothèse qui
ne concerne ni la moyenne, ni la variance, ni un autre
paramètre d’une distribution de données
Ce type de test d’hypothèse est alors appelé test « nonparamétrique »
Mentionnons les 3 situations les plus fréquentes où le
recours à des tests non paramétriques sera nécessaire :
1.
Lorsque l’hypothèse que nous posons ne concerne
pas un paramètre
2.
Lorsqu’un jeu de données ne satisfait pas une
hypothèse de distribution
3.
Lorsque les données sont ordonnées en rangs
31
Tests non-paramétriques
Cinq tests sont souvent utilisés pour évaluer la
compatibilité d’un jeu de données avec la loi
Normale :
1.
2.
3.
4.
5.
Test Kolmogorov-Smirnov (KS)
Test de Jarque Bera (JB)
Test Shapiro-Wilk (SW)
Test Anderson-Darling (AD)
Test Cramer-Von Mises (CvM)
32
Tests non-paramétriques
Test Kolmogorov-Smirnov (KS)
Estime si un jeu de données suit une loi de probabilité
connue en calculant la distance maximale entre la courbe
de distribution théorique et la courbe de distribution
empirique
Ce test est très utilisé lorsque les jeux de données sont de
grande taille (n > 2000)
Le test KS est sensible à la présence de données
aberrantes
33
Tests non-paramétriques
Test Jarque Bera (JB)
Ce test compare le coefficient d’asymétrie et le kurtosis
d’un jeu de données par rapport aux valeurs Normales
(asymétrie de 0 et kurtose de 3)
H0 : Les données empiriques suivent une loi Normale
Ha : Les données ne suivent pas une loi Normale
2
n  2 KUR  3 
 ~  22
JB    AS 

6 
4

La valeur tendra vers 0 lorsque les données seront
Normales
34
Tests non-paramétriques
Test Shapiro-Wilk (SW)
Ce test est basé sur la statistique « W » qui représente le
coefficient de détermination entre la série des quantiles
générés à partir de la loi Normale et les quantiles
empiriques obtenus à partir des données
H0 : Les données empiriques suivent une loi Normale
Ha : Les données ne suivent pas une loi Normale


a
(
X

X
)
n  i 1
i 
 i

W   i 1
2
(
X

X
)
i i
n/2
où
2
ai = constantes de Shapiro-Wilk (table)
35
Tests non-paramétriques
Test Shapiro-Wilk (SW)
Le test SW est puissant pour tester la normalité de petits
effectifs (n < 50)
Plus W est élevé, plus la compatibilité avec la loi Normale
est crédible
La règle de décision du test SW s’appuie sur les valeurs
critiques de W que l’on retrouvent dans une table
Mettre en œuvre manuellement le test SW requiert donc
de connaître la table des constantes ai et la table des
valeurs critiques de W
36
Données ordonnées en rang
En finance, nous voulons souvent connaître le niveau de
dépendance qui unit 2 variables. Notre premier réflexe
sera de calculer le coefficient de corrélation (Pearson). Le
coefficient de corrélation permet en effet de déterminer la
force de la relation linéaire entre deux variables.
Il n’est pas faux de calculer la corrélation de Pearson.
Toutefois il est important de savoir que nous faisons une
hypothèse implicite importante :

Toutes les observations (x,y) des deux variables
étudiées sont une observation aléatoire d’une distribution
Normale bivariée
37
Données ordonnées en rang
Si nous avons des raisons de croire que les données
étudiées s’écartent de cette hypothèse de distribution
(surtout lorsqu’il est question d’asymétrie), nous devrions
utiliser un calcul de corrélation basé sur les rangs :
Le coefficient basé sur les rangs de Spearman

L’interprétation de la corrélation de Spearman est la même
que celle de Pearson [-1,+1]
n
rs  1 
6   di2
i 1
2
n(n  1)
où : di est l’écart entre les
rangs de chaque paire
d’observation x et y
38
Données ordonnées en rang
Dans un monde idéal, il serait préférable de toujours
comparer le coefficient de Pearson au coefficient de
corrélation de Spearman
Lorsqu’un écart important est constaté entre les 2
coefficients, il serait préférable de privilégier celui de
Spearman
 Moins sensible à la présence de données extrêmes
 N’est pas restreint aux liens linéaires
Exemple :
Corrélation entre les prix historiques de l’indice boursier
canadien (S&P/TSX Composite) et d’un indice boursier
américain (S&P 500)
39
Test de corrélation
Tout comme il est possible de tester diverses hypothèses
concernant la moyenne et la variance, il est également
possible de réaliser un test d’hypothèse sur le coefficient
de corrélation

Nous ferons un t-test avec n – 2 degrés de liberté
 Nous testerons si la corrélation de la population (ρ) est
nulle (H0 : ρ = 0)
tn2 
r n2
1 r 2
 Valide pour corrélation de Pearson et de Spearman
40
Téléchargement