Statistique élémentaire avec R Partie 2 : Test d`hypothèses et

publicité
Statistique élémentaire avec R
Partie 2 : Test d’hypothèses et régression linéaire
Julien JACQUES
Université Lumière Lyon 2
1 / 48
Plan
Tests d’hypothèses
Régression linéaire
2 / 48
Plan
Tests d’hypothèses
Principe d’un test statistique
Typologie des tests statistiques
Tests de liaison entre variables
Tests de comparaison de populations indépendantes
Régression linéaire
La régression linéaire simple
La régression linéaire multiple
Tests sur le modèle de régression linéaire
Prédiction
Détection d’observations atypiques
3 / 48
Principe d’un test statistique
Un exemple
1. Test H0 : µ = µ0 contre H1 : µ ̸= µ0
2. Stat. de test T =
X̄ −µ0
S
√
n
∼H0 tn−1 Student à n-1 degrés de liberté
3. α = 5%
4. Zone de rejet W = {x̄ : |t| =
|x̄ −µ0 |
s
√
> −tn−1, α2 }
n
0.5
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
α
α
2
2
0.05
0
-4
-3
-2
t
α
-1
2
0
1
t21−α
3
4
2
5. calcul de t puis acceptation de H0 si t est entre les bornes, rejet sinon
4 / 48
Principe d’un test statistique
Les étapes
1. Identifier des hypothèses H0 (hyp. nulle, simple) et H1 (hyp. alternative, composite)
2. Définir un statistique de test T , dont la loi est différente sous H0 et H1
3. Choisir un risque de première espèce α (5%, 10%...)
4. Définir la zone de rejet W de H0 , en fonction de H1 (test uni- ou
bilatéral) et de α
5. Calculer la valeur t de la statistique de test T
6. Conclure au rejet de H0 si t ∈ W où à son acceptation dans le cas
contraire
5 / 48
Principe d’un test statistique
Les risques antagonistes
❵❵❵
❵❵❵Vérité
Décision
❵❵
H0
H1
H0
H1
conclusion correcte
erreur de première espèce
erreur de deuxième espèce
conclusion correcte
Table : Erreurs associés à un test
❳❳❳
❳❳ Vérité
H0
❳❳❳
Décision
❳❳
H0
niveau de confiance 1 − α
H1
risque α
Table : Risques associés à un test
6 / 48
H1
risque β
1−β
Principe d’un test statistique
La p-value p∗
!
!
!
plus petite valeur de α conduisant à rejeter H0
probabilité sous H0 d’observer une statistique de test aussi extrême
(au sens de H1 ) que le t observé
probabilité de se tromper lorsqu’on rejette H0
Exemple : test unilatéral H0 : µ = 0 contre H1 : µ > 0
p∗ = P(T > t) où T stat. de test et t sa valeur sur l’échantillon
7 / 48
Principe d’un test statistique
La p-value p∗
!
!
!
plus petite valeur de α conduisant à rejeter H0
probabilité sous H0 d’observer une statistique de test aussi extrême
(au sens de H1 ) que le t observé
probabilité de se tromper lorsqu’on rejette H0
Exemple : test unilatéral H0 : µ = 0 contre H1 : µ > 0
p∗ = P(T > t) où T stat. de test et t sa valeur sur l’échantillon
Utilisation de la p-value p∗
!
si α > p∗ : rejet de H0
7 / 48
!
si α < p∗ : acceptation de H0
Plan
Tests d’hypothèses
Principe d’un test statistique
Typologie des tests statistiques
Tests de liaison entre variables
Tests de comparaison de populations indépendantes
Régression linéaire
La régression linéaire simple
La régression linéaire multiple
Tests sur le modèle de régression linéaire
Prédiction
Détection d’observations atypiques
8 / 48
Typologie des tests
Tests de liaison entre variables
!
!
!
!
Tester la liaison entre deux variables quantitatives : Test de
corrélation
Tester la liaison entre deux variables qualitatives : Test
d’indépendance du χ2
Tester la liaison entre une variable quantitative et une variable
qualitative : ANOVA à 1 facteur
Tester la liaison entre une variable quantitative et K variables
qualitatives : ANOVA à K facteur
Tests de comparaison de populations indépendantes
!
!
Test de comparaisons des variances de Fisher
Test de comparaisons des moyennes de Student
9 / 48
Typologie des tests - Logiciel R
Tests de liaison entre variables
!
!
!
!
Tester la liaison entre deux variables quantitatives : fonction
cor.test
Tester la liaison entre deux variables qualitatives : fonction
chisq.test
Tester la liaison entre une variable quantitative et une variable
qualitative : fonction aov
Tester la liaison entre une variable quantitative et K variables
qualitatives : fonction aov
Tests de comparaison de populations indépendantes
!
!
Test de comparaisons des variances de Fisher : fonction var.test
Test de comparaisons des moyennes de Student : fonction t.test
10 / 48
Plan
Tests d’hypothèses
Principe d’un test statistique
Typologie des tests statistiques
Tests de liaison entre variables
Tests de comparaison de populations indépendantes
Régression linéaire
La régression linéaire simple
La régression linéaire multiple
Tests sur le modèle de régression linéaire
Prédiction
Détection d’observations atypiques
11 / 48
Test de corrélation
Conditions d’application :
!
X et Y deux variables aléatoires quantitatives
Hypothèses
H0 : ρX ,Y = 0 contre H1 : ρX ,Y ̸= 0
Statistique de test
T =
√
!n
1−RXY
l’estimateur du coefficient de corrélation
Décision
on rejette H0 si
t > tn−2,1− α2
ou
12 / 48
i=1 (Xi −X̄ )(Yi −Ȳ )
!n
2
2
i=1 (Xi −X̄ )
i=1 (Yi −Ȳ )
n − 2 √ RXY 2 ∼H0 tn−2 où RXY = √!n
t < tn−2, α2
est
Test d’indépendance du χ2
Conditions d’application :
!
X et Y deux variables aléatoires qualitatives à k et r modalités
!
nij : nombre d’observations ayant la modalité i de X et j de Y
!
!
ni. = rj=1 nij et n.j = ki=1 nij
nij ≥ 5
Hypothèses
H0 : X et Y indépendantes contre H1 : X et Y dépendantes
Statistique de testn
d2 =
!k
i=1
Décision
!r
j=1
on rejette H0 si
d 2 > χ2(k −1)(r −1)1−α
13 / 48
i. n.j
n
ni. n.j
n
(nij −
)2
∼H0 χ2(k −1)(r −1)
ANOVA à 1 facteur
Conditions d’application :
!
!
!
X une variable quantitative, A un facteur qualitatif à K modalités
échantillons grands (n ≥ 30) ou gaussiens (pour chaque modalité)
variances homogènes
Hypothèses
A influe-t-il X ?
H 0 : µ1 = . . . = µK = µ
contre
Statistique de test
F =
!
VR2
VA2
K −1 / n−K
VA2 =
1
n
K
!
où
nk (X̄k − X̄ )2 est la variance expliquée par le facteur A
k =1
!
VR2 est la variance résiduelle
!
avec variance totale VT2 = VA2 + VR2
14 / 48
H1 : ∃1 ≤ i, j ≤ K t.q. µi ̸= µj
ANOVA à 1 facteur
Présentation des résultats
Facteur
Somme
des carrés
degrés de
liberté
carré
moyen
A
Résidu
Total
SSA
SSR
SST
K −1
n−K
n−1
SSA/(K − 1)
SSR/(n − K )
F
F =
SSA/(K −1)
SSR/(n−K )
ou SSA = nVA2 , SSR = nVR2 et SST = nVT2 .
Décision
On conclue à un effet de A (rejet de H0 ) si F > FK −1,n−K ,1−α
15 / 48
ANOVA à 2 facteur
Conditions d’application :
!
!
X une variable quantitative, A et B deux facteurs qualitatifs à J et K
modalités
échantillons grands (n ≥ 30) ou gaussiens (pour chaque croisement de
modalités)
!
variances homogènes
Hypothèses
!
Le facteur A a-t-il une influence sur X ?
Le facteur B ?
!
Et l’interaction entre les deux facteurs ?
!
16 / 48
ANOVA à 2 facteur
Décomposition de la variance totale
SST = SSA + SSB + SSAB + SSR
avec
n
SST =
jk
J "
K "
"
2
(Xijk − X̄... ) ,
SSA =
j=1 k =1 i=1
SSAB =
K
J "
"
j=1 k =1
J
"
j=1
2
nj. (X̄.j. − X̄... ) ,
SSB =
K
"
k =1
2
n.k (X̄..k − X̄... ) ,
n
njk (X̄.jk − X̄.j. − X̄..k + X̄... )2 ,
et SSR =
jk
J "
K "
"
j=1 k =1 i=1
(Xijk − X̄.jk )2
où
n
X̄.jk =
17 / 48
jk
1 "
Xijk ,
njk i=1
X̄..k =
J
1 "
X̄.jk ,
n.k j=1
X̄.j. =
K
1 "
X̄.jk
nj. k =1
n
et X̄... =
jk
K
J
1 """
Xijk .
n j=1 k =1 i=1
ANOVA à 2 facteur
Présentation des résultats
Facteur
Somme
des carrés
degrés de
liberté
carré
moyen
F
SSA/(J−1)
FA =
SSR/(n−JK )
SSB/(K −1)
FB =
SSR/(n−JK )
SSAB/(K −1)(J−1)
FAB =
SSR/(n−JK )
A
SSA
J −1
SSA/(J − 1)
B
SSB
K −1
SSB/(K − 1)
Interaction AB
SSAB
Résidu
Total
(J − 1)(K − 1)
SSAB/(K − 1)(J − 1)
SSR
SST
n − JK
n−1
SSR/(n − JK )
Décision
!
!
!
On conclue à un effet de A si FA > FJ−1,n−JK ,1−α
On conclue à un effet de B si FB > FK −1,n−JK ,1−α
On conclue à un effet de l’interaction entre A et B si
FAB > F(K −1)(J−1),n−JK ,1−α
18 / 48
Plan
Tests d’hypothèses
Principe d’un test statistique
Typologie des tests statistiques
Tests de liaison entre variables
Tests de comparaison de populations indépendantes
Régression linéaire
La régression linéaire simple
La régression linéaire multiple
Tests sur le modèle de régression linéaire
Prédiction
Détection d’observations atypiques
19 / 48
Test de comparaisons des variances de Fisher
Conditions d’application :
!
échantillons gaussiens
Hypothèses
H0 : σ1 = σ2 contre H1 : σ1 ̸= σ2
Statistique de test
F =
n1 V 2
1
n1 −1
n2 V 2
2
n2 −1
=
Décision
S12
S22
on rejette H0 si
20 / 48
avec S12 > S22
∼H0 Fn1 −1,n2 −1
S12
S22
> fn1 −1,n2 −1,1−α
Test de comparaisons des moyennes de Student
Conditions d’application :
!
!
échantillons grands (n ≥ 30) ou gaussiens
variances égales : σ12 = σ22
Hypothèses
H0 : µ1 = µ2 contre H1 : µ1 ̸= µ2
Statistique de test
T =
#
X̄1 −X̄2 −(µ1 −µ2 )
$
%
n1 V 2 +n2 V 2
1
1
2
1
n +n −2
n +n
1
2
1
∼H0 tn1 +n2 −2
2
Décision
on rejette H0 si
|x̄1 − x̄2 | > −tn1 +n2 −2, α2
21 / 48
"
n1 v12 +n2 v22
n1 +n2 −2
#
1
n1
+
1
n2
$
.
Test de comparaisons des moyennes de Student
Conditions d’application :
!
!
échantillons grands (n ≥ 30) ou gaussien
variances différentes : σ12 ̸= σ22
Hypothèses
H0 : µ1 = µ2 contre H1 : µ1 ̸= µ2
Correction d’Aspin Welch
il faut remplacer le nombre de degrés de liberté de la loi de Student
(n1 + n2 − 2 lorsque les variances sont égales) par l’entier le plus proche
de :
v12
1
n1 −1
n= 2
où c = v 2
(1−c)2
v22
c
1
n1 −1 + n2 −1
n1 −1 + n2 −1
22 / 48
Test de comparaisons des moyennes de Student cas apparié
Conditions d’application :
!
!
échantillons grands (n ≥ 30) ou gaussiens
échantillons dépendants (appariés) : chaque échantillon correspond
à des mesures différentes des mêmes individus
Test
on travaille sur la différence Di = X1i − X2i entre les 2 échantillons, et on
test la nullité de la moyenne des Di :
H0 : µ = 0 contre H1 : µ ̸= 0
23 / 48
Test de comparaisons des moyennes de Student cas unilatéral
Conditions d’application :
!
!
échantillons grands (n ≥ 30) ou gaussiens
variances égales : σ12 = σ22 (sinon correction Aspin-Welch)
Hypothèses
H0 : µ1 = µ2 contre H1 : µ1 > µ2
Statistique de test
T =
#
X̄1 −X̄2 −(µ1 −µ2 )
$
%
n1 V 2 +n2 V 2
1
1
1
2
n +n −2
n +n
1
2
1
∼H0 tn1 +n2 −2
2
Décision
on rejette H0 si
24 / 48
x̄1 > x̄2 − tn1 +n2 −2, α2
"
n1 v12 +n2 v22
n1 +n2 −2
#
1
n1
+
1
n2
$
.
Plan
Tests d’hypothèses
Régression linéaire
25 / 48
Modélisation statistique
Les différents types de modélisation
Variable à expliquer
1 quanti.
1 quanti.
1 quanti.
1 quanti.
Variables explicatives
1 quanti.
plusieurs quanti.
plusieurs quali.
plusieurs quali. et quanti.
Nom de l’analyse
régression simple
régression multiple
analyse de variance
analyse de covariance
Objectifs
!
prédictifs
!
descriptifs : sélection des variables pertinentes, forme du modèle
Les étapes
!
!
!
identifier le problème → choix du modèle statistique
estimer les paramètres
évaluer la qualité de la modélisation obtenue
utiliser le modèle pour répondre à la question posée
!
26 / 48
Plan
Tests d’hypothèses
Principe d’un test statistique
Typologie des tests statistiques
Tests de liaison entre variables
Tests de comparaison de populations indépendantes
Régression linéaire
La régression linéaire simple
La régression linéaire multiple
Tests sur le modèle de régression linéaire
Prédiction
Détection d’observations atypiques
27 / 48
Le modèle de régression linéaire simple
Les données
Un échantillon (Xi Yi )i=1,n
!
!
variable à prédire : Y
variable explicative : X
si la liaison entre X et Y n’est pas linéaire, tester des transformations (log, puissance...)
Le modèle
Yi = β0 + β1 Xi + ϵi où ϵi ∼ N (0, σ 2 ) i.i.d
Écriture matricielle :
⎤
Y1
⎢ . ⎥
⎣ .. ⎦
Yn
⎡
Y
28 / 48
1
⎢ .
⎣ ..
1
⎡
⎤
⎤
X1 (
ϵ1
)
.. ⎥ β0 + ⎢ .. ⎥
⎣ . ⎦
. ⎦ β1
Xn
ϵn
=
⎡
=
Xβ + ϵ
Le modèle de régression linéaire simple
Estimation des paramètres
On cherche β = (β0 , β1 ) minimisant l’écart entre les valeurs prédites
Ŷi = β0 + Xi β1 et les valeurs observées Yi :
min
n
%
i=1
(Yi − β0 − Xi β1 )2
Les solutions sont
βˆ0 = Ȳ − βˆ1 X̄ ,
où SXY =
X et Y .
29 / 48
1
n−1
!n
i=1 (Xi
SXY
βˆ1 = 2 .
SX
− X̄ )(Yi − Ȳ ) est l’estimateur de la covariance de
Plan
Tests d’hypothèses
Principe d’un test statistique
Typologie des tests statistiques
Tests de liaison entre variables
Tests de comparaison de populations indépendantes
Régression linéaire
La régression linéaire simple
La régression linéaire multiple
Tests sur le modèle de régression linéaire
Prédiction
Détection d’observations atypiques
30 / 48
Le modèle de régression linéaire multiple
Les données
Un échantillon (Xi1 , . . . , Xip , Yi )i=1,n
!
!
variable à prédire : Y
p variables explicatives : X1 , . . . , Xp
Le modèle
Yi = β0 +
p
%
βj Xij + ϵi
j=1
où ϵi ∼ N ⎡
(0, σ 2 )⎤i.i.d
31 / 48
Y1
⎢ . ⎥
⎣ .. ⎦
Yn
=
Y
=
1
⎢ .
⎣ ..
1
⎡
X11
..
.
Xn1
Xβ + ϵ
...
...
⎤
⎡
⎡
⎤ β
X1p ⎢ 0 ⎥
β
1
⎥ ⎢
.. ⎥ ⎢
. ⎥+⎣
. ⎦⎢
⎣ .. ⎦
Xnp
βp
⎤
ϵ1
.. ⎥
. ⎦
ϵn
(1)
(2)
Le modèle de régression linéaire multiple
Estimation des paramètres
On cherche β = (β0 , β1 , . . . , βp ) minimisant l’écart entre les valeurs
!p
prédites Ŷi = β0 + j=1 βj Xij et les valeurs observées Yi :
min
n
%
i=1
(Yi − β0 −
p
%
j=1
La solution est
β̂ = (X′ X)−1 X′ Y.
32 / 48
βj Xij )2
Plan
Tests d’hypothèses
Principe d’un test statistique
Typologie des tests statistiques
Tests de liaison entre variables
Tests de comparaison de populations indépendantes
Régression linéaire
La régression linéaire simple
La régression linéaire multiple
Tests sur le modèle de régression linéaire
Prédiction
Détection d’observations atypiques
33 / 48
Normalité des résidus
Dans le but de faire des tests sur le modèle de régression obtenus, nous
avons fait l’hypothèse de normalité des résidus ϵi = ŷi − yi .
Test de normalité
Il existe des tests statistiques permettant de tester l’adéquation d’une
série de données (ici les résidus) à une loi normale :
! test de Shapiro-Wilk: fonction shapiro.test
34 / 48
Homoscédasticité des résidus
La technique d’estimation utilisée suppose que résidus ϵi = ŷi − yi ont
une variance σ 2 constante (ne dépendant pas de i).
Homoscédasticité des résidus
Pour vérifier cette hypothèse, on représente généralement les résidus
en fonction des variables explicatives (ou des valeurs prédites), et on
vérifie visuellement que la variance est homogène sur l’ensemble de
variation de chaque variable explicative
!
représentation graphique
35 / 48
Test de non corrélation des résidus
La technique d’estimation utilisée suppose que les résidus sont non
corrélés.
Test de Durbin-Watson
Le test de Durbin-Watson permet de vérifier que les ϵi ne sont pas
corrélés.
Statistique de test :
!n
(ϵi − ϵi−1 )2
d = i=2!n 2
i=1 ϵi
qui doit être proche de 2.
36 / 48
Analyse de variance de la régression
On teste l’apport du modèle de régression
Hypothèses
H0 : β1 = . . . = βp = 0 contre H1 : ∃j : βj ̸= 0
Statistique de test
On décompose la variance de Y en ||Y − Ȳ||22 = ||Ŷ − Ȳ||22 + ||Y − Ŷ||22
& '( ) & '( ) & '( )
SST
Source
Régression
Erreur
Total
Somme
des carrés
SSReg
SSR
SST
degrés de
liberté
p
n−p−1
n−1
SSReg
SSR
carré
moyen
MSReg = SSReg/p
MSR = SSR/(n − p − 1)
F
F =
Décision
on rejette H0 (la régression est valide) si F > fp,n−p−1,1−α
37 / 48
MSReg
MSR
Analyse de variance de la régression
SST
variance
totale
38 / 48
SSReg
variance
expliquée
SSR
variance
résiduelle
Coefficient de détermination
Coefficient de détermination
Le coefficient de détermination R 2 :
R2 =
SSReg
SST
est un indicateur de la qualité du modèle de régression.
Propriétés :
!
!
!
R 2 ∈ [0, 1]
dans le cas de la régression simple : R 2 = ρ2XY
plus le nombre de variables est grand, plus R 2 est grand
39 / 48
Coefficient de détermination ajusté
Coefficient de détermination ajusté
2
Le coefficient de détermination ajusté Radj
:
2
Radj
=
(n − 1)R 2 − d
n−d −1
est un indicateur de la qualité du modèle de régression, prenant en
compte la complexité du modèle (nombre de variables).
Propriétés :
! R2
adj ∈ [0, 1]
!
2
plus Radj
est grand, meilleure est la régression
40 / 48
Tests de la nullité des paramètres du modèle
On peut également tester l’apport de chaque variable dans le modèle
Hypothèses
H0 : βj = 0 contre H1 : βj ̸= 0
Statistique de test
T =
β̂j −βj
σβ̂
j
∼H0 tn−p−1
Décision
on rejette H0 (et donc on enlève la variable du modèle) si
|t| > tn−1,1− α2 .
41 / 48
Plan
Tests d’hypothèses
Principe d’un test statistique
Typologie des tests statistiques
Tests de liaison entre variables
Tests de comparaison de populations indépendantes
Régression linéaire
La régression linéaire simple
La régression linéaire multiple
Tests sur le modèle de régression linéaire
Prédiction
Détection d’observations atypiques
42 / 48
Prédiction
Pour une valeur x ∗ = (1, x1∗ , . . . , xp∗ )′ de X , la prévision de Y sera
donnée par
ŷ ∗ = x ∗ ′ β̂.
Un intervalle de confiance de niveau 1 − α pour la valeur y ∗ sera
construit à partir de cette prévision ponctuelle :
&
x ∗ ′ β̂ ± tn−p−1,1−α/2 σ̂ 1 + x ∗ ′ (X′ X)−1 x ∗ .
43 / 48
(3)
(4)
Plan
Tests d’hypothèses
Principe d’un test statistique
Typologie des tests statistiques
Tests de liaison entre variables
Tests de comparaison de populations indépendantes
Régression linéaire
La régression linéaire simple
La régression linéaire multiple
Tests sur le modèle de régression linéaire
Prédiction
Détection d’observations atypiques
44 / 48
Détection d’observations atypiques
Effet levier
L’effet levier hi mesure l’impact de Yi dans l’estimation Ŷi
hi =
1
(Xi − X̄ )2
+ !n
.
2
n
j=1 (Xj − X̄ )
Cet impact est directement lié à l’éloignement de l’observation Xi à la
moyenne des observations X̄ .
effet levier hi grand ⇒ observations atypiques
45 / 48
Détection d’observations atypiques
Résidus
ϵi = Ŷi − Yi
Résidus normalisés/studentisés
2
ri =
Sϵ(i)
ϵi
√
1−hi
où Sϵ(i) =
n−2
S
n−3 ϵ
−
ϵi
1
n−3 1−hi
|ri | > 2 ⇒ observations atypiques
46 / 48
Détection d’observations atypiques
!
!
effet levier ⇒ éloignement d’une observation à la moyenne
résidus normalisés ⇒ éloignement observation / prédiction
La distance de Cook synthétisant ces deux informations.
Distance de Cook
Di =
!n
j=1 (Ŷj(i) −
2Sϵ2
Ŷj )2
=
hi
r2
2(1 − hi ) i
où Ŷj(i) : estimation de Yj obtenue sans utiliser (Xi , Yi ).
Di > 1 ⇒ observations atypiques
47 / 48
Régression linéaire avec R
L’analyse
1. charger les données :
>data=read.table(’filename.dat’,header=TRUE)
2. estimer le modèle :
>modele=lm(y ∼ .,data=data)
3. tester la normalité des résidus :
>shapiro.test(modele$residuals)
4. vérifier graphiquement l’homoscédasticité et la normalité des résidus, la
présence d’individus atypiques ... :
plot(modele)
5. tester l’auto-corrélation des résidus (package lmtest) :
>dwtest(modele)
6. analyser la qualité du modèle et l’apport de chaque variable :
>summary(modele)
48 / 48
Téléchargement