Test d`hypothèses et régression linéaire

publicité
Statistique de base avec R
Partie 2 : Test d’hypothèses et régression linéaire
Julien JACQUES
Polytech’Lille - Université Lille 1
Julien JACQUES (Polytech’Lille)
Statistiques de base
1 / 48
Plan
1
Tests d’hypothèses
2
Régression linéaire
Julien JACQUES (Polytech’Lille)
Statistiques de base
2 / 48
Plan
1
Tests d’hypothèses
Principe d’un test statistique
Typologie des tests statistiques
Tests de liaison entre variables
Tests de comparaison de populations indépendantes
2
Régression linéaire
La régression linéaire simple
La régression linéaire multiple
Tests sur le modèle de régression linéaire
Prédiction
Détection d’observations atypiques
Julien JACQUES (Polytech’Lille)
Statistiques de base
3 / 48
Principe d’un test statistique
Un exemple
1
2
Test H0 : µ = µ0 contre H1 : µ 6= µ0
Stat. de test T =
X̄ −µ0
S
√
n
∼H0 tn−1 Student à n-1 degrés de liberté
3
α = 5%
4
Zone de rejet W = {x̄ : |t| =
|x̄ −µ0 |
√s
n
> −tn−1, α2 }
0.5
0.45
0.4
0.35
0.3
0.25
0.2
0.15
α
0.1
α
2
2
0.05
0
-4
5
-3
α
-2
t
-1
0
1
2
t2
1−α
3
4
2
calcul de t puis acceptation de H0 si t est entre les bornes, rejet
sinon
Julien JACQUES (Polytech’Lille)
Statistiques de base
4 / 48
Principe d’un test statistique
Les étapes
1
Identifier des hypothèses H0 (hyp. nulle, simple) et H1 (hyp. alternative,
composite)
2
Définir un statistique de test T , dont la loi est différente sous H0 et
H1
3
Choisir un risque de première espèce α (5%, 10%...)
4
Définir la zone de rejet W de H0 , en fonction de H1 (test uni- ou
bilatéral) et de α
5
Calculer la valeur t de la statistique de test T
6
Conclure au rejet de H0 si t ∈ W où à son acceptation dans le cas
contraire
Julien JACQUES (Polytech’Lille)
Statistiques de base
5 / 48
Principe d’un test statistique
Les risques antagonistes
❳❳
❳❳ Vérité
Décision ❳❳❳❳
H0
H1
H0
H1
conclusion correcte
erreur de première espèce
erreur de deuxième espèce
conclusion correcte
Table : Erreurs associés à un test
❳❳
❳❳❳
Vérité
❳❳
❳
❳❳❳
Décision
H0
H1
H0
H1
niveau de confiance 1 − α
risque α
risque β
1−β
Table : Risques associés à un test
Julien JACQUES (Polytech’Lille)
Statistiques de base
6 / 48
Principe d’un test statistique
La p-value p∗
plus petite valeur de α conduisant à rejeter H0
probabilité sous H0 d’observer une statistique de test aussi
extrême (au sens de H1 ) que le t observé
probabilité de se tromper lorsqu’on rejette H0
Exemple : test unilatéral H0 : µ = 0 contre H1 : µ > 0
p ∗ = P(T > t) où T stat. de test et t sa valeur sur l’échantillon
Julien JACQUES (Polytech’Lille)
Statistiques de base
7 / 48
Principe d’un test statistique
La p-value p∗
plus petite valeur de α conduisant à rejeter H0
probabilité sous H0 d’observer une statistique de test aussi
extrême (au sens de H1 ) que le t observé
probabilité de se tromper lorsqu’on rejette H0
Exemple : test unilatéral H0 : µ = 0 contre H1 : µ > 0
p ∗ = P(T > t) où T stat. de test et t sa valeur sur l’échantillon
Utilisation de la p-value p∗
si α > p ∗ : rejet de H0
si α < p ∗ : acceptation de H0
Julien JACQUES (Polytech’Lille)
Statistiques de base
7 / 48
Plan
1
Tests d’hypothèses
Principe d’un test statistique
Typologie des tests statistiques
Tests de liaison entre variables
Tests de comparaison de populations indépendantes
2
Régression linéaire
La régression linéaire simple
La régression linéaire multiple
Tests sur le modèle de régression linéaire
Prédiction
Détection d’observations atypiques
Julien JACQUES (Polytech’Lille)
Statistiques de base
8 / 48
Typologie des tests
Tests de liaison entre variables
Tester la liaison entre deux variables quantitatives : Test de
corrélation
Tester la liaison entre deux variables qualitatives : Test
d’indépendance du χ2
Tester la liaison entre une variable quantitative et une variable
qualitative : ANOVA à 1 facteur
Tester la liaison entre une variable quantitative et K variables
qualitatives : ANOVA à K facteur
Tests de comparaison de populations indépendantes
Test de comparaisons des variances de Fisher
Test de comparaisons des moyennes de Student
Julien JACQUES (Polytech’Lille)
Statistiques de base
9 / 48
Typologie des tests - Logiciel R
Tests de liaison entre variables
Tester la liaison entre deux variables quantitatives : fonction
cor.test
Tester la liaison entre deux variables qualitatives : fonction
chisq.test
Tester la liaison entre une variable quantitative et une variable
qualitative : fonction aov
Tester la liaison entre une variable quantitative et K variables
qualitatives : fonction aov
Tests de comparaison de populations indépendantes
Test de comparaisons des variances de Fisher : fonction
var.test
Test de comparaisons des moyennes de Student : fonction
t.test
Julien JACQUES (Polytech’Lille)
Statistiques de base
10 / 48
Plan
1
Tests d’hypothèses
Principe d’un test statistique
Typologie des tests statistiques
Tests de liaison entre variables
Tests de comparaison de populations indépendantes
2
Régression linéaire
La régression linéaire simple
La régression linéaire multiple
Tests sur le modèle de régression linéaire
Prédiction
Détection d’observations atypiques
Julien JACQUES (Polytech’Lille)
Statistiques de base
11 / 48
Test de corrélation
Conditions d’application :
X et Y deux variables aléatoires quantitatives
Hypothèses
H0 : ρX ,Y = 0 contre H1 : ρX ,Y 6= 0
Statistique de test
T =
√
Pn
i=1 (Xi −X̄ )(Yi −Ȳ )
Pn
2
2
i=1 (Xi −X̄ )
i=1 (Yi −Ȳ )
n − 2 √ RXY 2 ∼H0 tn−2 où RXY = √Pn
1−RXY
l’estimateur du coefficient de corrélation
est
Décision
on rejette H0 si
t > tn−2,1− α2
ou
Julien JACQUES (Polytech’Lille)
t < tn−2, α2
Statistiques de base
12 / 48
Test d’indépendance du χ2
Conditions d’application :
X et Y deux variables aléatoires qualitatives à k et r modalités
nij : nombre d’observations ayant la modalité i de X et j de Y
Pr
Pk
ni. = j=1 nij et n.j = i=1 nij
nij ≥ 5
Hypothèses
H0 : X et Y indépendantes contre H1 : X et Y dépendantes
Statistique de test
d2 =
Pk
i=1
Pr
ni. n.j
)2
n
ni. n.j
(nij −
j=1
n
∼H0 χ2(k −1)(r −1)
Décision
on rejette H0 si
d 2 > χ2(k −1)(r −1)1−α
Julien JACQUES (Polytech’Lille)
Statistiques de base
13 / 48
ANOVA à 1 facteur
Conditions d’application :
X une variable quantitative, A un facteur qualitatif à K modalités
échantillons grands (n ≥ 30) ou gaussiens (pour chaque modalité)
variances homogènes
Hypothèses
A influe-t-il X ?
H 0 : µ1 = . . . = µK = µ
contre
H1 : ∃1 ≤ i, j ≤ K t.q. µi 6= µj
Statistique de test
F =
VR2
VA2
K −1 / n−K
VA2 =
1
n
K
X
où
nk (X̄k − X̄ )2 est la variance expliquée par le facteur A
k =1
VR2 est la variance résiduelle
avec variance totale VT2 = VA2 + VR2
Julien JACQUES (Polytech’Lille)
Statistiques de base
14 / 48
ANOVA à 1 facteur
Présentation des résultats
Facteur
Somme
des carrés
degrés de
liberté
carré
moyen
A
Résidu
Total
SSA
SSR
SST
K −1
n−K
n−1
SSA/(K − 1)
SSR/(n − K )
F
F =
SSA/(K −1)
SSR/(n−K )
ou SSA = nVA2 , SSR = nVR2 et SST = nVT2 .
Décision
On conclue à un effet de A (rejet de H0 ) si F > FK −1,n−K ,1−α
Julien JACQUES (Polytech’Lille)
Statistiques de base
15 / 48
ANOVA à 2 facteur
Conditions d’application :
X une variable quantitative, A et B deux facteurs qualitatifs à J et
K modalités
échantillons grands (n ≥ 30) ou gaussiens (pour chaque croisement
de modalités)
variances homogènes
Hypothèses
Le facteur A a-t-il une influence sur X ?
Le facteur B ?
Et l’interaction entre les deux facteurs ?
Julien JACQUES (Polytech’Lille)
Statistiques de base
16 / 48
ANOVA à 2 facteur
Décomposition de la variance totale
SST = SSA + SSB + SSAB + SSR
avec
n
SST =
jk
J X
K X
X
(Xijk − X̄... )2 ,
SSA =
j=1 k =1 i=1
SSAB =
J
X
nj. (X̄.j. − X̄... )2 ,
SSB =
n.k (X̄..k − X̄... )2 ,
k =1
j=1
J X
K
X
K
X
n
njk (X̄.jk − X̄.j. − X̄..k + X̄... )2 ,
et
SSR =
jk
J X
K X
X
(Xijk − X̄.jk )2
j=1 k =1 i=1
j=1 k =1
où
n
X̄.jk =
jk
1 X
Xijk ,
njk i=1
X̄..k =
Julien JACQUES (Polytech’Lille)
J
1 X
X̄.jk ,
n.k j=1
X̄.j. =
K
1 X
X̄.jk
nj. k =1
Statistiques de base
n
et
X̄... =
jk
J
K
1 XXX
Xijk .
n j=1 k =1 i=1
17 / 48
ANOVA à 2 facteur
Présentation des résultats
Facteur
Somme
des carrés
degrés de
liberté
carré
moyen
F
A
SSA
J−1
SSA/(J − 1)
FA = SSR/(n−JK )
SSB/(K −1)
FB = SSR/(n−JK )
B
SSB
K −1
SSB/(K − 1)
Interaction AB
SSAB
Résidu
Total
SSR
SST
(J − 1)(K − 1)
SSAB/(K − 1)(J − 1)
n − JK
n−1
SSA/(J−1)
FAB =
SSAB/(K −1)(J−1)
SSR/(n−JK )
SSR/(n − JK )
Décision
On conclue à un effet de A si FA > FJ−1,n−JK ,1−α
On conclue à un effet de B si FB > FK −1,n−JK ,1−α
On conclue à un effet de l’interaction entre A et B si
FAB > F(K −1)(J−1),n−JK ,1−α
Julien JACQUES (Polytech’Lille)
Statistiques de base
18 / 48
Plan
1
Tests d’hypothèses
Principe d’un test statistique
Typologie des tests statistiques
Tests de liaison entre variables
Tests de comparaison de populations indépendantes
2
Régression linéaire
La régression linéaire simple
La régression linéaire multiple
Tests sur le modèle de régression linéaire
Prédiction
Détection d’observations atypiques
Julien JACQUES (Polytech’Lille)
Statistiques de base
19 / 48
Test de comparaisons des variances de Fisher
Conditions d’application :
échantillons gaussiens
Hypothèses
H0 : σ1 = σ2 contre H1 : σ1 6= σ2
Statistique de test
F =
n1 V12
n1 −1
n2 V 2
2
n2 −1
=
S12
S22
avec S12 > S22
∼H0 Fn1 −1,n2 −1
Décision
on rejette H0 si
Julien JACQUES (Polytech’Lille)
S12
S22
> fn1 −1,n2 −1,1−α
Statistiques de base
20 / 48
Test de comparaisons des moyennes de Student
Conditions d’application :
échantillons grands (n ≥ 30) ou gaussiens
variances égales : σ12 = σ22
Hypothèses
H0 : µ1 = µ2 contre H1 : µ1 6= µ2
Statistique de test
T =
r X̄1 −X̄2 −(µ1 −µ2 )
n1 V 2 +n2 V 2 1
1
2
+ n1
n +n −2
n
1
2
1
∼H0 tn1 +n2 −2
2
Décision
on rejette H0 si
|x̄1 − x̄2 | > −tn1 +n2 −2, α2
Julien JACQUES (Polytech’Lille)
r
n1 v12 +n2 v22
n1 +n2 −2
1
n1
+
Statistiques de base
1
n2
.
21 / 48
Test de comparaisons des moyennes de Student
Conditions d’application :
échantillons grands (n ≥ 30) ou gaussien
variances différentes : σ12 6= σ22
Hypothèses
H0 : µ1 = µ2 contre H1 : µ1 6= µ2
Correction d’Aspin Welch
il faut remplacer le nombre de degrés de liberté de la loi de Student
(n1 + n2 − 2 lorsque les variances sont égales) par l’entier le plus
proche de :
n=
Julien JACQUES (Polytech’Lille)
1
c2
n1 −1
+
(1−c)2
n2 −1
où c =
Statistiques de base
v12
n1 −1
v12
n1 −1
+
v22
n2 −1
22 / 48
Test de comparaisons des moyennes de Student - cas
apparié
Conditions d’application :
échantillons grands (n ≥ 30) ou gaussiens
échantillons dépendants (appariés) : chaque échantillon
correspond à des mesures différentes des mêmes individus
Test
on travaille sur la différence Di = X1i − X2i entre les 2 échantillons, et
on test la nullité de la moyenne des Di :
H0 : µ = 0 contre H1 : µ 6= 0
Julien JACQUES (Polytech’Lille)
Statistiques de base
23 / 48
Test de comparaisons des moyennes de Student - cas
unilatéral
Conditions d’application :
échantillons grands (n ≥ 30) ou gaussiens
variances égales : σ12 = σ22 (sinon correction Aspin-Welch)
Hypothèses
H0 : µ1 = µ2 contre H1 : µ1 > µ2
Statistique de test
T =
r X̄1 −X̄2 −(µ1 −µ2 )
n1 V 2 +n2 V 2
1
1
2
+ n1
n +n −2
n
1
2
1
∼H0 tn1 +n2 −2
2
Décision
on rejette H0 si
Julien JACQUES (Polytech’Lille)
x̄1 > x̄2 − tn1 +n2 −2, α2
Statistiques de base
r
n1 v12 +n2 v22
n1 +n2 −2
1
n1
+
1
n2
.
24 / 48
Plan
1
Tests d’hypothèses
2
Régression linéaire
Julien JACQUES (Polytech’Lille)
Statistiques de base
25 / 48
Modélisation statistique
Les différents types de modélisation
Variable à expliquer
1 quanti.
1 quanti.
1 quanti.
1 quanti.
Variables explicatives
1 quanti.
plusieurs quanti.
plusieurs quali.
plusieurs quali. et quanti.
Nom de l’analyse
régression simple
régression multiple
analyse de variance
analyse de covariance
Objectifs
prédictifs
descriptifs : sélection des variables pertinentes, forme du modèle
Les étapes
identifier le problème → choix du modèle statistique
estimer les paramètres
évaluer la qualité de la modélisation obtenue
utiliser le modèle pour répondre à la question posée
Julien JACQUES (Polytech’Lille)
Statistiques de base
26 / 48
Plan
1
Tests d’hypothèses
Principe d’un test statistique
Typologie des tests statistiques
Tests de liaison entre variables
Tests de comparaison de populations indépendantes
2
Régression linéaire
La régression linéaire simple
La régression linéaire multiple
Tests sur le modèle de régression linéaire
Prédiction
Détection d’observations atypiques
Julien JACQUES (Polytech’Lille)
Statistiques de base
27 / 48
Le modèle de régression linéaire simple
Les données
Un échantillon (Xi Yi )i=1,n
variable à prédire : Y
variable explicative : X
si la liaison entre X et Y n’est pas linéaire, tester des transformations (log, puissance...)
Le modèle
Yi = β0 + β1 Xi + ǫi où ǫi ∼ N (0, σ 2 ) i.i.d
Écriture matricielle :





ǫ1
Y1
1 X1  .. 
 .
..  β0 +  .. 
 . 
 .  =  ..
.  β1
ǫn
Yn
1 Xn
Y = Xβ + ǫ

Julien JACQUES (Polytech’Lille)
Statistiques de base
28 / 48
Le modèle de régression linéaire simple
Estimation des paramètres
On cherche β = (β0 , β1 ) minimisant l’écart entre les valeurs prédites
Ŷi = β0 + Xi β1 et les valeurs observées Yi :
min
n
X
i=1
(Yi − β0 − Xi β1 )2
Les solutions sont
βˆ0 = Ȳ − βˆ1 X̄ ,
1
où SXY = n−1
de X et Y .
Pn
i=1 (Xi
Julien JACQUES (Polytech’Lille)
SXY
βˆ1 = 2 .
SX
− X̄ )(Yi − Ȳ ) est l’estimateur de la covariance
Statistiques de base
29 / 48
Plan
1
Tests d’hypothèses
Principe d’un test statistique
Typologie des tests statistiques
Tests de liaison entre variables
Tests de comparaison de populations indépendantes
2
Régression linéaire
La régression linéaire simple
La régression linéaire multiple
Tests sur le modèle de régression linéaire
Prédiction
Détection d’observations atypiques
Julien JACQUES (Polytech’Lille)
Statistiques de base
30 / 48
Le modèle de régression linéaire multiple
Les données
Un échantillon (Xi1 , . . . , Xip , Yi )i=1,n
variable à prédire : Y
p variables explicatives : X1 , . . . , Xp
Le modèle
Yi = β0 +
p
X
βj Xij + ǫi
j=1
où ǫi ∼ N 
(0, σ 2 ) i.i.d 
Y1
 .. 
 .  =
Yn
Y =
Julien JACQUES (Polytech’Lille)
1
 ..
 .
1
X11
..
.
Xn1
Xβ + ǫ

 β
. . . X1p  0
..   β1
.
. 
 ..
. . . Xnp
βp
Statistiques de base



 
+


ǫ1
.. 
. 
ǫn
(1)
(2)
31 / 48
Le modèle de régression linéaire multiple
Estimation des paramètres
On cherche β = (β0 , β1 , . . . , βp ) minimisant l’écart entre les valeurs
P
prédites Ŷi = β0 + pj=1 βj Xij et les valeurs observées Yi :
p
n
X
X
βj Xij )2
(Yi − β0 −
min
i=1
j=1
La solution est
β̂ = (X′ X)−1 X′ Y.
Julien JACQUES (Polytech’Lille)
Statistiques de base
32 / 48
Plan
1
Tests d’hypothèses
Principe d’un test statistique
Typologie des tests statistiques
Tests de liaison entre variables
Tests de comparaison de populations indépendantes
2
Régression linéaire
La régression linéaire simple
La régression linéaire multiple
Tests sur le modèle de régression linéaire
Prédiction
Détection d’observations atypiques
Julien JACQUES (Polytech’Lille)
Statistiques de base
33 / 48
Normalité des résidus
Dans le but de faire des tests sur le modèle de régression obtenus,
nous avons fait l’hypothèse de normalité des résidus ǫi = ŷi − yi .
Test de normalité
Il existe des tests statistiques permettant de tester l’adéquation d’une
série de données (ici les résidus) à une loi normale :
test de Shapiro-Wilk: fonction shapiro.test
Julien JACQUES (Polytech’Lille)
Statistiques de base
34 / 48
Homoscédasticité des résidus
La technique d’estimation utilisée suppose que résidus ǫi = ŷi − yi ont
une variance σ 2 constante (ne dépendant pas de i).
Homoscédasticité des résidus
Pour vérifier cette hypothèse, on représente généralement les résidus
en fonction des variables explicatives (ou des valeurs prédites), et on
vérifie visuellement que la variance est homogène sur l’ensemble de
variation de chaque variable explicative
représentation graphique
Julien JACQUES (Polytech’Lille)
Statistiques de base
35 / 48
Test de non corrélation des résidus
La technique d’estimation utilisée suppose que les résidus sont non
corrélés.
Test de Durbin-Watson
Le test de Durbin-Watson permet de vérifier que les ǫi ne sont pas
corrélés.
Statistique de test :
Pn
(ǫi − ǫi−1 )2
d = i=2Pn 2
i=1 ǫi
qui doit être proche de 2.
Julien JACQUES (Polytech’Lille)
Statistiques de base
36 / 48
Analyse de variance de la régression
On teste l’apport du modèle de régression
Hypothèses
H0 : β1 = . . . = βp = 0 contre H1 : ∃j : βj 6= 0
Statistique de test
On décompose la variance de Y en ||Y − Ȳ||22 = ||Ŷ − Ȳ||22 + ||Y − Ŷ||22
| {z } | {z } | {z }
SST
Source
Régression
Erreur
Total
Somme
des carrés
SSReg
SSR
SST
degrés de
liberté
p
n−p−1
n−1
SSReg
SSR
carré
moyen
MSReg = SSReg/p
MSR = SSR/(n − p − 1)
F
F =
MSReg
MSR
Décision
on rejette H0 (la régression est valide) si F > fp,n−p−1,1−α
Julien JACQUES (Polytech’Lille)
Statistiques de base
37 / 48
Analyse de variance de la régression
SST
variance
totale
Julien JACQUES (Polytech’Lille)
SSReg
variance
expliquée
Statistiques de base
SSR
variance
résiduelle
38 / 48
Coefficient de détermination
Coefficient de détermination
Le coefficient de détermination R 2 :
R2 =
SSReg
SST
est un indicateur de la qualité du modèle de régression.
Propriétés :
R 2 ∈ [0, 1]
dans le cas de la régression simple : R 2 = ρ2XY
plus le nombre de variables est grand, plus R 2 est grand
Julien JACQUES (Polytech’Lille)
Statistiques de base
39 / 48
Coefficient de détermination ajusté
Coefficient de détermination ajusté
2 :
Le coefficient de détermination ajusté Radj
2
=
Radj
(n − 1)R 2 − d
n−d −1
est un indicateur de la qualité du modèle de régression, prenant en
compte la complexité du modèle (nombre de variables).
Propriétés :
2 ∈ [0, 1]
Radj
2 est grand, meilleure est la régression
plus Radj
Julien JACQUES (Polytech’Lille)
Statistiques de base
40 / 48
Tests de la nullité des paramètres du modèle
On peut également tester l’apport de chaque variable dans le modèle
Hypothèses
H0 : βj = 0 contre H1 : βj 6= 0
Statistique de test
T =
β̂j −βj
σβ̂
j
∼H0 tn−p−1
Décision
on rejette H0 (et donc on enlève la variable du modèle) si
|t| > tn−1,1− α2 .
Julien JACQUES (Polytech’Lille)
Statistiques de base
41 / 48
Plan
1
Tests d’hypothèses
Principe d’un test statistique
Typologie des tests statistiques
Tests de liaison entre variables
Tests de comparaison de populations indépendantes
2
Régression linéaire
La régression linéaire simple
La régression linéaire multiple
Tests sur le modèle de régression linéaire
Prédiction
Détection d’observations atypiques
Julien JACQUES (Polytech’Lille)
Statistiques de base
42 / 48
Prédiction
Pour une valeur x ∗ = (1, x1∗ , . . . , xp∗ )′ de X , la prévision de Y sera
donnée par
ŷ ∗ = x ∗ ′ β̂.
Un intervalle de confiance de niveau 1 − α pour la valeur y ∗ sera
construit à partir de cette prévision ponctuelle :
q
∗′
x β̂ ± tn−p−1,1−α/2 σ̂ 1 + x ∗′ (X′ X)−1 x ∗ .
Julien JACQUES (Polytech’Lille)
Statistiques de base
(3)
(4)
43 / 48
Plan
1
Tests d’hypothèses
Principe d’un test statistique
Typologie des tests statistiques
Tests de liaison entre variables
Tests de comparaison de populations indépendantes
2
Régression linéaire
La régression linéaire simple
La régression linéaire multiple
Tests sur le modèle de régression linéaire
Prédiction
Détection d’observations atypiques
Julien JACQUES (Polytech’Lille)
Statistiques de base
44 / 48
Détection d’observations atypiques
Effet levier
L’effet levier hi mesure l’impact de Yi dans l’estimation Ŷi
hi =
1
(Xi − X̄ )2
.
+ Pn
2
n
j=1 (Xj − X̄ )
Cet impact est directement lié à l’éloignement de l’observation Xi à la
moyenne des observations X̄ .
effet levier hi grand ⇒ observations atypiques
Julien JACQUES (Polytech’Lille)
Statistiques de base
45 / 48
Détection d’observations atypiques
Résidus
ǫi = Ŷi − Yi
Résidus normalisés/studentisés
ri =
Sǫ(i)
ǫi
√
1−hi
où Sǫ(i) =
n−2
n−3 Sǫ
−
ǫ2i
1
n−3 1−hi
|ri | > 2 ⇒ observations atypiques
Julien JACQUES (Polytech’Lille)
Statistiques de base
46 / 48
Détection d’observations atypiques
effet levier ⇒ éloignement d’une observation à la moyenne
résidus normalisés ⇒ éloignement observation / prédiction
La distance de Cook synthétisant ces deux informations.
Distance de Cook
Di =
Pn
j=1 (Ŷj(i) −
2Sǫ2
Ŷj )2
=
hi
r2
2(1 − hi ) i
où Ŷj(i) : estimation de Yj obtenue sans utiliser (Xi , Yi ).
Di > 1 ⇒ observations atypiques
Julien JACQUES (Polytech’Lille)
Statistiques de base
47 / 48
Régression linéaire avec R
L’analyse
1
charger les données :
>data=read.table(’filename.dat’,header=TRUE)
2
estimer le modèle :
>modele=lm(y ∼ .,data=data)
3
tester la normalité des résidus :
>shapiro.test(modele$residuals)
4
vérifier graphiquement l’homoscédasticité et la normalité des résidus, la
présence d’individus atypiques ... :
plot(modele)
5
tester l’auto-corrélation des résidus (package lmtest) :
>dwtest(modele)
6
analyser la qualité du modèle et l’apport de chaque variable :
>summary(modele)
Julien JACQUES (Polytech’Lille)
Statistiques de base
48 / 48
Téléchargement