Telechargé par zcschekina

STATISTIQUE ANANALYTIQUE

publicité
SÉANCE 9
STATISTIQUES ANALYTIQUES (suite)
Analyses de régression
Considérations
économétriques
Tests statistiques
Formes fonctionneles
Exemples
17 mars 2006
Modèles et formes fonctionnelles
Régression (OLS)
Linéaire et non-linéaire
Très utilisées, conviennent bien lorsque résultats de
l’échantillon s’applique à la population,
cependant biaisées et paramétriques
Autoregressif (SAR ou SARS)
Maximum de vraisemblance
Récemment utilisées, préférés lorsque la dimension spatiale
et temporelle affecte le phénomène, nécessite coordonnées,
réduit les erreurs et fournit de paramètres fiables.
Artificial Neural Networks (ANNs)
Récemment utilisées, permet de mieux modéliser, suit le du
cerveau humain, cependant problèmes de «Over-Fitting » et
« Black-Box ». Il n’est pas encore tout à fait connu.
Abductive Learning Networks(ALNs)
Même principe que ANNs, cependant «Over-Fitting » résolu,
ne tient pas compte des bruits d’informations
contrairement à ANNs. Il reste à en savoir plus.
Case-Based Reasoning (CBR)
Fonctionne selon une approche multicritère, conditions
spécifiées dans une table de critères référencée à la base
de données utilisées. Semble être moins bon que OLS.
Régression linéaire
« Méthode des moindres carrés ordinaires »
Y = B0 + (B1 * D) + (B2 * S) + (B3 * R) + (B4 * T) + E
où
Y
D
S
R
T
B0
E
Valeur marchande ;
Structurel ;
Spatial ;
Socio-économique ;
Temporel;
et B1,2,3,4
Coefficients de la régression;
part d’erreur dans le modèle.
STRUCTUREL
(CUM)
SPATIAL
(SIG et statistiques)
SOCIO-ÉCONOMIQUE
(RECENSEMENT et SIG)
TEMPOREL
(CUM et statisques)
Superficie habitable
Type de propriété (Bungalow, Cottage,…)
Garage
 Piscine
 Foyer
 Climatisation
 Distances : centre-ville, emploi, commerce, école, …
 Proximités : parc, fleuve, autoroute, chemin de fer, industrie, …
 Positions : municipalités et divers secteurs.
 Revenus
 Scolarité
 Origine ethnique
 Taux de chômage
 Autocorrélation spatiale
 Mois écoulés depuis la transaction
 Saison de vente
 Cycle immobilier
 Autocorrélation temporelle
Analyse de corrélation – test bilatéral (2-tailed)
Il y a corrélation entre deux variables du modèle lorsque les valeurs prises par les deux fluctuent simultanément
dans le même sens (corrélation positive ou inverse (corrélation négative).
En recherche, le seuil de signification statistique des corrélations est habituellement en dessous de 5 %.
Dans le tableau qui suit, la plus forte relation est entre la superficie du terrain et son frontage, soit 75,8 % (et le
test est très significatif).
Correlations
PRIX
AGEFFECT
SUPTERR
FRONTAGE
PROFOND
GARJSSOL
GARJINTG
GARJEXT
SUPHABT
Pears on Correlation
Sig. (2-tailed)
N
Pears on Correlation
Sig. (2-tailed)
N
Pears on Correlation
Sig. (2-tailed)
N
Pears on Correlation
Sig. (2-tailed)
N
Pears on Correlation
Sig. (2-tailed)
N
Pears on Correlation
Sig. (2-tailed)
N
Pears on Correlation
Sig. (2-tailed)
N
Pears on Correlation
Sig. (2-tailed)
N
Pears on Correlation
Sig. (2-tailed)
N
PRIX
1,000
,
450
-,199
,000
450
,436
,000
450
,321
,000
450
,142
,003
450
,334
,000
450
,300
,000
450
,073
,121
450
,436
,000
450
AGEFFECT
-,199
,000
450
1,000
,
450
-,096
,043
450
-,060
,203
450
-,313
,000
450
-,326
,000
450
-,055
,244
450
,159
,001
450
-,096
,043
450
SUPTERR
,436
,000
450
-,096
,043
450
1,000
,
450
,758
,000
450
,333
,000
450
,068
,153
450
,241
,000
450
,170
,000
450
1,000
,000
450
FRONTAGE
,321
,000
450
-,060
,203
450
,758
,000
450
1,000
,
450
,328
,000
450
,118
,012
450
,129
,006
450
,202
,000
450
,758
,000
450
PROFOND
,142
,003
450
-,313
,000
450
,333
,000
450
,328
,000
450
1,000
,
450
,116
,014
450
-,005
,910
450
,013
,787
450
,333
,000
450
GARJSSOL
,334
,000
450
-,326
,000
450
,068
,153
450
,118
,012
450
,116
,014
450
1,000
,
450
-,125
,008
450
-,132
,005
450
,068
,153
450
GARJINTG
,300
,000
450
-,055
,244
450
,241
,000
450
,129
,006
450
-,005
,910
450
-,125
,008
450
1,000
,
450
-,028
,550
450
,241
,000
450
GARJEXT
,073
,121
450
,159
,001
450
,170
,000
450
,202
,000
450
,013
,787
450
-,132
,005
450
-,028
,550
450
1,000
,
450
,170
,000
450
SUPHABT
,436
,000
450
-,096
,043
450
1,000
,000
450
,758
,000
450
,333
,000
450
,068
,153
450
,241
,000
450
,170
,000
450
1,000
,
450
Analyse de régression : considérations économétriques et tests statistiques
1. Test R² :
Test du Coefficient de détermination (pourcentage de la variation totale de la variable
dépendante expliquée par les variables prédictives). Plus il est élevé, plus il capte la majorité
des variations du phénomène. Les résidus (erreurs d’estimation) auront également un poids
plus faible.
2. Test F :
Test de Ficher est une mesure globale qui nous indique qu’on peut ou non rejeter l’hypothèse
nulle, au risque de se tromper 5 fois sur 100, selon laquelle aucune variable du modèle
n’exerce une influence sur la variable explicative. Lorsque F = 0, on garde l’hypothèse nulle,
si F > 0, il y a au moins une variable explicative qui a un effet sur la variable dépendante.
Plus F est grand, mieux c’est.
3. Test ESE ou SEE
Test d’erreur standard d’estimation nous donne une idée sur la performance prédictive de
l’équation de régression. C’est comme une sorte de « résidu moyen » ou « erreur de
prévision » du modèle (comparer ce test au moyen des prix). Plus ESE est petit, mieux c’est.
4. Test t ou Student t
C’est l’erreur standard de chacun des coefficients estimés. Il nous indique si on peut rejeter
ou non l’hypothèse nulle selon laquelle il n’y a pas de relation entre le coefficient estimé de la
variable explicative et la variable dépendante. La valeur obtenue du Test t est comparée à
une valeur critique dans les tables. Plus Test t est grand, mieux c’est.
5. Test VIF (variation inflation factor)
Détecte les problèmes de multicolinéarité et identifie les variables qui en sont la cause. Un
VIF < 5 est admis pour dire que le problème de multicolinéarité est réduit. Proche de 1, c’est
l’idéale. En dessus de 10, c’est problématique.
Interprétation des résultats – Régression linéaire multiple
C’est le coefficient de corrélation multiple
au carré.
Mesure sur la performance
explicative globale du modèle.
Coefficient de corrélation
multiple
63,7 % est la roportion de la variance totale
de Y expliquée par l’équation de régression
Model Summary
Model
1
R
,798
« R² ajusté » accomplit la même
fonction que R², mais tient
compte du nombre de degrés de
liberté.
DL = n – k – 1,
n = nombre d’observations
k = nombre de variables
explicatives.
Si DL > 30, on utilise la table Z, si
DL < 30, la table de Student
R Square
,637
Adjus ted R Square
,628
Std. Error of the Estimate
18956,93
Erreur standard d’estimation (ESE)
Ici, c’est 18 957 $. Si on le compare à la moyenne des
prix (108 811 $), c’est élevé. En effet, il représente un
terme d’erreur d’estimation « moyenne » du modèle de
17,4 % (18 957 / 108 811). On en conclut que l’équation
n’explique pas toutes les variations, ce qui est confirmé
par Adjusted R Square (62,8 %). On peut retravailler le
modèle, par exemple y intégrer d’autres variables
explicatives !
Interprétation des résultats – Régression linéaire multiple (suite)
Sur les 449 DL, il y en
a 11 qui sont associés
au modèle, soit le
nombre de variables
Nombre d’observations
totales : DL + 1 = 450
276799497319 / 11 = 25163590665
157402014200 / 438 = 359365329
Il reste 438 degrés de libertés aux
erreurs du modèle.
DL = 450 – 11 – 1 = 438
ANOVA
Model
1
Regress ion
Res idual
Total
Sum of Squares
276799497319
157402014200
434201511519
df
11
438
449
Mean Square
25163590665
359365329
Somme des variances élevées
au carré expliquées par le
modèle / la variation totale
C’est le test Fisher. Ici, on ne se trompe pas
70 fois en disant qu’au moins une des
variables affecte le prix.
R² = 276799497319 /
434201511519 = 63, 7 %
F = 25163590665 / 359365329 = 70
On veut que ce total des
variances diminuent (erreurs
élevées au carré).
D’ailleurs, le test de F est très significatif.
F > 5 %.
F
70,022
Sig.
,000
Interprétation des résultats – Régression linéaire multiple (suite)
Constante de
l’équation (b0)
Sig t : C’est la
signification du test t.
Si > 5 %, on rejette la
variable.
C’est le test t
78 922 / 7 648
= 10,3
Erreur
standard du
coefficient
estimé
C’est le coefficient de
corrélation. Aucun
problème dans ce
cas, car VIF < 5
Coefficients b1
des X estimés
Coefficients
Uns tandardized Coefficients
(Cons tant)
AGEFFECT
GARJSSOL
GARJINTG
GARJEXT
FOYER
SSOLPERS
SALBAIN
METRO
POP96
REVMEN96
SUPHABT
B
78922,7
-501,8
45,9
105,6
38,1
11703,5
4,5
8233,6
-7882,0
7,0
,5
7,0
Std. Error
7648,2
83,2
7,4
15,3
13,8
2138,9
3,0
1917,5
557,0
3,4
,1
,7
Collinearity Statis tics
t
10,3
-6,0
6,2
6,9
2,8
5,5
1,5
4,3
-14,2
2,0
6,4
9,9
J’ai 13,77 % de probabilité de me tromper quand je dis que
chaque pi² de SSPERS ajoute 7 $ au prix.
Sig.
,0000
,0000
,0000
,0000
,0060
,0000
,1377
,0000
,0000
,0423
,0000
,0000
VIF
2,278
1,352
1,184
1,113
1,365
1,632
1,537
1,996
1,320
1,243
1,693
NIVEAU 1
MODÈLE GLOBAL
0.76
2313
0.000
47610
R² ajusté
F-statistic
Fisher
Erreur Modèle
Coefficients
Constante
74871.13
AIREHABIT
TERRAIN
SSOLPERS
BUNGALOW
COTTAGE
DETACHEE
SALBAIN
AGEFFECT
GARAJSSOL
PISCINE
FOYER
CLIMATISEE
79.26
4.13
18.76
10973.79
5089.37
6469.47
4611.50
-150.66
12.17
37.16
13193.71
31.23
CENTRVILL
EMPLOIS
ECOLES
HOPITAUX
AUTORTE60
BOISEE200
CHEMFER100
INDUSTRIES100
-5494.04
3185.61
6567.84
-2190.95
-9000.32
4345.53
-12140.33
-19492.11
REVENBAS
REVENELEV
TXCHOMAGE
-21378.83
62055.54
-1454.05
MOISECOULE
-804.29
Erreur type coeff.
17208
162652
32000
1000000
Échantillon
Moyenne
Minimum
Maximum
2569.11
Attributs structurels
0.94
0.18
1.19
1326.71
1031.93
943.19
586.76
24.57
3.09
3.96
725.53
10.38
Attributs spatiaux
90.86
394.59
944.15
325.05
4051.51
1498.16
1967.26
2699.86
Attributs socio-économiques
1531.36
1396.91
87.27
Ajustement temporel
35.37
Nature
Sig t
Test t
29.14
0.0000
84.38
23.20
15.79
8.27
4.93
6.86
7.86
-6.13
3.94
9.38
18.19
3.01
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0001
0.0000
0.0000
0.0026
M
M
M
B
B
B
M
M
M
M
M
M
-60.47
8.07
6.96
-6.74
-2.22
2.90
-6.17
-7.22
0.0000
0.0000
0.0000
0.0000
0.0263
0.0037
0.0000
0.0000
M
M
M
M
B
B
B
B
-13.96
44.42
-16.66
0.0000
0.0000
0.0000
B
B
M
-22.74
0.0000
M
ESTIMATION DE LA TAILLE REQUISE D’UN ÉCHANTILLON
Il est possible d’estimer la tille requise d’un échantillon si l’on connaît ces paramètres :
n = ((Z * δ) / E)²
où :
n = taille requise de l’échantillon
Z = valeur de la variable centrée réduite correspondant au coefficient de confiance désiré
δ = écart-type de la population
E = erreur maximale tolérée de part et d’autre de la moyenne
Exemple :
Supposons que nous avons recueillie 50 ventes de propriétés résidentielles. L’écart-type de la
population de cet échantillon est de 16 500 $ et que l’erreur tolérée de part et d’autre de la moyenne
soit de 3 000 $ au maximum, alors quelle est la taille optimale de l’échantillon si on voudrait avoir un
niveau de confiance de 95 % ?
Solution : n = ((Z * δ) / E)²
n = ((1,96 * 16 500)/ 3 000)²
n = (32 340 / 3 000)²
n = (10,78)²
n = 116 observations !
Téléchargement