SÉANCE 9 STATISTIQUES ANALYTIQUES (suite) Analyses de régression Considérations économétriques Tests statistiques Formes fonctionneles Exemples 17 mars 2006 Modèles et formes fonctionnelles Régression (OLS) Linéaire et non-linéaire Très utilisées, conviennent bien lorsque résultats de l’échantillon s’applique à la population, cependant biaisées et paramétriques Autoregressif (SAR ou SARS) Maximum de vraisemblance Récemment utilisées, préférés lorsque la dimension spatiale et temporelle affecte le phénomène, nécessite coordonnées, réduit les erreurs et fournit de paramètres fiables. Artificial Neural Networks (ANNs) Récemment utilisées, permet de mieux modéliser, suit le du cerveau humain, cependant problèmes de «Over-Fitting » et « Black-Box ». Il n’est pas encore tout à fait connu. Abductive Learning Networks(ALNs) Même principe que ANNs, cependant «Over-Fitting » résolu, ne tient pas compte des bruits d’informations contrairement à ANNs. Il reste à en savoir plus. Case-Based Reasoning (CBR) Fonctionne selon une approche multicritère, conditions spécifiées dans une table de critères référencée à la base de données utilisées. Semble être moins bon que OLS. Régression linéaire « Méthode des moindres carrés ordinaires » Y = B0 + (B1 * D) + (B2 * S) + (B3 * R) + (B4 * T) + E où Y D S R T B0 E Valeur marchande ; Structurel ; Spatial ; Socio-économique ; Temporel; et B1,2,3,4 Coefficients de la régression; part d’erreur dans le modèle. STRUCTUREL (CUM) SPATIAL (SIG et statistiques) SOCIO-ÉCONOMIQUE (RECENSEMENT et SIG) TEMPOREL (CUM et statisques) Superficie habitable Type de propriété (Bungalow, Cottage,…) Garage Piscine Foyer Climatisation Distances : centre-ville, emploi, commerce, école, … Proximités : parc, fleuve, autoroute, chemin de fer, industrie, … Positions : municipalités et divers secteurs. Revenus Scolarité Origine ethnique Taux de chômage Autocorrélation spatiale Mois écoulés depuis la transaction Saison de vente Cycle immobilier Autocorrélation temporelle Analyse de corrélation – test bilatéral (2-tailed) Il y a corrélation entre deux variables du modèle lorsque les valeurs prises par les deux fluctuent simultanément dans le même sens (corrélation positive ou inverse (corrélation négative). En recherche, le seuil de signification statistique des corrélations est habituellement en dessous de 5 %. Dans le tableau qui suit, la plus forte relation est entre la superficie du terrain et son frontage, soit 75,8 % (et le test est très significatif). Correlations PRIX AGEFFECT SUPTERR FRONTAGE PROFOND GARJSSOL GARJINTG GARJEXT SUPHABT Pears on Correlation Sig. (2-tailed) N Pears on Correlation Sig. (2-tailed) N Pears on Correlation Sig. (2-tailed) N Pears on Correlation Sig. (2-tailed) N Pears on Correlation Sig. (2-tailed) N Pears on Correlation Sig. (2-tailed) N Pears on Correlation Sig. (2-tailed) N Pears on Correlation Sig. (2-tailed) N Pears on Correlation Sig. (2-tailed) N PRIX 1,000 , 450 -,199 ,000 450 ,436 ,000 450 ,321 ,000 450 ,142 ,003 450 ,334 ,000 450 ,300 ,000 450 ,073 ,121 450 ,436 ,000 450 AGEFFECT -,199 ,000 450 1,000 , 450 -,096 ,043 450 -,060 ,203 450 -,313 ,000 450 -,326 ,000 450 -,055 ,244 450 ,159 ,001 450 -,096 ,043 450 SUPTERR ,436 ,000 450 -,096 ,043 450 1,000 , 450 ,758 ,000 450 ,333 ,000 450 ,068 ,153 450 ,241 ,000 450 ,170 ,000 450 1,000 ,000 450 FRONTAGE ,321 ,000 450 -,060 ,203 450 ,758 ,000 450 1,000 , 450 ,328 ,000 450 ,118 ,012 450 ,129 ,006 450 ,202 ,000 450 ,758 ,000 450 PROFOND ,142 ,003 450 -,313 ,000 450 ,333 ,000 450 ,328 ,000 450 1,000 , 450 ,116 ,014 450 -,005 ,910 450 ,013 ,787 450 ,333 ,000 450 GARJSSOL ,334 ,000 450 -,326 ,000 450 ,068 ,153 450 ,118 ,012 450 ,116 ,014 450 1,000 , 450 -,125 ,008 450 -,132 ,005 450 ,068 ,153 450 GARJINTG ,300 ,000 450 -,055 ,244 450 ,241 ,000 450 ,129 ,006 450 -,005 ,910 450 -,125 ,008 450 1,000 , 450 -,028 ,550 450 ,241 ,000 450 GARJEXT ,073 ,121 450 ,159 ,001 450 ,170 ,000 450 ,202 ,000 450 ,013 ,787 450 -,132 ,005 450 -,028 ,550 450 1,000 , 450 ,170 ,000 450 SUPHABT ,436 ,000 450 -,096 ,043 450 1,000 ,000 450 ,758 ,000 450 ,333 ,000 450 ,068 ,153 450 ,241 ,000 450 ,170 ,000 450 1,000 , 450 Analyse de régression : considérations économétriques et tests statistiques 1. Test R² : Test du Coefficient de détermination (pourcentage de la variation totale de la variable dépendante expliquée par les variables prédictives). Plus il est élevé, plus il capte la majorité des variations du phénomène. Les résidus (erreurs d’estimation) auront également un poids plus faible. 2. Test F : Test de Ficher est une mesure globale qui nous indique qu’on peut ou non rejeter l’hypothèse nulle, au risque de se tromper 5 fois sur 100, selon laquelle aucune variable du modèle n’exerce une influence sur la variable explicative. Lorsque F = 0, on garde l’hypothèse nulle, si F > 0, il y a au moins une variable explicative qui a un effet sur la variable dépendante. Plus F est grand, mieux c’est. 3. Test ESE ou SEE Test d’erreur standard d’estimation nous donne une idée sur la performance prédictive de l’équation de régression. C’est comme une sorte de « résidu moyen » ou « erreur de prévision » du modèle (comparer ce test au moyen des prix). Plus ESE est petit, mieux c’est. 4. Test t ou Student t C’est l’erreur standard de chacun des coefficients estimés. Il nous indique si on peut rejeter ou non l’hypothèse nulle selon laquelle il n’y a pas de relation entre le coefficient estimé de la variable explicative et la variable dépendante. La valeur obtenue du Test t est comparée à une valeur critique dans les tables. Plus Test t est grand, mieux c’est. 5. Test VIF (variation inflation factor) Détecte les problèmes de multicolinéarité et identifie les variables qui en sont la cause. Un VIF < 5 est admis pour dire que le problème de multicolinéarité est réduit. Proche de 1, c’est l’idéale. En dessus de 10, c’est problématique. Interprétation des résultats – Régression linéaire multiple C’est le coefficient de corrélation multiple au carré. Mesure sur la performance explicative globale du modèle. Coefficient de corrélation multiple 63,7 % est la roportion de la variance totale de Y expliquée par l’équation de régression Model Summary Model 1 R ,798 « R² ajusté » accomplit la même fonction que R², mais tient compte du nombre de degrés de liberté. DL = n – k – 1, n = nombre d’observations k = nombre de variables explicatives. Si DL > 30, on utilise la table Z, si DL < 30, la table de Student R Square ,637 Adjus ted R Square ,628 Std. Error of the Estimate 18956,93 Erreur standard d’estimation (ESE) Ici, c’est 18 957 $. Si on le compare à la moyenne des prix (108 811 $), c’est élevé. En effet, il représente un terme d’erreur d’estimation « moyenne » du modèle de 17,4 % (18 957 / 108 811). On en conclut que l’équation n’explique pas toutes les variations, ce qui est confirmé par Adjusted R Square (62,8 %). On peut retravailler le modèle, par exemple y intégrer d’autres variables explicatives ! Interprétation des résultats – Régression linéaire multiple (suite) Sur les 449 DL, il y en a 11 qui sont associés au modèle, soit le nombre de variables Nombre d’observations totales : DL + 1 = 450 276799497319 / 11 = 25163590665 157402014200 / 438 = 359365329 Il reste 438 degrés de libertés aux erreurs du modèle. DL = 450 – 11 – 1 = 438 ANOVA Model 1 Regress ion Res idual Total Sum of Squares 276799497319 157402014200 434201511519 df 11 438 449 Mean Square 25163590665 359365329 Somme des variances élevées au carré expliquées par le modèle / la variation totale C’est le test Fisher. Ici, on ne se trompe pas 70 fois en disant qu’au moins une des variables affecte le prix. R² = 276799497319 / 434201511519 = 63, 7 % F = 25163590665 / 359365329 = 70 On veut que ce total des variances diminuent (erreurs élevées au carré). D’ailleurs, le test de F est très significatif. F > 5 %. F 70,022 Sig. ,000 Interprétation des résultats – Régression linéaire multiple (suite) Constante de l’équation (b0) Sig t : C’est la signification du test t. Si > 5 %, on rejette la variable. C’est le test t 78 922 / 7 648 = 10,3 Erreur standard du coefficient estimé C’est le coefficient de corrélation. Aucun problème dans ce cas, car VIF < 5 Coefficients b1 des X estimés Coefficients Uns tandardized Coefficients (Cons tant) AGEFFECT GARJSSOL GARJINTG GARJEXT FOYER SSOLPERS SALBAIN METRO POP96 REVMEN96 SUPHABT B 78922,7 -501,8 45,9 105,6 38,1 11703,5 4,5 8233,6 -7882,0 7,0 ,5 7,0 Std. Error 7648,2 83,2 7,4 15,3 13,8 2138,9 3,0 1917,5 557,0 3,4 ,1 ,7 Collinearity Statis tics t 10,3 -6,0 6,2 6,9 2,8 5,5 1,5 4,3 -14,2 2,0 6,4 9,9 J’ai 13,77 % de probabilité de me tromper quand je dis que chaque pi² de SSPERS ajoute 7 $ au prix. Sig. ,0000 ,0000 ,0000 ,0000 ,0060 ,0000 ,1377 ,0000 ,0000 ,0423 ,0000 ,0000 VIF 2,278 1,352 1,184 1,113 1,365 1,632 1,537 1,996 1,320 1,243 1,693 NIVEAU 1 MODÈLE GLOBAL 0.76 2313 0.000 47610 R² ajusté F-statistic Fisher Erreur Modèle Coefficients Constante 74871.13 AIREHABIT TERRAIN SSOLPERS BUNGALOW COTTAGE DETACHEE SALBAIN AGEFFECT GARAJSSOL PISCINE FOYER CLIMATISEE 79.26 4.13 18.76 10973.79 5089.37 6469.47 4611.50 -150.66 12.17 37.16 13193.71 31.23 CENTRVILL EMPLOIS ECOLES HOPITAUX AUTORTE60 BOISEE200 CHEMFER100 INDUSTRIES100 -5494.04 3185.61 6567.84 -2190.95 -9000.32 4345.53 -12140.33 -19492.11 REVENBAS REVENELEV TXCHOMAGE -21378.83 62055.54 -1454.05 MOISECOULE -804.29 Erreur type coeff. 17208 162652 32000 1000000 Échantillon Moyenne Minimum Maximum 2569.11 Attributs structurels 0.94 0.18 1.19 1326.71 1031.93 943.19 586.76 24.57 3.09 3.96 725.53 10.38 Attributs spatiaux 90.86 394.59 944.15 325.05 4051.51 1498.16 1967.26 2699.86 Attributs socio-économiques 1531.36 1396.91 87.27 Ajustement temporel 35.37 Nature Sig t Test t 29.14 0.0000 84.38 23.20 15.79 8.27 4.93 6.86 7.86 -6.13 3.94 9.38 18.19 3.01 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0000 0.0000 0.0026 M M M B B B M M M M M M -60.47 8.07 6.96 -6.74 -2.22 2.90 -6.17 -7.22 0.0000 0.0000 0.0000 0.0000 0.0263 0.0037 0.0000 0.0000 M M M M B B B B -13.96 44.42 -16.66 0.0000 0.0000 0.0000 B B M -22.74 0.0000 M ESTIMATION DE LA TAILLE REQUISE D’UN ÉCHANTILLON Il est possible d’estimer la tille requise d’un échantillon si l’on connaît ces paramètres : n = ((Z * δ) / E)² où : n = taille requise de l’échantillon Z = valeur de la variable centrée réduite correspondant au coefficient de confiance désiré δ = écart-type de la population E = erreur maximale tolérée de part et d’autre de la moyenne Exemple : Supposons que nous avons recueillie 50 ventes de propriétés résidentielles. L’écart-type de la population de cet échantillon est de 16 500 $ et que l’erreur tolérée de part et d’autre de la moyenne soit de 3 000 $ au maximum, alors quelle est la taille optimale de l’échantillon si on voudrait avoir un niveau de confiance de 95 % ? Solution : n = ((Z * δ) / E)² n = ((1,96 * 16 500)/ 3 000)² n = (32 340 / 3 000)² n = (10,78)² n = 116 observations !