Analyse de régression

publicité
Introduction à la régression
ƒ La régression est utilisée pour estimer une fonction f( )
décrivant une relation entre une variable expliquée
continue, Y, et une ou plusieurs variables explicatives,
Xi.
Y = f(X1, X2, X3,…, Xn) + ε
Analyse de régression
Remarque :
• f( ) décrit la variation systématique de la relation.
• ε représente la variation non systématique (aléatoire) de la
relation.
1
2
Le nuage de points des données
Un Exemple
ƒ Considérons la relation entre le budget de
publicité (X1) et les ventes (Y).
ƒ Il y a probablement une relation de type : quand la
publicité augmente, les ventes devraient aussi
augmenter.
ƒ En pratique, comment peut-on quantifier cette
relation?
Voir le fichier Fig9-1.xls
Ventes ( x 1 000 $)
600.0
500.0
400.0
300.0
200.0
100.0
0.0
20
30
40
50
60
70
80
90
100
Publicité (x 1 000 $)
3
4
Un modèle de régression linéaire simple
La nature de la relation statistique
ƒ Le nuage de points illustre une relation (environ)
linéaire entre la publicité et les ventes.
Y
ƒ Les données suggèrent donc le modèle de régression
suivant :
Courbe de
régression
Yi = β 0 + β 1 X 1i + ε i
Cela se veut la vraie relation entre la population
entière des données de publicité et de ventes.
ƒ La fonction de régression estimée (calculée avec
notre échantillon) sera représentées ainsi :
= b +b X
Y
i
0
1 1i
Distributions de probabilités
pour Y à différents niveaux de X
Ŷi est l'estimation (ou l'ajustement) de Y à un certain niveau de X
X
5
6
1
Déterminer le meilleur ajustement
Utilisation du Solver
ƒ Des valeurs numériques doivent être déterminées
pour b0 and b1
ƒ La méthode des moindres carrés trouve les valeurs
qui minimisent n:
n
ESS =
∑ (Y − Y ) = ∑ (Y − (b
2
i =1
i
i
i =1
0
i
Voir le fichier Fig9-4.xls
+ b1 X1 )) 2
i
ƒ Si ESS = 0, la fonction estimée s’ajuste
parfaitement aux données.
ƒ Nous pouvons résoudre ce problème à l’aide du
Solver d’Excel.
7
8
Utilisation de l’utilitaire d’analyse
La fonction de régression estimée
ƒ Excel possède aussi un outil intégré (utilitaire
d’analyse) pour réaliser une étude de régression :
– Plus simple à utiliser
– Génère beaucoup plus d’information à propos du
problème
ƒ Selon les données, la fonction de
régression estimée est la suivante :
= 36.342 + 5.550 X
Y
i
1
i
Voir le fichier Fig9-1.xls
9
La fonction TREND()
10
Évaluer la qualité de l’ajustement
TREND(Plage en Y, Plage en X, Valeur X pour la
prédiction)
600.0
Sales (in
n $000s)
Où :
Plage en Y est l’ensemble des cellules contenant les
valeurs de la variable expliquée Y
Plage en X est l’ensemble des cellules contenant les
valeurs de(s) variable(s) explicatives X
Valeur X pour la prédiction est la(les) cellule(s) contenant
la(les) valeur(s) de(des) variable(s) explicative(s) pour
laquelle(lesquelles) on désire une prédiction de la
500.0
400.0
300.0
100.0
0.0
20
Remarque : La fonction TREND( ) est dynamiquement remise à
jour dès qu’une valeur d’entrée est modifiée. Toutefois, elle ne
fournit pas toute l’information statistique de l’outil de régression.
11
2
R = 0.9691
200.0
30
40
50
60
70
80
90
100
Advertising (in $000s)
12
2
La statistique R2
Décomposition de l’erreur
ƒ La statistique R2 indique en partie le niveau
d’ajustement du modèle aux données
ƒ 0 < R2 < 1
ƒ Elle mesure la proportion de la variation
totale de Y autour de la moyenne qui est
comprise dans l’équation de régression
ƒ Le graphique suivant illustre bien ce concept
Yi (valeur réelle)
Y
*
Yi - Y
^
Yi - Y
i
^ (Valeur estimée)
Y
i
^ -Y
Y
i
Y
^
Y
= b0 + b1X
X
13
Partitionnement de la
somme des carrés totaux (TSS)
n
n
2
2
i =1
i
i
i =1
TSS
=
R2 =
Faire des prédictions
ƒ Supposons que l’on désire estimer le niveau
moyen des ventes espérées en dépensant
65 000$ de publicité
n
∑ (Y − Y) = ∑ (Y − Y ) + ∑ (Y − Y )
i
i =1
ESS +
14
2
i
= 36.342 + 5.550X
Y
i
1
RSS
i
ƒ Ventes estimées = 36.342 + 5.550 * 65
= 397.092
RSS
ESS
= 1−
TSS
TSS
ƒ Donc, quand 65 000$ sont dépensés en
publicité, nous pouvons espérer avoir un
niveau moyen des ventes de 397 092$
15
Un intervalle de prédiction approximatif
L’erreur type
ƒ Un intervalle de confiance à 95%,
approximatif, pour une nouvelle valeur de Y
quand X1=X1h est donné par :
ƒ L’erreur type (erreur standard) mesure la
dispersion des données autour de la droite de
régression
n
∑ (Y − Y )
Se =
i =1
i
16
± 2S
Y
h
e
2
i
n − k −1
Où :
= b +b X
Y
h
0
1 1
h
ƒ Exemple : Si 65 000$ sont dépensés en publicité :
Intervalle de prédiction inférieur à 95% = 397.092 - 2*20.421 = 356.250
Intervalle de prédiction supérieur à 95% = 397.092 + 2*20.421 = 437.934
où k = le nombre de variables explicatives
ƒ Dans notre dernier exemple, Se = 20.421
ƒ Donc, en dépensant 65 000$ en publicité, nous
sommes approximativement confiants à 95% que les
ventes seront entre 356 250$ et 437 934$
ƒ Ceci est utile pour les intervalles de prédiction
17
18
3
Un intervalle de prédiction exact
Exemple
ƒ Un intervalle de confiance à (1-α)% pour une
nouvelle valeur de Y quand X1=X1h est donné
par :
ƒ Si 65 000$ était dépensé en publicité :
Intervalle de confiance inférieur à 95% = 397.092 - 2.306*21.489 =
347.556
Intervalle de confiance supérieur à 95% = 397.092 + 2.306*21.489 =
446.666
±t
Y
h
(1−α / 2 ,n − 2 ) S p
Où :
ƒ Donc, on dépensant 65 000$ en publicité, nous sommes
confiants à 95% que les ventes seront entre 347 556$ et
446 666$
ƒ Ici, cet intervalle est environ seulement 20 000$ plus large
que celui approximatif, qui était beaucoup plus simple à
obtenir
ƒ Le gain de précision ne vaut pas nécessairement toujours
le trouble supplémentaire, bien que dans Excel …
= b +b X
Y
h
0
1 1
h
S p = Se 1 +
( X1 − X ) 2
1
h
+ n
n
( X1 − X ) 2
∑
i =1
i
19
Comparaison des deux
intervalles de confiance calculés
Intervalles de confiance pour la moyenne
ƒ Un intervalle de confiance à (1-α)% pour la
vraie valeur moyenne de Y quand X1=X1h est
donné par :
Sales
575
525
475
Intervalles de confiance
calculés avec l’erreur
type Se
±t
Y
h
(1− α / 2 ,n − 2 ) S a
425
Où :
375
325
Intervalles de confiance
calculés avec l’erreur de
prédiction Sp
225
175
35
45
55
65
75
Advertising Expenditures
85
= b +b X
Y
h
0
1 1
h
Droite de régression
275
125
25
20
Sa = Se
( X1 − X) 2
1
h
+ n
n
( X1 − X) 2
∑
i =1
95
i
21
Une remarque à propos des extrapolations
22
Analyse de régression multiple
ƒ La majorité des problèmes de régression impliquent
plus qu’une variable explicative
ƒ Des prédictions faites avec un modèle de
régression (même avec un grand R2),
peuvent être peu ou pas fiables du tout
pour des valeurs des variables
p
explicatives choisies en dehors de celles
de l’échantillon ayant servi à élaborer le
modèle
ƒ Interpolation = OK
ƒ Extrapolation = ???!!!
ƒ Si chaque variable (ou une transformation de celle-ci)
contribue linéairement avec Y, la fonction de régression
est alors :
= b + b X + b X +"+b X
Y
i
0
1 1
2 2
k k
i
i
i
ƒ Les valeurs optimales des bi peuvent encore être
déterminées en minimisant ESS
ƒ Il s’agit maintenant d’ajuster un hyperplan aux
données
23
24
4
Exemple d’une surface de régression
pour deux variables explicatives
Exemple de régression multiple :
Évaluation immobilière
Y
ƒ Un évaluateur immobilier désire développer un
modèle pour l’aider à prédire le prix du marché
de certaines propriétés
ƒ Trois variables explicatives seront retenues pour
prix de vente d’une maison :
estimer le p
*
*
**
*
* *
*
*
*
*
* * *
*
*
*
*
*
*
*
*
– Surface totale en pi.ca.
– Nombre de chambres à coucher
– Dimension du garage
*
X2
ƒ Voir le fichier Fig9-17.xls
X1
25
26
Modèles avec une variable explicative
Sélectionner le modèle
ƒ Nous voulons identifier le modèle le plus simple
qui exprime bien la variation systématique de la
variable Y
ƒ Utiliser arbitrairement toutes les variables
explicatives pourrait induire un « surajustement »
ƒ Un échantillon contient plusieurs caractéristiques :
– Certaines représentant la population
– D’autres étant spécifiques à l’échantillon
ƒ Nous ne voulons pas ajuster les modèles aux
caractéristiques spécifiques des échantillons,
c’est-à-dire faire du surajustement
ƒ De façon simpliste, supposons qu’on ajuste
trois modèles de régression simple :
= b +b X
Y
i
0
1 1i
Yi = b0 + b2 X 2
i
= b +b X
Y
i
0
3 3i
ƒ Faits saillants des résultats :
Variables
incluses
X1
X2
X3
R2
0.870
0.759
0.793
R2
ajusté
0.855
0.731
0.770
Estimations
Se
des paramètres
10.299 b0=9.503, b1=56.394
14.030 b0=78.290, b2=28.382
12.982 b0=16.250, b3=27.607
ƒ Juste le modèle avec X1 contient déjà 87% de
la variation de Y, laissant 13% pour le reste
27
Remarque informatique importante
28
Modèles avec deux variables explicatives
ƒ Supposons maintenant que nous ajustions
les deux modèles suivants :
En considérant plus d’une variable
explicative, il est important de les
maintenir en blocs adjacents afin de
pouvoir les sélectionner simultanément
= b +b X +b X
Y
i
0
1 1i
2 2i
= b +b X +b X
Y
i
0
1 1
3 3
i
i
ƒ Faits saillants des résultats :
Variables
incluses
X1
X1 & X2
X1 & X3
La sélection de blocs non contigües est
interdite avec l’outil de régression
R2
0.870
0.939
0.877
R2
ajusté
0.855
0.924
0.847
Se
10.299
7.471
10.609
Estimations
des paramètres
b0=9.503, b1=56.394
b0=27.684, b1=38.576 b2=12.875
b0=8.311, b1=44.313 b3=6.743
ƒ Le modèle comprenant X1 et X2 explique 93.9%
de la variation de Y
29
30
5
Le R2 ajusté
Attention à la multicollinéarité
ƒ À mesure que des variables explicatives sont
incluses dans le modèle :
ƒ Il n’est pas surprenant qu’ajouter X3 (chambres à
coucher) au modèle comprenant déjà X1 (surface
totale) n’ait pas enrichi significativement le modèle
R2
– Le
peut seulement croître
– Le R2 ajusté peut croître ou décroître
⎛ ESS ⎞ ⎛ n − 1 ⎞
R 2a = 1 − ⎜
⎟⎜
⎟
⎝ TSS ⎠ ⎝ n − k − 1⎠
ƒ Le R2 peut être amplifié artificiellement par
l’addition de n’importe quelle variable explicative
ƒ Il est préférable de comparer les valeurs des R2
ajustés pour déterminer si l’introduction d’une
variable supplémentaire est utile
ƒ Ces deux variables représentent
(
(approximativement)
i ti
t) la
l même
ê
chose,
h
la
l grandeur
d
de la maison
ƒ Ces deux variables sont fortement corrélées
(ou colinéaires)
ƒ La multicollinéarité doit être évitée
31
32
Modèle avec trois variables explicatives
ƒ Supposons maintenant que nous voulions
inclure les trois variables explicatives :
= b +b X +b X +b X
Y
i
0
1 1
2 2
3 3
i
i
ƒ Estimons la valeur moyenne d’une maison de
2 100 pi.ca. et ayant un garage double :
= b +b X +b X
Y
i
0
1 1i
2 2i
Y i = 27 .684 + 38.576 * 2 .1 + 12 .875 * 2 = 134 .444
i
ƒ Faits saillants des résultats :
Variables
incluses
X1
X1 & X2
X1, X2 & X3
R2
0.870
0.939
0.943
R2
Estimations
ajusté Se
des paramètres
0.855 10.299 b0=9.503, b1=56.394
0.924 7.471 b0=27.684, b1=38.576, b2=12.875
0.918 7.762 b0=26.440, b1=30.803,
b2=12.567, b3=4.576
ƒ La valeur moyenne
y
estimée du p
prix de vente est
donc de 134 444$
ƒ Un intervalle de confiance approximatif de 95%
pour le prix de vente est :
± 2S
Y
h
e
ƒ Le modèle comprenant X1 et X2 semble être le
meilleur :
– Plus grand R2 ajusté
– Plus faible Se (intervalles de prédiction les plus petits)
Faire des prédictions
= 134.444 - 2*7.471 Î 119 502 $
Intervalle supérieure à 95% = 134.444 + 2*7.471 Î 149 386$
Intervalle inférieur à 95%
33
34
Régression polynomiale
Variables explicatives binaires
ƒ Parfois, la relation entre les variables n’est pas
linéaire
ƒ Il est possible d’introduire des variables explicatives non
quantitatives par l’entremise de variables binaires
$175
ƒ Exemple : La présence (ou l’absence) d’une piscine
Selling Price
X pi
$150
⎧1, si la maison i a une piscine
=⎨
⎩0, autrement
ƒ Exemple : Selon que la toiture est en bonne, moyenne ou
mauvaise condition
⎧1, si le toit de la maison i est en bonne condition
X ri = ⎨
⎩0, autrement
$125
$100
$75
$50
0.900
1.200
1.500
1.800
Square Footage
2.100
2.400
ƒ Ce graphique suggère une relation quadratique entre
la surface (X) et le prix de vente (Y)
⎧1, si le toit de la maison i est en moyenne condition
X r +1i = ⎨
⎩ 0, autrement
35
36
6
Le modèle de régression
Implantation du modèle
ƒ Un modèle de régression approximatif pour ce
cas pourrait être :
Voir le fichier Fig9-25.xls
= b + b X + b X2
Y
i
0
1 1
2 1
i
i
Ou encore
= b +b X +b X
Y
i
0
1 1
2 2
i
i
avec
X 2 = X 12
i
i
37
38
Ajuster un modèle polynomial
du troisième ordre
Graphique de la fonction
quadratique de régression
ƒ Nous pourrions aussi ajuster un modèle
polynomial du troisième ordre,
$175
$150
= b + b X + b X2 + b X3
Y
i
0
1 1
2 1
3 1
Selling P
Price
i
Y i = b0 + b1 X 1 + b2 X 2 + b3 X 3
$100
i
avec
$75
i
i
i
X 2 = X 12
i
$50
0.900
i
Ou encore
$125
1.200
1.500
1.800
Square Footage
2.100
X3 =
2.400
i
i
X 13
i
39
Attention au surajustement
Graphique de la fonction polynomiale
de régression du troisième ordre
ƒ Particulièrement avec les modèles
polynomiaux, il faut être prudents pour
ne pas surajuster le modèle à
l’échantillon
ƒ Comment faire pour décider du nombre
de termes? Peut être avec le R2 ajusté!
$175
$150
Selling P
Price
40
$125
$100
$75
$50
0.900
1.200
1.500
1.800
Square Footage
2.100
2.400
41
42
7
Téléchargement