1
Analyse de régression
1
Introduction à la régression
La régression est utilisée pour estimer une fonction f( )
décrivant une relation entre une variable expliquée
continue, Y, et une ou plusieurs variables explicatives,
Xi. Y = f(X1, X2, X3,…, Xn)+ε
Remarque :
f( ) décrit la variation systématique de la relation.
•εreprésente la variation non systématique (aléatoire) de la
relation.
2
Un Exemple
Considérons la relation entre le budget de
publicité (X1) et les ventes (Y).
Il y a probablement une relation de type : quand la
publicité augmente, les ventes devraient aussi
augmenter
augmenter
.
En pratique, comment peut-on quantifier cette
relation? Voir le fichier Fig9-1.xls
3
Le nuage de points des données
400.0
500.0
600.0
Ventes ( x 1 000 $)
0.0
100.0
200.0
300.0
20 30 40 50 60 70 80 90 100
Publicité (x 1 000 $)
4
La nature de la relation statistique
Courbe de
régression
Y
Distributions de probabilités
pour Y à différents niveaux de X
X5
Un modèle de régression linéaire simple
Le nuage de points illustre une relation (environ)
linéaire entre la publicité et les ventes.
Les données suggèrent donc le modèle de régression
suivant :
Cela se veut la vraie relation entre la population
YX
i
=
++
β
βε
011
ii
Cela
se
veut
la
vraie
relation
entre
la
population
entière des données de publicité et de ventes.
La fonction de régression estimée (calculée avec
notre échantillon) sera représentées ainsi :
YX
ibbi
=+
011
ˆ
Y est l'estimation (ou l'ajustement) de Y à un certain niveau de X
i
6
2
Déterminer le meilleur ajustement
Des valeurs numériques doivent être déterminées
pour b0and b1
ESS Y Y Y X=−=−+
∑∑
()(( ))
i
n
ii
nbb
i
2011
2
La méthode des moindres carrés trouve les valeurs
qui minimisent :
==ii
i
11
Si ESS = 0, la fonction estimée s’ajuste
parfaitement aux données.
Nous pouvons résoudre ce problème à l’aide du
Solver d’Excel.
7
Utilisation du Solver
Voir le fichier Fig9-4.xls
8
La fonction de régression estimée
Selon les données, la fonction de
régression estimée est la suivante :
..YX
ii
=+36342 5550 1
9
Utilisation de l’utilitaire d’analyse
Excel possède aussi un outil intégré (utilitaire
d’analyse) pour réaliser une étude de régression :
Plus simple à utiliser
Génère beaucoup plus d’information à propos du
problème
Voir le fichier Fig9-1.xls
10
La fonction TREND()
TREND(Plage en Y, Plage en X, Valeur X pour la
prédiction)
Où :
Plage en Y est l’ensemble des cellules contenant les
valeurs de la variable expliquée Y
Plage en X est l’ensemble des cellules contenant les
valeurs de(s) variable(s) explicatives X
valeurs
de(s)
variable(s)
explicatives
X
Valeur X pour la prédiction est la(les) cellule(s) contenant
la(les) valeur(s) de(des) variable(s) explicative(s) pour
laquelle(lesquelles) on désire une prédiction de la
Remarque : La fonction TREND( ) est dynamiquement remise à
jour dès qu’une valeur d’entrée est modifiée. Toutefois, elle ne
fournit pas toute l’information statistique de l’outil de régression.
11
Évaluer la qualité de l’ajustement
R2= 0.9691
300.0
400.0
500.0
600.0
n
$000s)
0.0
100.0
200.0
20 30 40 50 60 70 80 90 100
Advertising (in $000s)
Sales (i
n
12
3
La statistique R2
La statistique R2indique en partie le niveau
d’ajustement du modèle aux données
0 < R2< 1
Elle mesure la proportion de la variation
totale de Y autour de la moyenne qui est
totale
de
Y
autour
de
la
moyenne
qui
est
comprise dans l’équation de régression
Le graphique suivant illustre bien ce concept
13
Décomposition de l’erreur
Y*
Yi(valeur réelle)
Yi-YYi (Valeur estimée)
^
Y
-
Y
^
Yi -Y
i
^
X
Y
Y = b0+ b1X
^
Y
Y
14
Partitionnement de la
somme des carrés totaux (TSS)
((
)(
)YY) YY YY
2
i
i
n
i
n
ii i
n
i
===
∑∑∑
−= + −
11
2
1
2
TSS = ESS + RSS
RRSS
TSS 1ESS
TSS
2==
15
Faire des prédictions
..YX
ii
=+36342 5550 1
Supposons que l’on désire estimer le niveau
moyen des ventes espérées en dépensant
65 000$ de publicité
Ventes estimées = 36.342 + 5.550 * 65
= 397.092
Donc, quand 65 000$ sont dépensés en
publicité, nous pouvons espérer avoir un
niveau moyen des ventes de 397 092$
16
L’erreur type
L’erreur type (erreur standard) mesure la
dispersion des données autour de la droite de
régression
S
ii
i
n
=
()YY
2
1
S
nk
e=−−1
k= le nombre de variables explicatives
Dans notre dernier exemple, Se= 20.421
Ceci est utile pour les intervalles de prédiction
17
Un intervalle de prédiction approximatif
Un intervalle de confiance à 95%,
approximatif, pour une nouvelle valeur de Y
quand X1=X1hest donné par :
Yhe
S±2
YX
hbbh
=+
011
:
Exemple : Si 65 000$ sont dépensés en publicité :
Intervalle de prédiction inférieur à 95% = 397.092 - 2*20.421 = 356.250
Intervalle de prédiction supérieur à 95% = 397.092 + 2*20.421 = 437.934
Donc, en dépensant 65 000$ en publicité, nous
sommes approximativement confiants à 95% que les
ventes seront entre 356 250$ et 437 934$
18
4
Un intervalle de prédiction exact
Un intervalle de confiance à (1-α)% pour une
nouvelle valeur de Yquand X1=X1hest donné
par :
(/,)
Yt
hnp
S±−−122
α
:
YX
hbbh
=+
011
SS n
pe
i
nh
i
=++
=
1112
12
1
()
()
XX
XX
19
Exemple
Si 65 000$ était dépensé en publicité :
Intervalle de confiance inférieur à 95% = 397.092 - 2.306*21.489 =
347.556
Intervalle de confiance supérieur à 95% = 397.092 + 2.306*21.489 =
446.666
Donc, on dépensant 65 000$ en publicité, nous sommes
confiants à 95% que les ventes seront entre 347 556$ et
446 666$
Ici, cet intervalle est environ seulement 20 000$ plus large
que celui approximatif, qui était beaucoup plus simple à
obtenir
Le gain de précision ne vaut pas nécessairement toujours
le trouble supplémentaire, bien que dans Excel … 20
Comparaison des deux
intervalles de confiance calculés
375
425
475
525
575
Sales
Intervalles de confiance
calculés avec l’erreur
type Se
125
175
225
275
325
375
25 35 45 55 65 75 85 95
Advertising Expenditures
Droite de régression
Intervalles de confiance
calculés avec l’erreur de
prédiction Sp
21
Intervalles de confiance pour la moyenne
Un intervalle de confiance à (1-α)% pour la
vraie valeur moyenne de Yquand X1=X1hest
donné par : (/,)
Yt
hna
S±−−122
α
:
YX
hbbh
=
+
011
SS
n
ae
i
nh
i
=+
=
112
12
1
()
()
XX
XX
22
Une remarque à propos des extrapolations
Des prédictions faites avec un modèle de
régression (même avec un grand R2),
peuvent être peu ou pas fiables du tout
p
our des valeurs des variables
p
explicatives choisies en dehors de celles
de l’échantillon ayant servi à élaborer le
modèle
Interpolation = OK
Extrapolation = ???!!!
23
Analyse de régression multiple
La majorité des problèmes de régression impliquent
plus qu’une variable explicative
Si chaque variable (ou une transformation de celle-ci)
contribue linéairement avec Y, la fonction de régression
est alors :
YXXX
ikk
bb b b
ii i
=+ + ++
011 22
"
Les valeurs optimales des bi peuvent encore être
déterminées en minimisant ESS
Il s’agit maintenant d’ajuster un hyperplan aux
données
24
5
Exemple d’une surface de régression
pour deux variables explicatives
Y
*
*
***
X1
X2
*
***
***
**
**
*
*
*****
*
25
Exemple de régression multiple :
Évaluation immobilière
Un évaluateur immobilier désire développer un
modèle pour l’aider à prédire le prix du marché
de certaines propriétés
Trois variables explicatives seront retenues pour
estimer le
p
rix de vente d’une maison :
p
Surface totale en pi.ca.
Nombre de chambres à coucher
Dimension du garage
Voir le fichier Fig9-17.xls
26
Sélectionner le modèle
Nous voulons identifier le modèle le plus simple
qui exprime bien la variation systématique de la
variable Y
Utiliser arbitrairement toutes les variables
explicatives pourrait induire un « surajustement »
Un échantillon contient plusieurs caractéristiques :
Certaines représentant la population
D’autres étant spécifiques à l’échantillon
Nous ne voulons pas ajuster les modèles aux
caractéristiques spécifiques des échantillons,
c’est-à-dire faire du surajustement 27
Modèles avec une variable explicative
De façon simpliste, supposons qu’on ajuste
trois modèles de régression simple :
YX
ibbi
=+
011
YX
ibb i
=+
022
YX
ibbi
=+
033
Faits saillants des résultats :
Variables R2 Estimations
incluses R2ajusté Sedes paramètres
X10.870 0.855 10.299
b
0=9.503,
b
1=56.394
X20.759 0.731 14.030
b
0=78.290,
b
2=28.382
X30.793 0.770 12.982
b
0=16.250,
b
3=27.607
Faits
saillants
des
résultats
:
Juste le modèle avec X1contient déjà 87% de
la variation de Y, laissant 13% pour le reste 28
Remarque informatique importante
En considérant plus d’une variable
explicative, il est important de les
maintenir en blocs adjacents afin de
pouvoir les sélectionner simultanément
pouvoir
les
sélectionner
simultanément
La sélection de blocs non contigües est
interdite avec l’outil de régression
29
Modèles avec deux variables explicatives
Supposons maintenant que nous ajustions
les deux modèles suivants :
YXX
ibb b
ii
=+ +
011 22
YXX
ibb b
ii
=+ +
011 33
Faits saillants des résultats :
Variables R2 Estimations
incluses R2ajusté Sedes paramètres
X10.870 0.855 10.299
b
0=9.503,
b
1=56.394
X1& X20.939 0.924 7.471
b
0=27.684,
b
1=38.576
b
2=12.875
X1& X30.877 0.847 10.609
b
0=8.311,
b
1=44.313
b
3=6.743
Faits
saillants
des
résultats
:
Le modèle comprenant X1et X2explique 93.9%
de la variation de Y 30
1 / 7 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!