Telechargé par lilirose20021

la régression

publicité
2/ Etude conjointe de deux variables Quantitatives :
En présence de deux variables statistiques, on peut se demander s’il existe un lien linéaire
entre ces deux variables ou si, ou contraire, l’une évolue indépendamment de l’autre.
Lorsqu’une liaison existe entre deux variables, ce lien peut présenter différentes caractéristiques
telles que son sens (proportionnel ou opposé), son importance (forte ou faible) ou sa forme
(linéaire ou non linéaire).
Le modèle de régression linéaire simple
Comment expliquer à travers la statistique ?
Expliquer existence d’un phénomène a expliquer (interpréter par une variable) et des éléments d’explications (un ou
plusieurs)  existence d’une relation de causalité entre les variables ;
Il s’agit d’étudier la relation entre une variable dépendante particulière et une ou plusieurs variables indépendantes
(d’où le qualificatif de régression simple ou multiple)
Deux objectifs principaux
 La prédiction: développer une formule permettant de faire des prédictions à propos de la variable dépendante
sur la base des valeurs observées parmi les variables indépendantes
 L’analyse causale: déterminer si telle ou telle variable indépendante affecte réellement la variable dépendante
et si oui estimer la grandeur de cet effet
Commençons par le cas le plus simple avec deux variables : Y une variable à expliquer par une variable X qui est
l’explicative ;
Prenons l’exemple de l’étude de marché de Danone :
Une enquête consommation grand public a était réalisé par un institut de recherche marketing en Algérie en 2006 au
profit de l’entreprise Danone, les objectifs de l’étude :
 Evaluer le potentiel marché et les besoins du consommateur en terme de valeur.
 Analyser la satisfaction des consommateurs des produits Danone.
COURS STATISTIQUE DESCRIPTIVE :
Pr Hassiba DJEMA / EHEC :
Page 1
Afin de répondre au premier besoin (potentiel marché) nous analysons la relation existante entre le budget consacré à
la consommation des produits laitiers (Y) et le revenu du foyer (X) :
9 000
consommation produit laitier Mensuel
(Y)
La premiere étape d’analyse consiste
à tracer le nuage de point des deux
variables X, Y ; en respectant le
positionnement de la variable
explicative (Revenu X) sur l’axe des
abscisse et la variable à expliquer
(Consommation produits laitier Y)
sur l’axe des ordonnées.
8 000
A
7 000
6 000
5 000
4 000
B
3 000
2 000
1 000
0
0
20 000
0
20 000
40 000
60 000
Revenu Mensuel (X)
80 000
100 000
Nous observons que le nuage s’étale
en un sens unique, pas de points
positionnées sur les zones A ou B ; il
marque clairement un relation entre
les deux variables (une causalité) ;
Y= b0+b1X
Pour que cette courbe donne le
meilleur ajustement possible, elle
doit passer par le maximum de points
possibles ou être proche le plus
possible des points.
9 000
consommation produit laitier Mensuel
(Y)
Nous traçons une courbe
d’ajustement de la distribution ;
cette courbe à pour équation :
8 000
7 000
6 000
5 000
4 000
3 000
2 000
1 000
0
40 000
60 000
Revenu Mensuel (X)
80 000
100 000
On note, pour la même observation :
yi la valeur observé empiriquement
yˆ i la valeur obtenu par calcul à partir
de l' équation
COURS STATISTIQUE DESCRIPTIVE :
Pr Hassiba DJEMA / EHEC :
Page 2
Donc nous devons minimisé la
somme des différence de yi  yˆ i soit
mathématiquement
n
min   yi  yˆ i 
9 000
consommation produit laitier Mensuel
(Y)
i 1
Nous remarquons que certains points
sont positionnés au dessous de la
ligne d’ajustement alors que d’autre
au dessous, de ce fait certaines
distances vont avoir des signes
positifs alors que d’autre des signes
négatifs, ainsi les distances vont
s’annulées entre eux ;
8 000
7 000
6 000
5 000
4 000
3 000
2 000
1 000
0
0
20 000
40 000
60 000
Revenu Mensuel (X)
80 000
100 000
Afin d’éviter ce problème nous
pouvons pensé à deux solutions :
1. utilisé les valeurs absolue I
2. mettre au carrée les valeurs ²
Sur le plan statistique, la deuxième
solution est préférable ; ainsi
l’équation devient :
n
min   yi  yˆi ²
i 1
2. Quelques développements mathématiques simples:
N
Nous développons l’équation :
N

y
i 1
i
N
2
 yˆi     yi  b0  b1 xi 
  yi2  2b0 yi  2b1 yi xi  b02  2b0b1 xi  b12 xi2
2
i 1

i 1
COURS STATISTIQUE DESCRIPTIVE :
Pr Hassiba DJEMA / EHEC :
Page 3
Pour que cette équation atteint son minimum il faut que les dérivés du premier ordre
s’annulent1 :
n
   yi  yˆ i 
2
n
  (2 yi  2b0  2b1 xi )
i 1
b0
i 1
n
   yi  yˆ i 
………1
2
n
  (2 yi xi  2b0 xi  2b1 xi2 )
i 1
b1
i 1
….2
A partir de la première équation nous pouvons déduire :
n
n
n
n
n
i 1
i 1
i 1
i 1
i 1
 b0   yi  b1  xi  Nb0   yi  b1  xi
N
En divisant par N les deux parties de l’équation, sachant que
X 
x
i 1
N
i
nous obtenons :
b0  Y  b1 X (résultat a retenir)
En remplaçant ce résultat dans la deuxième équation nous trouvons :
n
n
i 1
i 1
 (2 yi xi  2b0 xi  2b1 xi2 )  2 ( yi xi  (Y  b1 X ) xi  2b1 xi2 )  0
N
N
 N
 N
b1   xi2  X  xi    yi xi  Y  xi
i 1
i 1
 i 1
 i 1
N
b1 
D’où :
 y x  NY ( X )
i i
i 1
N
x
i 1
2
i
 NX 2
1
Nous admettons que la distribution de cette équation est convexe
Nous dérivons par rapport à b0 et b1 (et non pas X, Y ..attention) car nous cherchons les valeurs de b0 et b1 qui permettent de
minimiser cette équation
COURS STATISTIQUE DESCRIPTIVE :
Pr Hassiba DJEMA / EHEC :
Page 4
N
b1 
y x
 NY ( X )
i
i
x
2
i
i 1
N
i 1
 NX 2
N
b1 
y x
i 1
i
 2 NY ( X )  NY ( X )
i
N
x
i 1
 2 N X 2  NX 2
2
i
N
b1 
N
i 1
i
i
i 1
(y x
i
i 1
N
i 1
i 1
 (x
(y
i 1
i
2
i
 NY ( X )
N
 (x
1
N
i
N
(y
i 1
1
N
2 Xxi  X 2 )
 Y )( xi  X )
i 1
b1 
i
 y i X  Y xi  Y X )
i
N
N
b1 
i 1
 xi2  2 X  xi  NX 2
i 1
b1 
i
N
N
b1 
N
 y x   y (X )  Y  x
i
 X )²
 Y )( xi  X )
N
 (x
i 1
i
 X )²
cov X , Y 
(résultat a retenir)
Var ( X )
Cette méthode d’ajustement de Y sur X s’appelle la régression linéaire.
3. Des définitions à retenir :
L’équation Y= b0+b1X est appelé modèle de régression linéaire simple
COURS STATISTIQUE DESCRIPTIVE :
Pr Hassiba DJEMA / EHEC :
Page 5
 Linéaire : du fait que la relation que nous somme entrain d’expliquer entre Y et X
est une relation linéaire, il existe d’autre type de relations qui seront détaillées dans
la suite du cours.
 Simple : il explique Y par une seule variable X ; il existe d’autres modèles plus
compliqués qui expliquent Y par plusieurs variables explicatives X, ils seront
détaillés dans la suite du cours
La méthode utilisée pour estimer les paramètres b0 et b1 est appelée : Moindre carrés
ordinaire (MCO2)
n
 Moindre carrés : elle minimise le carrée des distances
min   yi  yˆi ²
i 1
 Ordinaire : sert à distinguer la méthode la plus simple des moindres carrés ; il
existe d’autres méthodes plus compliquées d’estimation basées sur les moindres
carrés elles seront revu dans la suite du cours
5. Le modèle de régression :
Dans le développement mentionné précédemment, la fameuse valeur qui fait objet de
minimisation  yi  yˆ i  -pas de carré- s’appel erreur de prédiction,
nous utilisons aussi l’expression de valeurs résiduelles ou tous simplement résidu3 ; cette
valeur représente la différence entre les valeurs obtenues à partir de la courbe d’ajustement
(b0+b1X)
et les valeurs réelles observées, le résidu est noté  i
Ainsi l’équation Y= b0+b1X est appelé courbe d’ajustement ; et l’équation Y= b0+b1X+  i est
appelé modèle de régression
5.1 Propriétés statistiques des résidus ‘ prendre en considération uniquement la premiere:
1. les  i sont de moyenne nulle  ne sont pas des réalisations indépendantes d’une variable
aléatoire.
2
3
En Anglais OLS : Ordinary least Square; certains auteurs mentionnent OLSE Ordinary Least Square Estimator
Dans le jargon économétrique on utilise les appellations : ‘‘perturbation aléatoire’’ ou ‘‘alea’’
COURS STATISTIQUE DESCRIPTIVE :
Pr Hassiba DJEMA / EHEC :
Page 6
2. la variance empirique des résidus
est appelée variance résiduelle.
 2 ( i ) 
1 N 2
1 N
1 N
 i   2    i2  0    i2

N i 1
N i 1
N i 1 cette valeur
3. dans les modélisations économétriques nous admettons que les  i suivant une
distribution normale 0; 
La covariance : c’est un indicateur statistique qui permet de mesurer le lien linéaire entre deux
variables quantitatives. Sa formule de calcule est la suivante :
Cov (x, y)= 1/n ∑(Xi- ) (Yi-Y)
5.2 Relation avec le coefficient de corrélation :

Soit :
cov X , Y 

 ( X ) (Y )
cov X , Y 
Var ( X )Var (Y )
le cœfficient de corrélation entre X et Y
b1 
Nous rappelons le résultat trouvé :
D’où :
b1 
4
cov X , Y 
Var ( X )
cov X , Y  cov X , Y  cov X , Y   (Y )
 (Y )



(résultat _ a _ retenir )
2
Var ( X )
 (X )
 ( X ) ( X )  (Y )
 (X )
4
Le coefficient de corrélation quantifier la liaison entre X et Y de manière a mettre en évidence : le « sens » de la liaison, et la
« force » de la liaison
COURS STATISTIQUE DESCRIPTIVE :
Pr Hassiba DJEMA / EHEC :
Page 7
COURS STATISTIQUE DESCRIPTIVE :
Pr Hassiba DJEMA / EHEC :
Page 8
Téléchargement