Série chronologique et prévisions Introduction : Objectifs

publicité
Série chronologique et prévisions
Introduction :
Objectifs :
-
Maniement simple de quelques techniques statistiques (statistiques descriptives,
indices, séries chronologique, moindres carrés ordinaires).
Chapitre 1 : Statistiques descriptives
On distingue deux types de statistiques résumées :
-
Les statistiques qui résument la tendance « centrale » d’une série (mode, moyenne et
médiane) et les statistiques qui résument la dispersion d’une série
o Sans référence à aucune statistique de tendance centrale (intervalle,
interquartile ou inter décile)
o Qui fait référence à la tendance centrale (variance, écart-type et coefficient de
variation)
Il existe aussi des statistiques qui résument la « forme » d’une distribution, mais celles-ci ne
sont plus trop utilisées aujourd’hui dans la mesure où il est plus facile d’observer directement
la graphique d’une distribution pour en apprécier la forme.
I. Les statistiques de tendance centrale
1) Le mode
Le mode d’une série est la valeur la plus fréquente d’une série. Exemple : soit la série {8, 4, 4,
3, 4, 3, 8, 7, 5}
La valeur la plus fréquence de cette série est 4. Le mode est donc égal à 4. L’effectif associé à
ce mode est 3.
Quelques remarques à propos du mode
a) Une série peut avoir plusieurs modes
S = {4, 0, 1, 1, 7, 7, 7, 3, 3, 4, 7, 3, 4, 5, 7, 1, 3, 3, 4, 5}, cette série a 2 modes, elle est
bimodale. Ses deux modes sont 7 et 3. L’effectif associé à chacun de ces modes est 5.
Il existe également des séries multimodales.
1
b) Le mode n’existe pas forcément. C’est le cas lorsque toutes les valeurs ont le même
objectif.
Exemple : S = {4, 0, 1, 2, 5, 6}
c) Le mode n’est pas la valeur la plus élevée. Il ne faut pas confondre le mode, qui est la
valeur la plus fréquente, avec la valeur la plus élevée de la série.
d) Les caractères quantitatifs et qualitatifs peuvent avoir un mode.
Le mode existe aussi bien dans le cas d’une série de valeurs que dans le cas d’une série de
modalités :
La série {A, C, C, D, A, A, C, E, E, B, C} a la modalité C pour mode car c’est la modalité C
qui revient le plus souvent.
2) la moyenne arithmétique
Soit un échantillon de n valeurs observées x1, x7,…, xi,…, xn d’un caractère quantitatif X, on
définit sa moyenne observée comme la moyenne arithmétique des n valeurs :
1 n
x   xi
n i 1
Exemple avec S = {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4, 5}
Une des propriétés de la moyenne arithmétique est que la somme des écarts à la moyenne est
nulle :

 (xi − x ) = 0
n
i 1
Si les données observées xi sont regroupées en k classes d’effectifs ni (variable continue
regroupée ou variable discrète), il faut les pondérer par les effectifs correspondants :
x
1 k
 ni xi
n i 1
Avec
k
n   ni
i 1
2
Exemple précédent regroupé :
Remarque : la moyenne obtenue après regroupement des données en classe peut différer
légèrement en raison d’une perte d’information.
Exemple : Supposons que les données précédentes soient regroupées en classe de la faço,
suivante :
Pour calculer la moyenne, nous devons déterminer les centres de classe et appliquer la
1 k
formule x   ni xi où les xi sont les centres de la classe (nommés Ci) :
n i 1
La différence ici est de 0,5 et cette différence dépend de la définition des classes : amplitude
et nombres de classes.
Décomposition de moyenne :
Soit une population totale de n individus, composée de k groupes. Les groupes sont désignés
par des lettres. La population totale est égale à la somme des populations des groupes :
Notons la moyenne de la variable X du groupe m :
3
La moyenne globale se calcule ainsi :
Ou encore
La formule s’écrit en définitive :
Exemple :
A
12
15
14
13
B
9
11
8
15
5
C
10
12
D
5
12
15
16
18
9
moyenne de chaque groupe
effectif de chaque groupe
coefficient de pondération
moyenne x coefficient
13,5
4
0,23529412
3,17647059
9,6
5
0,29411765
2,82352941
4
11
2
0,11764706
1,29411765
13,2
6
0,35294118
4,65882353
17
1
11,9529412
Les effets de structure : les moyennes de chaque classe possèdent des pondérations très
différentes :
Deux autres moyennes :
Moyenne géométrique :
Avec les notations précédentes :
G  n x1n1  ...  xn p est la moyenne géométrique de la série statistique.
n
Exemple :
L’essence a augmenté de 10%, l’an dernier et de 30% cette année. Quelle est le taux
d’augmentation annuelle ?
Ce n’est pas 20% ! la moyenne arithmétique ne convient pas. Si t est ce taux, on a bien sût :
1  t  1,11,3
Et donc t = 0,196 = 19, 6%
La bonne moyenne est ici la moyenne géométrique.
Moyenne harmonique :
Toujours avec les notations précédentes :
H
n
est la moyenne harmonique de la série statistique.
 ni / xi
i
Exemple :
Si je fais un trajet aller-retour avec une vitesse v1 à l’aller et une vitesse v2 au retour, quelle est
ma vitesse moyenne sur l’ensemble du trajet ?
5
La réponse n’est pas
Mais
2
1 1

v1 v2
v1  v2
2
qui est la moyenne harmonique de v1 et v2
3) La médiane
Définition :
Si F désigne la fonction des fréquences cumulées, la médiane d’une série statistique sera la
plus petite valeur x telle que F(x) ≥ 0,5. Autrement dit, la médiane est la valeur du caractère
pour laquelle la fréquence cumulée est égale à 0,5 ou 50%.
Interprétation : elle correspond donc au centre de la série statistique classée par ordre
croissant, ou à la valeur pour laquelle 50% des valeurs observées sont supérieures et 50% sont
inférieures.
Avantage :
Contrairement à la moyenne, la médiane n’est pas sensible aux valeurs extrêmes.
-
Dans une entreprise où les 10 salariés gagnent chacun 1500 € par mois et le patron
7000€ par mois, le salaire médian mensuel est de 1500€.
La médiane a une signification concrète.
Détermination pratique : caractère discret
-
-
Si l’effectif total n est impair, c'est-à-dire n = 2k + 1, la médiane sera le K+1ème
terme de la série. La médiane est la valeur du milieu. Exemple : 17, 15, 18. N =3, k =
(n – 1)/2 = (3 – 1)/2 = 1 : K+1ème terme est donc le deuxième => M = 15.
Si n est pair, c'est-à-dire, n = 2k, la médiane sera le kème terme de la série.
Exemple : 17, 15, 16, 18 => M = 15.
Mais si n est pair, une médiane est aussi une valeur quelconque entre le k ème et k+1ème
terme de la série (M entre 15 et 16). Dans ce cas il peut être commode de prendre le milieu
(15,5).
6
On peut déterminer la médiane graphiquement :
médiane : détermination
graphique
100
90
80
70
60
50
40
30
20
10
0
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16
Détermination de la médiane : caractère continu
On commence par déterminer la classe médiane c'est-à-dire la première classe où la fréquence
cumulée dépasse 0,5.
Ensuite, on calcule la médiane par interpolation linéaire.
Interpolation linéaire (théorème de Thales)
ABC est un triangle. M se trouve sur le segment [AB] et N sur le segment [AC]. D’après le
théorème de Thalès, si les droites (BC) et (MN) sont parallèles,
alors on a l’égalité :
7
Le théorème de Thalès permet de calculer des longueurs. Pour calculer une longueur dans la
configuration représentée ci-dessus, il suffit de connaître trois des longueurs figurant dans
deux des rapports.
x j  xi
Mé  xi

0.5  F ( xi ) F ( x j )  F ( xi )
Dans le cas de valeurs groupées, on pose l’hypothèse selon laquelle les valeurs sont
uniformément réparties à l’intérieur de chaque classe.
Classes
Effectif
Fréquences cumulées
croissantes
Moins de 25 ans
18
0,06
25≤X <30
54
0,24
30≤X < 35
72
0,48
35≤X <40
84
0,76
40≤X < 45
36
0,88
8
45≤X < 50
22
0,95
50 ans et plus
14
1
Mé  35
40  35

0.5  0,48 0,76  0,48
= 35,36
Exercice : Interpolation linéaire
Après une séance d’échauffement, un coureur automobile procède à des essais d’accélération,
départ arrêté, sur la ligne droite d’un circuit. Le tableau, ci-dessous donne quelques mesures
de la vitesse atteinte en fonction du temps écoulé depuis le départ.
Temps en s
Vitesse en
km/h
1)
2)
a.
0
10
20
30
40
0
120
170
206
220
Représenter « le nuage de points » défini par le tableau.
Estimation par interpolation linéaire :
La vitesse atteinte au bout de 15s ?
x  120 170  120
 50 

 x    5   120  145
15  10
20  10
 10 
b.
Le temps qu’il a fallu pour atteindre 150km/h.
150  120 170  120
50  30
 50 

 30    x  10   x  (
)  16
x  10
20  10
5
 10 
Résumé des caractéristiques des indicateurs
Moyenne arithmétique
Médiane
Avantages
Facile à calculer, répond au
principe des moindres carrés
Inconvénients
Sensible aux points
aberrants, représente mal une
population hétérogène (bi ou
polymodale)
Pas sensible aux points a et
Se prête mal aux calculs
b, peu sensible aux variations statistiques, suppose l’équid’amplitude des classes,
répartition des données. Ne
calculable sur des caractères représente que la valeur qui
cycliques (saison, etc) où la
sépare l’échantillon en 2
moyenne a peu de
parties égales.
9
signification
Calculable sur des caractères
cycliques. Bon indicateur de
population hétérogène
Mode
II.
Se prête mal aux calculs
statistiques, son calcul ne
tient compte que des
individus dont les valeur se
rapprochent de la classe
modale.
Les indicateurs de dispersion
Deux séries statistiques peuvent avoir les mêmes paramètres de tendance centrale mais pas la
même « dispersion ».
Exemple :
-
Notes de Ruby : 7, 8, 11, 12, 13, 13 et 13 (moyenne : 11)
Notes de Iris : 4, 7, 9, 12, 13, 13 et 19 (moyenne : 11)
Il est donc nécessaire d’adjoindre à un paramètre de tendance centrale (moment 1), un ou des
paramètres de dispersion (moment 2). Ces paramètres ont pour objectif dans le cas d’un
caractère quantitatif de caractériser la variabilité des données dans l’échantillon.
Les indicateurs de dispersion fondamentaux sont la variance observée et l’écart-type observé.
-
Quelques indicateurs de dispersion :
1)
L’étendue
L’étendue d’une série statistique est la différence entre la plus grande valeur de la série et la
plus petite.
Remarque :
-
Très simple à calculer et à interpréter
Par nature très sensible aux valeurs extrêmes
2)
L’écart interquartile : Q3 – Q1
Si F désigne la fonction des fréquences cumulées, le premier (resp. troisième) quartile d’une
série statistiques sera la plus petite valeur x telle que F(x) ≥ 0,25 (resp. 0,75). On le note
(resp. ).
Q1 et Q3 se calculent comme la médiane. Q1 est la valeur qui coupe la distribution en deux :
25% en dessous et 75% au dessus. Q3 75% et Q1 25%.
L’écart interquartile contient au moins 50% des valeurs de la série. L’écart interquartile
mesure la dispersion sans tenir compte des valeurs extrêmes.
10
Après les quartiles, on peut définir de la même façon les déciles (voire les centiles) d’une
série statistique.
Il s’agit de regarder les valeurs de la série correspondant à des fréquence cumulées de 0, 1 ; 0,
2 ;… ; 0,9.
Pour visualiser la dispersion d’une série statistique, on peut alors représenter une « Box plot »
(« boîte à moustache »).
L’écart absolu moyen
3)
Moyenne des valeurs absolues des écarts de la moyenne :
e
1
 ni xi  x
n i
Intérêts :
Paramètres simples à calculer, prenant en compte l’ensemble des données. Très
facile d’interprétation
-
Inconvénients :
-
Mauvaises propriétés calculatoires (non linéaire)
Peu utilisés par les logiciels de statistiques
4)
Variance et écart-type
On définit la variance comme la moyenne arithmétique des carrés des écarts à la moyenne.


Vx 
1
 xi  x
n i
Vx 
2
2
1
xi 2  x  x 2  x

n i
2

Dans le cas de données regroupées en k classes d’effectif ni (variable continue regroupée en
classes ou variable discrète), la formule de la variance est la suivante :
Vx 

1
 ni xi  x
n i

2
L’écart type observé correspond à la racine carrée de la variance observée :
s  s2
11
Remarque : de part sa définition, la variance est toujours un nombre positif. Sa dimension est
le carré de celle de la variance. Il est toutefois difficile d’utiliser la variance comme mesure de
dispersion car le recours au carré conduit à un changement d’unités. Elle n’a donc pas de sens
direct contrairement à l’écart-type qui s’exprime dans les mêmes unités que la moyenne.
5)
Le coefficient de variation
La variance et l’écart-type observée sont des paramètres de dispersion absolue qui mesurent la
variation absolue des données indépendamment de l’ordre de grandeur des données. Le
coefficient de variation noté C.V. est un indice de dispersion relatif prenant en compte ce biais
et est égal à :
C .V 

_
x
Exprimé en pour cent, il est indépendant du choix des unités de mesure permettant la
comparaison des distributions de fréquence d’unité différente.
Exercice 1 : la présence des clients dans un magasin
Classes
[15,5;20,5[
[20,5;25,5[
[25,5;30,5[
[30,5;35,5[
[35,5;40,5[
1)
effecctif
200
500
1000
600
200
2500
Calculer la moyenne et la médiane
On calcule le centre de chaque classe ci (i = 1,…5)
Classes
[15,5;20,5[
[20,5;25,5[
[25,5;30,5[
[30,5;35,5[
[35,5;40,5[
effecctif
200
500
1000
600
200
2500
ci
18
23
28
33
38
12
Effectif*ci
3600
11500
28000
19800
7600
70500
x
1
1
70500
ni ci 
(200 18  500  23  1000  28  600  33  200  38) 
 28.2 min

n i
2500
2500
Calculer la variance et l’écart-type
2)
On calcule les fréquences et les fréquences cumulées et on détermine la classe médiane (25,5 ;
30,5). On fait une interpolation linéaire :
Classes
[15,5 ; 20,5[
[20,5 ; 25,5[
[25,5 ; 30,5[
[30,5 ; 35,5[
[35,5 ; 40, 5[
Effectif
200
500
1000
600
200
2500
Fréquences
0,08
0,2
0,4
0,24
0,08
1
Fréquences cumulées
0,08
0,28
0,68
0,92
1
Mé  25.5 30.5  25.5

 Mé  28.25 min
0.5  0.28 0.68  0.28
Exercice 2 : Variation du CAC 40 au cours d’une semaine (en points). Il y a 8 observations
journalières.
Evolution
du CAC 40
(X)
Effectif
1)
2)
-20
-10
0
10
20
30
7
9
10
6
5
3
Calculer la moyenne, la variance et l’écart-type
Sur le nouveau marché, la même semaine on observait une moyenne de 0,8 et un
écart-type de 26,05. Est-il préférable d’investir sur le nouveau marché ? certains
analystes se fient au coefficient de variation. Le calculer pour les 2 marchés. Est-il un
bon estimateur du risque ?
Correction :
= 0,5
V(x) = 224, 75
σ (x) = 14,99
CV = 30
13
Chapitre 2 : Les indices
I.
Définition et propriétés
En sciences sociale, les grandeurs varient dans l’espace et dans le temps :
Dans le temps, puisqu’elles prennent des valeurs différentes à différentes dates
Dans l’espace, puisqu’elles prennent des valeurs différentes d’une région à l’autre
-
Ce n’est pas toujours facile de pouvoir comparer des grandeurs. Ex :
X
53 492
64190
1,20
2000
2005
Y
128
154
1,20
Pour faciliter la comparaison, on a recours à la notion d’indice.
Définition : un indice, c’est un rapport positif ou nul
Il existe des indices synthétiques, qui sont des rapports obtenus avec des grandeurs complexes
(composés de plusieurs indices simples).
Exemple : l’indice des prix est un indice qui résume l’évolution des prix de grandeurs
hétérogènes (prix du chocolat et prix d’un vidéoprojecteur). La difficulté est l’agrégation de
ces grandeurs si différentes.
II.
Les indices simples
Notons la date t=0 : date de base (situation de base) et la date t : date ou période courante. Soit
deux valeurs Vo (valeur de départ) et Vt (valeur d’arrivée), on appelle :
-
L’indice simple ou élémentaire :
It / 0 
Vt
V0
-
Indice simple base 100 :
It / 0 
Vt
 100
V0
Exemple : évolution d’un prix entre 2 000 et 2 005 (base 100 en 2000)
I 2005/ 2000 
Pr ix 2005
100
Pr ix 2000
14
Rapport d’un prix entre la région parisienne (RP) et la France entière (FR) (base 100 pour
l’ensemble de la France)
Pr ix RP
100
Pr ix FR
I RP / FR 
Décomposition d’indices
III.
I 2 /1 
V2
100
V1
 I 2 /1 
I2/0
100
I1 / 0
I 2005/ 2002 
I 2005/ 2000
100
I 2002/ 2000
1)
Propriétés des indices élémentaires
La circularité entre t=1 et t=2
I 2 / 0  I 2 / 1  I1 / 0 

En généralisant :  I t / 0  I t / t '  I t '/ 0 
1
100
1
100
On se ramène à l’expression précédente :
It /t' 
It / 0
 100
I t '/ 0
Pour comparer deux grandeurs simples, il suffit de faire le rapport de leurs indices.
I
I
I
I

Généralisation :  I t / 0  100 1/ 0  2 /1  3 / 2  ...  t / t 1 
100 
100 100 100
La réversibilité : quand on inverse le rôle de la base et de la période courante, l’indice
élémentaire s’inverse à
près.
I t / 0  I 0 / t  10 4
Propriété secondaire :; produits d’indices
Si a = bc
15
I t / 0 a   I t / 0 b  I t / 0 c 
1
100
Exemple : RT = PxQ (indice des prix et indice des quantités = indice de la recette totale)
3)
Les indices synthétiques
Un indice synthétique résume une série d’indices élémentaires.
Les indices synthétiques les plus utilisés
Valeur = Prix x Quantité
L’indice de la valeur s’écrit :
pq
 pq  
p q
i i
t t
It / 0
i
i i
0 0
100
i
Le problème de cet indice, c’est qu’on ne peut attribuer la cause de l’évolution : ce peut être
toute combinaison des prix ou des quantités. Il faut ainsi éliminer l’influence des prix pour
calculer un indice des quantités et éliminer l’influence des quantités pour calculer un indice
des prix.
Par exemple pour un indice simple des prix d’un bien :
pti q0i
100
p0i q0i
I t / 0  pq  
Indice synthétique des prix :
pq
 p 
p q
i i
t 0
It / 0
i
i i
0 0
100
i
Indice synthétique des quantités :
p q
q  
p q
i i
0 t
It / 0
i
i i
0 0
100
i
16
Exemple de calculs d’indices synthétiques (de prix et de quantités) avec trois biens :
prix
B1
B2
B3
0
2
0,07
0,14
10
20
35
50
quantités
dates
0
2
B1
B2
B3
30
20
0,5
0,4
0,15
0,11
dates
Calculer l’indice d’évolution de la
1)
valeur de B1
=
= indice total
Calculer l’indice synthétique des prix
Calculer l’indice synthétique des
2)
3)
quantités
Exemple de la propriété de circularité : trouver IND2007/2006 :
 I t / 0  I t / t '  I t '/ 0 
Prix de X
150€
210€
230€
1
100
ou
It /t' 
Dates
2005
2006
2007
17
It / 0
 100
I t '/ 0
Indices
100
140
153,3
Chapitre 3 : Le modèle Linéaire Simple
(La méthode des moindres carrés ordinaires)
I.
Présentation du modèle
1)
Définition
La régression est l’outil le plus utilisé pour estimer une équation linéaire.
La régression permet de décrire et d’évaluer la relation entre une variable dépendante et une
(ou plusieurs) variable(s) indépendante(s).
La variable dépendante est définie par y et la variable indépendante par x.
-
Dans le modèle de régression simple,
k=1
-
Dans le modèle de régression multiple,
k>1
Quelques noms pour les variables y et x.
Y => variable dépendante, variable à expliquer
X = variable indépendante, variable de contrôle, variable explicative (régresseur).
Dans une régression, la variable y et la ou les variables x sont traitées de manière
asymétrique.
-
La variable y est supposée être aléatoire
ou « stochastique ». Elle possède une distribution de probabilité.
La ou les variables x sont supposée(s)
avoir des valeurs fixes d’un échantillon à l’autre (elles ne sont pas aléatoires).
Dans le modèle de régression simple, il n’y a qu’une seule variable x (k=1). Le modèle de
régression linéaire simple peut être spécifié de la manière suivante :
-
Pour
(t=1,…,n)
o
des
données
temporelles
yt = a0 + a1xt + εt
pour des données en coupe transversale
(i=1,…N)
o
yi = a0 + a1xi + εi
Le rôle de 𝜀
2)
18
La relation spécifiée entre y et x ne peut pas être déterministe.
-
Il nous est impossible de connaître le
modèle « vrai » de régression pour y :
E(y|x) = a0 + a1x. Il est (souvent)
impossible (ou trop coûteux) d’observer la totalité de la population de Y et X.
Comme le modèle spécifié ne sera jamais rigoureusement exact, un terme aléatoire 𝜀 (aussi
appelé « terme d’erreur » est ajouté.
-
Ce terme est et restera inconnu. On ne
pourra en obtenir qu’une estimation (e).
Le terme aléatoire synthétise :
1)
Une erreur de spécification :
a.
La variable explicative peut ne pas être
suffisante pour rendre compte de la totalité du phénomène expliqué (le terme
aléatoire synthétise l’ensemble des informations non explicitées dans le
modèle).
2)
Une erreur de mesure
a.
Les données ne représentent pas
exactement le phénomène
b.
Il y a des données manquantes
3)
Une
erreur
de
fluctuation
d’échantillonnage
a.
Les observations comprises dans
l’échantillon, et donc les estimations, peuvent être différentes.
3)
Conséquence du terme aléatoire :
Comme les valeurs vraies de
et
ne sont pas connues, elles doivent être estimées.
-
On dérive les formules des estimateurs
de
et
o
, notés respectivement
et
.
L’estimation de a est
particulière que prend l’estimateur â pour un échantillon donné.
Le modèle de régression linéaire estimé peut s’écrire :
-
y=
et
possèdent une distribution de probabilité : (
et
suivent les mêmes lois de distribution que y et e.
II.
et
+
+e
sont des constantes)
Estimation paramètres
19
la
valeur
1)
La méthode des MCO (moindres
carrés ordinaires)
La méthode la plus souvent utilisée pour estimer les paramètres
et
est la méthode des
Moindres Carrés Ordinaires (MCO/OLS) e8  y8  yˆ8  0
-
Elle consiste à ajuster un nuage de
points à l’aide d’une droite en minimisant la distance au carré entre chaque valeur
observée et la droite.
Cette distance mesure le résidu
(l’erreur/la partie non expliquée) pour chaque observation
-
e5  y5  yˆ5  0
y
x
De manière analytique, il s’agit de minimiser la somme des Carrés des Résidus (SCR/RSS),
c'est-à-dire :
n
Min
a0 , a1

t 1
2
t
or,   ( yt  a0  a1 xt ) 2
2
t
n
Posons L   ( yt  a0  a1 xt ) 2
t 1
Minimisons la fonction L, évaluée en â1 et â2, en dérivant par rapport à chacun des deux
paramètres :
20
L(â0 , â1 )
 2 ( yt  aˆ0  aˆ1 xt )  0 (1)
a0
t
L(â0 , â1 )
 2 xt ( yt  aˆ0  aˆ1 xt )  0 (2)
a1
t
On obtient l’estimateur de a0 à partir de la première équation comme suit :
(y
t
 aˆ0  aˆ1 xt )  0
t
  yt  naˆ0  aˆ1  xt  0
t
n
y
t
t
 naˆ0  aˆ1n
t
x
t
t
n
n
 ny  naˆ0  aˆ1nx  0
 y  aˆ0  aˆ1 x  0
0
 aˆ0  y  aˆ1 x
L’estimateur de
 x (y
t
t
est obtenu à partir de la seconde comme suit :
 aˆ0  aˆ1 xt )  0
t
En utilisant aˆ0 , on a :  xt ( yt  y  aˆ1 x  aˆ1 xt )  0
 x (y
t
t
t
 y )  aˆ1  xt ( x  xt )  0
t
aˆ1 

A 

 xt ( yt  y )
x (x  x)


t
t
B
On formule l’estimateur de a1 en terme de variance-covariance :
A   xt yt   xt y  nx y  nx y
  xt yt   xt y  nx
  ( xt  x )( yt  y )
 y   xy   ( x y
n
t
t
t
xt y  x yt  x y )
B   xt2  nx 2   xt2  2nx 2  nx 2   xt2  2nx
  (x  2 xt x  x )   ( xt  x )
2
t
2
2
En remplaçant A et B par leur valeur, on obtient :
21
x
t
n
 nx 2
 ( x  x )( y  y ) Cov( X , Y )


V (X )
 (x  x)
t
aˆ1
t
t
2
t
t
Car divisant chaque terme par (n-1), on a :
 (x
t
 x )( yt  y )
t
aˆ1 
(n  1)
 ( xt  x ) 2

ˆ y , x
ˆ x2
t
(n  1)
Le coefficient de régression mesure l’impact d’une variation (c'est-à-dire l’effet
propre/partiel) de la variable indépendante sur la variable dépendante.
-
â1=DY/DX (coefficient de régression de Y sur X)
Régression ≠ corrélation
1.
En matière de corrélation, les variables sont traitées de
manière SYMETRIQUE (elles sont aléatoires).
a.
Le coefficient de corrélation, ρ, ne dépend pas de la manière
dont sont traitées X et Y.
i.
Si y = a0 + a1x + e, ρY,X = ˆ x , y /(ˆ xˆ y )
ii.
2.
Si x = a’0 + a’1y + e, ρX,Y = ˆ x , y /(ˆ xˆ y )
â1 le coefficient de régression de y sur x, n’est pas égal à ρ, le
coefficient de corrélation entre y et x.
ˆ y , x
ˆ xˆ y
ˆ y , x ˆ xˆ y
 y , xˆ xˆ y
ˆ y
aˆ1 




ˆ x2
ˆ x2
ˆ x
Vˆ ( xt )
22
N
 ( x  x )( y  y )
i
i 1
ˆ
 x, y  xy 
ˆ xˆ y
N
i
n 1
N

N
 (x  x)  ( y  y)
2
i
i 1
 ( x  x )( y  y )
i 1
n 1
i
N
N
 (x  x)  ( y  y)
2
2
i
i 1
i
i 1
i
i 1
2
i
n 1
N
 ( x  x )( y  y )
ˆ
ˆa1  xy2 
ˆ x
i
i 1
n 1

N
 (x  x)
i 1
N
i
i
2
 ( x  x )( y  y )
i
i 1
i
N
 (x  x)
i 1
2
i
n 1
Analyse de la variance
L’équation fondamentale de l’analyse de la variance est :
2


y

y
 t
   yt  yˆ t     yˆ t  y 
t
t
t

 



SCT
2
SCR   et2
2
SCE
t
SCT = Somme des Carrés Totaux = variabilité totale (SST = Total Sum of Squares)
SCR = Somme des Carrés de Résidus = variabilité non expliquée (SSR = Residual Sum of
Squares)
SCE = Somme des Carrés Expliqués = variabilité expliquée (SSE = Explained Sum of
Squares)
23
Plus la variabilité expliquée (SCE) est proche la variabilité totale (SCT), meilleur est
l’ajustement du nuage de points par la droite des MCO.

La variabilité de y autour de sa moyenne est bien expliquée
par la variable explicative.
Une mesure de la qualité d’ajustement est le coefficient détermination, R² (avec R = ρ, le
coefficient de corrélation linéaire).


R² = SCE/SCT
R² = 1 – (SCR/SCT)
Les cas limites où R² = 0 et R² = 1
yt
yt
y
xt
xt
Calcul d’un « trend » par les MCD :
Estimer l’équation yt = a0 + a1xt + εt avec les données suivantes.
24
Années
2005
trimestres
1
2
3
4
1
2
3
4
1
2
3
4
2006
2007
y
2
0,5
3,5
1
5
2
5
3,5
6,5
4
7,5
5
x
1
2
3
4
5
6
7
8
9
10
11
12
Exercice 2 :
La relation prix/demande.
Prix ventes
en € X
Quantités
demandées
Y
95
130
148
210
250
330
104
58
37
22
12
9
120
100
80
60
Série1
40
20
0
0
1)
2)
3)
4)
50
100
150
200
250
300
350
Passer en Log. On pose u = log(x) et v = log(y)
Calculer le coefficient de corrélation linéaire
Calculer les estimateurs de a et b en estimant V = aU + b + 𝜀
Calculer la quantité demandée pour un prix égal à 75€.
25
Exercice 3 :
Corrélation et équation d’analyse de la variance :
y
6
5
2
1
4
5
5
1)
2)
3)
x
1,5
2,5
3,5
4,5
5,5
6,5
7,5
Calculer le coefficient de corrélation linéaire
Calculer les estimateurs de a et b en estimant Y = aX + b + 𝜀
Calculer les variances expliquées et résiduelles
7
6
5
4
3
2
1
0
0
1
2
3
4
26
5
6
7
8
Téléchargement