+ Y - Moodle UM

publicité
UNIVERSITE de MONTPELLIER
IUT GEA 2éme année
2016-2017
STATISTIQUE
APPLIQUEE(1)
du bon usage de la statistique en gestion…
Pr. Alain FRANCOIS-HEUDE
ENT MOODLE
[email protected]
Cours : AFH GEA2FI Cours 2016-2017
Généralités
Objectif : Maîtriser quelques outils quantitatifs d’aide à la décision en gestion
Pédagogie : 15 heures de cours et 15 heures de TD
- Cours le mardi (10h00-12h00 à l’amphi 3) et TD le mercredi [PMO, RH,FC]
- Priorité à l’interprétation des outils et méthodes
- Du cours interactif, des recherches d’informations et des applications
- Utilisation de Excel et de l’Internet
- Trois contrôles pour l’évaluation
a) – individuel sans document, QCM pour la promotion et portant sur la partie 1
b) – en groupe : un dossier sur les séries temporelles
c) – individuel avec document, pendant la STCC
Espace pédagogique :
1 - accéder au site http://mon.univ-montp2.fr/
ou http://www.univ-montp2.fr puis onglet « espace pédagogique »
2 - sélectionner le site du cours : ‘Outils d’Aide à la Décision’ GEA2OAD
2
PLAN de COURS
Partie 1
Statistique Descriptive
(à deux dimensions)
Une population
d’INDIVIDUS
(avec 2 attributs)
Partie 2
Inférence Statistique
(échantillons & tests)
Une population
de DONNEES
(Série chronologique)
Cette partie correspond
au cours de second
semestre
y
y
Nuage de Points
courbe
x
temps
3
Cas d’une population de n individus
Les attributs x et y sont
Les attributs x et y sont
traités séparément
traités conjointement
ZOOM
Choix de
Corrélation
Causalité
sur une
GRILLE sur
entre les
et liaison
ZONE
le nuage
variables
linéaire
Indicateurs
Synthétiques
Inertie, dispersion
Distributions
conditionnelle
et marginale
Covariance
et
R²
Régression
linéaire
4
PLAN
I- Statistique descriptive
A - Population d’individus munis de 2 attributs
1) Traitement séparé des attributs
a) Zoom sur une partie du nuage
b) Quadrillage du nuage
2) Traitement conjoint des attributs
a) Corrélation entre les variables
b) Causalité et liaison linéaire
3) Extensions
a) Régression multiple
b) changement de variable
5
I- Statistique descriptive
B – Séries chronologiques
1) Méthodologie pour une décomposition additive
a) recherche de la tendance
b) Estimation de la saisonnalité
c) Etude des résidus de la série
2) Améliorations et interprétations des résultats
a) Méthodologie pour une décomposition multiplicative
b) Interprétation des résultats et discussion sur les séries
6
Population de n individus avec 2 attributs traités séparément
Une population de n individus ( j = 1, 2, … , n )
Deux attributs ou variables X et Y
j
X
1 12
2 16
3 19
Y
5
7
2
Nuage formé
par les n points
Yj
x
...
x
j
Xj
x
x
x
Yj
x
...
n Xn
Yn
Xj
Possibilité de représentation en 3D pour
faire apparaître le mode dominant
7
Exemple avec EXCEL
1) Sélection de la matrice des données (X,Y)
2) Menu ‘Insertion’ puis ‘Graphique’
ou bien cliquer sur icône ‘Assistant Graphique
1) Choisir le type ‘Nuage de points’
2) Procéder à la mise en forme (titre, axes, échelles, libellés, … )
Var2 expliquée par CAC en rendement
R 8%
e 6%
n 4%
d 2%
e 0%
-2%
m
-4%
e -6%
n -8%
t -10%
-20%
en
%
-15%
-10%
-5%
0%
Rendement en %
5%
10%
15%
20%
8
IA1a) Le ZOOM sur une partie du nuage
y
ymax
* sur le centre de gravité du nuage,
E(y)
* sur l’étendue du nuage,
ymin
* sur la partie centrale
x
xmin
Paramètre
Effectif n
Somme des x
xmax
Fonction Excel
=Nb(Y1:Yn)
=Somme(X1:Xn)
Moyenne E(x)
Moyenne E(y)
=Moyenne(X1:Xn)
=Moyenne(Y1:Yn)
Médiane des X
=Mediane(X1:Xn)
Ecart Type σY
Variance σ²Y
E(x)
=EcartypeP(Y1:Yn)
=Var.P(Y1:Yn)
n
∑
xj
j=1
1
E (x) = x =
n
σ ²y
= Var ( y )
n
∑
xj
1
=
n
∑ (y
j =1
)
2
n
j
− y
j =1
9
Pour estimer les queues de distributions, on peut utiliser :
Paramètres
Fonctions Excel
Maximum des Yj
=Max(Y1:Yn)
valeur la plus grande
Minimum des Xj
=Min(X1:Xn)
valeur la plus faible
Nombre de Xj < Z
=Nb.si(X1:Xn; ‘’<Z’’)
où Z est la borne
Nombre de Xj = Z
=Nb.si(X1:Xn;Z)
où Z est la cible
Quartiles des Xj
=Quartile(X1:Xn;x)
si x=0
Q1 si x=1
Q2 si x=2
Q3 si x=3
Q4 si x=4
si x=4
=Min
de 0% à 25%
=Médiane
de 50% à 75%
de 75% à 100%
=Max
10
Le centre d’inertie ou de gravité du nuage,
c’est aussi le barycentre !
-Ce point (imaginaire) caractérise le mieux chacun des individus
(x j , y j ) =
(x + ε , y + ω )
j
j
où εj et ωj sont les écarts à la moyenne
Exemples :
- Le terrien moyen pèse 45 Kg pour 1,39m !
- L’entreprise représentative a 14 salariés pour un CA de 210 000€
11
L’étendue du nuage nous renseigne sur :
- l’existence de points aberrants (erreur de saisie, cas extrême)
- l’amplitude des phénomènes à mesurer
x min ≤ x j ≤ x max , y min ≤ y j ≤ y max
Exemples :
- Le terrien se situe entre 200g et 415Kg et entre 35cm et 2,71m !
- L’entreprise a entre 1 et 4 millions de salariés et un CA entre 0€ et X Mds€
12
Adaptation du ZOOM à une Zone pertinente du nuage de points
Autour de la moyenne à + ou – un écart type !
E(y)+σy
E(y)
(E(x),E(y))
**
E(y)-σy
E(x)-σx
E(x)
E(x)+σx
Environ 2/3 des observations se trouvent normalement dans cette zone !
13
IA1b) Le Quadrillage du nuage
Ici, on cherche à dénombrer les individus appartenant à un groupe
défini par les deux variables X et Y.
Variables discrètes ou continues et caractère qualitatif ou quantitatif
Constitution d’un treillis fondé sur :
- la classe, le groupe ou l’intervalle
- le quantile (Médiane, quartile, décile,..)
- la distance à la moyenne (1,2 ou 3 écarts type)
14
TABLEAU D’EFFECTIF REPARTI par GROUPE
X1
X2
tot X
Y1
n11
n12
n1.
Y2
n21
n22
n2.
tot Y
n.1
n.2
n..
Chaque groupe (Xi,Yj) contient une partie nij de l’effectif total (N = n..)
15
FREQUENCES et DISTRIBUTION MARGINALE
Y1
Y2
totY
X1
X2
tot X
n11
n12
n1.
-------------------
-------------------
-------------------
n..
n..
n..
n21
n22
n2.
-------------------
-------------------
-------------------
n..
n..
n..
n.1
n.2
100%
-------------------
-------------------
n..
n..
Chaque effectif de groupe (nij) est divisé par l’effectif total (N = n..)
16
DISTRIBUTIONS CONDITIONNELLES SELON Y
Y1
Y2
tot Y
X1
X2
tot X
n11
n12
100%
-------------------
-------------------
n1.
n21
n1.
n22
-------------------
-------------------
n2.
n.1
n2.
n.2
-------------------
-------------------
n..
n..
100%
100%
Calcul de la fréquence de Xj sachant l’état de Yi
Idem selon X, mais on calcule en lignes
f j i = f (X j Y i ) =
n ij
n i.
17
Représentations usuelles de la répartition d’une population
selon deux critères
Effectif
réel
Variable X
X1
X2
Tot
Distribution
Conditionnelle
Variable X
X1
X2
Tot
selon Y
Variable
Y
Y1
14
16
30
Y2
11
29
40
Tot
25
45
70
Distribution
Conditionnelle
Variable X
X1
X2
Tot
Variable
Y
Y1
Y2
Tot
Distribution
Marginale
47%
28%
36%
53%
73%
64%
100%
100%
100%
Variable X
X1
X2
Tot
selon X
Variable
Y
Y2
56%
44%
36%
64%
43%
57%
Tot
100%
100%
100%
Y1
Variable
Y
Y1
Y2
Tot
20%
16%
36%
23%
41%
64%
43%
57%
100%
18
Analyse conjointe de X et Y
On sait que X ou Y varient. Mais comment varient X et Y ?
Rappel de quelques formules sur les variances :
- Espérance des carrés moins carré de l’espérance
- Moyenne des carrés moins carré de la moyenne
2
1 n
1 n
σ ² x = Var ( x ) = ∑ ( x − x ) = ∑ ( x − x )( x − x )
n j =1
n j =1
1 n
σ ² x = Var ( x ) = ∑ xj ² − x ²
n j =1
19
IA2a : La corrélation linéaire entre les variables
* LA COVARIANCE
Mesure de la variation conjointe de X et de Y
(
)(
)
1 n
1 n
σxy = Cov( x, y ) = ∑ xj − x yj − y = ∑ xjyj − x. y
n j =1
n j =1
Covariance = Espérance du Produit moins Produit des Espérances
Moyenne des Produits moins Produit des Moyennes
Remarques :
la Cov peut être positive, négative ou nulle !
Cov(X,Y) = Cov(Y,X)
Cov(X,X) = Var(X)
Cov(Y,Y) = Var(Y)
20
COEFFICIENT de CORRELATION
Mesure de dépendance linéaire entre x et y, notée RHO
ρ
Cov( X , X ) = σ X .σ X .1
Cov(Y , Y ) = σ Y .σ Y .1
Cov( X , Y ) = σ X .σ Y .ρ XY
ρ
Cov ( X ,Y )
XY = σ X .σ Y
-1
forte corrélation
négative
0
absence de
corrélation
+1
forte corrélation
positive
21
COEFFICIENT de DETERMINATION
C’est, dans un premier temps, le carré de
ρ, noté R²
R² = ρ² = Cov(X,Y)² / Var(X).Var(Y)
R² est défini sur [ 0, +1 ]
Plus R² tend vers 1, plus la dépendance linéaire est forte.
Fonctions Excel :
Cov
Rho
R²
=Covariance(Y1:Yn ; X1:Xn)
=Coefficient.correlation(Y1:Yn ; X1:Xn)
=Coefficient.determination(Y1:Yn ; X1:Xn)
22
IA2b :
Causalité et Liaison Linéaire
* Ajustement à main levée
Quel est le bon choix ?
Contrainte imposée :
E(Y)
Passer par le centre de
gravité du nuage
Point [ (E(x), E(y) ]
E(X)
Problème : Comment traduire par l’équation d’une droite ce choix ?
Il faut deux points pour caractériser une droite.
23
* La Méthode de MAYER
Procédure :
1 - classer les individus en ordre croissant
2 - déterminer la médiane (M) selon l’attribut X
3 – partager la population en deux groupes selon que Xi > ou non à M
4 – Calculer les centres de gravité de ces deux nuages
5 – établir les paramètres de la droite affine passant par ces deux points
E(Y2)
E(Y1)
*
*
E(X1)
E(X2)
24
Calcul selon la méthode de Mayer en vue d’obtenir une équation y = a x + b
On a deux points : les centres de gravité notés A(X1,Y1) et B(X2,Y2)
Soit donc : un système de deux équations à deux inconnues
Y1 = a . X1 + b
Système
Y2 = a . X2 + b
Résolution
différence des deux équations
Y1 – Y2 = a X1 + b – a X2 – b = a . ( X1 – X2 )
d’où
Y1− Y 2
a=
X1 − X 2
Calcul de la constante b
Y 1.X 1 − Y 1.X 2 − Y 1.X 1 + Y 2.X 2
 Y1− Y 2 
b = Y 1 − a.X 1 = Y 1 − 
. X 1 =
X1− X 2
 X1− X 2 
b =
X 1 .Y 2 − X 2 .Y 1
X1− X 2
25
* Ajustement
linéaire
Problématique :
on a
et
une variable à expliquer (Y)
une variable explicative (X)
on veut un modèle simple du type y = a.x + b
Solutions
* le jugement par l’observation : le point de vue géométrique
la forme du nuage de points nous informe sur la pertinence
* le jugement par le calcul : le point de vue statistique
attention cela n’implique pas la liaison économique
26
Objectif : ajuster le nuage par une droite
Minimiser des écarts !
Que choisir ?
- Minimiser le plus grand écart absolu ?
Min ( Sup | Ŷi - Yi | )
- Minimiser la somme des écarts absolus ?
Min ( Σ | Ŷi - Yi | )
- Minimiser la somme des écarts carrés ?
Min ( Σ ( Ŷi - Yi )² )
Doit-on forcer la droite à :
- passer au moins par un point existant ?
- passer par le centre de gravité ?
Méthode MCO : Méthode des Moindres Carrés Ordinaires
27
La Méthode MCO
yi = a.xi + b + εi ⇔ εi = yi − a.xi − b

2
2
Min ∑ εi = ∑ ( yi − a.xi − b ) 
a ,b
i
 i

∂
• = 2.∑ ( yi − a.xi − b ) .(− xi ) = 0
∂a
i
∂
• = 2.∑ ( yi − a.xi − b ) .(−1) = 0
∂b
i
28
On en tire :
x y − n.x . y ∑ ( x − x ) . ( y − y )
∑
Cov( x, y )
a=
=
=
Var ( x)
∑ x − n ⋅ x ∑ ( x − x ) .( x − x )
i i
i
i
i
i
i
i
i
2
2
i
i
b = y − a.x
Attention :
- il faut encore vérifier les conditions de second ordre !
Remarques :
- la droite passe par le centre de gravité.
- le coefficient de pente (a) ressemble au coefficient de corrélation ρ !
- a et ρ sont de même signe.
29
Calcul sous EXCEL
* Calcul des variances et covariances en vue d’obtenir a et b !
* Utiliser les fonctions macro matricielles
Procédure :
1) Sélectionner une zone de destination (deux cellules sur la même ligne)
la zone change de couleur
2) Taper la fonction
=Droitereg(Y1:Yn ; X1:Xn ; Vrai )
Vrai pour avoir une constante b non nulle
3) Valider en pressant 3 touches : Ctrl Maj
Entrée
la fonction s’écrit en MAJUSCULE et entre ACCOLADES
Résultat
{=DROITEREG(B2:B1644;C2:C1644;VRAI)}
{=DROITEREG(B2:B1644;C2:C1644;VRAI)}
30
Exemple sous Excel
A
B
C
D
2
vect Y
vect X
3
1
12
4
2
15
5
4
14
6
6
18
E
F
1
FORMULE OBTENUE en
{=DROITEREG(B3:B6;C3:C6;VRAI)}
SELECTIONNANT les DEUX CELLULES
{=DROITEREG(B3:B6;C3:C6;VRAI)}
RESULTAT COEFFICIENT de PENTE a
0,76
7
CONSTANTE b
-7,96
8
9
1
0
Résultat :
Y = 0,76 X - 7,96
31
REMARQUE :
-Si on veut que la relation passe par le point (0,0), le modèle devient
Y = a’. X
et donc quand X = 0 alors Y = 0
Sur Excel, il faut mettre le dernier paramètre à Faux
Exemple : =DROITEREG( vect Y ; vect X ; Faux )
Il suffit donc de sélectionner une seule cellule ! [Ctrl & Maj sont inutiles]
Y=a’.X
Y
Y=a.X + b
E(y)
b
0
E(x)
X
32
ANALYSE de la QUALITE de l’AJUSTEMENT
* la qualité de la régression se mesure avec le R²
Une parfaite corrélation linéaire conduit à un R² de 100%
mais un R² élevé n’implique pas la causalité nécessairement
Une absence de corrélation linéaire conduit à un R² = 0%
mais une relation non linéaire peut cependant exister !
Attention : un ρ = 0,71 donne un R² = 50% a priori peu significatif !
Le R² doit être d’autant plus élevé que la taille de la population est faible !
33
La macro fonction permet d’obtenir des statistiques sur la qualité, dont le R²
Procédure :
1- Sélectionner une zone de 5 lignes et 2 colonnes
2- Entrer la fonction =Droitereg( vect Y ; vect X ; Vrai ; Vrai )
3- Valider en pressant simultanément sue 3 touches : Ctrl Maj Entrée
Remarques :
La 1ère variable logique = ‘Faux’ indique que l’on teste la relation y=a.x
ou que l’on exige que la droite passe par l’origine (y=0
x=0 et donc
b=0)
La seconde variable logique mise à ‘Vrai’ indique que l’on demande les
statistiques
( indépendamment du choix sur la 1ère variable logique)
34
Tableau obtenu avec la fonction =Droitereg( vect Y ; vect X ; Vrai ; Vrai )
Yi = a Xi + b + εi = Ŷi + εi
Coefficient
de pente
a
b
Constante
Ecart type
autour de a
σa
σb
Ecart type
autour de b
Coefficient
de
détermination
R²
σy
Ecart type
autour de y
Coefficient
de Fisher
F
ddl
Degrés de
liberté (n-2)
Somme des
Ŷ Carrés
ΣŶ²
Σε²
Somme des
Résidus carrés
35
Remarque sur l’inversion de la relation de causalité
La régression de y en x donne les coefficients a et b avec
a = Cov(x,y)/ Var(x)
La régression de x en y donne les coefficients c et d avec c = Cov(y,x)/ Var(y)
Le retraitement de la première équation, permet d’écrire :
y = a.x + b
a.x = y – b
c = 1/a et d = -b/a
x = y/a – b/a = c.y + d
(la relation entre les coefficients)
c = Cov(y,x)/Var(y) = Rho²(x,y). [Var(x)/ Cov(x,y)] = Rho²(x,y). (1/a)
les deux droites d’ajustement seront confondues si et seulement si
Rho²(x,y) = 1 pour que c = 1/a !
enfin, le produit ac = Cov(x,y)² / Var(x). Var(y) = R²
36
REGRESSION LINEAIRE MULTIPLE :
L’objectif est de décrire le comportement de la variable Y (attribut) avec plusieurs
variables explicatives complémentaires
Modèle du type :
Y = a1.X1 + a2.X2 + b
L’ajout de variables améliore l’explication globale du phénomène
le R² augmente (sauf si les deux variables sont parfaitement corrélées)
Choix des variables explicatives :
- avoir une signification économique
- ne pas expliquer la même chose (sinon le R² ne progresse pas assez)
37
Procédure de la Régression multiple sous Excel:
1 - Sélectionner une zone de 5 lignes et 3 colonnes
2 - Entrer la fonction Droitereg( vect Y ; mat X ; Vrai ; Vrai )
3 - Valider par la pression simultanée de 3 touches : Ctrl Maj Entrée
Remarque : il est souhaitable d’avoir les deux variables explicatives stockées
dans deux colonnes voisines
d’où la matrice X
38
Tableau obtenu avec la fonction Droitereg( vect Y ; mat X ; Vrai ; Vrai )
Yi = a1 Xi1 + a2Xi2 + b + εi = Ŷi + εi
Coefficients
de pente
a2
a1
b
Constante
Ecarts type
autour de a1 et a2
σa2
σa1
σb
Ecart type
autour de b
Coefficient global
de détermination
R²
σy
Ecart type
autour de y
Coefficient
de Fisher
F
ddl
Degrés de
liberté (n-3)
Somme des
Ŷ Carrés
ΣŶ²
Σε²
Somme des
Résidus carrés
Le tableau comporte ‘’seulement’’ une colonne de plus !
39
Analyse de la qualité de la régression multiple :
* approche graphique,
(représentation en 3D du nuage)
* contribution respective de chacune des variables,
(étude de la corrélation entre les variables explicatives)
* régularité du comportement
( éventuellement des modèles plus complexes )
( exemple :
Y = a1X² + a2X + b )
40
CHANGEMENTS USUELS de VARIABLES
Quand la causalité est établie entre les variables mais en présence d’un
Ajustement très médiocre, il est conseillé de procéder à des changements de
variables afin d’obtenir une relation linéaire plus adéquate
****
Par exemple, les plus fréquents concernent :
* la transformation linéaire :
* le modèle semi-logarithmique (avec les log népériens)
* le modèle doublement logarithmique
mais il existe de nombreuses autres transformations
41
La transformation linéaire simple ou le changement de variable:
Changement sur X : le modèle de base ne donne pas de bons résultats
Y = aX + b


 X '− β
⇒
Y
=
a
X '− β 

X ' =α X + β → X =
 α

α 
et on retrouve le modèle habituel
a
aβ 


+
b
⇔
Y
=
X
'
+
b
−


α
α 


Y = a ' X '+ b '
Changement sur Y : le modèle de base ne donne pas de bons résultats
Y = aX + b

Y '− δ

= aX + b ⇒ Y ' = aγ X + (bγ + δ )
Y '− δ  ⇒
Y ' = γY +δ → Y =
γ
γ 
Ce qui donne encore
Y ' = a' X +b'
42
La transformation linéaire double :
Changement simultané sur X et sur Y : on applique la même méthode
Y = aX + b



 X '− β
X '− β  Y '− δ
= a
X ' =α X + β → X =
⇒
γ
α 
 α

Y '− δ
Y ' = γY +δ →Y =

γ


 aγ
+
b
⇔
Y
'
=



α
Le problème redevient simple à traiter
a βγ



X
'
+
b
γ
−
+
δ



α



Y ' = a ' X '+ b '
Attention : l’interprétation des coefficients sera parfois délicate
43
Le modèle semi-logarithmique en X :
Changement sur X :
Y = a.log(X) + b
L’influence de X diminue à mesure que X augmente
En fait, cela revient à comprimer le nuage de la droite vers la gauche
Cela est connu comme le modèle à élasticité inversement proportionnelle à X
Si on dérive (Y)’dY = (a.logX + b)’dX
(1)dY = (a.1/X+0)dX
dY/dX = a. (1 / X)
44
Le modèle semi-logarithmique en Y :
Changement sur Y :
log(Y) = a.X + b
L’influence de Y diminue à mesure que Y augmente
Rappel : log u = v → u = ev 
aX
b
⇒
Y
=
e
⋅
e
aX + b 
log Y = aX + b → Y = e

Ex : une variable augmente au taux de 3% par période
(
Y = K .1, 03 = K . e
X
log(1,03)
Y = K .e0,0296 X
Adapté pour la famille des modèles à croissance géométrique
45
)
X
Le modèle doublement logarithmique :
Changements sur X et Y :
log Y = a log X + b ⇔ log Y = log( X a ) + log B avec logB = b
(
)
log Y = log BX a ⇒ Y = B. X a
cela est connu comme le modèle à élasticité constante
(logY)’dY = (a.logX+b)’dX
avec élasticité
(1/Y)dY = (a/X+0)dX
dY/Y = a.dX/X
a = [(dY/Y) / (dX/X)] = constante
Autres transformations usuelles :
- la transformation inverse 1/X ou 1/Y
- le carré ou la racine de la variable
- ou encore le log de Y et l’inverse de X, …
Objectif :
Toujours retrouver
le modèle initial
46
LES SERIES TEMPORELLES
Définition :
Suite d’observations ordonnées dans le temps
avec des dates d’observations équidistantes (le mois, le trimestre, l’année,…)
Objectifs :
1) Comprendre l’évolution de la série
2) Prévoir le comportement futur de la série
Relation avec la régression :
l’individu est appelé observation
les 2 attributs sont le niveau de la variable ( Yt ) et le temps, noté t
la liaison avec le temps est décomposée : en Tendance et en Saisonnalité
47
Plan pour les séries chronologiques
Introduction : la décomposition de la série et la représentation graphique
Partie 1 : Méthodologie pour une décomposition additive
A – Recherche de la tendance
B – Estimation de la saisonnalité
C – Etude des résidus et série ajustée
Partie 2 : Améliorations et interprétations des séries temporelles
A - Méthodologie pour une décomposition multiplicative
B – Interprétation et discussion sur les séries
Conclusion : les extensions non traitées
48
Introduction :
Temps
1
Années
2
p
...
1
t
2
…
T
…j…
n
la décomposition :
Périodicité
t
i,j
1
2 … i ... p
1
2 … i ... p
1
2 … i ... p
le temps s’exprime aussi comme le mois (trimestre) i de l’année j
Exemple : 15 
3,2
soit le 3éme mois de la deuxième année
ou le 3éme trimestre de la 4éme année
Yt = Dt + Si + Et
D donne la direction ou la tendance ( Trend )
S indique la saisonnalité (mouvement régulier et répétitif)
E correspond au résidu inexpliqué par le modèle
49
t
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Y
21,93
10,54
15,61
9,71
23,73
16,13
20,90
19,66
30,83
19,46
29,40
24,22
35,07
26,49
34,60
16
25,72
SERIE CHRONOLOGIQUE
40
Valeurs de Y
35
30
25
20
15
10
5
0
4
8
12
16
20
Tem ps (en m ois)
Voici la série brute ! Où devrait se situer le point Y en t=17 ?
50
SERIE CHRONOLOGIQUE AVEC TENDANCE
40
V
aleursdeY
35
30
25
20
15
10
5
0
5
10
15
20
Te m ps (e
n trimestre)
m ois )
(en
Années
Mois
1
2
3
4
1
20,63
24,27
28,17
35,96
2
14,25
19,47
24,98
28,82
3
11,09
18,04
21,00
27,80
4
9,32
15,80
19,32
26,45
Une droite remplace la série brute
^
Yt = a ⋅ t + b
Les données sont présentées en tableau
51
SERIE CHRONOLOGIQUE et SAISONNALITE
40,00
35,00
30,00
ValeursdeY
25,00
20,00
15,00
10,00
5,00
0,00
-5,00
0
5
10
15
20
-10,00
Te m ps
On détecte un mouvement régulier et répétitif (cycle de 4 trimestres)
La courbe en jaune caractérise la prise en compte de la saisonnalité
La courbe en bleu montre la saisonnalité sans la tendance
52
SERIE CHRONOLOGIQUE e n SUPERPOSITION
40,00
35,00
30,00
25,00
20,00
15,00
10,00
5,00
0,00
1
2
3
4
Analyse du mouvement saisonnier selon un cycle annuel
Objectifs : - vérifier que le cycle est répétitif et de bonne longueur
- observer éventuellement un effet multiplicatif
53
Partie 1 : Méthodologie pour une décomposition additive
Recherche de la tendance :
Yt = Dt + Si + Et
2 possibilités sont offertes :
- estimation linéaire avec la régression Dt = a . t + b
- estimation avec lissage des données (valeurs centrales )
Recherche de la direction par ajustement linéaire :
fonction =DROITEREG( vect Y ; ; VRAI )
* pas de vecteur pour X ( Excel utilise alors la variable t=1,2,…)
* variable logique à VRAI pour avoir une constante b
* possibilité de rajouter une variable logique pour les stats (R²)
pente a
constante
1,17
12,82
Dt = 1,17 t + 12,82 et R² = 73%
Possibilité de changement de variable pour Y
54
Recherche de la direction par lissage :
Le nombre de points retenus doit correspondre à la durée de la saisonnalité
Plusieurs techniques sont utilisées dont voici quelques exemples
qui tiennent compte de la longueur de la saisonnalité (paire ou impaire)
* en moyenne mobile historique
Dt = [Yt − 2 + Yt −1 + Yt ] /3
temps
-2
-1
0
1
2
--x-------x-------█------x------x-======
.
* en moyenne mobile centrée.
[Yt −1 + Yt + Yt +1 ] /3

Dt =   1
1

Y
+
Y
+
Y
+
Y
+
Y
t + 2  /4
  t − 2 t −1 t t +1
2

 2
.
.
.
======
.
.
.
* en médiane mobile pondérée
1
1
1

Dt =  Yt −1 + Yt + Yt +1 
2
4
4

.
.
.
======
55
Recherche de la saisonnalité :
Yt = Dt + Si + Et
* effets se compensant pendant un cycle périodique
* jugement graphique pour valider l’approche additive
la courbe brute doit pouvoir être encadrée par un tunnel
si on obtient un cône, c’est plutôt un modèle multiplicatif
* procédure :
a) données sans tendance
St = Yt - Dt

Si,j = Yi,j – Di,j
b) coefficient de saisonnalité moyen par période ( i )
1 n
1
S i = ∑ ( S i , j ) = ∑ (Yi , j − Di , j )
n j =1
n
c) coefficient moyen périodique centré
1
S =
p
p
∑
i =1
Si
on corrige en
retirant le S moyen
Si' = Si − S
56
LE CHANGEMENT DES COORDONNEES DU TEMPS
Temps
t
1
2
3
Période
1
2
…
p
1
2
…
p
…
…
…
1
2
n-1
n-1
n-1
n-1
n-1
n
n
n
n
n
…
p
1
2
T-1
T
Temps
Nb périodes
1
1
1
1
1
2
2
2
2
2
…
p
t
p
j
a
t ==> ( a + 1, j ) = ( i , j )
1
4
1 ==> ( 1 , 0 + 1 )= ( 1 , 1 )
1
0
19
4
3
4
t= a.p +j
t=( i - 1 ). p + j
exemple
19 ==> ( 3, 4 + 1 )= ( 3 , 5 )
Année = ENT ( ( t – 1) / p ) + 1
Mois = MOD ( t – 1 ; p ) + 1
57
Séries avec tendance linéaire et chocs saisonniers de type additif
Filtre de Buys-Ballot
=================
Principe : estimer les Yt à partir de a.t +b et des coefficients de saisonnalité Sj
Yij = a.t + b + S 'j + ε ij
et on veut : Min(ε ij2 )
Après quelques calculs, on a :
12  n
n(n + 1) 
a=
i.Yi −
Y
∑

T (n ² − 1)  i =1
2

 T +1
b = Y − a. 

2


S 'j = Y j − Y − a.( j −
n +1
)
2
a ,b , S j
(i , j)
(année , mois )
i = 1, 2, … , n
(années)
j = 1 , 2 , … , p (mois)
t = 1 , 2 , … , T = np
1 T
Y = ∑ Yt
T t =1
1 n
1 p
Y j = ∑ Yij et Yi = ∑ Yij
n i =1
p j =1
58
Séries CVS
( Corrigées des Variations Saisonnières )
Vi,j = Yi,j – S’i
Calcul de la série ajustée
Yˆt = Dt + St' ⇔ yˆij = Dij + Si'
et des résidus
Et = Yt −Yˆt
Prévision :
Yt+1 = Dt+1 + S’i
Attention : la prévision ne peut être faite qu’à très court terme !
59
Rappel : Méthodologie pour une décomposition additive
1 - Présenter la série temporelle par ordre chronologique croissant
Date
Ordre
Mars 02
1
Année
(Saison)
1
Mois ou Valeurs
trimestre brutes
1
123
Juin 02
2
1
2
144
Sept. 02
3
1
3
156
…
Dec. 05
…
16
…
4
…
4
…
234
Construction de la feuille Excel : les inputs dans les 5 premières colonnes
60
2 - Tester la forme additive avec tendance linéaire
Calcul des paramètres de régression
de la relation Ŷ = at + b
• Extraire la tendance
• Calculer les coefficients saisonniers
• Examiner les résidus
Ajouter la colonne ‘Valeurs Ajustées’
Créer la colonne (Sij = Yij – Ŷij )
Tableau à double entrée ( An – Mois)
des Sij pour le calcul des S’i
Créer la colonne ‘Valeurs CVS’
Vij = Yij – S’i
Créer la colonne (εij = Sij –Si )
Par construction, la moyenne des résidus est nulle,
Ensuite, il faut calculer la variance des résidus
Puis, examiner la distribution des résidus dans le temps
61
3 - Tester la forme additive avec lissage des données
• Extraire la tendance
Choisir la méthode (historique – centrée)
Choisir la longueur de la saison
• Calculer les coefficients saisonniers
Ajouter la colonne ‘Valeurs Ajustées’
• Examiner les résidus
Créer la colonne (Sij = Yij – Ŷij )
Tableau à double entrée ( An – Mois)
des Sij pour le calcul des S’i
Créer la colonne ‘Valeurs CVS’
Vij = Yij – S’i
Créer la colonne (εij = Sij –Si )
Par construction, la moyenne des résidus est nulle,
Ensuite, il faut calculer la variance des résidus
Puis, examiner la distribution des résidus dans le temps
62
4 - Choisir la forme additive la mieux adaptée et faire de la prévision
- Faire le bon choix quant à la tendance
- Retenir la saison la plus adaptée (cohérence économique)
- Justifier les choix opérés (graphique et calculs) au regard des résidus
- Proposer une prévision à court terme
- au maximum, les données d’une saison !
- éventuellement, confronter les prévisions selon les méthodes
Attention : à ce niveau, cela reste une démarche très empirique !
63
Partie 2 : Améliorations et interprétations des séries temporelles
Section A :Méthodologie pour une décomposition multiplicative
Exemple de série chronologique avec décomposition multiplicative
Serie temporelle avec coefficient multiplicatif
Saison de longueur 4
1200
1100
1000
900
800
700
600
500
400
0
5
10
15
20
Forme caractéristique en cône de l’amplitude de la saisonnalité avec le temps
64
Modèle attendu : Yt = Dt . St .Et
Décomposition multiplicative
• Approche graphique :
le mouvement saisonnier doit être en cône !
• Procédure statistique :
- recherche de la tendance avec des moyennes mobiles
- recherche de saisonnalité (neutralisation de la tendance)
Yij
Yt
St =
ou S ij =
Dt
Dij
avec
→
1 n yij
Si = ∑
et
n j =1 Dij
Coefficients : périodique moyen du mois i
et
Si
S =
S
'
i
1 p
S = ∑ Si
p i =1
périodique moyen centré
65
Interprétation ou autre présentation de Yt = Dt . St .Et
Si il n’y a pas de mouvement saisonnier, alors l’espérance Y / D = 1
Le modèle peut donc s’écrire :
Yt = Dt . ( 1 + st ) . Et
et les résidus deviennent
Et = Yt / Dt . ( 1 + st )
Leur espérance est égale à 1 d’où une notation Et = ( 1 + εt )
Autre forme du modèle général Yt = Dt . ( 1 + st ) . ( 1 + εt )
66
Section B : Interprétation et discussion sur les séries
Quelle Moyenne Mobile choisir ?
Historique ou centrée ?
Objectif : atténuer les variations
MMH ou MMC ?
- Pour les cours boursiers, on privilégie les MMH pour disposer d’une comparaison
en t entre valeur brute et valeur lissée
- En gestion, on préfère les MMC, car elles expliquent mieux le comportement des
séries mais on ne dispose plus de l’information véhiculée par les dernières
observations
MMC : Courte ou Longue ?
MMC( c ) ou MMC ( l ) ?
- l’accroissement de longueur contribue à favoriser la compensation
entre les variations (saisonnières et/ou accidentelles)
MMC de longueur paire ou impaire ?
- si longueur impaire :
MMC( L =2k+1 )
= [ Yt-k+ … + Yt + … +Yt+k ] / L
- si longueur paire : MMC( L =2k ) = [ (Yt-k/2 +Yt-k+1 + … + Yt+k-1 + Yt+k/2 ] / L
Remarque : dans les deux cas, le nombre de variables impliquées est impair
67
Option pour l’approximation de la Tendance
COMPARAISON Données brutes et MMC ( L=12)
6000
5500
5000
4500
4000
3500
3000
2500
2000
1500
1000
Valeur
MMC(12)
Linéaire (Valeur )
1 10 19 28 37 46 55 64 73 82 91 100 109 118 127
Les Moyennes Mobiles Centrées captent mieux la direction générale de la série
68
Impact du choix de la longueur de la MMC(L)
COMPARAISON des MMC de longueur 3, 6 et 12
6000
5500
5000
4500
4000
MMC(12)
3500
MMC(3)
3000
MMC(6)
2500
2000
1
9
17 25 33 41 49 57 65 73 81 89 97 105 113 121 129
La longueur de la MMC doit correspondre à la période (p) pour atténuer la composante accidentelle
69
Impact du choix de la longueur de la MMC(L)
COMPARAISON des MMC de longueur 12, 24, 36 et 60
4900
4700
4500
4300
4100
3900
3700
3500
3300
3100
2900
MMC(12)
MMC(24)
MMC(36)
MMC(60)
1
9
17 25 33 41 49 57 65 73 81 89 97 105 113 121 129
Pour une longueur multiple de la période ( L =k.p ), le lissage est de plus en plus important
Mais attention, la perte d’informations peut devenir un réel problème en cas de prévision
70
En conclusion
Objectif : décrire au mieux le comportement de la série
Pour la tendance :
- si linéaire, alors régression simple du type Y = a.t + b
- si non linéaire, alors MMC (ou MMH en finance)
Pour la saisonnalité :
- identifier la longueur de la période ( p ) pour les MMC
- faire le choix d’une saisonnalité additive ou multiplicative
Pour les résidus :
- regarder leur distributions dans le temps et dans l’espace (Variance)
- identifier des comportements d’auto-corrélation des résidus
Il est aussi possible de combiner les modèles additif et multiplicatif
71
Conclusion : vers un processus prévisionnel ?
Prévision par QUI et pour QUI ?
Responsable Production : ⇒ surestime le marché
( pas de rupture en cas de demande imprévue )
Responsable Commercial : ⇒ sous-estime le marché
( encaisser les primes liées au dépassement des objectifs)
Prévision POURQUOI ?
Prise de décision liée aux comportements anormaux
Contrôle (analyse des écarts et validation d’un environnement )
Prévision : COMMENT ?
Paramétrage du logiciel (extrapolation ou explication )
Remise en cause du modèle
72
Téléchargement