UNIVERSITE de MONTPELLIER IUT GEA 2éme année 2016-2017 STATISTIQUE APPLIQUEE(1) du bon usage de la statistique en gestion… Pr. Alain FRANCOIS-HEUDE ENT MOODLE [email protected] Cours : AFH GEA2FI Cours 2016-2017 Généralités Objectif : Maîtriser quelques outils quantitatifs d’aide à la décision en gestion Pédagogie : 15 heures de cours et 15 heures de TD - Cours le mardi (10h00-12h00 à l’amphi 3) et TD le mercredi [PMO, RH,FC] - Priorité à l’interprétation des outils et méthodes - Du cours interactif, des recherches d’informations et des applications - Utilisation de Excel et de l’Internet - Trois contrôles pour l’évaluation a) – individuel sans document, QCM pour la promotion et portant sur la partie 1 b) – en groupe : un dossier sur les séries temporelles c) – individuel avec document, pendant la STCC Espace pédagogique : 1 - accéder au site http://mon.univ-montp2.fr/ ou http://www.univ-montp2.fr puis onglet « espace pédagogique » 2 - sélectionner le site du cours : ‘Outils d’Aide à la Décision’ GEA2OAD 2 PLAN de COURS Partie 1 Statistique Descriptive (à deux dimensions) Une population d’INDIVIDUS (avec 2 attributs) Partie 2 Inférence Statistique (échantillons & tests) Une population de DONNEES (Série chronologique) Cette partie correspond au cours de second semestre y y Nuage de Points courbe x temps 3 Cas d’une population de n individus Les attributs x et y sont Les attributs x et y sont traités séparément traités conjointement ZOOM Choix de Corrélation Causalité sur une GRILLE sur entre les et liaison ZONE le nuage variables linéaire Indicateurs Synthétiques Inertie, dispersion Distributions conditionnelle et marginale Covariance et R² Régression linéaire 4 PLAN I- Statistique descriptive A - Population d’individus munis de 2 attributs 1) Traitement séparé des attributs a) Zoom sur une partie du nuage b) Quadrillage du nuage 2) Traitement conjoint des attributs a) Corrélation entre les variables b) Causalité et liaison linéaire 3) Extensions a) Régression multiple b) changement de variable 5 I- Statistique descriptive B – Séries chronologiques 1) Méthodologie pour une décomposition additive a) recherche de la tendance b) Estimation de la saisonnalité c) Etude des résidus de la série 2) Améliorations et interprétations des résultats a) Méthodologie pour une décomposition multiplicative b) Interprétation des résultats et discussion sur les séries 6 Population de n individus avec 2 attributs traités séparément Une population de n individus ( j = 1, 2, … , n ) Deux attributs ou variables X et Y j X 1 12 2 16 3 19 Y 5 7 2 Nuage formé par les n points Yj x ... x j Xj x x x Yj x ... n Xn Yn Xj Possibilité de représentation en 3D pour faire apparaître le mode dominant 7 Exemple avec EXCEL 1) Sélection de la matrice des données (X,Y) 2) Menu ‘Insertion’ puis ‘Graphique’ ou bien cliquer sur icône ‘Assistant Graphique 1) Choisir le type ‘Nuage de points’ 2) Procéder à la mise en forme (titre, axes, échelles, libellés, … ) Var2 expliquée par CAC en rendement R 8% e 6% n 4% d 2% e 0% -2% m -4% e -6% n -8% t -10% -20% en % -15% -10% -5% 0% Rendement en % 5% 10% 15% 20% 8 IA1a) Le ZOOM sur une partie du nuage y ymax * sur le centre de gravité du nuage, E(y) * sur l’étendue du nuage, ymin * sur la partie centrale x xmin Paramètre Effectif n Somme des x xmax Fonction Excel =Nb(Y1:Yn) =Somme(X1:Xn) Moyenne E(x) Moyenne E(y) =Moyenne(X1:Xn) =Moyenne(Y1:Yn) Médiane des X =Mediane(X1:Xn) Ecart Type σY Variance σ²Y E(x) =EcartypeP(Y1:Yn) =Var.P(Y1:Yn) n ∑ xj j=1 1 E (x) = x = n σ ²y = Var ( y ) n ∑ xj 1 = n ∑ (y j =1 ) 2 n j − y j =1 9 Pour estimer les queues de distributions, on peut utiliser : Paramètres Fonctions Excel Maximum des Yj =Max(Y1:Yn) valeur la plus grande Minimum des Xj =Min(X1:Xn) valeur la plus faible Nombre de Xj < Z =Nb.si(X1:Xn; ‘’<Z’’) où Z est la borne Nombre de Xj = Z =Nb.si(X1:Xn;Z) où Z est la cible Quartiles des Xj =Quartile(X1:Xn;x) si x=0 Q1 si x=1 Q2 si x=2 Q3 si x=3 Q4 si x=4 si x=4 =Min de 0% à 25% =Médiane de 50% à 75% de 75% à 100% =Max 10 Le centre d’inertie ou de gravité du nuage, c’est aussi le barycentre ! -Ce point (imaginaire) caractérise le mieux chacun des individus (x j , y j ) = (x + ε , y + ω ) j j où εj et ωj sont les écarts à la moyenne Exemples : - Le terrien moyen pèse 45 Kg pour 1,39m ! - L’entreprise représentative a 14 salariés pour un CA de 210 000€ 11 L’étendue du nuage nous renseigne sur : - l’existence de points aberrants (erreur de saisie, cas extrême) - l’amplitude des phénomènes à mesurer x min ≤ x j ≤ x max , y min ≤ y j ≤ y max Exemples : - Le terrien se situe entre 200g et 415Kg et entre 35cm et 2,71m ! - L’entreprise a entre 1 et 4 millions de salariés et un CA entre 0€ et X Mds€ 12 Adaptation du ZOOM à une Zone pertinente du nuage de points Autour de la moyenne à + ou – un écart type ! E(y)+σy E(y) (E(x),E(y)) ** E(y)-σy E(x)-σx E(x) E(x)+σx Environ 2/3 des observations se trouvent normalement dans cette zone ! 13 IA1b) Le Quadrillage du nuage Ici, on cherche à dénombrer les individus appartenant à un groupe défini par les deux variables X et Y. Variables discrètes ou continues et caractère qualitatif ou quantitatif Constitution d’un treillis fondé sur : - la classe, le groupe ou l’intervalle - le quantile (Médiane, quartile, décile,..) - la distance à la moyenne (1,2 ou 3 écarts type) 14 TABLEAU D’EFFECTIF REPARTI par GROUPE X1 X2 tot X Y1 n11 n12 n1. Y2 n21 n22 n2. tot Y n.1 n.2 n.. Chaque groupe (Xi,Yj) contient une partie nij de l’effectif total (N = n..) 15 FREQUENCES et DISTRIBUTION MARGINALE Y1 Y2 totY X1 X2 tot X n11 n12 n1. ------------------- ------------------- ------------------- n.. n.. n.. n21 n22 n2. ------------------- ------------------- ------------------- n.. n.. n.. n.1 n.2 100% ------------------- ------------------- n.. n.. Chaque effectif de groupe (nij) est divisé par l’effectif total (N = n..) 16 DISTRIBUTIONS CONDITIONNELLES SELON Y Y1 Y2 tot Y X1 X2 tot X n11 n12 100% ------------------- ------------------- n1. n21 n1. n22 ------------------- ------------------- n2. n.1 n2. n.2 ------------------- ------------------- n.. n.. 100% 100% Calcul de la fréquence de Xj sachant l’état de Yi Idem selon X, mais on calcule en lignes f j i = f (X j Y i ) = n ij n i. 17 Représentations usuelles de la répartition d’une population selon deux critères Effectif réel Variable X X1 X2 Tot Distribution Conditionnelle Variable X X1 X2 Tot selon Y Variable Y Y1 14 16 30 Y2 11 29 40 Tot 25 45 70 Distribution Conditionnelle Variable X X1 X2 Tot Variable Y Y1 Y2 Tot Distribution Marginale 47% 28% 36% 53% 73% 64% 100% 100% 100% Variable X X1 X2 Tot selon X Variable Y Y2 56% 44% 36% 64% 43% 57% Tot 100% 100% 100% Y1 Variable Y Y1 Y2 Tot 20% 16% 36% 23% 41% 64% 43% 57% 100% 18 Analyse conjointe de X et Y On sait que X ou Y varient. Mais comment varient X et Y ? Rappel de quelques formules sur les variances : - Espérance des carrés moins carré de l’espérance - Moyenne des carrés moins carré de la moyenne 2 1 n 1 n σ ² x = Var ( x ) = ∑ ( x − x ) = ∑ ( x − x )( x − x ) n j =1 n j =1 1 n σ ² x = Var ( x ) = ∑ xj ² − x ² n j =1 19 IA2a : La corrélation linéaire entre les variables * LA COVARIANCE Mesure de la variation conjointe de X et de Y ( )( ) 1 n 1 n σxy = Cov( x, y ) = ∑ xj − x yj − y = ∑ xjyj − x. y n j =1 n j =1 Covariance = Espérance du Produit moins Produit des Espérances Moyenne des Produits moins Produit des Moyennes Remarques : la Cov peut être positive, négative ou nulle ! Cov(X,Y) = Cov(Y,X) Cov(X,X) = Var(X) Cov(Y,Y) = Var(Y) 20 COEFFICIENT de CORRELATION Mesure de dépendance linéaire entre x et y, notée RHO ρ Cov( X , X ) = σ X .σ X .1 Cov(Y , Y ) = σ Y .σ Y .1 Cov( X , Y ) = σ X .σ Y .ρ XY ρ Cov ( X ,Y ) XY = σ X .σ Y -1 forte corrélation négative 0 absence de corrélation +1 forte corrélation positive 21 COEFFICIENT de DETERMINATION C’est, dans un premier temps, le carré de ρ, noté R² R² = ρ² = Cov(X,Y)² / Var(X).Var(Y) R² est défini sur [ 0, +1 ] Plus R² tend vers 1, plus la dépendance linéaire est forte. Fonctions Excel : Cov Rho R² =Covariance(Y1:Yn ; X1:Xn) =Coefficient.correlation(Y1:Yn ; X1:Xn) =Coefficient.determination(Y1:Yn ; X1:Xn) 22 IA2b : Causalité et Liaison Linéaire * Ajustement à main levée Quel est le bon choix ? Contrainte imposée : E(Y) Passer par le centre de gravité du nuage Point [ (E(x), E(y) ] E(X) Problème : Comment traduire par l’équation d’une droite ce choix ? Il faut deux points pour caractériser une droite. 23 * La Méthode de MAYER Procédure : 1 - classer les individus en ordre croissant 2 - déterminer la médiane (M) selon l’attribut X 3 – partager la population en deux groupes selon que Xi > ou non à M 4 – Calculer les centres de gravité de ces deux nuages 5 – établir les paramètres de la droite affine passant par ces deux points E(Y2) E(Y1) * * E(X1) E(X2) 24 Calcul selon la méthode de Mayer en vue d’obtenir une équation y = a x + b On a deux points : les centres de gravité notés A(X1,Y1) et B(X2,Y2) Soit donc : un système de deux équations à deux inconnues Y1 = a . X1 + b Système Y2 = a . X2 + b Résolution différence des deux équations Y1 – Y2 = a X1 + b – a X2 – b = a . ( X1 – X2 ) d’où Y1− Y 2 a= X1 − X 2 Calcul de la constante b Y 1.X 1 − Y 1.X 2 − Y 1.X 1 + Y 2.X 2 Y1− Y 2 b = Y 1 − a.X 1 = Y 1 − . X 1 = X1− X 2 X1− X 2 b = X 1 .Y 2 − X 2 .Y 1 X1− X 2 25 * Ajustement linéaire Problématique : on a et une variable à expliquer (Y) une variable explicative (X) on veut un modèle simple du type y = a.x + b Solutions * le jugement par l’observation : le point de vue géométrique la forme du nuage de points nous informe sur la pertinence * le jugement par le calcul : le point de vue statistique attention cela n’implique pas la liaison économique 26 Objectif : ajuster le nuage par une droite Minimiser des écarts ! Que choisir ? - Minimiser le plus grand écart absolu ? Min ( Sup | Ŷi - Yi | ) - Minimiser la somme des écarts absolus ? Min ( Σ | Ŷi - Yi | ) - Minimiser la somme des écarts carrés ? Min ( Σ ( Ŷi - Yi )² ) Doit-on forcer la droite à : - passer au moins par un point existant ? - passer par le centre de gravité ? Méthode MCO : Méthode des Moindres Carrés Ordinaires 27 La Méthode MCO yi = a.xi + b + εi ⇔ εi = yi − a.xi − b 2 2 Min ∑ εi = ∑ ( yi − a.xi − b ) a ,b i i ∂ • = 2.∑ ( yi − a.xi − b ) .(− xi ) = 0 ∂a i ∂ • = 2.∑ ( yi − a.xi − b ) .(−1) = 0 ∂b i 28 On en tire : x y − n.x . y ∑ ( x − x ) . ( y − y ) ∑ Cov( x, y ) a= = = Var ( x) ∑ x − n ⋅ x ∑ ( x − x ) .( x − x ) i i i i i i i i i 2 2 i i b = y − a.x Attention : - il faut encore vérifier les conditions de second ordre ! Remarques : - la droite passe par le centre de gravité. - le coefficient de pente (a) ressemble au coefficient de corrélation ρ ! - a et ρ sont de même signe. 29 Calcul sous EXCEL * Calcul des variances et covariances en vue d’obtenir a et b ! * Utiliser les fonctions macro matricielles Procédure : 1) Sélectionner une zone de destination (deux cellules sur la même ligne) la zone change de couleur 2) Taper la fonction =Droitereg(Y1:Yn ; X1:Xn ; Vrai ) Vrai pour avoir une constante b non nulle 3) Valider en pressant 3 touches : Ctrl Maj Entrée la fonction s’écrit en MAJUSCULE et entre ACCOLADES Résultat {=DROITEREG(B2:B1644;C2:C1644;VRAI)} {=DROITEREG(B2:B1644;C2:C1644;VRAI)} 30 Exemple sous Excel A B C D 2 vect Y vect X 3 1 12 4 2 15 5 4 14 6 6 18 E F 1 FORMULE OBTENUE en {=DROITEREG(B3:B6;C3:C6;VRAI)} SELECTIONNANT les DEUX CELLULES {=DROITEREG(B3:B6;C3:C6;VRAI)} RESULTAT COEFFICIENT de PENTE a 0,76 7 CONSTANTE b -7,96 8 9 1 0 Résultat : Y = 0,76 X - 7,96 31 REMARQUE : -Si on veut que la relation passe par le point (0,0), le modèle devient Y = a’. X et donc quand X = 0 alors Y = 0 Sur Excel, il faut mettre le dernier paramètre à Faux Exemple : =DROITEREG( vect Y ; vect X ; Faux ) Il suffit donc de sélectionner une seule cellule ! [Ctrl & Maj sont inutiles] Y=a’.X Y Y=a.X + b E(y) b 0 E(x) X 32 ANALYSE de la QUALITE de l’AJUSTEMENT * la qualité de la régression se mesure avec le R² Une parfaite corrélation linéaire conduit à un R² de 100% mais un R² élevé n’implique pas la causalité nécessairement Une absence de corrélation linéaire conduit à un R² = 0% mais une relation non linéaire peut cependant exister ! Attention : un ρ = 0,71 donne un R² = 50% a priori peu significatif ! Le R² doit être d’autant plus élevé que la taille de la population est faible ! 33 La macro fonction permet d’obtenir des statistiques sur la qualité, dont le R² Procédure : 1- Sélectionner une zone de 5 lignes et 2 colonnes 2- Entrer la fonction =Droitereg( vect Y ; vect X ; Vrai ; Vrai ) 3- Valider en pressant simultanément sue 3 touches : Ctrl Maj Entrée Remarques : La 1ère variable logique = ‘Faux’ indique que l’on teste la relation y=a.x ou que l’on exige que la droite passe par l’origine (y=0 x=0 et donc b=0) La seconde variable logique mise à ‘Vrai’ indique que l’on demande les statistiques ( indépendamment du choix sur la 1ère variable logique) 34 Tableau obtenu avec la fonction =Droitereg( vect Y ; vect X ; Vrai ; Vrai ) Yi = a Xi + b + εi = Ŷi + εi Coefficient de pente a b Constante Ecart type autour de a σa σb Ecart type autour de b Coefficient de détermination R² σy Ecart type autour de y Coefficient de Fisher F ddl Degrés de liberté (n-2) Somme des Ŷ Carrés ΣŶ² Σε² Somme des Résidus carrés 35 Remarque sur l’inversion de la relation de causalité La régression de y en x donne les coefficients a et b avec a = Cov(x,y)/ Var(x) La régression de x en y donne les coefficients c et d avec c = Cov(y,x)/ Var(y) Le retraitement de la première équation, permet d’écrire : y = a.x + b a.x = y – b c = 1/a et d = -b/a x = y/a – b/a = c.y + d (la relation entre les coefficients) c = Cov(y,x)/Var(y) = Rho²(x,y). [Var(x)/ Cov(x,y)] = Rho²(x,y). (1/a) les deux droites d’ajustement seront confondues si et seulement si Rho²(x,y) = 1 pour que c = 1/a ! enfin, le produit ac = Cov(x,y)² / Var(x). Var(y) = R² 36 REGRESSION LINEAIRE MULTIPLE : L’objectif est de décrire le comportement de la variable Y (attribut) avec plusieurs variables explicatives complémentaires Modèle du type : Y = a1.X1 + a2.X2 + b L’ajout de variables améliore l’explication globale du phénomène le R² augmente (sauf si les deux variables sont parfaitement corrélées) Choix des variables explicatives : - avoir une signification économique - ne pas expliquer la même chose (sinon le R² ne progresse pas assez) 37 Procédure de la Régression multiple sous Excel: 1 - Sélectionner une zone de 5 lignes et 3 colonnes 2 - Entrer la fonction Droitereg( vect Y ; mat X ; Vrai ; Vrai ) 3 - Valider par la pression simultanée de 3 touches : Ctrl Maj Entrée Remarque : il est souhaitable d’avoir les deux variables explicatives stockées dans deux colonnes voisines d’où la matrice X 38 Tableau obtenu avec la fonction Droitereg( vect Y ; mat X ; Vrai ; Vrai ) Yi = a1 Xi1 + a2Xi2 + b + εi = Ŷi + εi Coefficients de pente a2 a1 b Constante Ecarts type autour de a1 et a2 σa2 σa1 σb Ecart type autour de b Coefficient global de détermination R² σy Ecart type autour de y Coefficient de Fisher F ddl Degrés de liberté (n-3) Somme des Ŷ Carrés ΣŶ² Σε² Somme des Résidus carrés Le tableau comporte ‘’seulement’’ une colonne de plus ! 39 Analyse de la qualité de la régression multiple : * approche graphique, (représentation en 3D du nuage) * contribution respective de chacune des variables, (étude de la corrélation entre les variables explicatives) * régularité du comportement ( éventuellement des modèles plus complexes ) ( exemple : Y = a1X² + a2X + b ) 40 CHANGEMENTS USUELS de VARIABLES Quand la causalité est établie entre les variables mais en présence d’un Ajustement très médiocre, il est conseillé de procéder à des changements de variables afin d’obtenir une relation linéaire plus adéquate **** Par exemple, les plus fréquents concernent : * la transformation linéaire : * le modèle semi-logarithmique (avec les log népériens) * le modèle doublement logarithmique mais il existe de nombreuses autres transformations 41 La transformation linéaire simple ou le changement de variable: Changement sur X : le modèle de base ne donne pas de bons résultats Y = aX + b X '− β ⇒ Y = a X '− β X ' =α X + β → X = α α et on retrouve le modèle habituel a aβ + b ⇔ Y = X ' + b − α α Y = a ' X '+ b ' Changement sur Y : le modèle de base ne donne pas de bons résultats Y = aX + b Y '− δ = aX + b ⇒ Y ' = aγ X + (bγ + δ ) Y '− δ ⇒ Y ' = γY +δ → Y = γ γ Ce qui donne encore Y ' = a' X +b' 42 La transformation linéaire double : Changement simultané sur X et sur Y : on applique la même méthode Y = aX + b X '− β X '− β Y '− δ = a X ' =α X + β → X = ⇒ γ α α Y '− δ Y ' = γY +δ →Y = γ aγ + b ⇔ Y ' = α Le problème redevient simple à traiter a βγ X ' + b γ − + δ α Y ' = a ' X '+ b ' Attention : l’interprétation des coefficients sera parfois délicate 43 Le modèle semi-logarithmique en X : Changement sur X : Y = a.log(X) + b L’influence de X diminue à mesure que X augmente En fait, cela revient à comprimer le nuage de la droite vers la gauche Cela est connu comme le modèle à élasticité inversement proportionnelle à X Si on dérive (Y)’dY = (a.logX + b)’dX (1)dY = (a.1/X+0)dX dY/dX = a. (1 / X) 44 Le modèle semi-logarithmique en Y : Changement sur Y : log(Y) = a.X + b L’influence de Y diminue à mesure que Y augmente Rappel : log u = v → u = ev aX b ⇒ Y = e ⋅ e aX + b log Y = aX + b → Y = e Ex : une variable augmente au taux de 3% par période ( Y = K .1, 03 = K . e X log(1,03) Y = K .e0,0296 X Adapté pour la famille des modèles à croissance géométrique 45 ) X Le modèle doublement logarithmique : Changements sur X et Y : log Y = a log X + b ⇔ log Y = log( X a ) + log B avec logB = b ( ) log Y = log BX a ⇒ Y = B. X a cela est connu comme le modèle à élasticité constante (logY)’dY = (a.logX+b)’dX avec élasticité (1/Y)dY = (a/X+0)dX dY/Y = a.dX/X a = [(dY/Y) / (dX/X)] = constante Autres transformations usuelles : - la transformation inverse 1/X ou 1/Y - le carré ou la racine de la variable - ou encore le log de Y et l’inverse de X, … Objectif : Toujours retrouver le modèle initial 46 LES SERIES TEMPORELLES Définition : Suite d’observations ordonnées dans le temps avec des dates d’observations équidistantes (le mois, le trimestre, l’année,…) Objectifs : 1) Comprendre l’évolution de la série 2) Prévoir le comportement futur de la série Relation avec la régression : l’individu est appelé observation les 2 attributs sont le niveau de la variable ( Yt ) et le temps, noté t la liaison avec le temps est décomposée : en Tendance et en Saisonnalité 47 Plan pour les séries chronologiques Introduction : la décomposition de la série et la représentation graphique Partie 1 : Méthodologie pour une décomposition additive A – Recherche de la tendance B – Estimation de la saisonnalité C – Etude des résidus et série ajustée Partie 2 : Améliorations et interprétations des séries temporelles A - Méthodologie pour une décomposition multiplicative B – Interprétation et discussion sur les séries Conclusion : les extensions non traitées 48 Introduction : Temps 1 Années 2 p ... 1 t 2 … T …j… n la décomposition : Périodicité t i,j 1 2 … i ... p 1 2 … i ... p 1 2 … i ... p le temps s’exprime aussi comme le mois (trimestre) i de l’année j Exemple : 15 3,2 soit le 3éme mois de la deuxième année ou le 3éme trimestre de la 4éme année Yt = Dt + Si + Et D donne la direction ou la tendance ( Trend ) S indique la saisonnalité (mouvement régulier et répétitif) E correspond au résidu inexpliqué par le modèle 49 t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Y 21,93 10,54 15,61 9,71 23,73 16,13 20,90 19,66 30,83 19,46 29,40 24,22 35,07 26,49 34,60 16 25,72 SERIE CHRONOLOGIQUE 40 Valeurs de Y 35 30 25 20 15 10 5 0 4 8 12 16 20 Tem ps (en m ois) Voici la série brute ! Où devrait se situer le point Y en t=17 ? 50 SERIE CHRONOLOGIQUE AVEC TENDANCE 40 V aleursdeY 35 30 25 20 15 10 5 0 5 10 15 20 Te m ps (e n trimestre) m ois ) (en Années Mois 1 2 3 4 1 20,63 24,27 28,17 35,96 2 14,25 19,47 24,98 28,82 3 11,09 18,04 21,00 27,80 4 9,32 15,80 19,32 26,45 Une droite remplace la série brute ^ Yt = a ⋅ t + b Les données sont présentées en tableau 51 SERIE CHRONOLOGIQUE et SAISONNALITE 40,00 35,00 30,00 ValeursdeY 25,00 20,00 15,00 10,00 5,00 0,00 -5,00 0 5 10 15 20 -10,00 Te m ps On détecte un mouvement régulier et répétitif (cycle de 4 trimestres) La courbe en jaune caractérise la prise en compte de la saisonnalité La courbe en bleu montre la saisonnalité sans la tendance 52 SERIE CHRONOLOGIQUE e n SUPERPOSITION 40,00 35,00 30,00 25,00 20,00 15,00 10,00 5,00 0,00 1 2 3 4 Analyse du mouvement saisonnier selon un cycle annuel Objectifs : - vérifier que le cycle est répétitif et de bonne longueur - observer éventuellement un effet multiplicatif 53 Partie 1 : Méthodologie pour une décomposition additive Recherche de la tendance : Yt = Dt + Si + Et 2 possibilités sont offertes : - estimation linéaire avec la régression Dt = a . t + b - estimation avec lissage des données (valeurs centrales ) Recherche de la direction par ajustement linéaire : fonction =DROITEREG( vect Y ; ; VRAI ) * pas de vecteur pour X ( Excel utilise alors la variable t=1,2,…) * variable logique à VRAI pour avoir une constante b * possibilité de rajouter une variable logique pour les stats (R²) pente a constante 1,17 12,82 Dt = 1,17 t + 12,82 et R² = 73% Possibilité de changement de variable pour Y 54 Recherche de la direction par lissage : Le nombre de points retenus doit correspondre à la durée de la saisonnalité Plusieurs techniques sont utilisées dont voici quelques exemples qui tiennent compte de la longueur de la saisonnalité (paire ou impaire) * en moyenne mobile historique Dt = [Yt − 2 + Yt −1 + Yt ] /3 temps -2 -1 0 1 2 --x-------x-------█------x------x-====== . * en moyenne mobile centrée. [Yt −1 + Yt + Yt +1 ] /3 Dt = 1 1 Y + Y + Y + Y + Y t + 2 /4 t − 2 t −1 t t +1 2 2 . . . ====== . . . * en médiane mobile pondérée 1 1 1 Dt = Yt −1 + Yt + Yt +1 2 4 4 . . . ====== 55 Recherche de la saisonnalité : Yt = Dt + Si + Et * effets se compensant pendant un cycle périodique * jugement graphique pour valider l’approche additive la courbe brute doit pouvoir être encadrée par un tunnel si on obtient un cône, c’est plutôt un modèle multiplicatif * procédure : a) données sans tendance St = Yt - Dt Si,j = Yi,j – Di,j b) coefficient de saisonnalité moyen par période ( i ) 1 n 1 S i = ∑ ( S i , j ) = ∑ (Yi , j − Di , j ) n j =1 n c) coefficient moyen périodique centré 1 S = p p ∑ i =1 Si on corrige en retirant le S moyen Si' = Si − S 56 LE CHANGEMENT DES COORDONNEES DU TEMPS Temps t 1 2 3 Période 1 2 … p 1 2 … p … … … 1 2 n-1 n-1 n-1 n-1 n-1 n n n n n … p 1 2 T-1 T Temps Nb périodes 1 1 1 1 1 2 2 2 2 2 … p t p j a t ==> ( a + 1, j ) = ( i , j ) 1 4 1 ==> ( 1 , 0 + 1 )= ( 1 , 1 ) 1 0 19 4 3 4 t= a.p +j t=( i - 1 ). p + j exemple 19 ==> ( 3, 4 + 1 )= ( 3 , 5 ) Année = ENT ( ( t – 1) / p ) + 1 Mois = MOD ( t – 1 ; p ) + 1 57 Séries avec tendance linéaire et chocs saisonniers de type additif Filtre de Buys-Ballot ================= Principe : estimer les Yt à partir de a.t +b et des coefficients de saisonnalité Sj Yij = a.t + b + S 'j + ε ij et on veut : Min(ε ij2 ) Après quelques calculs, on a : 12 n n(n + 1) a= i.Yi − Y ∑ T (n ² − 1) i =1 2 T +1 b = Y − a. 2 S 'j = Y j − Y − a.( j − n +1 ) 2 a ,b , S j (i , j) (année , mois ) i = 1, 2, … , n (années) j = 1 , 2 , … , p (mois) t = 1 , 2 , … , T = np 1 T Y = ∑ Yt T t =1 1 n 1 p Y j = ∑ Yij et Yi = ∑ Yij n i =1 p j =1 58 Séries CVS ( Corrigées des Variations Saisonnières ) Vi,j = Yi,j – S’i Calcul de la série ajustée Yˆt = Dt + St' ⇔ yˆij = Dij + Si' et des résidus Et = Yt −Yˆt Prévision : Yt+1 = Dt+1 + S’i Attention : la prévision ne peut être faite qu’à très court terme ! 59 Rappel : Méthodologie pour une décomposition additive 1 - Présenter la série temporelle par ordre chronologique croissant Date Ordre Mars 02 1 Année (Saison) 1 Mois ou Valeurs trimestre brutes 1 123 Juin 02 2 1 2 144 Sept. 02 3 1 3 156 … Dec. 05 … 16 … 4 … 4 … 234 Construction de la feuille Excel : les inputs dans les 5 premières colonnes 60 2 - Tester la forme additive avec tendance linéaire Calcul des paramètres de régression de la relation Ŷ = at + b • Extraire la tendance • Calculer les coefficients saisonniers • Examiner les résidus Ajouter la colonne ‘Valeurs Ajustées’ Créer la colonne (Sij = Yij – Ŷij ) Tableau à double entrée ( An – Mois) des Sij pour le calcul des S’i Créer la colonne ‘Valeurs CVS’ Vij = Yij – S’i Créer la colonne (εij = Sij –Si ) Par construction, la moyenne des résidus est nulle, Ensuite, il faut calculer la variance des résidus Puis, examiner la distribution des résidus dans le temps 61 3 - Tester la forme additive avec lissage des données • Extraire la tendance Choisir la méthode (historique – centrée) Choisir la longueur de la saison • Calculer les coefficients saisonniers Ajouter la colonne ‘Valeurs Ajustées’ • Examiner les résidus Créer la colonne (Sij = Yij – Ŷij ) Tableau à double entrée ( An – Mois) des Sij pour le calcul des S’i Créer la colonne ‘Valeurs CVS’ Vij = Yij – S’i Créer la colonne (εij = Sij –Si ) Par construction, la moyenne des résidus est nulle, Ensuite, il faut calculer la variance des résidus Puis, examiner la distribution des résidus dans le temps 62 4 - Choisir la forme additive la mieux adaptée et faire de la prévision - Faire le bon choix quant à la tendance - Retenir la saison la plus adaptée (cohérence économique) - Justifier les choix opérés (graphique et calculs) au regard des résidus - Proposer une prévision à court terme - au maximum, les données d’une saison ! - éventuellement, confronter les prévisions selon les méthodes Attention : à ce niveau, cela reste une démarche très empirique ! 63 Partie 2 : Améliorations et interprétations des séries temporelles Section A :Méthodologie pour une décomposition multiplicative Exemple de série chronologique avec décomposition multiplicative Serie temporelle avec coefficient multiplicatif Saison de longueur 4 1200 1100 1000 900 800 700 600 500 400 0 5 10 15 20 Forme caractéristique en cône de l’amplitude de la saisonnalité avec le temps 64 Modèle attendu : Yt = Dt . St .Et Décomposition multiplicative • Approche graphique : le mouvement saisonnier doit être en cône ! • Procédure statistique : - recherche de la tendance avec des moyennes mobiles - recherche de saisonnalité (neutralisation de la tendance) Yij Yt St = ou S ij = Dt Dij avec → 1 n yij Si = ∑ et n j =1 Dij Coefficients : périodique moyen du mois i et Si S = S ' i 1 p S = ∑ Si p i =1 périodique moyen centré 65 Interprétation ou autre présentation de Yt = Dt . St .Et Si il n’y a pas de mouvement saisonnier, alors l’espérance Y / D = 1 Le modèle peut donc s’écrire : Yt = Dt . ( 1 + st ) . Et et les résidus deviennent Et = Yt / Dt . ( 1 + st ) Leur espérance est égale à 1 d’où une notation Et = ( 1 + εt ) Autre forme du modèle général Yt = Dt . ( 1 + st ) . ( 1 + εt ) 66 Section B : Interprétation et discussion sur les séries Quelle Moyenne Mobile choisir ? Historique ou centrée ? Objectif : atténuer les variations MMH ou MMC ? - Pour les cours boursiers, on privilégie les MMH pour disposer d’une comparaison en t entre valeur brute et valeur lissée - En gestion, on préfère les MMC, car elles expliquent mieux le comportement des séries mais on ne dispose plus de l’information véhiculée par les dernières observations MMC : Courte ou Longue ? MMC( c ) ou MMC ( l ) ? - l’accroissement de longueur contribue à favoriser la compensation entre les variations (saisonnières et/ou accidentelles) MMC de longueur paire ou impaire ? - si longueur impaire : MMC( L =2k+1 ) = [ Yt-k+ … + Yt + … +Yt+k ] / L - si longueur paire : MMC( L =2k ) = [ (Yt-k/2 +Yt-k+1 + … + Yt+k-1 + Yt+k/2 ] / L Remarque : dans les deux cas, le nombre de variables impliquées est impair 67 Option pour l’approximation de la Tendance COMPARAISON Données brutes et MMC ( L=12) 6000 5500 5000 4500 4000 3500 3000 2500 2000 1500 1000 Valeur MMC(12) Linéaire (Valeur ) 1 10 19 28 37 46 55 64 73 82 91 100 109 118 127 Les Moyennes Mobiles Centrées captent mieux la direction générale de la série 68 Impact du choix de la longueur de la MMC(L) COMPARAISON des MMC de longueur 3, 6 et 12 6000 5500 5000 4500 4000 MMC(12) 3500 MMC(3) 3000 MMC(6) 2500 2000 1 9 17 25 33 41 49 57 65 73 81 89 97 105 113 121 129 La longueur de la MMC doit correspondre à la période (p) pour atténuer la composante accidentelle 69 Impact du choix de la longueur de la MMC(L) COMPARAISON des MMC de longueur 12, 24, 36 et 60 4900 4700 4500 4300 4100 3900 3700 3500 3300 3100 2900 MMC(12) MMC(24) MMC(36) MMC(60) 1 9 17 25 33 41 49 57 65 73 81 89 97 105 113 121 129 Pour une longueur multiple de la période ( L =k.p ), le lissage est de plus en plus important Mais attention, la perte d’informations peut devenir un réel problème en cas de prévision 70 En conclusion Objectif : décrire au mieux le comportement de la série Pour la tendance : - si linéaire, alors régression simple du type Y = a.t + b - si non linéaire, alors MMC (ou MMH en finance) Pour la saisonnalité : - identifier la longueur de la période ( p ) pour les MMC - faire le choix d’une saisonnalité additive ou multiplicative Pour les résidus : - regarder leur distributions dans le temps et dans l’espace (Variance) - identifier des comportements d’auto-corrélation des résidus Il est aussi possible de combiner les modèles additif et multiplicatif 71 Conclusion : vers un processus prévisionnel ? Prévision par QUI et pour QUI ? Responsable Production : ⇒ surestime le marché ( pas de rupture en cas de demande imprévue ) Responsable Commercial : ⇒ sous-estime le marché ( encaisser les primes liées au dépassement des objectifs) Prévision POURQUOI ? Prise de décision liée aux comportements anormaux Contrôle (analyse des écarts et validation d’un environnement ) Prévision : COMMENT ? Paramétrage du logiciel (extrapolation ou explication ) Remise en cause du modèle 72