Série chronologique et prévisions Introduction : Objectifs : - Maniement simple de quelques techniques statistiques (statistiques descriptives, indices, séries chronologique, moindres carrés ordinaires). Chapitre 1 : Statistiques descriptives On distingue deux types de statistiques résumées : - Les statistiques qui résument la tendance « centrale » d’une série (mode, moyenne et médiane) et les statistiques qui résument la dispersion d’une série o Sans référence à aucune statistique de tendance centrale (intervalle, interquartile ou inter décile) o Qui fait référence à la tendance centrale (variance, écart-type et coefficient de variation) Il existe aussi des statistiques qui résument la « forme » d’une distribution, mais celles-ci ne sont plus trop utilisées aujourd’hui dans la mesure où il est plus facile d’observer directement la graphique d’une distribution pour en apprécier la forme. I. Les statistiques de tendance centrale 1) Le mode Le mode d’une série est la valeur la plus fréquente d’une série. Exemple : soit la série {8, 4, 4, 3, 4, 3, 8, 7, 5} La valeur la plus fréquence de cette série est 4. Le mode est donc égal à 4. L’effectif associé à ce mode est 3. Quelques remarques à propos du mode a) Une série peut avoir plusieurs modes S = {4, 0, 1, 1, 7, 7, 7, 3, 3, 4, 7, 3, 4, 5, 7, 1, 3, 3, 4, 5}, cette série a 2 modes, elle est bimodale. Ses deux modes sont 7 et 3. L’effectif associé à chacun de ces modes est 5. Il existe également des séries multimodales. 1 b) Le mode n’existe pas forcément. C’est le cas lorsque toutes les valeurs ont le même objectif. Exemple : S = {4, 0, 1, 2, 5, 6} c) Le mode n’est pas la valeur la plus élevée. Il ne faut pas confondre le mode, qui est la valeur la plus fréquente, avec la valeur la plus élevée de la série. d) Les caractères quantitatifs et qualitatifs peuvent avoir un mode. Le mode existe aussi bien dans le cas d’une série de valeurs que dans le cas d’une série de modalités : La série {A, C, C, D, A, A, C, E, E, B, C} a la modalité C pour mode car c’est la modalité C qui revient le plus souvent. 2) la moyenne arithmétique Soit un échantillon de n valeurs observées x1, x7,…, xi,…, xn d’un caractère quantitatif X, on définit sa moyenne observée comme la moyenne arithmétique des n valeurs : 1 n x xi n i 1 Exemple avec S = {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4, 5} Une des propriétés de la moyenne arithmétique est que la somme des écarts à la moyenne est nulle : (xi − x ) = 0 n i 1 Si les données observées xi sont regroupées en k classes d’effectifs ni (variable continue regroupée ou variable discrète), il faut les pondérer par les effectifs correspondants : x 1 k ni xi n i 1 Avec k n ni i 1 2 Exemple précédent regroupé : Remarque : la moyenne obtenue après regroupement des données en classe peut différer légèrement en raison d’une perte d’information. Exemple : Supposons que les données précédentes soient regroupées en classe de la faço, suivante : Pour calculer la moyenne, nous devons déterminer les centres de classe et appliquer la 1 k formule x ni xi où les xi sont les centres de la classe (nommés Ci) : n i 1 La différence ici est de 0,5 et cette différence dépend de la définition des classes : amplitude et nombres de classes. Décomposition de moyenne : Soit une population totale de n individus, composée de k groupes. Les groupes sont désignés par des lettres. La population totale est égale à la somme des populations des groupes : Notons la moyenne de la variable X du groupe m : 3 La moyenne globale se calcule ainsi : Ou encore La formule s’écrit en définitive : Exemple : A 12 15 14 13 B 9 11 8 15 5 C 10 12 D 5 12 15 16 18 9 moyenne de chaque groupe effectif de chaque groupe coefficient de pondération moyenne x coefficient 13,5 4 0,23529412 3,17647059 9,6 5 0,29411765 2,82352941 4 11 2 0,11764706 1,29411765 13,2 6 0,35294118 4,65882353 17 1 11,9529412 Les effets de structure : les moyennes de chaque classe possèdent des pondérations très différentes : Deux autres moyennes : Moyenne géométrique : Avec les notations précédentes : G n x1n1 ... xn p est la moyenne géométrique de la série statistique. n Exemple : L’essence a augmenté de 10%, l’an dernier et de 30% cette année. Quelle est le taux d’augmentation annuelle ? Ce n’est pas 20% ! la moyenne arithmétique ne convient pas. Si t est ce taux, on a bien sût : 1 t 1,11,3 Et donc t = 0,196 = 19, 6% La bonne moyenne est ici la moyenne géométrique. Moyenne harmonique : Toujours avec les notations précédentes : H n est la moyenne harmonique de la série statistique. ni / xi i Exemple : Si je fais un trajet aller-retour avec une vitesse v1 à l’aller et une vitesse v2 au retour, quelle est ma vitesse moyenne sur l’ensemble du trajet ? 5 La réponse n’est pas Mais 2 1 1 v1 v2 v1 v2 2 qui est la moyenne harmonique de v1 et v2 3) La médiane Définition : Si F désigne la fonction des fréquences cumulées, la médiane d’une série statistique sera la plus petite valeur x telle que F(x) ≥ 0,5. Autrement dit, la médiane est la valeur du caractère pour laquelle la fréquence cumulée est égale à 0,5 ou 50%. Interprétation : elle correspond donc au centre de la série statistique classée par ordre croissant, ou à la valeur pour laquelle 50% des valeurs observées sont supérieures et 50% sont inférieures. Avantage : Contrairement à la moyenne, la médiane n’est pas sensible aux valeurs extrêmes. - Dans une entreprise où les 10 salariés gagnent chacun 1500 € par mois et le patron 7000€ par mois, le salaire médian mensuel est de 1500€. La médiane a une signification concrète. Détermination pratique : caractère discret - - Si l’effectif total n est impair, c'est-à-dire n = 2k + 1, la médiane sera le K+1ème terme de la série. La médiane est la valeur du milieu. Exemple : 17, 15, 18. N =3, k = (n – 1)/2 = (3 – 1)/2 = 1 : K+1ème terme est donc le deuxième => M = 15. Si n est pair, c'est-à-dire, n = 2k, la médiane sera le kème terme de la série. Exemple : 17, 15, 16, 18 => M = 15. Mais si n est pair, une médiane est aussi une valeur quelconque entre le k ème et k+1ème terme de la série (M entre 15 et 16). Dans ce cas il peut être commode de prendre le milieu (15,5). 6 On peut déterminer la médiane graphiquement : médiane : détermination graphique 100 90 80 70 60 50 40 30 20 10 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Détermination de la médiane : caractère continu On commence par déterminer la classe médiane c'est-à-dire la première classe où la fréquence cumulée dépasse 0,5. Ensuite, on calcule la médiane par interpolation linéaire. Interpolation linéaire (théorème de Thales) ABC est un triangle. M se trouve sur le segment [AB] et N sur le segment [AC]. D’après le théorème de Thalès, si les droites (BC) et (MN) sont parallèles, alors on a l’égalité : 7 Le théorème de Thalès permet de calculer des longueurs. Pour calculer une longueur dans la configuration représentée ci-dessus, il suffit de connaître trois des longueurs figurant dans deux des rapports. x j xi Mé xi 0.5 F ( xi ) F ( x j ) F ( xi ) Dans le cas de valeurs groupées, on pose l’hypothèse selon laquelle les valeurs sont uniformément réparties à l’intérieur de chaque classe. Classes Effectif Fréquences cumulées croissantes Moins de 25 ans 18 0,06 25≤X <30 54 0,24 30≤X < 35 72 0,48 35≤X <40 84 0,76 40≤X < 45 36 0,88 8 45≤X < 50 22 0,95 50 ans et plus 14 1 Mé 35 40 35 0.5 0,48 0,76 0,48 = 35,36 Exercice : Interpolation linéaire Après une séance d’échauffement, un coureur automobile procède à des essais d’accélération, départ arrêté, sur la ligne droite d’un circuit. Le tableau, ci-dessous donne quelques mesures de la vitesse atteinte en fonction du temps écoulé depuis le départ. Temps en s Vitesse en km/h 1) 2) a. 0 10 20 30 40 0 120 170 206 220 Représenter « le nuage de points » défini par le tableau. Estimation par interpolation linéaire : La vitesse atteinte au bout de 15s ? x 120 170 120 50 x 5 120 145 15 10 20 10 10 b. Le temps qu’il a fallu pour atteindre 150km/h. 150 120 170 120 50 30 50 30 x 10 x ( ) 16 x 10 20 10 5 10 Résumé des caractéristiques des indicateurs Moyenne arithmétique Médiane Avantages Facile à calculer, répond au principe des moindres carrés Inconvénients Sensible aux points aberrants, représente mal une population hétérogène (bi ou polymodale) Pas sensible aux points a et Se prête mal aux calculs b, peu sensible aux variations statistiques, suppose l’équid’amplitude des classes, répartition des données. Ne calculable sur des caractères représente que la valeur qui cycliques (saison, etc) où la sépare l’échantillon en 2 moyenne a peu de parties égales. 9 signification Calculable sur des caractères cycliques. Bon indicateur de population hétérogène Mode II. Se prête mal aux calculs statistiques, son calcul ne tient compte que des individus dont les valeur se rapprochent de la classe modale. Les indicateurs de dispersion Deux séries statistiques peuvent avoir les mêmes paramètres de tendance centrale mais pas la même « dispersion ». Exemple : - Notes de Ruby : 7, 8, 11, 12, 13, 13 et 13 (moyenne : 11) Notes de Iris : 4, 7, 9, 12, 13, 13 et 19 (moyenne : 11) Il est donc nécessaire d’adjoindre à un paramètre de tendance centrale (moment 1), un ou des paramètres de dispersion (moment 2). Ces paramètres ont pour objectif dans le cas d’un caractère quantitatif de caractériser la variabilité des données dans l’échantillon. Les indicateurs de dispersion fondamentaux sont la variance observée et l’écart-type observé. - Quelques indicateurs de dispersion : 1) L’étendue L’étendue d’une série statistique est la différence entre la plus grande valeur de la série et la plus petite. Remarque : - Très simple à calculer et à interpréter Par nature très sensible aux valeurs extrêmes 2) L’écart interquartile : Q3 – Q1 Si F désigne la fonction des fréquences cumulées, le premier (resp. troisième) quartile d’une série statistiques sera la plus petite valeur x telle que F(x) ≥ 0,25 (resp. 0,75). On le note (resp. ). Q1 et Q3 se calculent comme la médiane. Q1 est la valeur qui coupe la distribution en deux : 25% en dessous et 75% au dessus. Q3 75% et Q1 25%. L’écart interquartile contient au moins 50% des valeurs de la série. L’écart interquartile mesure la dispersion sans tenir compte des valeurs extrêmes. 10 Après les quartiles, on peut définir de la même façon les déciles (voire les centiles) d’une série statistique. Il s’agit de regarder les valeurs de la série correspondant à des fréquence cumulées de 0, 1 ; 0, 2 ;… ; 0,9. Pour visualiser la dispersion d’une série statistique, on peut alors représenter une « Box plot » (« boîte à moustache »). L’écart absolu moyen 3) Moyenne des valeurs absolues des écarts de la moyenne : e 1 ni xi x n i Intérêts : Paramètres simples à calculer, prenant en compte l’ensemble des données. Très facile d’interprétation - Inconvénients : - Mauvaises propriétés calculatoires (non linéaire) Peu utilisés par les logiciels de statistiques 4) Variance et écart-type On définit la variance comme la moyenne arithmétique des carrés des écarts à la moyenne. Vx 1 xi x n i Vx 2 2 1 xi 2 x x 2 x n i 2 Dans le cas de données regroupées en k classes d’effectif ni (variable continue regroupée en classes ou variable discrète), la formule de la variance est la suivante : Vx 1 ni xi x n i 2 L’écart type observé correspond à la racine carrée de la variance observée : s s2 11 Remarque : de part sa définition, la variance est toujours un nombre positif. Sa dimension est le carré de celle de la variance. Il est toutefois difficile d’utiliser la variance comme mesure de dispersion car le recours au carré conduit à un changement d’unités. Elle n’a donc pas de sens direct contrairement à l’écart-type qui s’exprime dans les mêmes unités que la moyenne. 5) Le coefficient de variation La variance et l’écart-type observée sont des paramètres de dispersion absolue qui mesurent la variation absolue des données indépendamment de l’ordre de grandeur des données. Le coefficient de variation noté C.V. est un indice de dispersion relatif prenant en compte ce biais et est égal à : C .V _ x Exprimé en pour cent, il est indépendant du choix des unités de mesure permettant la comparaison des distributions de fréquence d’unité différente. Exercice 1 : la présence des clients dans un magasin Classes [15,5;20,5[ [20,5;25,5[ [25,5;30,5[ [30,5;35,5[ [35,5;40,5[ 1) effecctif 200 500 1000 600 200 2500 Calculer la moyenne et la médiane On calcule le centre de chaque classe ci (i = 1,…5) Classes [15,5;20,5[ [20,5;25,5[ [25,5;30,5[ [30,5;35,5[ [35,5;40,5[ effecctif 200 500 1000 600 200 2500 ci 18 23 28 33 38 12 Effectif*ci 3600 11500 28000 19800 7600 70500 x 1 1 70500 ni ci (200 18 500 23 1000 28 600 33 200 38) 28.2 min n i 2500 2500 Calculer la variance et l’écart-type 2) On calcule les fréquences et les fréquences cumulées et on détermine la classe médiane (25,5 ; 30,5). On fait une interpolation linéaire : Classes [15,5 ; 20,5[ [20,5 ; 25,5[ [25,5 ; 30,5[ [30,5 ; 35,5[ [35,5 ; 40, 5[ Effectif 200 500 1000 600 200 2500 Fréquences 0,08 0,2 0,4 0,24 0,08 1 Fréquences cumulées 0,08 0,28 0,68 0,92 1 Mé 25.5 30.5 25.5 Mé 28.25 min 0.5 0.28 0.68 0.28 Exercice 2 : Variation du CAC 40 au cours d’une semaine (en points). Il y a 8 observations journalières. Evolution du CAC 40 (X) Effectif 1) 2) -20 -10 0 10 20 30 7 9 10 6 5 3 Calculer la moyenne, la variance et l’écart-type Sur le nouveau marché, la même semaine on observait une moyenne de 0,8 et un écart-type de 26,05. Est-il préférable d’investir sur le nouveau marché ? certains analystes se fient au coefficient de variation. Le calculer pour les 2 marchés. Est-il un bon estimateur du risque ? Correction : = 0,5 V(x) = 224, 75 σ (x) = 14,99 CV = 30 13 Chapitre 2 : Les indices I. Définition et propriétés En sciences sociale, les grandeurs varient dans l’espace et dans le temps : Dans le temps, puisqu’elles prennent des valeurs différentes à différentes dates Dans l’espace, puisqu’elles prennent des valeurs différentes d’une région à l’autre - Ce n’est pas toujours facile de pouvoir comparer des grandeurs. Ex : X 53 492 64190 1,20 2000 2005 Y 128 154 1,20 Pour faciliter la comparaison, on a recours à la notion d’indice. Définition : un indice, c’est un rapport positif ou nul Il existe des indices synthétiques, qui sont des rapports obtenus avec des grandeurs complexes (composés de plusieurs indices simples). Exemple : l’indice des prix est un indice qui résume l’évolution des prix de grandeurs hétérogènes (prix du chocolat et prix d’un vidéoprojecteur). La difficulté est l’agrégation de ces grandeurs si différentes. II. Les indices simples Notons la date t=0 : date de base (situation de base) et la date t : date ou période courante. Soit deux valeurs Vo (valeur de départ) et Vt (valeur d’arrivée), on appelle : - L’indice simple ou élémentaire : It / 0 Vt V0 - Indice simple base 100 : It / 0 Vt 100 V0 Exemple : évolution d’un prix entre 2 000 et 2 005 (base 100 en 2000) I 2005/ 2000 Pr ix 2005 100 Pr ix 2000 14 Rapport d’un prix entre la région parisienne (RP) et la France entière (FR) (base 100 pour l’ensemble de la France) Pr ix RP 100 Pr ix FR I RP / FR Décomposition d’indices III. I 2 /1 V2 100 V1 I 2 /1 I2/0 100 I1 / 0 I 2005/ 2002 I 2005/ 2000 100 I 2002/ 2000 1) Propriétés des indices élémentaires La circularité entre t=1 et t=2 I 2 / 0 I 2 / 1 I1 / 0 En généralisant : I t / 0 I t / t ' I t '/ 0 1 100 1 100 On se ramène à l’expression précédente : It /t' It / 0 100 I t '/ 0 Pour comparer deux grandeurs simples, il suffit de faire le rapport de leurs indices. I I I I Généralisation : I t / 0 100 1/ 0 2 /1 3 / 2 ... t / t 1 100 100 100 100 La réversibilité : quand on inverse le rôle de la base et de la période courante, l’indice élémentaire s’inverse à près. I t / 0 I 0 / t 10 4 Propriété secondaire :; produits d’indices Si a = bc 15 I t / 0 a I t / 0 b I t / 0 c 1 100 Exemple : RT = PxQ (indice des prix et indice des quantités = indice de la recette totale) 3) Les indices synthétiques Un indice synthétique résume une série d’indices élémentaires. Les indices synthétiques les plus utilisés Valeur = Prix x Quantité L’indice de la valeur s’écrit : pq pq p q i i t t It / 0 i i i 0 0 100 i Le problème de cet indice, c’est qu’on ne peut attribuer la cause de l’évolution : ce peut être toute combinaison des prix ou des quantités. Il faut ainsi éliminer l’influence des prix pour calculer un indice des quantités et éliminer l’influence des quantités pour calculer un indice des prix. Par exemple pour un indice simple des prix d’un bien : pti q0i 100 p0i q0i I t / 0 pq Indice synthétique des prix : pq p p q i i t 0 It / 0 i i i 0 0 100 i Indice synthétique des quantités : p q q p q i i 0 t It / 0 i i i 0 0 100 i 16 Exemple de calculs d’indices synthétiques (de prix et de quantités) avec trois biens : prix B1 B2 B3 0 2 0,07 0,14 10 20 35 50 quantités dates 0 2 B1 B2 B3 30 20 0,5 0,4 0,15 0,11 dates Calculer l’indice d’évolution de la 1) valeur de B1 = = indice total Calculer l’indice synthétique des prix Calculer l’indice synthétique des 2) 3) quantités Exemple de la propriété de circularité : trouver IND2007/2006 : I t / 0 I t / t ' I t '/ 0 Prix de X 150€ 210€ 230€ 1 100 ou It /t' Dates 2005 2006 2007 17 It / 0 100 I t '/ 0 Indices 100 140 153,3 Chapitre 3 : Le modèle Linéaire Simple (La méthode des moindres carrés ordinaires) I. Présentation du modèle 1) Définition La régression est l’outil le plus utilisé pour estimer une équation linéaire. La régression permet de décrire et d’évaluer la relation entre une variable dépendante et une (ou plusieurs) variable(s) indépendante(s). La variable dépendante est définie par y et la variable indépendante par x. - Dans le modèle de régression simple, k=1 - Dans le modèle de régression multiple, k>1 Quelques noms pour les variables y et x. Y => variable dépendante, variable à expliquer X = variable indépendante, variable de contrôle, variable explicative (régresseur). Dans une régression, la variable y et la ou les variables x sont traitées de manière asymétrique. - La variable y est supposée être aléatoire ou « stochastique ». Elle possède une distribution de probabilité. La ou les variables x sont supposée(s) avoir des valeurs fixes d’un échantillon à l’autre (elles ne sont pas aléatoires). Dans le modèle de régression simple, il n’y a qu’une seule variable x (k=1). Le modèle de régression linéaire simple peut être spécifié de la manière suivante : - Pour (t=1,…,n) o des données temporelles yt = a0 + a1xt + εt pour des données en coupe transversale (i=1,…N) o yi = a0 + a1xi + εi Le rôle de 𝜀 2) 18 La relation spécifiée entre y et x ne peut pas être déterministe. - Il nous est impossible de connaître le modèle « vrai » de régression pour y : E(y|x) = a0 + a1x. Il est (souvent) impossible (ou trop coûteux) d’observer la totalité de la population de Y et X. Comme le modèle spécifié ne sera jamais rigoureusement exact, un terme aléatoire 𝜀 (aussi appelé « terme d’erreur » est ajouté. - Ce terme est et restera inconnu. On ne pourra en obtenir qu’une estimation (e). Le terme aléatoire synthétise : 1) Une erreur de spécification : a. La variable explicative peut ne pas être suffisante pour rendre compte de la totalité du phénomène expliqué (le terme aléatoire synthétise l’ensemble des informations non explicitées dans le modèle). 2) Une erreur de mesure a. Les données ne représentent pas exactement le phénomène b. Il y a des données manquantes 3) Une erreur de fluctuation d’échantillonnage a. Les observations comprises dans l’échantillon, et donc les estimations, peuvent être différentes. 3) Conséquence du terme aléatoire : Comme les valeurs vraies de et ne sont pas connues, elles doivent être estimées. - On dérive les formules des estimateurs de et o , notés respectivement et . L’estimation de a est particulière que prend l’estimateur â pour un échantillon donné. Le modèle de régression linéaire estimé peut s’écrire : - y= et possèdent une distribution de probabilité : ( et suivent les mêmes lois de distribution que y et e. II. et + +e sont des constantes) Estimation paramètres 19 la valeur 1) La méthode des MCO (moindres carrés ordinaires) La méthode la plus souvent utilisée pour estimer les paramètres et est la méthode des Moindres Carrés Ordinaires (MCO/OLS) e8 y8 yˆ8 0 - Elle consiste à ajuster un nuage de points à l’aide d’une droite en minimisant la distance au carré entre chaque valeur observée et la droite. Cette distance mesure le résidu (l’erreur/la partie non expliquée) pour chaque observation - e5 y5 yˆ5 0 y x De manière analytique, il s’agit de minimiser la somme des Carrés des Résidus (SCR/RSS), c'est-à-dire : n Min a0 , a1 t 1 2 t or, ( yt a0 a1 xt ) 2 2 t n Posons L ( yt a0 a1 xt ) 2 t 1 Minimisons la fonction L, évaluée en â1 et â2, en dérivant par rapport à chacun des deux paramètres : 20 L(â0 , â1 ) 2 ( yt aˆ0 aˆ1 xt ) 0 (1) a0 t L(â0 , â1 ) 2 xt ( yt aˆ0 aˆ1 xt ) 0 (2) a1 t On obtient l’estimateur de a0 à partir de la première équation comme suit : (y t aˆ0 aˆ1 xt ) 0 t yt naˆ0 aˆ1 xt 0 t n y t t naˆ0 aˆ1n t x t t n n ny naˆ0 aˆ1nx 0 y aˆ0 aˆ1 x 0 0 aˆ0 y aˆ1 x L’estimateur de x (y t t est obtenu à partir de la seconde comme suit : aˆ0 aˆ1 xt ) 0 t En utilisant aˆ0 , on a : xt ( yt y aˆ1 x aˆ1 xt ) 0 x (y t t t y ) aˆ1 xt ( x xt ) 0 t aˆ1 A xt ( yt y ) x (x x) t t B On formule l’estimateur de a1 en terme de variance-covariance : A xt yt xt y nx y nx y xt yt xt y nx ( xt x )( yt y ) y xy ( x y n t t t xt y x yt x y ) B xt2 nx 2 xt2 2nx 2 nx 2 xt2 2nx (x 2 xt x x ) ( xt x ) 2 t 2 2 En remplaçant A et B par leur valeur, on obtient : 21 x t n nx 2 ( x x )( y y ) Cov( X , Y ) V (X ) (x x) t aˆ1 t t 2 t t Car divisant chaque terme par (n-1), on a : (x t x )( yt y ) t aˆ1 (n 1) ( xt x ) 2 ˆ y , x ˆ x2 t (n 1) Le coefficient de régression mesure l’impact d’une variation (c'est-à-dire l’effet propre/partiel) de la variable indépendante sur la variable dépendante. - â1=DY/DX (coefficient de régression de Y sur X) Régression ≠ corrélation 1. En matière de corrélation, les variables sont traitées de manière SYMETRIQUE (elles sont aléatoires). a. Le coefficient de corrélation, ρ, ne dépend pas de la manière dont sont traitées X et Y. i. Si y = a0 + a1x + e, ρY,X = ˆ x , y /(ˆ xˆ y ) ii. 2. Si x = a’0 + a’1y + e, ρX,Y = ˆ x , y /(ˆ xˆ y ) â1 le coefficient de régression de y sur x, n’est pas égal à ρ, le coefficient de corrélation entre y et x. ˆ y , x ˆ xˆ y ˆ y , x ˆ xˆ y y , xˆ xˆ y ˆ y aˆ1 ˆ x2 ˆ x2 ˆ x Vˆ ( xt ) 22 N ( x x )( y y ) i i 1 ˆ x, y xy ˆ xˆ y N i n 1 N N (x x) ( y y) 2 i i 1 ( x x )( y y ) i 1 n 1 i N N (x x) ( y y) 2 2 i i 1 i i 1 i i 1 2 i n 1 N ( x x )( y y ) ˆ ˆa1 xy2 ˆ x i i 1 n 1 N (x x) i 1 N i i 2 ( x x )( y y ) i i 1 i N (x x) i 1 2 i n 1 Analyse de la variance L’équation fondamentale de l’analyse de la variance est : 2 y y t yt yˆ t yˆ t y t t t SCT 2 SCR et2 2 SCE t SCT = Somme des Carrés Totaux = variabilité totale (SST = Total Sum of Squares) SCR = Somme des Carrés de Résidus = variabilité non expliquée (SSR = Residual Sum of Squares) SCE = Somme des Carrés Expliqués = variabilité expliquée (SSE = Explained Sum of Squares) 23 Plus la variabilité expliquée (SCE) est proche la variabilité totale (SCT), meilleur est l’ajustement du nuage de points par la droite des MCO. La variabilité de y autour de sa moyenne est bien expliquée par la variable explicative. Une mesure de la qualité d’ajustement est le coefficient détermination, R² (avec R = ρ, le coefficient de corrélation linéaire). R² = SCE/SCT R² = 1 – (SCR/SCT) Les cas limites où R² = 0 et R² = 1 yt yt y xt xt Calcul d’un « trend » par les MCD : Estimer l’équation yt = a0 + a1xt + εt avec les données suivantes. 24 Années 2005 trimestres 1 2 3 4 1 2 3 4 1 2 3 4 2006 2007 y 2 0,5 3,5 1 5 2 5 3,5 6,5 4 7,5 5 x 1 2 3 4 5 6 7 8 9 10 11 12 Exercice 2 : La relation prix/demande. Prix ventes en € X Quantités demandées Y 95 130 148 210 250 330 104 58 37 22 12 9 120 100 80 60 Série1 40 20 0 0 1) 2) 3) 4) 50 100 150 200 250 300 350 Passer en Log. On pose u = log(x) et v = log(y) Calculer le coefficient de corrélation linéaire Calculer les estimateurs de a et b en estimant V = aU + b + 𝜀 Calculer la quantité demandée pour un prix égal à 75€. 25 Exercice 3 : Corrélation et équation d’analyse de la variance : y 6 5 2 1 4 5 5 1) 2) 3) x 1,5 2,5 3,5 4,5 5,5 6,5 7,5 Calculer le coefficient de corrélation linéaire Calculer les estimateurs de a et b en estimant Y = aX + b + 𝜀 Calculer les variances expliquées et résiduelles 7 6 5 4 3 2 1 0 0 1 2 3 4 26 5 6 7 8