2/ Etude conjointe de deux variables Quantitatives : En présence de deux variables statistiques, on peut se demander s’il existe un lien linéaire entre ces deux variables ou si, ou contraire, l’une évolue indépendamment de l’autre. Lorsqu’une liaison existe entre deux variables, ce lien peut présenter différentes caractéristiques telles que son sens (proportionnel ou opposé), son importance (forte ou faible) ou sa forme (linéaire ou non linéaire). Le modèle de régression linéaire simple Comment expliquer à travers la statistique ? Expliquer existence d’un phénomène a expliquer (interpréter par une variable) et des éléments d’explications (un ou plusieurs) existence d’une relation de causalité entre les variables ; Il s’agit d’étudier la relation entre une variable dépendante particulière et une ou plusieurs variables indépendantes (d’où le qualificatif de régression simple ou multiple) Deux objectifs principaux La prédiction: développer une formule permettant de faire des prédictions à propos de la variable dépendante sur la base des valeurs observées parmi les variables indépendantes L’analyse causale: déterminer si telle ou telle variable indépendante affecte réellement la variable dépendante et si oui estimer la grandeur de cet effet Commençons par le cas le plus simple avec deux variables : Y une variable à expliquer par une variable X qui est l’explicative ; Prenons l’exemple de l’étude de marché de Danone : Une enquête consommation grand public a était réalisé par un institut de recherche marketing en Algérie en 2006 au profit de l’entreprise Danone, les objectifs de l’étude : Evaluer le potentiel marché et les besoins du consommateur en terme de valeur. Analyser la satisfaction des consommateurs des produits Danone. COURS STATISTIQUE DESCRIPTIVE : Pr Hassiba DJEMA / EHEC : Page 1 Afin de répondre au premier besoin (potentiel marché) nous analysons la relation existante entre le budget consacré à la consommation des produits laitiers (Y) et le revenu du foyer (X) : 9 000 consommation produit laitier Mensuel (Y) La premiere étape d’analyse consiste à tracer le nuage de point des deux variables X, Y ; en respectant le positionnement de la variable explicative (Revenu X) sur l’axe des abscisse et la variable à expliquer (Consommation produits laitier Y) sur l’axe des ordonnées. 8 000 A 7 000 6 000 5 000 4 000 B 3 000 2 000 1 000 0 0 20 000 0 20 000 40 000 60 000 Revenu Mensuel (X) 80 000 100 000 Nous observons que le nuage s’étale en un sens unique, pas de points positionnées sur les zones A ou B ; il marque clairement un relation entre les deux variables (une causalité) ; Y= b0+b1X Pour que cette courbe donne le meilleur ajustement possible, elle doit passer par le maximum de points possibles ou être proche le plus possible des points. 9 000 consommation produit laitier Mensuel (Y) Nous traçons une courbe d’ajustement de la distribution ; cette courbe à pour équation : 8 000 7 000 6 000 5 000 4 000 3 000 2 000 1 000 0 40 000 60 000 Revenu Mensuel (X) 80 000 100 000 On note, pour la même observation : yi la valeur observé empiriquement yˆ i la valeur obtenu par calcul à partir de l' équation COURS STATISTIQUE DESCRIPTIVE : Pr Hassiba DJEMA / EHEC : Page 2 Donc nous devons minimisé la somme des différence de yi yˆ i soit mathématiquement n min yi yˆ i 9 000 consommation produit laitier Mensuel (Y) i 1 Nous remarquons que certains points sont positionnés au dessous de la ligne d’ajustement alors que d’autre au dessous, de ce fait certaines distances vont avoir des signes positifs alors que d’autre des signes négatifs, ainsi les distances vont s’annulées entre eux ; 8 000 7 000 6 000 5 000 4 000 3 000 2 000 1 000 0 0 20 000 40 000 60 000 Revenu Mensuel (X) 80 000 100 000 Afin d’éviter ce problème nous pouvons pensé à deux solutions : 1. utilisé les valeurs absolue I 2. mettre au carrée les valeurs ² Sur le plan statistique, la deuxième solution est préférable ; ainsi l’équation devient : n min yi yˆi ² i 1 2. Quelques développements mathématiques simples: N Nous développons l’équation : N y i 1 i N 2 yˆi yi b0 b1 xi yi2 2b0 yi 2b1 yi xi b02 2b0b1 xi b12 xi2 2 i 1 i 1 COURS STATISTIQUE DESCRIPTIVE : Pr Hassiba DJEMA / EHEC : Page 3 Pour que cette équation atteint son minimum il faut que les dérivés du premier ordre s’annulent1 : n yi yˆ i 2 n (2 yi 2b0 2b1 xi ) i 1 b0 i 1 n yi yˆ i ………1 2 n (2 yi xi 2b0 xi 2b1 xi2 ) i 1 b1 i 1 ….2 A partir de la première équation nous pouvons déduire : n n n n n i 1 i 1 i 1 i 1 i 1 b0 yi b1 xi Nb0 yi b1 xi N En divisant par N les deux parties de l’équation, sachant que X x i 1 N i nous obtenons : b0 Y b1 X (résultat a retenir) En remplaçant ce résultat dans la deuxième équation nous trouvons : n n i 1 i 1 (2 yi xi 2b0 xi 2b1 xi2 ) 2 ( yi xi (Y b1 X ) xi 2b1 xi2 ) 0 N N N N b1 xi2 X xi yi xi Y xi i 1 i 1 i 1 i 1 N b1 D’où : y x NY ( X ) i i i 1 N x i 1 2 i NX 2 1 Nous admettons que la distribution de cette équation est convexe Nous dérivons par rapport à b0 et b1 (et non pas X, Y ..attention) car nous cherchons les valeurs de b0 et b1 qui permettent de minimiser cette équation COURS STATISTIQUE DESCRIPTIVE : Pr Hassiba DJEMA / EHEC : Page 4 N b1 y x NY ( X ) i i x 2 i i 1 N i 1 NX 2 N b1 y x i 1 i 2 NY ( X ) NY ( X ) i N x i 1 2 N X 2 NX 2 2 i N b1 N i 1 i i i 1 (y x i i 1 N i 1 i 1 (x (y i 1 i 2 i NY ( X ) N (x 1 N i N (y i 1 1 N 2 Xxi X 2 ) Y )( xi X ) i 1 b1 i y i X Y xi Y X ) i N N b1 i 1 xi2 2 X xi NX 2 i 1 b1 i N N b1 N y x y (X ) Y x i X )² Y )( xi X ) N (x i 1 i X )² cov X , Y (résultat a retenir) Var ( X ) Cette méthode d’ajustement de Y sur X s’appelle la régression linéaire. 3. Des définitions à retenir : L’équation Y= b0+b1X est appelé modèle de régression linéaire simple COURS STATISTIQUE DESCRIPTIVE : Pr Hassiba DJEMA / EHEC : Page 5 Linéaire : du fait que la relation que nous somme entrain d’expliquer entre Y et X est une relation linéaire, il existe d’autre type de relations qui seront détaillées dans la suite du cours. Simple : il explique Y par une seule variable X ; il existe d’autres modèles plus compliqués qui expliquent Y par plusieurs variables explicatives X, ils seront détaillés dans la suite du cours La méthode utilisée pour estimer les paramètres b0 et b1 est appelée : Moindre carrés ordinaire (MCO2) n Moindre carrés : elle minimise le carrée des distances min yi yˆi ² i 1 Ordinaire : sert à distinguer la méthode la plus simple des moindres carrés ; il existe d’autres méthodes plus compliquées d’estimation basées sur les moindres carrés elles seront revu dans la suite du cours 5. Le modèle de régression : Dans le développement mentionné précédemment, la fameuse valeur qui fait objet de minimisation yi yˆ i -pas de carré- s’appel erreur de prédiction, nous utilisons aussi l’expression de valeurs résiduelles ou tous simplement résidu3 ; cette valeur représente la différence entre les valeurs obtenues à partir de la courbe d’ajustement (b0+b1X) et les valeurs réelles observées, le résidu est noté i Ainsi l’équation Y= b0+b1X est appelé courbe d’ajustement ; et l’équation Y= b0+b1X+ i est appelé modèle de régression 5.1 Propriétés statistiques des résidus ‘ prendre en considération uniquement la premiere: 1. les i sont de moyenne nulle ne sont pas des réalisations indépendantes d’une variable aléatoire. 2 3 En Anglais OLS : Ordinary least Square; certains auteurs mentionnent OLSE Ordinary Least Square Estimator Dans le jargon économétrique on utilise les appellations : ‘‘perturbation aléatoire’’ ou ‘‘alea’’ COURS STATISTIQUE DESCRIPTIVE : Pr Hassiba DJEMA / EHEC : Page 6 2. la variance empirique des résidus est appelée variance résiduelle. 2 ( i ) 1 N 2 1 N 1 N i 2 i2 0 i2 N i 1 N i 1 N i 1 cette valeur 3. dans les modélisations économétriques nous admettons que les i suivant une distribution normale 0; La covariance : c’est un indicateur statistique qui permet de mesurer le lien linéaire entre deux variables quantitatives. Sa formule de calcule est la suivante : Cov (x, y)= 1/n ∑(Xi- ) (Yi-Y) 5.2 Relation avec le coefficient de corrélation : Soit : cov X , Y ( X ) (Y ) cov X , Y Var ( X )Var (Y ) le cœfficient de corrélation entre X et Y b1 Nous rappelons le résultat trouvé : D’où : b1 4 cov X , Y Var ( X ) cov X , Y cov X , Y cov X , Y (Y ) (Y ) (résultat _ a _ retenir ) 2 Var ( X ) (X ) ( X ) ( X ) (Y ) (X ) 4 Le coefficient de corrélation quantifier la liaison entre X et Y de manière a mettre en évidence : le « sens » de la liaison, et la « force » de la liaison COURS STATISTIQUE DESCRIPTIVE : Pr Hassiba DJEMA / EHEC : Page 7 COURS STATISTIQUE DESCRIPTIVE : Pr Hassiba DJEMA / EHEC : Page 8