Modéle statistique La régression linéaire La régression linéaire Formation Fondamentale Modéle statistique Sommaire 1 Modéle statistique Généralités Relation statistique 2 La régression linéaire les hypothèses Démarche Propriétés Qualité Tests La régression linéaire Modéle statistique Sommaire 1 Modéle statistique Généralités Relation statistique 2 La régression linéaire les hypothèses Démarche Propriétés Qualité Tests La régression linéaire Modéle statistique La régression linéaire Modélisation Variable à expliquer Y Variable explicatives X1 , X2 , . . . ., Xp On suppose que les variations de Y sont inuencées par les variables explicatives Le modèle permet d'exprimer sous la forme d 'une relation mathématique la liaison supposée La connaissance de ces variables permettent à l 'aide du modèle de prédire Y Estimer les valeurs de Y ponctuellement et par intervalle Le modèle permet de mesurer l 'impact ou l 'eet d 'une variable explicative sur Y Modéle statistique La régression linéaire Exemples Ecacité des budgets publicitaires Y : ventes en valeurs X1 : budget radio X2 : budget journaux X3 : budget gratuits Forfaits de ski Population : stations de ski françaises Y : prix du forfait hebdomadaire X : Kms de pistes Consommation des ménages Population : ménages Y : Budget consacré à la consommation du ménage X1 : Revenu du foyer X2 : Taille du foyer Modéle statistique La régression linéaire Relation déterministe - statistique Relation déterministe Une seule valeur de Y pour une valeur de X Relation Statistique Plusieurs valeurs de Y pour une valeur de X Pas de fonction mathématique pour exprimer la relation Probabiliser Y pour une valeur xée de X Modéle statistique La régression linéaire Relation statistique A chaque valeur x de X correspond une distribution de Y Loi de Y conditionnée par X = x : Yx Espérance (moyenne) conditionnelle de Y : µx La loi centrée conditionnelle εx = Yx − µx La fonction x 7−→ f (x ) = µx est la courbe de régression εx est l'erreur de régression (E (εx ) = 0) On écrira (abusivement) Y = f (X ) + εX Modéle statistique Sommaire 1 Modéle statistique Généralités Relation statistique 2 La régression linéaire les hypothèses Démarche Propriétés Qualité Tests La régression linéaire Modéle statistique La régression linéaire La régression linéaire La fonction f est une fonction linéaire des variables explicatives : Régression simple : une seule variable explicative X Y = β0 + β1 X + εX Pour toute valeur x de X : Yx = β0 + β1 x + εx Régression multiple : plusieurs variables explicatives Y = β0 + β1 X1 + β2 X2 + · · · + β Xp + εX Pour toutes valeurs x1 de X1 , x2 de X2 , · · · , xp de Xp : Yx1 ,x2, ···x = β0 + β1 x1 + β2 x2 + · · · + βp Xp + εx p Hypothèses de la régression linéaire Les variables aléatoires εx sont toutes de même loi εx de loi normale de moyenne 0 et d'écart-type σ indépendant de x Modéle statistique La régression linéaire La démarche de la régression A partir d'un échantillon de valeurs pour la variable à expliquer Y et les variables explicatives Xi 1 Vérier la possibilité d'une liaison linéaire entre Y et chacune des variables Xi 1 2 2 Estimation des paramètres 1 2 3 représentation graphique coecient de corrélation coecients βi (bi ) de l'écart-type σ (écart-type de la régression) Validation du modèle 1 2 3 4 indice de qualité R 2 validité globale F de Fisher validité marginale t de student étude des résidus, détection des points atypiques Modéle statistique Liaison entre variables La régression linéaire Modéle statistique La régression linéaire Estimation Estimation des coecients - Méthode des moindres carrés (yi , x1,i , x2,i , · · · , xi ,p ) µx = β0 + β1 xi ,1 + β2 x2,i + · · · + βp xp,i ei = yi − µx i i Les valeurs estimées (b0 , b1 , b2 , · · · , bp ) des coecients minimisent n h = ∑ ei2 i =1 Notation valeur observée : yi valeur prédite : valeur estimée de µx = ŷi = b0 + b1 x1,i + b2 x2,i + · · · + bp xp,i i valeur résiduelle : résidu : êi = yi − ŷi Modéle statistique La régression linéaire Décomposition des carrés La somme des résidus est nulle Valeurs observées et valeurs prédites ont la même moyenne n ∑ êi = 0 i =1 y = ŷ n SCT = ∑ (yi − y )2 La somme des carrés totale = la somme des carrés modélisée (de la régression) + la somme des carrés résiduelle i =1 n SCE = ∑ (ŷi − y )2 i =1 n SCR = ∑ êi2 i =1 SCT = SCE + SCR Modéle statistique Exemple de la décomposition La régression linéaire Modéle statistique La régression linéaire Indices de qualité Coecient de détermination R 2 Coecient de corrélation multiple Corrélation entre les valeurs observées et modélisées SCE R 2 = SCT 0 ≤ R2 ≤ 1 √ R = R2 R 2 augmente avec le nombre de variables explicatives (= 1 si p = n − 1) Si R 2 = 0 absence de liaison linéaire Modéle statistique La régression linéaire Ecart-type des résidus Estimation de la variance des résidus L 'écart-type des résidus évalue la dispersion des résidus autour de 0 évalue la dispersion des valeurs de Y autour de la moyenne précision des prédictions s est appélée "Erreur standard de l'estimation" σ 2 = Var (ε) s 2 =√n−SCR p−1 s = s2 Modéle statistique La régression linéaire Test global Objectif : déterminer si au moins une des variables choisies est signicativement explicative (linéairement). On pose le test H0 H1 : β1 = 0, β2 = 0, · · · , βp = 0 : ∃i ∈ [1 ; p ] βi 6= 0 On se xe un risque de première espèce α Statistique associée au test : Carré moyen expliqué / Carré moyen résiduel fc = SCE /p SCR / (n − p − 1) Signicativité sig = probabilité d'observer un telle valeur sous H0 . Si sig < α on rejette H0 Modéle statistique Test Global - Exemple La régression linéaire Modéle statistique La régression linéaire Tests partiels Objectif : évaluer l'apport marginal de chacune des variables à la régression Test associé à la variable k H0 H1 : βk = 0, les autres variables étant dans la régression : βk = 6 0 On se xe un risque de première espèce α On calcule le tk associé à la variable Xk tk = bk s (Bk ) où s (Bk ) désigne l'écart-type estimé de l'estimateur du coecient βk Si la signicativité de tk est inférieur à α , on rejette H0 sinon cette variable peut être otée de la régression textitAttention : une seule variable à la fois Modéle statistique Test partiel - Exemple La régression linéaire