Modèle de la régression linéaire multiple Présenté par: MRHILI Nisrine Encadré par: Pr. BELMAATI Aziza Index 1. Page de garde 2. Définition 3. Modélisation 4. Les hypothèses 5. La méthode des moindres carrées 6. Exemple C’est quoi la régression linéaire multiple? Le modèle de régression linéaire multiple est l’outil statistique le plus habituellement mis en œuvre pour l’étude de données multidimensionnelles. Cas particulier de modèle linéaire, il constitue la généralisation naturelle de la régression simple. Modélisation de la régression linéaire multiple Estimer les paramètres du modèle yi = b0 + b1xi1 + b2xi2 + · · · + bpxip + εi , i = 1, · · · , n La forme matricielle de l’équation précédente: Les hypothèses de la régression linéaire multiple les hypothèses permettent de déterminer : les propriétés des estimateurs (biais, convergence) ; et leurs lois de distributions (pour les estimations par intervalle et les tests d'hypothèses). 1 Hypothèses stochastiques 2 Hypothèses structurelles La méthode des moindres carrés ordinaires La méthode des moindres carrés consiste à estimer les paramètres b0 ,b1,· · · ,bp du modèle de régression et ce de manière optimale. On déduit de la minimisation de la somme des carrés des erreurs (aléas). min Σ ε2 = min ε′ε S(β) = (Y − Xβ)′(Y − Xβ) = Y ′Y − β′X ′Y − Y ′Xβ + β′X ′Xβ. Propriétés des estimateurs L’estimateur MCO est sans biais c-à-d E=a sous les hypothèses Il est le meilleur estimateur linéaire sans biais According to BLUE Exemple sur la régression linéaire multiple Etudiant la pollution atmosphérique de 20 villes de MAROC par: pol : teneur annuelle moyenne de l'air en SO2 en mg/m3 tem : Température annuelle moyenne en degrés Fahrenheits usi : Nombre d'entreprises de plus de 20 personnes pop : Population en milliers d'habitants (1970) L’équation de la régression est: E(POL|usi,tem,pop)= b0 + b1usi + b2tem+ b3pop Y=La pollution de la ville X1 =Le nombre d’entreprises X2=La température annuelle moyenne X3=La population en milliers d’habitants Le diagramme de dispersion de toutes les paires de ces variables: Estimation des paramètres > mod1 <-lm(pol∼usi+tem+pop,data=smp) > Mod1 Call: lm(formula = pol ~ usi + tem + pop, data = smp) Coefficients: (Intercept) usi tem pop 43.95341 0.05047 -0.44852 -0.02396 > summary(mod1) Tests sur les paramètres >summary(mod1) Call: lm(formula = pol ~ usi + tem + pop, data = smp) Residuals: Min 1Q Median 3Q Max -14.2023 -7.0889 -0.8229 6.8931 17.8584 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 43.95341 19.50516 2.253 0.03861 * usi 0.05047 0.01563 3.229 0.00524 ** tem -0.44852 0.33546 -1.337 0.19991 pop -0.02396 0.01524 -1.572 0.13543 --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 10.9 on 16 degrees of freedom Multiple R-squared: 0.8193, Adjusted R-squared: 0.7854 F-statistic: 24.18 on 3 and 16 DF, p-value: 3.478e-06 Les coefficients:: b1 =0,05047 b2=-0,44852 b3=-0,02396 Tableau d’analyse de la variance > lmsmp=lm(pol~pop+usi+tem) > anova(lmsmp) Analysis of Variance Table Response: pol Df Sum Sq Mean Sq F value Pr(>F) pop 1 1.2612 1.2612 5.8285 0.0281111 * usi 1 3.7600 3.7600 17.3758 0.0007248 *** tem 1 0.5629 0.5629 2.6013 0.1263229 Residuals 16 3.4623 0.2164 --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 > lmsmp=lm(pol~pop+usi+tem) > anova(lmsmp) Analysis of Variance Table Response: pol Df Sum Sq Mean Sq F value Pr(>F) pop 1 1.2612 1.2612 5.8285 0.0281111 * usi 1 3.7600 3.7600 17.3758 0.0007248 *** tem 1 0.5629 0.5629 2.6013 0.1263229 Residuals 16 3.4623 0.2164 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 > lmsmp=lm(pol~usi+tem+pop) > anova(lmsmp) Analysis of Variance Table Response: pol Df Sum Sq Mean Sq F value Pr(>F) usi 1 3.8252 3.8252 17.6771 0.0006723 *** tem 1 1.3275 1.3275 6.1348 0.0248017 * pop 1 0.4314 0.4314 1.9937 0.1771033 Residuals 16 3.4623 0.2164 --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 2 Conclusion Les modèles de régression linéaire sont relativement simples. Ils génèrent une formule mathématique facile à interpréter qui peut générer des prévisions. Une régression linéaire peut être appliquée à divers domaines d'études commerciales et universitaires. La régression linéaire est utilisée dans de nombreux domaines tels que les sciences biologiques, comportementales, environnementales et sociales ou dans les entreprises. Les modèles de régression linéaire constituent un moyen éprouvé de prévision scientifique et fiable du futur. La régression linéaire étant une procédure statistique établie de longue date, les propriétés de ses modèles sont bien connues et peuvent donc être enseignées très rapidement .