Telechargé par nisrinelmrhili

projet statistique

publicité
Modèle de la régression
linéaire multiple
Présenté par:
MRHILI Nisrine
Encadré par:
Pr. BELMAATI
Aziza
Index
1.
Page de garde
2.
Définition
3.
Modélisation
4.
Les hypothèses
5.
La méthode des moindres carrées
6.
Exemple
C’est quoi la
régression linéaire
multiple?
Le modèle de régression
linéaire multiple est l’outil
statistique le plus
habituellement mis en œuvre
pour l’étude de données
multidimensionnelles. Cas
particulier de modèle
linéaire, il constitue la
généralisation naturelle de la
régression simple.
Modélisation de la
régression linéaire
multiple
Estimer les paramètres du modèle
yi = b0 + b1xi1 + b2xi2 + · · · + bpxip + εi , i = 1, · · · , n
La forme matricielle de l’équation précédente:
Les hypothèses de
la régression
linéaire multiple
les hypothèses permettent de déterminer : les propriétés
des estimateurs (biais, convergence) ; et leurs lois de
distributions (pour les estimations par intervalle et les
tests d'hypothèses).
1 Hypothèses stochastiques
2 Hypothèses structurelles
La méthode des
moindres carrés
ordinaires
La méthode des moindres carrés consiste à estimer
les paramètres b0 ,b1,· · · ,bp du modèle de régression
et ce de manière optimale.
On déduit de la minimisation de la somme des carrés des
erreurs (aléas).
min Σ ε2 = min ε′ε
S(β) = (Y − Xβ)′(Y − Xβ) = Y ′Y − β′X ′Y − Y ′Xβ + β′X ′Xβ.
Propriétés des estimateurs
L’estimateur MCO est sans biais c-à-d E=a sous
les hypothèses
Il est le meilleur estimateur linéaire sans
biais
According to BLUE
Exemple sur la
régression linéaire
multiple
Etudiant la pollution atmosphérique de 20 villes de
MAROC
par:
pol : teneur annuelle moyenne de l'air en SO2 en
mg/m3
tem : Température annuelle moyenne en degrés
Fahrenheits
usi : Nombre d'entreprises de plus de 20 personnes
pop : Population en milliers d'habitants (1970)
L’équation de la régression est:
E(POL|usi,tem,pop)= b0 + b1usi + b2tem+ b3pop
Y=La pollution de la ville
X1 =Le nombre d’entreprises
X2=La température annuelle moyenne
X3=La population en milliers d’habitants
Le diagramme de dispersion de toutes les paires de ces
variables:
Estimation des paramètres
> mod1 <-lm(pol∼usi+tem+pop,data=smp)
> Mod1
Call:
lm(formula = pol ~ usi + tem + pop, data = smp)
Coefficients:
(Intercept)
usi
tem
pop
43.95341
0.05047 -0.44852 -0.02396
> summary(mod1)
Tests sur les paramètres
>summary(mod1)
Call:
lm(formula = pol ~ usi + tem + pop, data = smp)
Residuals:
Min
1Q Median
3Q
Max
-14.2023 -7.0889 -0.8229 6.8931 17.8584
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 43.95341 19.50516 2.253 0.03861 *
usi
0.05047 0.01563 3.229 0.00524 **
tem
-0.44852 0.33546 -1.337 0.19991
pop
-0.02396 0.01524 -1.572 0.13543
--Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 10.9 on 16 degrees of freedom
Multiple R-squared: 0.8193,
Adjusted R-squared: 0.7854
F-statistic: 24.18 on 3 and 16 DF, p-value: 3.478e-06
Les coefficients::
b1 =0,05047
b2=-0,44852
b3=-0,02396
Tableau d’analyse de la variance
> lmsmp=lm(pol~pop+usi+tem)
> anova(lmsmp)
Analysis of Variance Table
Response: pol
Df Sum Sq Mean Sq F value Pr(>F)
pop
1 1.2612 1.2612 5.8285 0.0281111 *
usi
1 3.7600 3.7600 17.3758 0.0007248 ***
tem
1 0.5629 0.5629 2.6013 0.1263229
Residuals 16 3.4623 0.2164
--Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> lmsmp=lm(pol~pop+usi+tem)
> anova(lmsmp)
Analysis of Variance Table
Response: pol
Df Sum Sq Mean Sq F value Pr(>F)
pop
1 1.2612 1.2612 5.8285 0.0281111 *
usi
1 3.7600 3.7600 17.3758 0.0007248 ***
tem
1 0.5629 0.5629 2.6013 0.1263229
Residuals 16 3.4623 0.2164
---
Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> lmsmp=lm(pol~usi+tem+pop)
> anova(lmsmp)
Analysis of Variance Table
Response: pol
Df Sum Sq Mean Sq F value
Pr(>F)
usi
1 3.8252 3.8252 17.6771 0.0006723 ***
tem
1 1.3275 1.3275 6.1348 0.0248017 *
pop
1 0.4314 0.4314 1.9937 0.1771033
Residuals 16 3.4623 0.2164
--Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
2 Conclusion
Les modèles de régression linéaire sont relativement simples. Ils génèrent une
formule mathématique facile à interpréter qui peut générer des prévisions. Une
régression linéaire peut être appliquée à divers domaines d'études commerciales et
universitaires.
La régression linéaire est utilisée dans de nombreux domaines tels que les sciences
biologiques, comportementales, environnementales et sociales ou dans les
entreprises. Les modèles de régression linéaire constituent un moyen éprouvé de
prévision scientifique et fiable du futur. La régression linéaire étant une procédure
statistique établie de longue date, les propriétés de ses modèles sont bien connues
et peuvent donc être enseignées très rapidement .
Téléchargement