> hist(log(wage),20, prob=T)
> lines(density(log(wage)))
> layout(1)
Le graphe représenté sur la figure 1 suggère qu’on obtient une répartition plus proche d’une
distribution normale si on travaille avec le logarithme de la variable wage (salaire).
La notation de Rogers-Wilkinson est utilisée pour spécifier des formules décrivant le type de
modèle recherché. Cette notation a été introduite dans un article de 1973 :
G. N. Wilkinson et C. E. Rogers, Symbolic description of factorial models for analysis of va-
riance, Applied Statistics, 22, p. 392–399.
On a déjà rencontré des exemples du type Y∼Xou Y∼X1+X2+. . . qui correspondent
au modèle ordinaire de régression linéaire univariée ou multivariée entre variables numériques.
Le signe +, comme on l’a déjà vu, a une signification particulière dans cette notation. Il existe
d’autres symboles qui permettent de décrire des situations variées. D’autre part, la régression ne
se limite pas seulement aux variables numériques et peut être étendue aux variables qualitatives,
c’est-à-dire aux facteurs.
Dans les sections qui suivent, les lettres x,y, etc. désignent des variables numériques, les
lettres a,b, etc. désignent des variables de type factor.
1 Formule y∼x1+x2+. . .
C’est la notation du modèle linéaire multivarié qui calcule une relation de la forme :
y=β0+β1x1+β2x2+· · · +ε
et conduit à l’estimation de coefficients de régressions ˆ
βi.
On obtient un terme ˆ
β0(ordonnée à l’origine ou intercept) et un coefficient ˆ
βipour chaque
variable explicative xi.
Par exemple, cherchons à expliquer le log du salaire au moyen de l’éducation et de l’expé-
rience :
> reg <- lm(log(wage) ~ education + experience)
> summary(reg)
Call:
lm(formula = log(wage) ~ education + experience)
Residuals:
Min 1Q Median 3Q Max
-2.03371 -0.33057 0.04223 0.31897 1.83976
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.594169 0.124428 4.775 2.33e-06 ***
education 0.096414 0.008310 11.603 < 2e-16 ***
experience 0.011774 0.001756 6.707 5.10e-11 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.4695 on 531 degrees of freedom
3