Régression linéaire Analyse statistique de deux variables

publicité
Régression linéaire
1 B.C.P.S.T – VÉTO 2
Analyse statistique de deux variables
Soient deux séries statistiques X et Y , qui prennent les valeurs (x1 , y1 ), . . . , (xn , yn )
X
Y
···
···
x1
y1
La représentation graphique donne un nuage de points Mi (1 6 i 6 n).
n
n
1
1X
1X
?Les moyennes de X et Y sont respectivement X = (x1 + · · · + xn ) =
xi et Y =
yi
n
n i=1
n i=1
!
!
n
n
1 X 2
1 X 2
2
2
?Les variances sont V (X) =
x
X et V (Y ) =
y
Y
n i=1 i
n i=1 i
!
n
n
1 X
1 X
?Enfin, cov(X, Y ) =
(xi X) (yi Y ) =
x i yi
XY
n i=1
n i=1
···
···
xn
yn
Ajustement linéaire
On cherche si Y dépend de façon affine de X, c’est à dire s’il existe une droite , d’équation y = a x + b qui
approxime le nuage de points (Mi ) de coordonnées (xi , yi ) pour i 2 [[1 , n]].
Pour cela, une telle droite étant donnée, on définit les points Pi , projetés sur
des points Mi , parallèlement
à l’axe des ordonnées. Donc si Mi a pour coordonnées (xi , yi ), Pi a pour abscisse xi (la même que Mi ), et pour
ordonnée a xi + b puisque Pi appartient à . La droite cherchée –dite droite de régression– est celle qui minimise
n
X
les distances Mi Pi , ou plus exactement
(Mi Pi )2 .
i=1
Cette somme peut être considérée comme une fonction f des deux variables a et b ; en particulier, pour a donné, c’est un polynôme du second degré en b, qui admet un minimum au point
n
X
(yi a xi )
b0 =
donc
i=1
n
X
i=1
=
n
X
(yi
= Y a X. Mi Pi = |yi
n
X
Mi Pi2 =
((yi a xi ) b)2
a xi
n
i=1
a xi )
2
2b
i=1
n
X
(yi
y=ax+b
Mi
b|,
Pi
a x i ) + b2 n
i=1
Cette valeur de b étant déterminée, l’expression de f
n
X
devient f (a, Y a X) =
((yi Y ) a (xi X))2 =
n
X
i=1
(yi
Y )2
2a
n
X
i=1
(xi
X) (yi
i=1
Y ) + a2
n
X
(xi
i=1
On cherche à nouveau le minimum, atteint pour a0 =
a donc pour équation y
Y =
cov(X, Y )
(x
V (X)
X)2 ; c’est une fonction de la seule variable a.
Pn
X) (yi
i=1 (xi
Pn
(x
X)2
i=1 i
Y)
=
cov(X, Y )
, la droite de régression
V (X)
X) ; on remarque qu’elle passe par le barycentre G du nuage de
points de coordonnées (X, Y )
Coefficient de corrélation linéaire
Pour 2 R, on étudie la variance de X + Y : V ( X + Y ) = 2 V (X) + 2 cov(X, Y ) + V (Y ) cette valeur
étant toujours positive, le discriminant = 4(cov2 (X, Y ) V (X) V (Y )) est négatif. On en déduit que le coefficient
cov(X, Y )
⇢(X, Y ) = p
2 [ 1 , 1].
V (X) V (Y )
cov(X, Y )
D’autre part, V ( X +Y ) est minimale pour 0 =
= a0 . La droite de régression calculée minimise
V (X)
la variance de la variable aléatoire X + Y .
Lorsque le discriminant est nul (c’est à dire lorsque ⇢(X, Y ) = 1 ou 1, le minimum est nul. Dans ce cas, 0 X +Y
est une variable aléatoire de variance nulle, elle est donc constante (égale à K 2 R). Donc Y =
0 X + K ; Y est
exactement fonction affine de X, les points Mi sont alignés et appartiennent tous à la droite de régression.
Conclusion
Plus le coefficient de corrélation linéaire ⇢(X, Y ) est proche de 1 en valeur absolue, meilleure est l’approximation
affine. Un coefficient trop proche de 0 remet en question la dépendance de Y par rapport à X. Le signe de a (donc
de ⇢(X, Y ) ou encore de
0 ) représente le sens de variation en moyenne de Y en fonction de X.
Exercices d’application
Exemple 1 Deux techniques différentes «Biorad» (X) et «Isolab» (Y ) ont été utilisées dans les mêmes condi-
tions pour doser la quantité d’hémoglobine glycosylée dans 10 échantillons de sang provenant de 10 malades
présumés. Les densités optiques obtenues sont consignées dans le tableau ci-dessous :
Biorad (xi ) 7,1 7,5 7,6 7,9 8,0 8,1 8,1 8,3 8,5 8,9
Isolab (yi ) 6,4 7,0 6,7 7,5 7,9 7,5 8,0 8,1 8,1 8,0
1. Déterminer l’équation de la droite de régression linéaire de Y en fonction de X.
2. Calculer le coefficient de corrélation linéaire, conclusion ?
3. Déterminer l’équation de la droite de régression linéaire de X en fonction de Y , remarque ?
Exemple 2 Mêmes questions concernant l’étude de deux caractères sur une population de dix individus :
xi
yi
208
113
185
83
206
99
170
66
188
88
199
98
184
102
203
96
196
100
161
56
Téléchargement