Régression linéaire 1 B.C.P.S.T – VÉTO 2 Analyse statistique de deux variables Soient deux séries statistiques X et Y , qui prennent les valeurs (x1 , y1 ), . . . , (xn , yn ) X Y ··· ··· x1 y1 La représentation graphique donne un nuage de points Mi (1 6 i 6 n). n n 1 1X 1X ?Les moyennes de X et Y sont respectivement X = (x1 + · · · + xn ) = xi et Y = yi n n i=1 n i=1 ! ! n n 1 X 2 1 X 2 2 2 ?Les variances sont V (X) = x X et V (Y ) = y Y n i=1 i n i=1 i ! n n 1 X 1 X ?Enfin, cov(X, Y ) = (xi X) (yi Y ) = x i yi XY n i=1 n i=1 ··· ··· xn yn Ajustement linéaire On cherche si Y dépend de façon affine de X, c’est à dire s’il existe une droite , d’équation y = a x + b qui approxime le nuage de points (Mi ) de coordonnées (xi , yi ) pour i 2 [[1 , n]]. Pour cela, une telle droite étant donnée, on définit les points Pi , projetés sur des points Mi , parallèlement à l’axe des ordonnées. Donc si Mi a pour coordonnées (xi , yi ), Pi a pour abscisse xi (la même que Mi ), et pour ordonnée a xi + b puisque Pi appartient à . La droite cherchée –dite droite de régression– est celle qui minimise n X les distances Mi Pi , ou plus exactement (Mi Pi )2 . i=1 Cette somme peut être considérée comme une fonction f des deux variables a et b ; en particulier, pour a donné, c’est un polynôme du second degré en b, qui admet un minimum au point n X (yi a xi ) b0 = donc i=1 n X i=1 = n X (yi = Y a X. Mi Pi = |yi n X Mi Pi2 = ((yi a xi ) b)2 a xi n i=1 a xi ) 2 2b i=1 n X (yi y=ax+b Mi b|, Pi a x i ) + b2 n i=1 Cette valeur de b étant déterminée, l’expression de f n X devient f (a, Y a X) = ((yi Y ) a (xi X))2 = n X i=1 (yi Y )2 2a n X i=1 (xi X) (yi i=1 Y ) + a2 n X (xi i=1 On cherche à nouveau le minimum, atteint pour a0 = a donc pour équation y Y = cov(X, Y ) (x V (X) X)2 ; c’est une fonction de la seule variable a. Pn X) (yi i=1 (xi Pn (x X)2 i=1 i Y) = cov(X, Y ) , la droite de régression V (X) X) ; on remarque qu’elle passe par le barycentre G du nuage de points de coordonnées (X, Y ) Coefficient de corrélation linéaire Pour 2 R, on étudie la variance de X + Y : V ( X + Y ) = 2 V (X) + 2 cov(X, Y ) + V (Y ) cette valeur étant toujours positive, le discriminant = 4(cov2 (X, Y ) V (X) V (Y )) est négatif. On en déduit que le coefficient cov(X, Y ) ⇢(X, Y ) = p 2 [ 1 , 1]. V (X) V (Y ) cov(X, Y ) D’autre part, V ( X +Y ) est minimale pour 0 = = a0 . La droite de régression calculée minimise V (X) la variance de la variable aléatoire X + Y . Lorsque le discriminant est nul (c’est à dire lorsque ⇢(X, Y ) = 1 ou 1, le minimum est nul. Dans ce cas, 0 X +Y est une variable aléatoire de variance nulle, elle est donc constante (égale à K 2 R). Donc Y = 0 X + K ; Y est exactement fonction affine de X, les points Mi sont alignés et appartiennent tous à la droite de régression. Conclusion Plus le coefficient de corrélation linéaire ⇢(X, Y ) est proche de 1 en valeur absolue, meilleure est l’approximation affine. Un coefficient trop proche de 0 remet en question la dépendance de Y par rapport à X. Le signe de a (donc de ⇢(X, Y ) ou encore de 0 ) représente le sens de variation en moyenne de Y en fonction de X. Exercices d’application Exemple 1 Deux techniques différentes «Biorad» (X) et «Isolab» (Y ) ont été utilisées dans les mêmes condi- tions pour doser la quantité d’hémoglobine glycosylée dans 10 échantillons de sang provenant de 10 malades présumés. Les densités optiques obtenues sont consignées dans le tableau ci-dessous : Biorad (xi ) 7,1 7,5 7,6 7,9 8,0 8,1 8,1 8,3 8,5 8,9 Isolab (yi ) 6,4 7,0 6,7 7,5 7,9 7,5 8,0 8,1 8,1 8,0 1. Déterminer l’équation de la droite de régression linéaire de Y en fonction de X. 2. Calculer le coefficient de corrélation linéaire, conclusion ? 3. Déterminer l’équation de la droite de régression linéaire de X en fonction de Y , remarque ? Exemple 2 Mêmes questions concernant l’étude de deux caractères sur une population de dix individus : xi yi 208 113 185 83 206 99 170 66 188 88 199 98 184 102 203 96 196 100 161 56