S2 STS toutes mentions 2015-2016 Probabilités et Statistique Régression - Droite des moindres carrés
Université de Picardie Jules Verne 2015-2016
UFR des Sciences
Licence Sciences,Technologies,Santé toutes mentions -Semestre 2
Probabilités et Statistique
Régression - Droite des moindres carrés
Le chapitre précédent traitait de la statistique descriptive univariée, c’est-à-dire de la description d’une
série statistique selon un seul caractère (la taille par exemple). On veut maintenant étudier, visualiser et
mesurer (le cas échéant) les liens existant entre deux variables : c’est l’objet de la statistique descriptive
bivariée.
On considère une population sur laquelle on étudie deux variables (ou caractères) quantitatives Xet Y. On
étudiera donc des séries statistiques à deux variables ; autrement dit un couple de variables X,Y. On veut
savoir si les deux variables sont liés par une liaison fonctionnelle du type YfX(c’est-à-dire que l’on peut
prévoir les valeurs de Yà partir des valeurs de X), ou XfY(c’est-à-dire que l’on peut prévoir les valeurs
de Xà partir des valeurs de Y).
Précisons dès maintenant que l’existence d’une telle liaison entre les deux variables Xet Yne signifie pas
obligatoirement un lien de cause à effet entre elles.
Exemple fondamental :YaX b(liaison fonctionnelle affine).
Représentation graphique :nuage de points.
Sur un échantillon de nindividus extrait de la population, on observe ncouples x1,y1,
x2,y2,,xn,ynde valeurs de Xet Y.
Ces observations peuvent être représentées dans le plan. A chaque couple xi,yi,i1,,n, on fait
correspondre un point Mi. On obtient un nuage de point.
La forme du nuage obtenu peut indiquer le type de dépendance possible entre Xet Y. Si les points sont
”plutôt” alignés, on peut envisager une relation de type YaX b(équation de droite). Si le nuage ”forme”
une parabole, on peut envisager une relation de type YaX2bX c.
On dit que l’on cherche à ajuster une courbe au nuage de points.
1.Droite des moindres carrés (ou de régression)de yen x
On cherche à ajuster une droite d’équation yax bau nuage de points.
Le critère d’ajustement est la distance totale entre les points du nuage Mixi,yiet les points
Pixi,axibcorrespondant sur la droite d’ajustement.
On cherche donc le couple
a,
bqui minimise fa,b
i1
nyiaxib2.
On peut démontrer (on l’admettra ici) qu’il existe
un unique couple
a,
brendant fa,bminimum,
et donc une seule droite répondant au problème.
C’est la droite des moindres carrés de yen x;
on dit aussi droite de régression de yen x.
Equation de la droite des moindres carrés de yen x:
Dy/x:y
ax
b, avec
acovx,y
sx
2et
by
ax.
Notations :
Moyennes : x1
n
i1
nxi,y1
n
i1
nyi.Covariance : covx,y1
n
i1
nxixyiy1
n
i1
nxiyixy.
Variances : sx
21
n
i1
nxix21
n
i1
nxi
2x2,sy
21
n
i1
nyi
2y2.
Stéphane Ducay
1
S2 STS toutes mentions 2015-2016 Probabilités et Statistique Régression - Droite des moindres carrés
Exemple.
On considère la série double statistique suivante : xi23514
yi6611210
Le nuage de points correspondant est représenté sur le graphe ci-dessous.
0123456
0
2
4
6
8
10
12
x
y
Nuage de points
La droite de regression de yen xa pour équation : y
ax
b, avec
acovx,y
sx
2et
by
ax.
xiyixiyixi
2
26124
36189
5 11 55 25
1 2 2 1
4 10 40 16
Total 15 35 127 55
On a x1
n
i1
nxi1
515 3, y1
n
i1
nyi1
535 7,
covx,y1
n
i1
nxiyixy 1
5127 374,4 ,
sx
21
n
i1
nxi
2x21
555 322.
On en déduit :
acovx,y
sx
24,4
22,2
et
by
ax 72,2 30,4.
La droite de regression de yen xa donc pour équation : y2,2x0,4.
0123456
0
2
4
6
8
10
12
x
y
Nuage de points et droite de régression de yen x
2.Droite des moindres carrés de xen y.
On suit une démarche analogue à celle qui a donné la droite des moindres carrés de yen x:
Dy/x:y
ax
b, avec
acovx,y
sx
2et
by
ax.
On cherche à ajuster une droite Dx/yd’équation xaybau nuage de points.
On obtient la droite des moindres carrés de xen y:
Dx/y:xayb, avec acovx,y
sy
2et bxay.
Stéphane Ducay
2
S2 STS toutes mentions 2015-2016 Probabilités et Statistique Régression - Droite des moindres carrés
Remarque. Ces équations peuvent aussi s’écrire :
Dy/x:yy
axx
Dx/y:xxayy
Les droites Dy/xet Dx/yse coupent donc au point Gx,y.
Exemple.
Reprenons l’exemple précédent. On a toujours x3, y7, covx,y4,4, sx
22 et
a2,2.
On calcule sy
21
n
i1
nyi
2y21
5297 7210,4, d’où acovx,y
sy
24,4
10,4 1,1
2,6 .
La droite de regression de xen ya donc pour équation xxayy, soit x31,1
2,6 y7,
c’est-à-dire y2,3637x0,0909.
On retrouve également une équation de la droite de régression de yen x:yy
axx, soit
y72,2x3, c’est-à-dire y2,2x0,4.
Les droites Dy/xet Dx/yse coupent au point Gx,yG3,7.
0123456
0
2
4
6
8
10
12
x
y
Droites de régression de yen xet de xen y
3.Coefficient de corrélation linéaire entre xet y
Le coefficient de corrélation linéaire est donné par : rx,ycovx,y
sxsy.
Qualité de lajustement.
On peut démontrer que rx,y
211
sy
21
n
i1
nyi
axi
b21. On en déduit que rx,y
21 si et seulement
si
i1
nyi
axi
b20, c’est-à-dire yi
axi
b0, pour tout i1,,n, soit Mixi,yiDy/x. Ainsi,
rx,y
21 si et seulement si les points Misont alignés sur Dy/x.
De façon générale, plus rx,y
2est proche de 1, meilleur est l’ajustement de la droite des moindres carrés au
nuage de points. Dans la pratique, on dit qu’il y a une bonne corrélation linéaire entre Xet Ysi
3
2|rx,y|1, c’est-à-dire si rx,y
23
4.
Le signe de rx,y(même signe que celui de
a) indique le sens de la liaison (croissante si rx,y0,
décroissante si rx,y0) entre Xet Y.
Signification de rx,y.
La question se pose de savoir si une forte valeur de rx,y(en valeur absolue) ou de rx,y
2prouve qu’il y a une
forte corrélation entre les deux caractères Xet Y(par exemple lorsque l’ajustement est bon) ou si elle est due
au hasard de l’échantillonage (par exemple lorsque nest petit). Pour obtenir une réponse, on peut utiliser des
tests statistiques (question non abordée ici).
Stéphane Ducay
3
S2 STS toutes mentions 2015-2016 Probabilités et Statistique Régression - Droite des moindres carrés
Formule de décomposition.
La notion de liaison entre Xet Ysignifie qu’une variation de Xentraîne une variation de Y. La formule de
décomposition permet de préciser la part de variation de Yexpliquée par la variation de X:
i1
nyiy2
i1
nyiy2
i1
nyiyi2, avec yi
axi
b.
La démonstration repose sur le fait que le double produit s’annule :
i1
nyiy yiyi
a
i1
nxixei0, avec eiyiyi(erreur observée), et grâce aux équations
définissant
aet
b.
La somme des carrés totale :
i1
nyiy2mesure la variation globale des yiautour de leur moyenne y.
La somme des carrés expliquée par la variable X:
i1
nyiy2
a2
i1
nxix2mesure la variation de
Yexpliquée par la variable X. Ce terme n’est d’ailleurs fonction que de la pente de la droite des moindres
carrés et des valeurs de X.
La somme des carrés résiduelle :
i1
nyiyi2
i1
nei
2mesure la variation de Ynon expliquée par la
variable X.
Coefficient de détermination.
Il est naturel de mesurer la force de la liaison entre les variables Xet Yà l’aide du coefficient de
détermination :
R2
i1
nyiy2
i1
nyiy2
somme des carrés expliquée
somme des carrés totale
On peut vérifier que R2rx,y
2. Ce qui explique que rx,ymesure la force de la liaison entre Xet Y.
Position relative de Dy/xet Dx/y.
Si rx,y
20, alors covx,y0, et donc
aa0. Ainsi, Dy/x:yyet Dx/y:xx.
Si rx,y
20, alors
a0 et a0. On a alors : Dy/x:yy
axxet Dx/y:yy1
a
xx.
On a :
aacovx,y
sx
2covx,y
sy
2covx,y
sxsy
2rx,y
2.
Si rx,y
21, alors
a1
aet donc Dx/ya pour équation : yy1
a
xx
axx, soit l’équation de
Dy/x. Ainsi, Dx/yDy/x.
Si 0 rx,y
21, alors 0
aa1 et deux cas sont possibles :
- soit 0 rx,y1 et alors
a0, a0 et
a1
a;
- soit 1rx,y0 et alors
a0, a0 et
a1
a.
4.Transformation de variable
Lorsque la corrélation linéaire entre xet yest mauvaise, l’ajustement d’une droite d’équation yax b
au nuage de points n’est pas bon. En observant le nuage de points, on peut alors penser à d’autres types de
relation entre xet y; par exemple yex,yalnxb, ... Par transformation d’une des variables xou y, ou
des deux variables, on peut se ramener à une relation affine entre les variables transformées et utiliser les
résultats précédents.
Sur ce sujet, voir les exemples traités en cours et les exercices 2 à 4.
Stéphane Ducay
4
S2 STS toutes mentions 2015-2016 Probabilités et Statistique Régression - Droite des moindres carrés
5.Exercices
Exercice 1.
Dans la série statistique suivante, xreprésente le nombre de jours d’exposition au soleil d’une feuille et y
le nombre de stomates aérifères au millimètre carré :
x2 4 8 10 24 40 52
y6 11 15 20 39 62 85
1) Représenter graphiquement le nuage de points correspondant.
2) Déterminer une équation de la droite de regression de yen x.
3) Calculer le coefficient de corrélation linéaire entre xet y. Commenter le résultat.
4) Quel nombre de stomates peut-on prévoir après 30 jours d’exposition au soleil ? après 60 jours ?
Exercice 2. (D’après partiel de novembre 2007)
Le tableau ci-dessous donne une estimation du montant des achats en ligne des ménages français :
Année 1998 1999 2000 2001 2002 2003 2004
Rang de l’année : xi0123456
Montant d’achats en millions d’euros : yi75 260 820 1650 2300 4000 5300
1) a) Préciser la population, la(es) variable(s) étudiée(s) et la taille de l’échantillon.
b) Donner une équation de la droite de régression de yen x.
c) Donner le coefficient de corrélation linéaire entre xet y. Interpréter le résultat obtenu.
d) Quelle prévision du montant d’achats peut-on faire pour l’année 2005 ? Est-elle fiable ?
2) On considère la nouvelle variable zy.
a) Déterminer une équation de la droite de régression de zen x, ainsi que le coefficient de corrélation
linéaire entre xet z. Interpréter le résultat obtenu.
b) En déduire une expression de yen fonction de x, puis une prévision du montant d’achats pour
l’année 2005.
3) A partir du tableau de données, le logiciel Excel propose un ajustement polynomial par l’équation
y130x2100x68.
a) S’agit-il du même ajustement que celui obtenu dans le 2) ? Expliquer cette situation.
b) Déduire de cet ajustement une prévision du montant d’achats pour l’année 2005.
4) Le montant des achats en ligne en 2005 a été de 7700 millions d’euros. Lequel des trois ajustements
précédents vous parait-il le plus conforme à la réalité ? Jutifier votre réponse.
Exercice 3. (D’après examen de mai 2013)
Les résultats numériques et les coefficients demandés seront donnés avec trois décimales.
Le tableau ci-dessous donne la fréquentation des lignes aériennes, en millions de passagers, entre la
France métropolitaine et les pays étrangers depuis 1980 (source INSEE).
Année 1980 1985 1990 1995 2000 2005 2008
Rang de l’année : xi0 5 10 15 20 25 28
Nombre de passager (en millions) : yi21,9 26,4 36,9 44,7 67,0 82,0 97,9
On cherche à étudier l’évolution du nombre de passagers yentre la France métropolitaine et les pays
étrangers en fonction du rang xde l’année.
1) a) Représenter graphiquement la série statistique xi,yi.
b) Quelle(s) courbe(s) d’ajustement suggère cette représentation graphique ? Justifier la réponse.
2) Un premier ajustement.
a) Donner une équation de la droite de régression de yen x(obtenue par la méthode des moindres
carrées).b) Donner le coefficient de corrélation linéaire entre xet y. Interpréter le résultat obtenu.
Stéphane Ducay
5
1 / 6 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !