Le cours - FormationsNatures.fr

publicité
2
Statistiques à deux variables
2.1
Approche des séries statistiques à deux variables
2.1.1 Nuage de points
Sur une classe de BTSA, le professeur a relevé les moyennes de 10 élèves en mathématiques et en
agronomie. Les notes sont consignées dans le tableau donné ci-dessous.
Élèves
Anselme
Cédric
David
Kelvin
Lætitia
Mohamed
Pietro
Richie
Stéphanie
Tatiana
Moyenne en
mathématiques : x i
12
8
11
9
15
10
7
13
10,5
6
Moyenne en
agronomie : yi
11
10
10
14
13
12
8
11
15
9
Le professeur décide de faire une représentation graphique pour mieux visualiser les moyennes en remplaçant chaque élève par le point Mi de coordonnées (x i ; yi ), x i étant la moyenne en mathématiques et yi
la moyenne en agronomie.
L’ensemble des points ainsi obtenu est appelé nuage de points.
1. Faire la représentation graphique du nuage de points.
2. Calculer la moyenne x des notes de mathématiques et la moyenne y des notes en agronomie.
3. Placer sur le graphique précédent le point G de coordonnées (x ; y).
2.1.2 Nuages de points et lien entre les variables
Les graphiques ci-contre représentent des nuages de points de séries statistiques à deux variables.
Pour chacune des séries à deux variables représentées par les nuages de points, on cherche à étudier
s’il existe un lien entre les deux variables, c’est-à-dire si on peut exprimer y en fonction de x à l’aide d’une
fonction mathématique connue. Lorsqu’il est possible de trouver une telle fonction, on dit qu’on effectue un
ajustement du nuage.
1. Pour chacun des graphiques, construire, lorsque cela est possible, une courbe qui passe le plus près
possible des points.
2. Quels sont les graphiques où la courbe la plus adaptée semble être une droite ?
BTSA
13
Cours
5
25
b
b
4
20
b
b
3
15
b
b
b
2
10
b
5
1
b
b
0
0
10
20
30
40
50
60
0
70
0
1
2
3
4
5
FIGURE 2.2 – Nuage 2
FIGURE 2.1 – Nuage 1
2
b
0
30
1.5
b
3.0
4.5
6.0
b
25
-2
20
-4
b
15
b
b
-6
b
10
b
-8
5
-10
b
b
b
b
0
0
2
4
FIGURE 2.3 – Nuage 3
4
b
3
b
b
b
2
b
b
b
1
0
0 1 2 3 4 5 6 7 8 9
6
8
10
12
14
FIGURE 2.4 – Nuage 4
8
7
6
5
4
3
2
1
0
b
b
b
b
b
b
b
0
2
4
6
8
10
12
14
16
FIGURE 2.6 – Nuage 6
FIGURE 2.5 – Nuage 5
Dans le cas où la courbe qui approche le mieux les points est une droite, on dit qu’on effectue un ajustement affine du nuage.
2.1.3 Droites d’ajustement (où l’on compare plusieurs droites qui approchent un
nuage)
On considère la série statistique à deux variables x et y suivante :
On note Mi le point de coordonnées (x i ; yi ).
1. Placer les points M1 , M2 , M3 , M4 et M5 dans le repère ci-dessous.
xi
yi
4
4
5
7
7
8
11
7
13
9
Cours
14
BTSA
10
9
8
7
6
5
4
3
2
1
0
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15
2. (a) Calculer les moyennes x et y.
(b) Placer sur le graphique le point G(x ; y).
3. On considère les droites D 1 , D2 et D3 d’équations respectives : y =
y = 0, 45x + 4.
1
x
2
+ 3, y = 0, 35x + 4, 2 et
(a) Tracer les trois droites sur la figure précédente.
(b) Peut-on dire que ces trois droites approchent le nuage ?
(c) Le point G est-il un point de chacune des trois droites ?
On cherche une méthode permettant de savoir quelle droite approche le mieux le nuage, c’est-à-dire celle
qui passe le plus près des points.
Considérons pour commencer la droite D1 d’équation y = 21 x + 3.
On appelle Pi le point de la droite D1 d’abscisse x i , c’est-à-dire de même abscisse que le point Mi ; par
exemple P1 est le point de D1 d’abscisse 4. On peut alors en déduire que P1 a pour coordonnées (4 ; 5) (en
effet : 24 + 3 = 5).
1. Construire les points Pi sur le graphique suivant.
10
9
D1
b
M5
8
b
M3
7
b
b
M4
M2
6
5
4
b
M1
3
2
1
0
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
2. On cherche à « mesurer » le fait que la droite
plus ou moins près des points Mi . Pour cela on
Š
€ 1 D1 passe
calcule le résidu Pi Mi = yMi − yPi = yi − 2 x i + 3 . Le calculer pour i = 1, puis pour i = 2, 3, . . . 5.
2
2
2
2
2
3. On veut calculer ensuite la somme S1 = P1 M1 +P2 M2 +P3 M3 +P4 M4 +P5 M5 . Cette somme s’appelle
somme des carrés des résidus.
BTSA
15
Cours
On cherche à rendre cette somme la plus petite possible.
Comparons avec les deux autres droites D2 et D3 et regardons laquelle des trois rend la somme des carrés
des résidus la plus petite.
1. On considère maintenant la droite D2 d’équation y = 0, 35x + 4, 2 et on appelle Qi les points de D2
2
2
2
2
2
d’abscisses x i . Calculer la somme S2 = Q1 M1 + Q2 M2 + Q3 M3 + Q4 M4 + Q5 M5 .
10
9
D2
b
M5
8
b
M3
7
b
b
M2
M4
6
5
4
b
M1
3
2
1
0
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
2. On considère maintenant la droite D3 d’équation y = 0, 45x + 4 et on appelle Ri les points de D3
2
2
2
2
2
d’abscisses x i . Calculer la somme S3 = R1 M1 + R2 M2 + R3 M3 + R4 M4 + R5 M5 .
10
9
D3
b
8
b
7
b
M5
M3
M2
b
M4
6
5
4
b
M1
3
2
1
0
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Comparer les sommes S1 , S2 et S3 . Quelle est la plus petite ?
Quelle est, pour vous, la droite qui approche le mieux les points du nuage ?
2.2
Série statistique à deux variables
On considère une population et on se propose d’étudier conjointement deux caractères ou variables X et
Y. Pour cela, on associe à chaque individu de la population un couple (x i ; yi ) correspondant aux valeurs
respectives des variables X et Y prises par l’individu.
Cours
16
BTSA
On étudiera uniquement des variables X et Y quantitatives.
Définition
On appelle série statistique double (X ; Y) l’ensemble des couples (x i ; yi ) associés à chaque individu de
la population.
Exemple : On peut relever à des dates différentes sur un bébé son âge et son poids.
2.2.1 Présentation des données
Les résultats sont présentés généralement sous forme de tableaux.
Exemple : Un chef d’entreprise a fait un relevé sur cinq années de l’évolution du pourcentage d’emplois
à temps partiel dans son entreprise :
Année
Rang x i
Pourcentages d’emplois partiels yi
2001
1
6,5
2002
2
12,5
2003
3
16,9
2004
4
20,6
2005
5
23,5
Une série est dite chronologique lorsque la variable X est fonction du temps. On remplace souvent la
valeur de l’année par son rang.
2.2.2 Nuage de points
Le plan P est muni d’un repère orthogonal O ; ~ı,~ . À chaque couple (x i ; yi ), on associe le point
Mi (x i ; yi ).
Définition
L’ensemble des points Mi (x i ; yi ) est appelé nuage de points associé à la série statistique double.
Définition
Le point moyen d’un nuage est le point G de coordonnées (x ; y).
Exemple : voir approche 2.1.1
En général, on fait figurer le point moyen sur le graphique représentant le nuage de points.
2.3
Ajustement affine
On cherche s’il existe un lien entre les deux variables, c’est-à-dire s’il est possible d’écrire y en fonction
de x.
Définition
Effectuer un ajustement d’un nuage de points consiste à trouver une fonction dont la courbe représentative
« approche » le nuage, c’est-à-dire dont la courbe passe au plus près des points du nuage.
Quand le nuage présente une forme rectiligne, la courbe cherchée est une droite. Dans ce cas la fonction
est une fonction affine du type x 7→ ax + b.
Exemple : voir approche 3.1.2
Définition
Une droite d’ajustement affine est une droite qui passe au plus près des points du nuage. On admettra que,
pour que l’ajustement soit le meilleur possible, il faut que la droite d’ajustement affine passe par le point
moyen G du nuage.
Diverses méthodes existent pour trouver une droite d’ajustement affine.
BTSA
17
Cours
Une des méthodes consiste à effectuer graphiquement et donc à tracer une droite « au jugé », c’est-à-dire
« à la main » ; les coefficients a et b sont alors déterminés graphiquement.
✍ MÉTHODE 24
Un chef d’entreprise a fait un relevé sur cinq années de l’évolution du pourcentage d’emplois à temps
partiel dans son entreprise :
Année
Rang x i
Pourcentages d’emplois partiels yi
2001
1
6,5
2002
2
12,5
2003
3
16,9
2004
4
20,6
2005
5
23,5
28
Le point moyen est le point G de coordonnées
(3 ; 16).
On remarque que le nuage présente une
forme rectiligne ce qui justifie un ajustement
affine. La droite D a été dessinée « au jugé » :
elle approche de près les points du nuage et
elle passe par le point moyen G. On peut estimer que c’est une droite d’ajustement affine
du nuage de points.
Déterminer graphiquement son équation.
D
24
b
b
20
b
16
b
G
b
12
8
b
4
0
0
1
2
3
4
5
La droite que l’on a tracée au jugé n’est pas unique. On aurait pu tracer de nombreuses droites approchant
le nuage et passant par le point moyen. On comprend aisément que cette méthode manque de précision.
On a donc cherché des méthodes plus calculatoires pour avoir une plus grande précision.
2.4
Droite de régression : méthode des moindres carrés
On cherche une droite qui approche au plus près le nuage, c’est-à-dire une droite qui passe au plus près
de chacun des points du nuage.
La méthode qui suit est une méthode qui se propose de « quantifier » l’éloignement des points par rapport
à la droite d’ajustement.
Considérons une série statistique double (X ; Y). On note Mi le point de coordonnées (x i ; yi ). Soit D
une droite d’équation y = ax + b.
On note Pi le point de D d’abscisse x i . Pi est donc le point de coordonnées (x i ; ax i + b).
y
ax + b
b
P
ax 1 + b
y1
O
M
b
b
P1
b
M1
x1
x
D
Cours
18
BTSA
On compare les ordonnées des points Mi et des
points Pi correspondants. Pour cela, on calcule les résidus
(ou écarts) ei = Pi Mi = yMi − yPi = yi − ax i + b .
On cherche une droite telle que les résidus soient les plus petits possibles. On appelle somme des carrés
des résidus, (ou somme des carrés des écarts), le réel
n
n
X
X
2
2
2
2
S = P1 M1 + P2 M2 + ... + Pn Mn =
e2i
[ yi − (ax i + b)] =
i=1
i=1
La droite cherchée est celle qui rend cette somme minimale. On l’appelle droite de régression de y en x
et la méthode s’appelle méthode des moindres carrés.
Cela revient à dire qu’on détermine les réels a et b pour que la somme des résidus soit minimale.
Définition
La droite de régression de y en x est la droite d’équation y = ax + b où les paramètres a et b ont été
n
n
X
X
2
e2i soit minimale.
[ yi − (ax i + b)] =
calculés de façon à ce que la somme S =
i=1
i=1
Théorème
Cette droite passe par le point moyen du nuage.
Les paramètres a et b sont donnés par les formules suivantes et par toute calculatrice ou tableur.
2.5
Covariance et coefficient de corrélation linéaire
2.5.1 Covariance
Définition
La covariance d’une série statistique double (X ; Y) est par définition le nombre noté cov(X ; Y) tel que :
n
n
1X
1X
x i − x yi − y =
x i yi − x × y
cov(X ; Y) =
n i=1
n i=1
2.5.2 Droites de régression
Théorème
La droite D de régression de y en x a pour équation y − y = m (x − x) où m =
cov(X ; Y)
σ(X)2
Si, au lieu de regarder les écarts verticaux entre la droite D et les points du nuage, on avait minimisé la
somme des carrés des écarts horizontaux, on aurait obtenu une autre droite de régression.
Théorème
cov(X ; Y)
La droite D 0 de régression de x en y a pour équation x − x = m y − y où m =
σ(Y)2
2.5.3 Coefficient de corrélation linéaire
Définition
Le coefficient de corrélation linéaire d’une variable statistique double est le nombre noté r défini par :
cov(X ; Y)
r=
σ(X)σ(Y)
BTSA
19
Cours
Théorème
Un coefficient de corrélation est compris entre −1 et 1.
• Lorsque r est voisin de 0, les droites de régression D et D 0 sont éloignées : les variables x et y sont peu
corrélées.
• Lorsque r est voisin de 1, les droites de régression D et D 0 sont presque confondues : les variables x et
y sont très corrélées.
✍ MÉTHODE 25
On considère la série statistique double (X ; Y) suivante où x i représente le nombre de points de vente
d’une marque et yi le chiffre d’affaires correspondant en k€.
Année
Nombre de points de vente x i
Chiffre d’affaires yi
1999
3
85
2000
5
130
2001
7
178
2002
9
220
2003
12
300
2004
14
330
2005
19
460
1. À la calculatrice, trouver les coordonnées du point moyen G.
2. À la calculatrice, trouver une équation de régression de y en x par la méthode des moindres
carrés.
3. Les deux variables sont-elles fortement corrélées ?
2.5.4 Coefficient de détermination
Définition
2
Le coefficient de détermination est égal à r =
cov(X ; Y)
σ(X)σ(Y)
2
=
cov(X ; Y)2
V(X)V(Y)
.
On démontre que la variance totale est égale à la somme de la variance expliquée et de la variance
résiduelle grâce à la formule suivante :
i=n
X
i=1
( yi − y)
2
=
i=n
X
i=1
( ybi − y)
2
+
i=n
X
i=1
( yi − ybi )2
n
n
n
c’est à dire que ybi est la valeur estimée par le modèle pour x i .
Tout cela permet de prouver que r 2 =
où
ybi = ax i + b
variance expliquée par la droite des moindres carrés
.
variance totale
Ceci signifie que le coefficient de détermination r 2 mesure la part de la variabilité totale de la variable Y
qui est expliquée par le facteur X.
✍ MÉTHODE 26
Calculer le coefficient de détermination de la méthode précédente et l’interpréter.
Téléchargement