Chapitre 4 : Statistiques

publicité
Chapitre 4 : Statistiques
I
Généralités
Sur une population de n individus, on cherche à étudier simultanément deux caractères
quantitatifs X et Y (≪ quantitatifs ≫ signifie : qui prennent des valeurs numériques).
Pour chacun des n individus (numérotés de 1 à n) de la population, notons xi et yi la
valeur prise respectivement par les caractères X et Y .
On présente les données de la série statistique à deux variables obtenue sous forme d’un
tableau :
Valeurs prises par X
Valeurs prises par Y
x1
y1
x2
y2
...
...
xn
yn
Exemple :
Pays
Nombre de naissances xi
Population totale yi
All
715
82 539
Fr
760
59 901
Esp
436
42 198
R.U.
696
59 516
It
545
57 804
Définition (Nuage de points)
Dans un repère orthogonal, l’ensemble des points Ai de coordonnées (xi ; yi ), pour i allant
de 1 à n, est appelé nuage de points de la série statistique à deux variables.
Définition (Point moyen
→
Notons −
x la moyenne de la
Le point G de coordonnées
série statistique.
Rappel :
II
II.1
du nuage)
→
série des xi , et −
y la moyenne des yi (1 6 i 6 n).
→
−
→
−
( x ; y ) est appelé le point moyen du nuage de points de la
x1 + x2 + x3 + · · · + xn
−
→
x =
n
y1 + y2 + y3 + · · · + yn
→
−
y =
n
Ajustement affine
Ajustement
Définition
Effectuer un ajustement de y en x d’un nuage de points, c’est trouver une fonction f dont
la courbe représentative soit très proche du nuage.
On dit que l’on réalise un ajustement affine lorsque l’ajustement se fait par une fonction
affine : f (x) = ax + b et la courbe de f est une droite.
Remarque
– Il est intéressant de faire un ajustement affine lorsque le nuage a une forme plutôt
allongée.
– Ces modélisations vont permettre de faire des interpolations et extrapolations.
– Il existe d’autres types d’ajustements, c’est-à-dire d’autres fonctions f qui peuvent
modéliser un nuage de points.
1
II.2
Ajustement affine par la méthode des moindres carrés
Définition
La méthode des moindres carrés consiste à trouver une fonction affine f qui minimise la
somme des carrés des écarts entre yi et les valeurs f (xi ) donnés par le modèle.
On cherche donc à minimiser la somme S = A1 P1 2 + A2 P2 2 + · · · + An Pn 2 .
y
9
An
8
+
P6
7
+
A5
A4
6
4
P3
A1
P2
+
+
+
+
A3
+
3
+
+
P5
+
5
P1
+
Pn
+
A6
+
P4
+
A2
2
1
-2
-1
0
1
2
3
4
5
6
7
8
9
x
-1
-2
Théorème (et définition)
Soit (xi ; yi )16i6n une série statistique à deux variables.
Il existe une unique droite ∆ associée au nuage de points Ai (xi ; yi ) (1 6 i 6 n), telle que
la somme S = A1 P1 2 + A2 P2 2 + · · · + An Pn 2 soit minimale.
Cette droite est appelée droite de régression de y en x, ou droite des moindres carrées
associée au nuage.
∆ a une équation de la forme y = ax + b où les valeurs de a et de b sont déterminées à
l’aide de la calculatrice.
Remarque
→
→
La droite de régression ∆ passe toujours par le point moyen G(−
x;−
y ) du nuage.
Pour la tracer , il suffit donc de connaı̂tre son coefficient directeur.
Les rappels sur l’utilisation de la calculatrice sont aux dernières pages du livre.
2
Propriété (Utilisation de la calculatrice pour les statistiques)
Pour les calculatrices TI (82-83).
1. Rentrer les données de la série dans la calculatrice.
STAT EDIT
Rentrer les xi dans L1 , et les yi dans L2 .
Pour effacer, utiliser CLEAR .
2. Coordonnées du point moyen G(x; y).
STAT CALC 2-VAR L1
,
L2
3. Coefficients a et b de la droite de régression de y en x.
∆ a une équation de la forme y = ax + b où a et b sont des réels.
STAT CALC LINEREG(ax + b) L1
,
L2
Propriété (Utilisation de la calculatrice pour les statistiques)
Pour les calculatrices CASIO (Graph25-35-65).
1. Rentrer les données de la série dans la calculatrice.
MENU STAT
Rentrer les xi dans List1, et les yi dans List2.
Pour tout effacer, utiliser DEL-A (delete all).
Pour effacer petit à petit, DEL .
2. Coordonnées du point moyen G(x; y).
Il faut d’abord s’assurer d’avoir les bons réglages :
CALC SET
Dans ce menu, on doit choisir :
2
2
2
2
Var
Var
Var
Var
X
Y
X
Y
List
List
Freq
Freq
:
:
:
:
List1
List2
1
1
Ensuite, pour afficher les coordonnées du point moyen x et y :
CALC 2-VAR
3. Coefficients a et b de la droite de régression de y en x.
∆ a une équation de la forme y = ax + b où a et b sont des réels.
Avec les mêmes réglages que précédemment :
2
2
2
2
CALC SET
Var X List
: List1
Var Y List
: List2
Var X Freq : 1
Var Y Freq : 1
Affichage des résultats par REG X .
3
Exercice 1 (Pour vérifier l’utilisation de la calculatrice)
Le tableau suivant indique les effectifs de la population en France de 2000 à 2009.
année
rang xi
population
yi
(millions d’hab.)
2000 2001 2002 2003
0
1
2
3
58.86 59.27 59.69 60.1
2004 2005 2006 2007 2008 2009
4
5
6
7
8
9
60.51 60.96 61.40 61.80 62.13 62.47
1. Donner les coordonnées du point moyen de la série. Arrondir à 0.01.
2. Donner une équation de la droite d’ajustement par la méthode des moindres carrés.
Arrondir les coefficients à 0.01.
3. Utiliser cette droite pour proposer une estimation de la population en 2012.
Réponses : 1
1.
1. Le point moyen est G(4.5; 60.72).
2. La droite a pour équation y = 0.41x + 58.88.
3. 2012 correspond à x = 12. En remplaçant, 0.41 × 12 + 558.88 = 63.8. Suivant ce modèle, on estime
qu’il y aura environ 63.8 millions de personnes en 2012.
4
Téléchargement