Cours4-Statistiques - Lycée Pierre Gilles de Gennes

publicité
Chapitre
4
Statistiques
CONTENUS
Statistique descriptive, analyse de
données
Caractéristiques de dispersion : variance,
écart-type.
Diagramme en boîte.
CAPACITÉS ATTENDUES
COMMENTAIRES
• Utiliser de façon appropriée les deux
couples usuels qui permettent de résumer
une série statistique : (moyenne, écarttype) et (médiane, écart interquartile).
• Étudier une série statistique ou mener
une comparaison pertinente de deux séries
statistiques à l’aide d’un logiciel ou d’une
calculatrice.
On utilise la calculatrice ou un logiciel pour
déterminer la variance et l’écart-type d’une
série statistique.
1
Des travaux réalisés à l’aide d’un logiciel
permettent de faire observer des exemples
d’effets de structure lors du calcul de
moyennes.
Première S
Chapitre 4 - Statistiques
2 - Lycée Pierre-Gilles de Gennes
Table des matières
4 Statistiques
I-
1
Diagramme en boite (ou boite à moustache) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
II - Variance et écart type . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
III - Résumé d’une série statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
Dans ce chapitre, on considère des séries à caractères quantitatifs discrètes ou continues (avec dans le cas d’une
série continue l’hypothèse d’une répartition uniforme à l’intérieur de chaque classe).
Notation
• p est un entier supérieur ou égal à 1 ;
• x1 , x2 , ... , xp sont les valeurs ou les centres des classes ;
• n1 , n2 , ... , np sont les effectifs des valeurs x1 , x2 , ... , xp ;
• f1 , f2 , ... , fp sont les fréquences des valeurs x1 , x2 , ... , xp ;
p
p
X
X
ni
∀i = 1, 2, ..., p et
fi = 1.
• N est l’effectif total : N = n1 + n2 + ... + np =
ni . Donc fi =
N
i=1
i=1
I - Diagramme en boite (ou boite à moustache)
On considère une série ordonnée par ordre croissant : x1 6 x2 6 ... 6 xp .
Méthode pour calculer les quartiles
• Cas d’un caractère quantitatif discret
– Le premier quartile Q1 est la valeur xi du caractère dont l’indice i est le plus petit entier supérieur ou égal
n
à .
4
– Le troisième quartile Q3 est la valeur xi du caractère dont l’indice i est le plus petit entier supérieur ou
3n
égal à
.
4
• Cas d’un caractère quantitatif continu
Le premier quartile Q1 est l’abscisse du point de la courbe des fréquences cumulées croissantes d’ordonnée 0,25
et le troisième quartiles Q3 est l’abscisse du point de la courbe des fréquences cumulées d’ordonnée 0,75.
Remarques :
• Une série admet trois quartiles : le deuxième quartile Q2 n’est pas utilisé ;
• Attention les calculatrices donnent pour Q1 la valeur médiane de la sous série constituée des valeurs de la
série comprises entre la valeur minimale et la valeur médiane ; dans ce cas Q1 n’est pas nécessairement une valeur
de la série ce qui est contradictoire avec la définition ci-dessus. Pour retrouver les mêmes résultats que ceux du
cours (lorsqu’ils sont différents), il faut prendre la plus grande valeur de la série inférieure au quartile trouvé par
la calculatrice.
• On peut définir de manière analogue les déciles d’une série : on utilisera en générale seulement le premier
décile D1 et la neuvième décile D9 .
Un diagramme en boite est un rectangle delimité par Q1 et Q3 :
3
Première S
Chapitre 4 - Statistiques
Q1
Me
Q3
max
min
Q3 − Q1
e
On peut également faire apparaître le premier et le neuvième décile de la série, ainsi que les valeurs extrêmes qui
sont en dehors de l’intervalle interdécile.
D1
min
b
b
Q1
Me
Q3
D9
b
b
b
b
b
max
Exemple 1
Exercice 22 du livre (avec utilisation de la calculatrice).
II - Variance et écart type
Définition 1
La variance d’une série statistique est notée V et a pour valeur :
V =
p
n1 (x1 − x)2 + n2 (x2 − x)2 + ... + np (xp − x)2
1 X
=
ni (xi − x)2 (moyenne des carrés des écarts).
n1 + n2 + ... + np
N
i=1
On note s =
√
V l’écart type de la série.
Théorème 1
La variance peut aussi se calculer des deux manières suivantes :
(1) V =
p
X
i=1
p
1 X
(2) V =
ni x2i − x2 .
N
2
fi (xi − x) .
i=1
Démonstration
(1) V =
(2) V =
p
p
p
X
X
ni
1 X
fi (xi − x)2 ;
(xi − x)2 =
ni (xi − x)2 =
N i=1
N
i=1
i=1
p
p
p
p
p
1 X
1 X
1 X
1 X
1 X
ni (xi − x)2 =
ni (x2i − 2xi x + x2 ) =
ni x2i − 2x
ni xi +x2
ni .
N i=1
N i=1
N i=1
N i=1
N i=1
|
| {z }
{z
}
x
N
p
p
1 X
1 X
ni x2i − 2x2 + x2 =
ni x2i − x2 .
V =
N i=1
N i=1
Remarque : Dans la pratique, on utilise la formule (2) pour calculer la variance.
4 - Lycée Pierre-Gilles de Gennes
Première S
Chapitre 4 - Statistiques
Exemple 2
Une équipe de football dresse le bilan de sa dernière saison :
Nombre de buts marqués par match
Nombre de matchs
0
17
1
23
2
13
3
7
4
4
5
1
17 × 0 + 23 × 1 + 13 × 2 + 7 × 3 + 4 × 4 + 1 × 5
91
=
= 1, 4.
17 + 23 + 13 + 7 + 4 + 1
65
La variance est :
2
91
8281
6474
227
1
2
2
2
2
2
2
(17 × 0 + 23 × 1 + 13 × 2 + 7 × 3 + 4 × 4 + 1 × 5 ) −
−
=
≃ 1, 53.
=
V =
65
65
91
4225
4225
r
√
6474
6474
Donc, l’écart-type est s =
=
≃ 1, 24.
4225
65
Le nombre moyen de buts marqués par match est : x =
Théorème 2
(1) La moyenne x est la valeur qui minimise la fonction de dispersion des carrés des écarts, notée d,
p
X
définie par : d(x) =
ni (xi − x)2 .
i=1
(2) La médiane M e est la valeur qui minimise la fonction de dispersion des écarts absolus, notée f et
p
X
définie par f (x) =
ni |xi − x| oà x1 < x2 < ... < xp .
i=1
Remarque : L’écart type, contrairement à la variance, possède la même unité que les valeurs de la série, il
permet de mesurer la dispersion de la série autour de la moyenne.
III - Résumé d’une série statistique
Résumer une série, c’est indiquer la répartition des données en utilisant différents indicateurs. Deux questions
peuvent alors être posées :
• Autour de quelle valeur centrale les données sont-elles réparties ?
• Quelle est l’importance de la dispersion des données autour de cette valeur centrale ?
On utilise habituellement un paramètre de position indiquant un tendance centrale et un paramètre de dispersion.
Ainsi pour résumer une série, on peut déterminer puis, interpréter suivant l’étude désirée, l’un des couples définis
dans le tableau ci-dessous :
Paramètre de tendance centrale
médiane : M e
moyenne : x
Paramètre de dispersion
écart interquartile : Q3 − Q1
écart-type : s
5 - Lycée Pierre-Gilles de Gennes
Propriété
peu sensible aux valeurs extrêmes
sensible aux valeurs extrêmes
Téléchargement