T STT G Statistiques

publicité
Statistique à une variable
(Rappel de 1° ES )
I. Vocabulaire
Une étude statistique porte sur un ensemble ( de personnes, d’animaux, d’objets, … ) appelé
population.
Chaque élément de la population est un individu.
L’aspect étudié est nommé caractère ou variable.
Les résultats obtenus après observation donnent une série statistique.
Il existe des séries à une ou plusieurs variables.
Lorsque les variables prennent des valeurs numériques ( exemple : notes, tailles, âges, … ), les
variables sont dites quantitatives (si la variable prend n’importe quelle valeur dans un intervalle
donné, la variable est dite continue , si elle prend des valeurs isolées, la variable est dite discrète)
Dans le cas contraire, les variables sont dites qualitatives (nationalité, couleurs, … ) ; les
différentes possibilités du caractère sont appelées modalités ( la commune de résidence pour des
élèves de première fréquentant un lycée … ).
II. Statistiques à une variable
1) Vocabulaire :
Un atelier conditionne du fil sous forme de bobines. Une série de 50 mesures a donné le tableau
suivant, où xi désigne la masse d’une bobine en grammes.
xi
496
497
498
499
500
501
502
503
504
Effectif ni
1
3
12
10
5
9
5
3
2
L’effectif total, noté N, est le nombre d’individus de la population étudiée. Ici, N = 50.
p
On a : N  n1  n2  ...  n p   ni .
i 1
Le nombre d’individus pour lesquels la variable prend une valeur ( ou modalité ) est l’effectif de
cette valeur, noté ni . Ici, n1 = 1 ; n2 = 3 ; …
La fréquence, notée fi, d’une valeur de la variable est le quotient de l’effectif de cette valeur par
1
l’effectif total. Ici, f1 =
;…
50
Si la variable est quantitative, l’effectif cumulé croissant d’une valeur xi ( ou fréquence cumulée
croissante) est égale à la somme des effectifs ( ou fréquences ) des valeurs inférieures ou égales à
x i.
xi
496
497
498
499
500
501
502
503
504
Effectifs cumulés
1
4
16
26
31
40
45
48
50
croissants
2) Représentations graphiques
Diagramme en bâtons : Il est formé de bâtons dont l’abscisse est la valeur xi et la hauteur l’effectif
ni.
Histogramme : Lorsque les valeurs sont regroupées en classes, on représente la série par des
rectangles de base chacune des classes et dont l’aire est proportionnelle à l’effectif de la classe.
Diagramme cumulatif : Lorsque la série est regroupée en classes, le diagramme des effectifs
cumulés croissants est formé des segments reliant les points ayant pour abscisse l’extrémité xi de
chaque classe, et pour ordonnée Ni, l’effectif cumulé croissant de la valeur xi.
3) Paramètres de position
Dans le cas d’une série regroupée en classes, les calculs suivants s’effectuent en remplaçant
chaque valeur xi par le centre de chaque classe.
1
a) Le mode
Le mode est la valeur du caractère qui a le plus grand effectif.
Dans un cas de variable continue, on parle de classe modale, le mode étant alors le centre de la
classe.
Dans l’exemple, le mode est 498 ( 12 est le plus grand effectif )
b) La médiane
La médiane est la valeur qui sépare la population en deux sous-ensembles de même effectif.
C’est la valeur qui correspond à la fréquence cumulée croissante égale à 50 %.
Dans l’exemple, la médiane est 499 ( l’effectif total est 50 ; le 26ème élément a une valeur de 499 )
c) Les Quartiles
L’idée générale est de partager la population en quatre parties de même effectif.
Etant donné une série statistique de médiane M dont la liste des valeurs est rangée dans l’ordre
croissant (il s’agit de la même liste que celle qu’on utilise pour déterminer la médiane).
En coupant la liste en deux sous-séries de même effectif (Attention : quand l’effectif total est
impair, la médiane ne doit pas être incluse dans les sous-séries) :
• On appelle premier quartile le réel noté Q1 égal à la médiane de la sous-série inférieure.
• On appelle troisième quartile le réel noté Q3 égal à la médiane de la sous-série supérieure.
• L’écart interquartile est égal à Q3−Q1.
• ]Q1;Q3[ est appelé intervalle interquartile.
d) Diagramme en boîtes.
Le diagramme en boîtes d’une série statistique se construit alors de la façon suivante :
(les valeurs du caractère sont en abscisse - min et max représentent les valeurs minimales et
maximales du caractère)
I Interprétation :
• 25% de la population admet une valeur du caractère entre min et Q1
• 25% de la population admet une valeur du caractère entre Q1 et M
• 25% de la population admet une valeur du caractère entre M et Q3
• 25% de la population admet une valeur du caractère entre Q3 et max
e) La moyenne
La moyenne est le nombre x tel que : x =
n1x1+n2x2+…+npxp
1
=
N
N
p
n x .
i 1
i i
Dans l’exemple, la moyenne est 499,78 :
496 1  497  2  ...  504  4 24989
x =

 499,78
50
50
4) Paramètres de dispersion
a) L’étendue
L’étendue d’une série statistique est la différence entre la plus grande valeur et la plus petite
valeur prise par le caractère.
Dans l’exemple, l’étendue est 8 ( 504 – 496 = 7 )
b) La variance
2
La variance, notée V, est la moyenne des carrés des écarts entre les valeurs du caractère et la
moyenne x . Elle est telle que :
p
 ni ( x  xi )2
p
n x
2
i i
= i 1
 x2
N
N
Variance = moyenne des carrés – carré de la moyenne
Dans l’exemple, la variance est :
xi
496
497
498
499
500
501
Effectif
1
3
12
10
5
9
ni
24601 24700 24800 24900 25000 25100
xi2
6
9
4
1
0
1
24601 74102 29760 24900 12500 22590
ni xi2
6
7
48
10
00
09
V=
V=
i 1
502
503
504
Total
5
3
2
50
25200
4
12600
20
25300
9
75902
7
25401
6
50803 1248918
2
9
12489189
–499,78² = 3,7316
50
c) L’écart type
L’écart type, noté  , est la racine carrée de la variance σ = V
Dans l’exemple, l’écart-type est :
 = V  1,93
3
Téléchargement