SERIE STATISTIQUE A UNE VARIABLE

publicité
Cahier de statistique
Ce document sera complété par des exemples, des exercices d’application, des expériences et des simulations à l’aide de la calculatrice et
un tableur. Cette production pourrait être continuée en première et en terminale. Garder soigneusement ce document et ces annexes.
SERIE STATISTIQUE A UNE VARIABLE
1. Vocabulaire.
Une statistique désigne d'une part un recueil de données concernant une population
et d'autre part les méthodes de traitement et d’interprétation de ces données.
1.1 La population est l'ensemble des individus sur lesquels vont porter les observations
( ensembles d’objets, de personnes, d’entreprises, de machines, d’animaux...).
Chaque élément de cette population est appelé individu.
Le nombre total d’individus de la population s’appelle effectif total de la population
1.2 L'échantillon est un sous ensemble de la population.
1.3 Le caractère statistique ou la variable statistique est la propriété étudiée.
Un caractère peut être qualitatif : une marque de produit, le sport pratiqué, le groupe sanguin
ou quantitatif : la taille, le salaire, le nombre d'enfants d'une famille...
Un caractère est discret s'il ne prend que des valeurs isolées : le nombre d'enfants d'une famille.
Un caractère est continu s'il peut prendre toutes les valeurs dans un intervalle donné partagé en classes.
2. Série statistique quantitative
Une série statistique quantitative se présente sous forme de tableau dans lequel figure les valeurs du caractère et les
effectifs correspondants.
Exemple 1
Nombre d’enfants par famille
0
1
2
3
4
5
6
Effectif
7
10
13
9
6
4
1
Lorsque le caractère est continu, la série sera présentée par classes de valeurs.
Une classe est un intervalle pour lequel un sous ensemble de la population correspond à une valeur ou à des valeurs
voisines prises par le caractère. ( les intervalles n’ont pas forcément la même amplitude).
Exemple 2
Nombre d’exploitations
29
35
60
31
45
Superficie en ha
[0 ; 5[
[5 ; 10[
[10 ; 30[
[30 ; 40[
[40 ; 60[
Présentation générale d’une série statistique :
Valeurs du caractère ou
centres des classes xi
effectifs : ni
Le centre de la classe [ a ; b [ est
x1
x2
…
…
xp
n1
n2
…
…
np
a+b
par exemple le centre de la classe [30 ; 40 [ est
2
L'effectif total de la série est la somme des effectifs de toutes les valeurs possibles de xi,
N = nI + n2 + n3 +…. + np
N.M.
page 1
Cahier de statistique
3. Fréquences
 La fréquence d'une valeur (ou d’une modalité) est égale au quotient de l'effectif de la valeur par l’effectif total
de la population.
n
La fréquence d’une valeur xi est fi = i
N
La fréquence s’exprime sous forme fractionnaire, décimale ou sous forme de pourcentage.
Dans l'exemple 1 la fréquence de la valeur 4 est
6
= 0,12 soit 12%.
50
 Propriétés de la fréquence :
Une fréquence est un nombre compris entre 0 et 1.
i=p
La somme de toutes les fréquences est égale à 1, on note  f i et on lit : « somme de i égal 1 à p des fi »
i=1
 Fréquences cumulées croissantes et fréquences cumulées décroissantes
Les fréquences cumulées croissantes s’obtiennent en ajoutant au fur et à mesure les fréquences.
Les fréquences cumulées décroissantes s’obtiennent en partant de 1 et en retranchant au fur et à mesure les
fréquences successives.
Exemple 3
Compléter le tableau ci-dessous :
Superficie en ha
Nombre
d’exploitations ni
3
7
5
10
9
13
12
9
15
1
20
7
25
3
TOTAL
50
Fréquence fi
0,14
0,20
0,26
0,18
0,02
0,14
0,06
1
Fréquences cumulées Fréquences cumulées
croissantes
décroissantes
0,14
1
0,34
0,86
0,6
0,66
0,78
0,4
0,8
0,22
0,94
0,2
1
0,06
Quel est le pourcentage d’exploitations ayant moins de 15 ha de superficie (strictement) ?
0,78  100 = 78. 78% des exploitations ont une superficie de strictement moins de 15ha.
Quel est le pourcentage d’exploitations ayant plus de 9 ha de superficie ?
0,66  100 = 66. 66% des exploitations ont une superficie de plus de 9ha.
4. Exemples de série statistique qualitative
Pour une série statistique qualitative le caractère n’est pas mesurable. On parle dans ce cas d’une modalité.
Exemple 4
Activités sportives
Effectifs
N.M.
Tennis
120
Natation
152
page 2
Equitation
66
Rugby
180
Marche
250
Cahier de statistique
5. Représentations graphiques
Il existe différentes sortes de représentations :
 Diagrammes en secteurs ( ou « camembert »), qui sont des disques partagés en secteurs dont l’angle au centre
est proportionnel à l’effectif de chaque classe.
 Diagrammes en bâtons (ou en barres), formés de barres dont l’abscisse est xi et de hauteur proportionnelle à ni
ou à fi.
 Histogrammes, lorsque les valeurs sont regroupées en classes.
On construit des rectangles ayant pour bases chacune des classes et une aire proportionnelle à l’effectif.
 Polygones des effectifs. Polygones des effectifs cumulés.
 Polygones des fréquences. Polygones des fréquences cumulées…
5.1 Cas d’un caractère discret
Les variables discrètes sont représentées par des diagrammes en bâtons.
Exemple 5
Notes du devoir
Nombre d’élèves
5
4
8
7
10
9
12
8
15
2
Construire le diagramme en bâtons.
N.M.
page 3
Cahier de statistique
5.2 Cas d’un caractère continu
Les variables continues sont représentées par des histogrammes (ou diagrammes en surface) :
l’aire de chaque rectangle est proportionnelle à l’effectif ( ou à la fréquence).
On peut également tracer les polygones des effectifs (ou des fréquences) croissants et décroissants.
Exemple 7:
Superficie
en ha
Largeur de la
classe
[0 ; 5[
[5 ; 10[
[10 ; 30[
[30 ; 40[
[40 ; 60[
TOTAL
5
5
20
10
20
Nombre
d’exploitations
ni
29
35
60
31
45
200
Hauteur du
rectangle
29
35
15
15,5
11,25
Effectifs
cumulés
croissants
29
64
124
155
200
Effectifs
cumulés
décroissants
200
171
136
76
45
1) Tracer l'histogramme représentant cette série.
N.M.
page 4
Cahier de statistique
2) Compléter le tableau puis tracer les polygones des effectifs cumulés croissants et décroissants
6. Caractéristiques de dispersion
6. 1 L'étendue de la série est la différence entre la plus grande et la plus petite valeur du caractère.
Exemples : Dans l’exemple 1, l’étendue est 6 – 0 = 6
, dans l’exemple 2, l’étendue est 60 – 0 = 60
7. Caractéristiques de tendance centrale.
7.1 Le mode Le mode est la valeur du caractère qui a le plus grand effectif.
Pour le cas continu, c'est le centre de la classe modale.
Exemples : Dans l’exemple 1, le mode est : 2 car l'effectif le plus élevé est 13.
Dans l’exemple 2, la classe modale est : [ 5 ; 10 [ car le rectangle correspondant sur
l'histogramme est le plus haut ( donc l'effectif relativement à la largeur de la classe
est le plus grand )
7.2 La moyenne
Valeurs du caractère ou
centres des classes x
effectifs : ni
x1
x2
…
…
xp
n1
n2
…
…
np
La moyenne arithmétique de la série ou de l'échantillon sera notée 
x
i =p
 ni xi
n
x
+
n
x
+
…
+
n
x
i=1

1 1
2 2
p p
x =
=
N
N

Cette formule est équivalente à : x = f1 x1 + f2 x2 + … + fp xp =
i =p
 fi xi
où
fi est la fréquence de xi .
i=1
N.M.
page 5
Cahier de statistique
Exemple 8 : Reprendre l’exemple 3, compléter le tableau suivant puis calculer la superficie moyenne.
Superficie en ha
xi
Nombre
d’exploitations ni
Fréquence fi
f i xi
ni x i
3
5
7
10
0,14
0,20
0,42
1
21
50
9
12
13
9
0,26
0,18
2,34
2,16
117
108
15
20
1
7
0,02
0,14
0,3
2,8
15
140
25
TOTAL
3
50
0,06
1
1,5
10,52
75
526
La superficie moyenne est : 10,52 ou
526
= 10,52.
50
Exemple 9 : Compléter le tableau puis calculer la moyenne de la série statistique
Superficie
en ha
[0 ; 5[
[5 ; 10[
[10 ; 30[
[30 ; 40[
[40 ; 60[
TOTAL
Nombre
d’exploitations
ni
29
35
60
31
45
200
Centre de la
classe
xi
2,5
7,5
20
35
50
Produit
nixi
72,5
262,5
1200
1085
2250
4870
x
487
 4870
=
= 24,35
200
20
Utilisation de la calculatrice
 Utiliser la calculatrice pour retrouver les moyennes dans les exemples 6 et 7 .
 Linéarité de la moyenne :
1. Lorsqu’on ajoute ( ou en retranche ) un même nombre k à chacune des valeurs du caractère, sans changer les
effectifs, la moyenne augmente ( ou diminue) de k.
2. Lorsqu’on multiplie chacune des valeurs du caractère par un même nombre k, sans changer les effectifs, la
moyenne est multipliée par k.
Exemple 10 :
Dans une boutique la moyenne des prix est de 12 €. Si le commerçant décide d’augmenter tous les prix de 1 €
alors le prix moyen dans cette boutique sera de 13 €.
Si maintenant le commerçant décide d’augmenter tous les articles de 10%, alors le prix moyen sera multiplié
par 1,1 car : 13 + 1310%  13(1 + 0,1)  131,1. Donc le prix moyen sera égal à 14,30€.
 Moyenne à partir des moyennes de sous- groupes.
On considère une série statistique constituée de deux sous groupes disjoints.
Le premier groupe a pour effectif n et pour moyenne x .
Le second groupe a pour effectif p et pour moyenne y .

La moyenne de la série statistique est donnée par la formule : m =
N.M.
page 6

nx + p y
n+p
Cahier de statistique
Exemple 11 :
Dans une classe de terminale S, la moyenne générale de 14 élèves ayant choisi la spécialité Maths est de 11,4
et la moyenne générale des 20 élèves ayant choisi la spécialité SVT est de 10,2.
Quelle est la moyenne générale de la classe ?

x
=
14  11,4 + 20  10,2 363,6
=
 10,7 La moyenne générale de la classe est 10,7.
34
34
7.3 La médiane est la valeur du caractère qui partage la série en deux parties de même effectif.
Propriété : La médiane d’une série statistique, notée Me est le nombre tel que :
50% au moins des individus ont une valeur du caractère inférieure ou égale à ce nombre.
50% au moins des individus ont une valeur du caractère supérieure ou égale à ce nombre.
 Cas d’un caractère quantitatif discret
Pour déterminer la médiane d’une série statistique discrète, il suffit de ranger les valeurs du caractère par
ordre croissant, chacune des valeurs figurant un nombre de fois égal à son effectif.
- Si le nombre de données est impair, la médiane est la valeur du milieu.
- Si le nombre de données est pair, la médiane est la demi-somme des deux termes du milieu.
On considère la liste des prix en euros 4 ; 5 ; 8 ; 10 ; 12 ; 13 ; 14 ; 16 ; 17.
L’effectif est 9 (impair) la médiane est la 5 ème valeur. La médiane est 12.
On considère la liste des prix en euros 4 ; 5 ; 8 ; 10 ; 11 ; 11 ; 12 ; 13 ;13 ; 14 ; 16 ; 17.
L’effectif est 12 (pair) la médiane est la demi-somme de la 6ième et la 7ième valeur.
La médiane est égale à
11  12
 11,5 .
2
Méthode :
Soit n est le nombre total des données qu’on ordonne par ordre croissant
- Si n est impair, n = 2p + 1, alors la médiane est le terme du milieu c’est à dire le terme de rang p + 1.
- Si n est pair, n = 2p, alors la médiane est la demi-somme des deux termes de rangs p et p+1.
 Cas d’un caractère quantitatif continu
On peut déterminer graphiquement la médiane en utilisant le polygone des effectifs cumulés ou le polygone des
fréquences cumulées.
Avec les effectifs cumulés :
La médiane est l’abscisse du point du polygone des effectifs cumulés dont l’ordonnée est égale à
N
.
2
Avec les fréquences cumulées :
La médiane est l’abscisse du point du polygone des fréquences cumulées dont l’ordonnée est égale à 0,5.
N.M.
page 7
Cahier de statistique
Exemple 12 :
Superficie
en ha
[0 ; 5[
[5 ; 10[
[10 ; 30[
[30 ; 40[
[40 ; 60[
TOTAL
Nombre
d’exploitations
ni
29
35
60
31
45
200
Fréquences
fi
0,145
0,175
0,3
0,155
0,225
Fréquences
cumulées
croissantes
0,145
0,32
0,62
0,775
1
Compléter le tableau, tracer le
polygone des fréquences
cumulées croissantes puis trouver
graphiquement la valeur de la
médiane.
7.4 Les quartiles
-1er quartile: c'est le plus petit élément Q1 des valeurs des termes de la série tel qu'au moins 25% des
données soient inférieures ou égales à Q1
-3ème quartile: c'est le plus petit élément Q3 des valeurs des termes de la série tel qu'au moins 75% des
données soient inférieures ou égales à Q3
Exemple :
On considère la liste des prix en euros 4 ; 5 ; 8 ; 10 ; 12 ; 13 ; 14 ; 16 ; 17.
L’effectif est 9 .
9
= 2,25 donc Q1 est la 3è valeur donc Q1 = 8.
4
2,25  3 = 6,75 donc Q3 est la 7è valeur donc Q3 = 14.
Remarque : Q2 est la médiane.
L’intervalle interquartile est [Q1,Q3]
L‘ écart interquartile est la différence Q = Q3 – Q1, il mesure la dispersion donc plus Q est grand plus la
série est dispersée, il ne dépend pas de valeurs extrêmes.
On peut lire les quartiles sur le polygone des effectifs ( ou des fréquences ) cumulés croissants.
N
.
4
3N
Q3 est l’abscisse du point du polygone des effectifs cumulés dont l’ordonnée est égale à
.
4
Q1 est l’abscisse du point du polygone des effectifs cumulés dont l’ordonnée est égale à
Q1 est l’abscisse du point du polygone des fréquences cumulées dont l’ordonnée est égale à 0,25.
Q3 est l’abscisse du point du polygone des fréquences cumulées dont l’ordonnée est égale à 0,75.
N.M.
page 8
Cahier de statistique
8. Fluctuation d’échantillonnage - Simulation
 Expérience aléatoire
Une expérience aléatoire est une expérience pour laquelle il est impossible de prévoir le résultat : celui-ci dépend
du hasard. Voici des exemples :
- Lancer une pièce de monnaie et s’intéresser à la face visible. Résultats possibles : Pile, Face.
- Lancer un dé et s’intéresser à la face supérieure : Résultats possibles 1 ; 2 ; 3 ; 4 ; 5 ou 6.
 Echantillon statistique
Soit une série statistique formée des résultats d’une expérience, réalisée n fois, dans les mêmes conditions.
Cette série constitue un échantillon statistique de taille n.
 Distribution des fréquences
La distribution des fréquences associée à un échantillon est la liste des fréquences des issues de l’échantillon.
Exemple 13 : On lance un dé numéroté de 1 à 6, bien équilibré, et on lit le chiffre qui apparaît sur la face
supérieure. Si on répète ce lancer 20 fois, on obtient un échantillon de taille 20.
 Simulation
 A l’aide de la calculatrice TI, pour lancer un dé, on peut utiliser la procédure suivante :
 Nouvelles calculettes :
La fonction " NbrAléatEnt " permet d’obtenir un entier aléatoire.
Pour l’obtenir, faire : MATH , PRB, puis 5:NbrAléatEnt(
NbrAléatEnt( entier inférieur, entier supérieur, nombre d'entiers )
Utiliser cette instruction pour simuler 20 lancers successifs d’un dé équilibré numéroté de 1 à 6, puis
compléter le tableau suivant :
NbrAléatEnt ( 1 , 6 , 20 )
L1 permet de stocker les résultats dans la liste L1
Faire classer ensuite la liste dans l'ordre croissant et remplir le tableau des effectifs.
Chiffre de la face supérieure
Effectif
Fréquence
1
2
3
4
5
6
Comparer les résultats des différents élèves de la classe. Que remarque-t-on ?
On constate que tous les élèves n’ont pas les mêmes résultats.
On dit que pour des échantillons de même taille les fréquences peuvent fluctuer.
 Fluctuation d’échantillonnage
Les distributions des fréquences varient d’un échantillon à l’autre pour une même expérience :
c’est ce qu’on appelle la fluctuation d’échantillonnage.
1
1
On démontre que l'intervalle de fluctuation des fréquences à 95% est [ p –
;p+
]
n
n
avec p la probabilité de l'événement étudié et n le nombre d'expériences faites.
Il faut aussi que n  25 et 0,2  p  0,8
Exemple 14 : ( Chaque élève doit réaliser ses expériences à la maison )
Reprendre l’exemple précédent pour simuler 50 lancers successifs puis 100 puis 200 puis 500 du même dé.
Reproduire dans des tableaux différents les distributions des fréquences pour chaque cas.
Que remarque-t-on ?
Conclusion : Lorsque la taille n de l’échantillon augmente, l’ampleur des fluctuations des distributions des
fréquences calculées sur ces échantillons diminue et les fréquences tendent à se stabiliser. En effet, dans ce cas, la
largeur de l'intervalle de fluctuation diminue.
N.M.
page 9
Cahier de statistique
Téléchargement