serie statistique a une variable

publicité
Nom de l’élève :
Cahier de statistique
Classe :
Ce document sera complété par des exemples, des exercices d’application, des expériences et des simulations à l’aide de la calculatrice et un
tableur. Cette production pourrait être continuée en première et en terminale.Garder soigneusement ce document et ces annexes.
SERIE STATISTIQUE A UNE VARIABLE
1. Vocabulaire.
Une statistique désigne d'une part un recueil de données concernant une population et d'autre part les méthodes de
traitement et d’interprétation de ces données.
1.1 La population est l'ensemble des individus sur lesquels vont porter les observations ( ensembles d’objets, de
personnes, d’entreprises, de machines, d’animaux...). Chaque élément de cette population est appelé individu. Le
nombre total d’individus de la population s’appelle effectif total de la population
1.2 L'échantillon est un sous ensemble de la population.
1.3 Le caractère statistique ou la variable statistique est la propriété étudiée.
Un caractère peut être qualitatif une marque de produit, le sport pratiqué, le groupe sanguin
il peut être quantitatif : la taille, le salaire, le nombre d'enfants d'une famille...
Un caractère est discret s'il ne prend que des valeurs isolées : le nombre d'enfants d'une famille.
Un caractère est continu s'il peut prendre toutes les valeurs dans un intervalle donné partagé en classes.
2. Série statistique quantitative
Une série statistique quantitative se présente sous forme de tableau dans lequel figure les valeurs du caractère et les
effectifs correspondants.
Exemple 1
Nombre d’enfants par famille
0
1
2
3
4
5
6
Effectif
7
10
13
9
6
4
1
Lorsque le caractère est continu, la série sera présentée par classes de valeurs. Une classe est un intervalle pour lequel
un sous ensemble de la population correspond à une valeur ou à des valeurs voisines prises par le caractère. ( les
intervalles n’ont pas forcément la même amplitude).
Exemple 2
Nombre d’exploitations
29
35
60
31
45
Superficie en ha
[0 ; 5[
[5 ; 10[
[10 ; 30[
[30 ; 40[
[40 ; 60[
Présentation générale d’une série statistique :
Valeurs du caractère ou
centres des classes xi
effectifs : ni
le centre de la classe [ a ; b [ est
x1
x2
…
…
xp
n1
n2
…
…
np
a b
par exemple le centre de la classe [30 ; 40[ est 35
2
L'effectif total de la série est la somme des effectifs de toutes les valeurs possibles de xi,
N = nI +n2+n3+…. np
3. Fréquences
 La fréquence d'une valeur (ou d’une modalité) est égale au quotient de la valeur par l’effectif total de la
population.
ni
La fréquence d’une valeur xi est f i
N
La fréquence s’exprime sous forme fractionnaire, décimale ou sous forme de pourcentage.
N.M.
page 1
Cahier de statistique
 Propriétés de la fréquence :
Une fréquence est un nombre compris entre 0 et 1.
La somme de toutes les fréquences est égale à 1, on note
i p
fi
1 et on lit : « somme de i égal 1 à p des fi »
i 1
 Fréquences cumulées croissantes et fréquences cumulées décroissantes
Les fréquences cumulées croissantes s’obtiennent en ajoutant au fur et à mesure les fréquences.
Les fréquences cumulées décroissantes s’obtiennent en partant de 1 et en retranchant au fur et à mesure les fréquences
successives.
Exemple 3
Compléter le tableau ci-dessous :
Superficie en ha
Nombre
Fréquence fi
Fréquences cumulées Fréquences cumulées
d’exploitations ni
croissantes
décroissantes
3
5
7
10
0,14
0,20
9
12
13
9
0,26
15
20
1
7
0,14
0,34
1
0,86
25
3
1
TOTAL
50
1
Quel est le pourcentage d’exploitations ayant moins de 15 ha de superficie (strictement) ?
Quel est le pourcentage d’exploitations ayant plus de 9 ha de superficie ?
0,06
4. Exemples de série statistique qualitative
Pour une série statistique qualitative le caractère n’est pas mesurable. On parle dans ce cas d’une modalité.
Exemple 4
Activités sportives
Effectifs
Tennis
120
Natation
152
Equitation
66
Rugby
180
Marche
250
5. Représentations graphiques
Il existe différentes sortes de représentations :
Diagrammes en secteurs ( ou « camembert »), qui sont des disques partagés en secteurs dont l’angle au centre
est proportionnel à l’effectif de chaque classe.
Diagrammes en bâtons (ou en barres), formés de barres dont l’abscisse est xi et de hauteur proportionnelle à ni ou
à fi.
Histogrammes, lorsque les valeurs sont regroupées en classes. On construit des rectangles ayant pour bases
chacune des classes et une aire proportionnelle à l’effectif.
Polygones des effectifs. Polygones des effectifs cumulés.
Polygones des fréquences. Polygones des fréquences cumulées…
5.1 Cas d’un caractère discret
Les variables discrètes sont représentées par des diagrammes en bâtons
Exemple 5
Notes du devoir
Nombre d’élèves
5
4
8
7
10
9
12
8
15
2
Construire sur une feuille annexe le diagramme en bâtons.
N.M.
page 2
Cahier de statistique
Exemple 6
Les graphiques ci-dessous sont réalisés à l’aide d’un tableur Excel. Vous pouvez les reproduire à l’aide de ce tableur ou
un autre logiciel de votre choix.
La recette journalière, en euros, d'un marchand de glaces pendant une période de
trois mois donnent les résultats suivants:
Recettes
Effectifs
xi
ni
Fréquences
Fréquences
fi en % cum. croissantes
50
3
3,33
3,33
60
10
11,11
14,44
70
15
16,67
31,11
80
18
20,00
51,11
90
24
26,67
77,78
100
15
16,67
94,45
110
3
3,33
97,78
100,00
120
2
2,22
TOTAL
90
100,00
Effectifs
110120 50
60
100
70
Effectifs
30
20
10
0
90
80
80
90
10
0
11
0
12
0
60
70
Xi
50
Effectifs
Titre du graphique
Polygone des
effectifs
30
25
20
Effectifs
15
10
5
0
50
60
70
80
90
100
110
120
5.2 Cas d’un caractère continu
Les variables continues sont représentées par des histogrammes (ou diagrammes en surface) :
l’aire de chaque rectangle est proportionnelle à l’effectif ( ou à la fréquence).
N.M.
page 3
Cahier de statistique
50
60
70
80
90
100
110
120
Exemple 7
Superficie
en ha
Nombre
d’exploitations
ni
29
35
60
31
45
200
[0 ; 5[
[5 ; 10[
[10 ; 30[
[30 ; 40[
[40 ; 60[
TOTAL
Histogramme
8
7
6
5
35
4
3
29
2
60
31
45
1
0
00
5
10
30
20
40
60
50
6. Caractéristiques de tendance centrale.
6.1 Le mode est la valeur du caractère qui a le plus grand effectif.
Pour le cas continu, c'est le centre de la classe modale.
Exemples : Dans l’exemple 1, le mode est :
Dans l’exemple 2, la classe modale est :
6.2 La moyenne
Valeurs du caractère ou
centres des classes x
effectifs : ni
x1
x2
…
…
xp
n1
n2
…
…
np
La moyenne arithmétique de la série ou de l'échantillon sera notée x
i p
x
ni xi
n1 x1 n2 x2 ... n p x p
i 1
N
N
Cette formule est équivalente à :
p
x
f i xi
f1 x1
f 2 x2
f 3 x3 .............
f p xp
où fi est la fréquence de xi .
i 1
N.M.
page 4
Cahier de statistique
Exemple 8 : Reprendre l’exemple 3, compléter le tableau suivant puis calculer la superficie moyenne.
Superficie en ha
xi
3
5
9
12
15
20
25
TOTAL
Nombre
d’exploitations ni
7
10
13
9
1
7
3
50
Fréquence fi
f i xi
ni xi
0,14
0,20
0,26
1
la superficie moyenne est :………………………………………………………………………….
Exemple 9 : Compléter le tableau puis calculer la moyenne de la série statistique
Superficie
en ha
[0 ; 5[
[5 ; 10[
[10 ; 30[
[30 ; 40[
[40 ; 60[
TOTAL
Nombre
d’exploitations
ni
29
35
60
31
45
Centre de la
classe
xi
Produit
nixi
x
Utilisation de la calculatrice
 Utiliser la calculatrice pour retrouver les moyennes dans les exemples 6 et 7 .
Voir livre modulo seconde, pages 176 et 177, pour les fonctions statistiques d’une calculatrice.
Linéarité de la moyenne :
1. Lorsqu’on ajoute ( ou en retranche ) un même nombre k à chacune des valeurs du caractère, sans changer les
effectifs, la moyenne augmente ( ou diminue) de k.
2. Lorsqu’on multiplie chacune des valeurs du caractère par un même nombre k, sans changer les effectifs, la
moyenne est multipliée par k.
Exemple 10 :
Dans une boutique la moyenne des prix est de 12 €. Si le commerçant décide d’augmenter tous les prix de 1 € alors le
prix moyen dans cette boutique sera de 13 €.
Si maintenant le commerçant décide d’augmenter tous les articles de 10%, alors le prix moyen sera multiplié par 1,1
car : 13 + 13 10% 13 (1 + 0,1) 13 1,1. Donc le prix moyen sera égal à 14,30€.
Moyenne à partir des moyennes de sous- groupes.
On considère une série statistique constituée de deux sous groupes disjoints.
Le premier groupe a pour effectif n et pour moyenne x .
Le second groupe a pour effectif p et pour moyenne y .
La moyenne de la série statistique est donnée par la formule : m
nx
n
py
p
Exemple 11 :
Dans une classe de terminale S, la moyenne générale de 14 élèves ayant choisi la spécialité Maths est de 11,4 et la
moyenne générale des 20 élèves ayant choisi la spécialité SVT est de 10,2.
Quelle est la moyenne générale de la classe ?
N.M.
page 5
Cahier de statistique
6.3 La médiane est la valeur du caractère qui partage la série en deux parties de même effectif.
Propriété : La médiane d’une série statistique, notée Me est le nombre tel que :
50% au moins des individus ont une valeur du caractère inférieure ou égale à ce nombre.
50% au moins des individus ont une valeur du caractère supérieure ou égale à ce nombre.
Cas d’un caractère quantitatif discret
Pour déterminer la médiane d’une série statistique discrète, il suffit de ranger les valeurs du caractère par ordre
croissant, chacune des valeurs figurant un nombre de fois égal à son effectif.
- Si le nombre de données est impair, la médiane est la valeur du milieu.
- Si le nombre de données est pair, la médiane est la demi-somme des deux termes du milieu.
On considère la liste des prix en euros 4 ; 5 ; 8 ; 10 ; 12 ; 13 ; 14 ; 16 ; 17.
L’effectif est 9 (impair) la médiane est la 5 ème valeur. La médiane est 12.
On considère la liste des prix en euros 4 ; 5 ; 8 ; 10 ; 11 ; 11 ; 12 ; 13 ;13 ; 14 ; 16 ; 17.
L’effectif est 12 (pair) la médiane est la demi-sommee de la 6ième et la 7ième valeur. La médiane est égale à
11 12
2
11,5 .
Méthode :
Soit n est le nombre total des données qu’on ordonne par ordre croissant
- Si n est impair, n = 2p + 1, alors la médiane est le terme du milieu c’est à dire le terme de rang p + 1.
- Si n est pair, n = 2p, alors la médiane est la demi-somme des deux termes de rangs p et p+1.
Cas d’un caractère quantitatif continu
On peut déterminer graphiquement la médiane en utilisant le polygone des effectifs cumulés ou le polygone des
fréquences cumulées.
Avec les effectifs cumulés :
La médiane est l’abscisse du point du polygone des effectifs cumulés dont l’ordonnée est égale à
N
.
2
Avec les fréquences cumulées :
La médiane est l’abscisse du point du polygone des fréquences cumulées dont l’ordonnée est égale à 0,5.
Exemple 12 :
Superficie
en ha
[0 ; 5[
[5 ; 10[
[10 ; 30[
[30 ; 40[
[40 ; 60[
TOTAL
Nombre
d’exploitations
ni
29
35
60
31
45
200
Fréquences
fi
Fréquences
cumulées
croissantes
Compléter le tableau, tracer le
polygone des fréquences
cumulées croissantes puis trouver
graphiquement la valeur de la
médiane.
1
0,8
0,6
0,4
0,2
0
N.M.
5
10
15
20
25
page 6
30
35
40
45
50
55
60
Cahier de statistique
6.4 Les quartiles
-1er quartile: c'est le plus petit élément Q1 des valeurs des termes de la série tel qu'au moins 25% des données
soient inférieures ou égales a Q1
-3ème quartile: c'est le plus petit élément Q3 des valeurs des termes de la série tel qu'au moins 75% des
données soient inférieures ou égales a Q3
Remarque : Q2 est la médiane
L’intervalle interquartile est [Q1,Q3]
L‘ écart interquartile est la différence Q= Q3-Q1, il mesure la dispersion donc plus Q est grand plus la série
est dispersée, il ne dépend pas de valeurs extrêmes.
Le couple (médiane, écart interquartile) donne
N.M.
page 7
Cahier de statistique
7. Fluctuation d’échantillonnage - Simulation
Expérience aléatoire
Une expérience aléatoire est une expérience pour laquelle il est impossible de prévoir le résultat : celui-ci dépend du
hasard.
Voici des exemples :
- Lancer une pièce de monnaie et s’intéresser à la face visible. Résultats possibles : Pile, Face.
- Lancer un dé et s’intéresser à la face supérieure : Résultats possibles 1 ; 2 ; 3 ; 4 ; 5 ou 6
Trouver d’autres exemples.
Echantillon statistique
Définition :
Soit une série statistique formée des résultats d’une expérience, réalisée n fois, dans les mêmes conditions.
Cette série constitue un échantillon statistique de taille n.
Distribution des fréquences
La distribution des fréquences associée à un échantillon est la liste des fréquences des issues de l’échantillon.
Exemple 13 : On lance un dé numéroté de 1 à 6, bien équilibré, et on lit le chiffre qui apparaît sur la face supérieure.
Si on répète ce lancer 20 fois, on obtient un échantillon de taille 20.
Simulation
 A l’aide de la calculatrice TI, pour lancer un dé, on peut utiliser la procédure suivante :
La fonction « NbrAléat » (ou « rand »), permet d’obtenir un nombre dans l’intervalle [0 ; 1[.
Pour l’obtenir, faire : math (ou MATH) , PRB, puis 1:NbrAléa (ou 1:rand).
6*NbrAléat (ou 6*rand) permet d’obtenir un nombre dans l’intervalle [0 ; 6[.
PartEnt(6*NbrAléa) (ou int(6*rand)) permet d’obtenir un entier entre 0 et 5.
Pour obtenir « PartEnt » (ou « int »), faire : math (ou MATH), NUM, puis 5:PartEnt( (ou 5:int).
PartEnt(6*NbrAléa) +1 (ou int(6*rand) +1) permet d’obtenir un entier entre 1 et 6.
Utiliser cette dernière instruction pour simuler 20 lancers successifs d’un dé équilibré numéroté de 1 à 6, puis
compléter Le tableau suivant :
Chiffre de la face supérieure
Effectif
Fréquence
1
2
3
4
5
6
Comparer les résultats des différents élèves de la classe. Que remarque-t-on ?
On constate que tous les élèves n’ont pas les mêmes résultats. On dit que pour des échantillons de même taille les
fréquences peuvent fluctuer.
Fluctuation d’échantillonnage
Les distributions des fréquences varient d’un échantillon à l’autre pour une même expérience : c’est ce qu’on
appelle la fluctuation d’échantillonnage.
Exemple 14 : ( Chaque élève doit réaliser ses expériences en classe et à la maison )
Reprendre l’exemple précédent pour simuler 50 lancers successifs puis 100 puis 200 puis … du même dé.
Reproduire dans des tableaux différents les distributions des fréquences pour chaque cas.
Que remarque-t-on ?
Conclusion : Lorsque la taille n de l’échantillon augmente, l’ampleur des fluctuations des distributions des fréquences
calculées sur ces échantillons diminue et les fréquences tendent à se stabiliser.
N.M.
page 8
Cahier de statistique
8.
Caractéristiques de dispersion
8. 1 L'étendue de la série est la différence entre la plus grande et la plus petite valeur du caractère.
Exemples : Dans l’exemple 1, l’étendue est
N.M.
, dans l’exemple 2, l’étendue est
page 9
Cahier de statistique
Téléchargement