document de cours - Les maths c`est magique!

publicité
Chapitre 4
Statistiques
Les statistiques sont une branche des mathématiques appliquées qui permettent d’étudier des phénomènes
ayant un caractère intrinsèquement aléatoire. Elles utilisent un vocabulaire spécifique que nous allons d’abord
introduire.
4.1
Vocabulaire des statistiques
Pour chaque étude statistique on doit systématiquement définir :
— la population étudiée,
— le caractère auquel on s’intéresse pour chaque individu de la population.
Exemples :
— Une étude statistique s’intéresse, chez les jeunes de 12 à 25 ans, à la taille en cm. Quelle est la population ?
Quel est le caractère ?
Réponses : la population étudiée est celle des jeunes de 12 à 25 ans . Le caractère étudié est la taille en
cm.
— Donner (ou imaginer) un autre exemple d’étude statistique, puis donner la population et le caractère
étudiés.
Réponse : On peut étudier le nombre d’année(s) d’étude après le bac. La population est celle des bacheliers.
Le caractère est le nombre d’années d’étude.
Le but des études statistiques est d’offrir à d’autres sciences (physique, biologie, économie,...) des moyens de

(1) recueillir




(2) présenter 
des données décrivant la population.

(3) analyser




(4) utiliser
Exemples :
(1) Lors d’un recensement de la population d’un pays on recueille diverses informations sur des individus.
Seul un groupe 1 de la population est interrogé.
(2) On peut parfois présenter des données statistiques à l’aide d’un histogramme.
(3) Pour analyser globalement les résultats d’une classe d’élèves on peut utiliser la moyenne générale de la
classe.
(4) En médecine, on peut utiliser une étude statistique pour savoir si tel médicament, testé sur un échantillon
d’individus, aura une bonne efficacité sur l’ensemble de la population.
Donner d’autres exemples illustrant les quatre objectifs poursuivis par une étude statistique :
1. On parle en statistique d’échantillon de la population.
1
Chpt.4 Statistiques
2
Exemples :
(1) Les sondages (électoraux par exemple) sont un exemple d’étude statistique où l’on recueille des données.
(2) On présente parfois les données statistiques à l’aide de diagrammes circulaires, ou de diagrammes en
bâtons.
(3) On peut analyser les données d’une étude statistique en calculant la plus grande et la plus petite valeurs
receillies puis l’étendue (val. max. - val. min.).
(4) On peut utiliser les résultats d’une enquête statistique sur la vente d’un produit pour prévoir si il existe
un marché pour ce dernier.
Le caractère étudié peut être de plusieurs sortes comme l’indique l’arbre suivant :
caractère
qualitatif
(1)
quantitatif
(2)
discret
(2.1)
continu
(2.2)
Exemples :
(1) Si on étudie la couleur naturelle de cheveux d’une population de personnes, et qu’on admet que cette couleur est dans la liste {blond, châtain, brun, roux}, alors le caractère étudié sera qualitatif (ne correspondant
pas à un nombre) 2 .
(2.1) Si on étudie le nombre de véhicules personnels dans une population de ménages, alors le caractère sera
quantitatif discret , car ne pouvant être qu’un nombre entier (par exemple de 0 à 4).
(2.2) Si une expérience de physique consiste à mesurer la température à une heure donnée du jour sur un
ensemble de points géographiques, alors le caractère sera quantitatif continu, car pouvant être mesuré par
un nombre réel (par exemple de l’intervalle [−50°; 50°]). Dans ce cas on rassemblera les valeurs mesurées
dans des classes, c.-à-d. des intervalles. Par exemple ici on pourra choisir 3 des classes de largeur 10°, de
[−50°; −40°] jusqu’à [40°; 50°]
Donner ci-dessous d’autres exemples des trois types de caractère qu’on peut rencontrer en statistiques :
Exemples :
(1) Qualitatif : La qualité des repas fournis par une cantine de lycée pourrait être mesurée auprés des élèves
en leur faisant choisir leur réponse dans une liste du type {mauvais, passable, correct, bon ,très bon}.
(2.1) Quantitatif discret : Une étude peut consister à étudier sur un groupe de personnes ayant un abonnement
internet le nombre de courriers électroniques envoyés par mois, dans la liste {0, 1, . . . , 599, 600}.
(2.2) Quantitatif continu : La durée de vie d’un modèle donné d’ampoule à incandescence peut être mesurée
dans des classes de largeur 100 heures, par exemple de [0; 100], [100; 200] à [900; 1000].
Pour consigner les données recueillies, on utilise la notion de série statistique. Plus précisément, une série
statistique est représentable par un tableau contenant :
— la suite des valeurs prises par le caractère 4 ;
— la suite des effectifs associés à chaque valeur.
2. On parle alors parfois des modalités du caractère
3. Le choix de la largeur de chaque classe est arbitraire. Celui qui conçoit l’étude statistique fixe cette largeur.
4. ou la suite des classes, si le caractère est continu.
− − ∗ Cours de seconde ∗ − −
Chpt.4 Statistiques
3
Exemple : Pour l’exemple (2.1) donné précédemment on a obtenu 5 :
Valeur
(Nb. de véhicules)
Effectif
(Nb. de familles)
0
1
2
3
4
49
543
756
123
29
Cette série comporte 5 valeurs différentes du caractère. L’effectif total N de la série est la somme de tous les
effectifs. La fréquence f d’une valeur du caractère dont l’effectif est n est
f=
effectif
n
= .
effectif total
N
En utilisant ces définitions, compléter le tableau suivant, en donnant les fréquences avec une précision de 10−3 :
Valeur
0
1
2
3
4
Total
49
543
756
123
29
1500
0,033
0,362
0,504
0,082
0,019
1
(Nb. de véhicules)
Effectif
(Nb. de familles)
Fréquence
Les fréquences vérifient les propriétés suivantes qu’il faut connaître :
Propriétés :
1. Toute fréquence f vérifie : 0 6 f 6 1 ;
2. La somme des fréquences est égale à 1.
On peut aussi calculer les effectifs (ou les fréquences) cumulé(e)s croissant(e)s, qui sont surtout utilisés pour
un caractère quantitatif continu, pour lequel les valeurs du caractère sont réparties en classes (intervalles). Voici
un exemple, où on s’intéresse au salaire mensuel net des salariés d’une entreprise :
Valeur
(salaire net (en e))
[0; 1000[
Effectif
(Nb. de personnes)
[1000; 1200[ [1200; 1500[ [1500; 2500[ [2500; 3000[
5
8
24
13
2
Total
52
L’Effectif Cumulé Croissant (ou ECC) d’une valeur est le nombre d’individus ayant un caractère inférieur ou
égal à cette valeur. Les Fréquences Cumulées Croissantes (FCC) sont les ECC divisés par l’effectif total. Cette
définition permet de compléter le tableau suivant :
Valeur
(salaire net (en e))
Effectif
[0; 1000[
[1000; 1200[ [1200; 1500[ [1500; 2500[ [2500; 3000[
5
8
24
13
2
ECC
5
13
37
50
52
FCC
0,096
0,250
0,712
0,962
1
(Nb. de personnes)
Dans cet exemple, et d’après le tableau ci-dessus, le nombre de salariés ayant un salaire inférieur ou égal à
1500 e est 37 . De même, puisque la FCC en % de la valeur 2500 est 96,2, cela signifie que 96,2 % des salariés
de cet entreprise ont un salaire inférieur ou égal à 2500 e.
5. D’après une enquête de 1995 dans une région du Québec.
− − ∗ Cours de seconde ∗ − −
Chpt.4 Statistiques
4.2
4
Représentations d’une série statistique
Les représentations des données statistiques sont très variées. Selon la nature du caractère étudié, certaines
représentations graphiques sont plus appropriées. Schématiquement, si le caractère est
— qualitatif : on trace un diagramme circulaire
— quantitatif discret : on trace un diagramme en bâtons (ou en barres)
— quantitatif continu : on trace un histogramme et, éventuellement, le polygone des effectifs (ou des fréquences) cumulé(e)s croissant(e)s.
La construction de ces représentations à partir des données brutes, ou leur utilisation (par exemple pour retrouver
des effectifs) sont des compétences à maîtriser. On renvoit aux exercices traités en classe pour leur bonne
acquisition. Nous donnons ci-dessous des exemples de chacune de ces représentations évoquées ci-dessus.
Insectes: 19 Oiseaux: 35
Amphibiens: 11
Mammifères: 40
Reptiles: 10
Figure 4.1: Exemple de diagramme circulaire.
Étude des espèces animales menacées
Nombre de familles
effectif égal à 5
700
600
500
400
300
200
100
0
0
1
2
3
4
Nombre de véhicules
Figure 5.2 – Exemple de diagramme en bâtons.
Nombre de véhicules dans les familles.
0
500
1000 1200
1500
2000
2500
3000
e
Figure 5.3 – Exemple d’histogramme.
Salaires (en e) dans une entreprise.
− − ∗ Cours de seconde ∗ − −
Chpt.4 Statistiques
5
On peut retenir, pour le tracé pratique de ces représentations, que :
— dans un diagramme circulaire les angles des secteurs sont proportionnels aux effectifs (ou fréquences) ;
— dans un diagramme en bâtons, les hauteurs des bâtons sont proportionnelles aux effectifs (ou aux fréquences) ;
— dans un histogramme, les aires des rectangles sont proportionnelles aux effectifs (ou aux fréquences).
Dans chaque cas, les unités indiquées sur le graphique permettent de retrouver ce coefficient de proportionnalité.
Enfin, pour un caractère continu, on utilisera parfois le polygone des effectifs (ou fréquences) cumulé(e)s croissant(e)s, qui permet de retrouver certains des paramètres caractérisant la série statistique :
55
50
Effectifs cumulés croissants
45
40
35
30
25
20
15
10
5
0
0
500
1000
1500
2000
Salaires (en e)
2500
3000
Figure 4.4: Polygone des Effectifs Cumulés Croissants
Salaires dans une entreprise.
Une utilisation possible est la détermination (par lecture graphique ou par un calcul) de la médiane. Ici, puisque
l’effectif total est de 52, on cherche la valeur du salire qui correspondrait à un effectif de 26, sachant que 13
salariés ont un salaire inférieur ou égal à 1200 et 37 ont un salaire inférieur ou égal à 1500. On trouve (exercice) :
Me=1362,5 e.
4.3
Paramètres de position et de dispersion
Ayant donné un minimum de définitions pour décrire une série statistique on va maintenant définir des
paramètres qui permettent d’analyser cette série.
Définition : Soit une série statistique à caractère quantitatif discret comportant p valeurs distinctes, d’effectif total N.
La moyenne de cette série est le réel noté x̄ tel que
x̄ =
n1 x1 + n2 x2 + · · · + np xp
N
Valeur
x1
x2
···
xp
Effectif
n1
n2
···
np
Remarque : La moyenne peut aussi se calculer à partir des fréquences f1 , f2 , . . . , fp en remarquant, dans la
formule précédente, que fi = nNi . Donner cette formule :
− − ∗ Cours de seconde ∗ − −
Chpt.4 Statistiques
6
n1 x1 + n2 x2 + · · · + np xp
N
n2 x2
np xp
n1 x1
+
+ ··· +
=
N
N
N
n1
n2
np
=
x1 +
x2 + · · · +
xp
N
N
N
x̄ = f1 x1 + f2 x2 + · · · + fp xp
x̄ =
Exemple : Reprendre le tableau de l’étude statistique sur le nombre de véhicules par famille et calculer, en
arrondissant à l’entier le plus proche, la moyenne de cette série. On pourra utiliser et compléter le tableau
suivant qui permet de disposer les calculs :
Valeur
xi
0
1
2
3
4
Total
Effectif
ni
49
543
756
123
29
1500
ni × xi
0
543
1512
369
116
2540
n1 x1 + n2 x2 + · · · + np xp
N
2540
=
1500
'2
x̄ =
Définition : Soit une série statistique à caractère quantitatif discret, d’effectif total N. On classe les N résultats
obtenus par ordre croissant :
x1 6 x2 6 · · · 6 xN−1 6 xN
La médiane de la série, notée Me, est la valeur théorique qui sépare l’effectif total en deux parties de même
effectif. Plus précisément :
— Si N est impair Me est la valeur centrale.
— Si N est pair Me est la demi-somme des deux valeurs centrales.
Exemples : Soit la série statistique correspondant au tableau suivant :
Valeur
5
10
11
13
15
Effectif
3
1
1
3
1
Si on classe les 9 résultats par ordre croissant on obtient :
5 6 5 6 5 6 10 6 11 6 13 6 13 6 13 6 15
On voit qu’ici (9 étant impair) il existe une unique valeur centrale, la cinquième, donc Me = 11.
Soit les séries statistiques suivantes comportant 6 résultats et qui, une fois classées, donnent les listes suivantes :
10 6 10 6 11 6 11 6 12 6 18 et 9 6 9 6 11 6 12 6 15 6 16
On voit qu’ici (6 étant pair) ces séries comportent deux valeurs centrales, dont il faut calculer la demi-somme.
La médiane de la première série est donc 11+11
= 11 tandis que celle de la deuxième est 11+12
= 11, 5.
2
2
Exemple : Calculer la médiane de la série associée à la série du nombre de véhicules par ménage.
On a N = 1500, qui est pair (1500 = 2 × 750). Les deux valeurs centrales sont la 750 -ième et la 751 -ième. Or
ces deux valeurs sont égales à 2 (car 49 + 543 = 592 < 750 et 49 + 543 + 756 = 1348 > 750). Donc Me = 2.
− − ∗ Cours de seconde ∗ − −
Chpt.4 Statistiques
7
Remarque : Dans le cas d’une série statistique à caractère quantitatif continu on défini de façon analogue la
moyenne, la médiane et le mode.
Définition : Soit une série statistique à caractère quantitatif discret.
Le premier quartile, noté Q1 de la série, est la valeur de la série telle qu’au moins 25 % de l’effectif total soit
inférieur ou égal à Q1 .
Le troisième quartile, noté Q3 de la série, est la valeur de la série telle qu’au moins 75 % de l’effectif total soit
inférieur ou égal à Q3 .
Exemple : Calculer le premier et le troisième quartile pour les séries de 6 notes données ci-dessus.
On dit que la moyenne, la médiane, le premier et le troisième quartile sont des paramètres de position, ce qui
signifie qu’il indiquent « autour » de quelle valeur (ou position) se situe le phénomène observé. En revanche ces
paramètres n’indiquent pas comment les résultats obtenus se placent autour de ces valeurs centrales. En effet les
résultats peuvent être très concentrés autour d’une valeur centrale, ou au contraire très dispersés. Les paramètres
de dispersion, permettent d’avoir une idée de cette répartition. Nous donnons maintenant la définition de deux
d’entre eux.
Définition : Soit une série statistique à caractère quantitatif. Soit xmin et xmax la plus petite et la plus grande
valeur. Alors l’étendue de la série est xmax − xmin .
Exemple : Quelle est l’étendue de la série statistique sur le nombre de véhicules par ménages ?
Réponse : Elle est de 4 − 0 = 4.
Définition : Soit une série statistique à caractère quantitatif discret. Alors l’écart inter-quartile est le nombre
Q3 -Q1 . C’est l’amplitude de l’intervalle [Q1 ; Q3 ], qui regroupe 50 % des valeurs de la série.
Exemple : Calculer les écarts inter-quartiles des deux séries de 6 notes précédentes. Comparer ces deux séries.
Remarque : Y a-t-il à votre avis un lien entre la valeur d’un paramètre de position (par exemple la moyenne)
et un paramètre de dispersion (l’étendue) ? Donner des exemples.
Réponse : Il n’y a aucun lien . Une même moyenne peut être associée à deux étendues différentes et réciproquement. Par exemple, en prenant les notes d’un élève, une même moyenne de 10/20 peut être asociée à deux notes
de 9 et 11 (étendue : 2) ou de 1 et 19 (étendue : 18). Inversement une même étendue de 6 peut être associée à
une moyenne de 13 (notes : 10 et 16) ou a ne moyenne de 4 (notes : 2 et 6).
4.4
Fluctuation d’échantillon – Intervalle de confiance
Pour traiter ce paragraphe, on propose de simuler, à l’aide de la caculatrice, l’expérience qui consiste à jeter
un dé équilibré. Pour cela : ouvrir le menu q(menu des calculs numériques habituel), puis i, puis prob
(utiliser u pour faire apparaître ce menu, puis e pour le sélectionner), puis rand (r), puis Int (w).
La commande RanInt#( s’affiche à l’écran. La compléter en RanInt#(0,1) puis l’exécuter avec l (attention :
bien saisir une virgule et non un point entre 0 et 1). La commande RanInt#(0,1) génère un nombre entier
aléatoire compris entre 0 et 1 (inclus) ; chaque nombre ayant une égale probabilité d’apparaître. Vérifier, en
appuyant plusieurs fois sur l, qu’on obtient bien une succession aléatoire de 0 et de 1. Il suffit de décider que
− − ∗ Cours de seconde ∗ − −
Chpt.4 Statistiques
8
le côté Pile de la pièce correspondra à 0 et Face à 1. On va ainsi, avec la calculatrice, réaliser un échantillon de
taille 30 de cette expérience aléatoire.
Définition : On appelle échantillon de taille N une liste de N résultats obtenus par N répétitions indépendantes
d’une même expérience aléatoire.
Exemple : Soit l’expérience du tirage d’une pièce de monnaie à Pile ou Face :
)
PFPPFFPFPP
deux échantillons de taille 10
FPPFFFPFPP
Remarque : En statistiques, la plupart du temp N est choisi «très grand».
En utilisant votre calculatrice compléter le tableau ci-dessous et réaliser un échantillon de taille 30 de l’expérience
du jet d’une pièce équilibrée.
P
P
F
P
P
F
P
F
F
P
F
P
P
P
P
F
F
P
P
F
F
F
P
F
P
F
F
P
P
F
Comparer l’échantillon que vous avez obtenu avec celui de votre voisin. Sont-ils exactement identiques ?
Définition : Pour une population donnée, des échantillons produits suivant le même protocole peuvent avoir
(et ont, la plupart du temps) des composition différentes : on dit qu’il y a fluctuation d’échantillon.
Soit une valeur donnée du caractère dans l’expérience aléatoire à laquelle on s’intéresse, par exemple «Pile»
dans l’expérience du jet d’une pièce. Dans un échantillon de taille N on peut déterminer la fréquence f de ce
caractère.
Exemple : Dans les deux 10-échantillons précédents :
f=
f=
6
10
5
10
= 0, 6 dans le premier échantillon
= 0, 5 dans le second
Calculer la fréquence observée f de «Pile» dans votre échantillon de taille 30 et donner sa valeur décimale
arrondie à 10−2 .
16
f=
' 0, 53
30
Intuitivement, plus N est grand, plus la fréquence que l’on va observer devrait se rapprocher de la vraie probabilité p du caractère (ici, pour une pièce équilibrée, de p = 21 ). La propriété suivante précise cette idée :
Propriété : Si 0, 2 6 p 6 0, 8 et si N > 25, alors dans 95 % des cas au moins, la fréquence f (observée) du
caractère de probabilité p (théorique) appartient à l’intervalle
1
1
p − √ ;p + √
.
N
N
Cet intervalle est appelé intervalle de fluctuation au seuil de 95 % d’un échantillon de taille N.
Exemple : Dans le jet d’une pièce de monnaie équilibrée, déterminer l’intervalle de fluctuation au seuil de 95 %
pour un échantillon de taille 1000.
− − ∗ Cours de seconde ∗ − −
Chpt.4 Statistiques
9
Déterminer l’intervalle de fluctuation au seuil de 95 % de la fréquence de «Pile» dans l’expérience consistant à
simuler 30 jets d’une pièce équilibrée. Votre fréquence f observée appartient-elle à cet intervalle ? Interpréter.
Pour l’effectif de la classe, combien d’élèves environ devraient avoir obtenus une fréquence n’appartenant pas à
cet intervalle ?
Ici l’intervalle de fluctuation est calculable car d’une part la condition N = 30 > 25 est vérifiée et, d’autre part,
la pièce étant équilibrée on a p = 21 , donc la condition 0, 2 6 p 6 0, 8 est aussi vérifiée. L’intervalle est, arrondi
à 10−2 ,
1
1
p − √ ;p + √
N
N
1
1 1
1
−√ ; +√
2
30 2
30
[0, 32; 0, 68]
Dans le 30-échantillon obtenu, la fréquence observée de «Pile» est de 0, 53, donc elle appartient à l’intervalle de
fluctuation de «Pile» au seuil de 95 %. Interprétation : le 30-échantillon obtenu est «statistiquement normal».
Normalement, sur un effectif de 38 élèves, seulement 5 % des fréquences observées devraient ne pas appartenir
à l’intervalle de fluctuation, soit 38×5
100 ' 2 élèves.
Remarque : Lorsque p est inconnue, mais qu’on dispose, par simulation, d’une fréquence f observée sur un
échantillon de taille N, on peut (à condition que 0, 2 6 f 6 0, 8 et que N > 25) renverser la démarche précédente
et trouver un intervalle, appelé intervalle de confiance pour p au seuil de 95 %, qui contient la valeur p avec
une probabilité de 95 %. Cet intervalle est
1
1
.
f − √ ;f + √
N
N
− − ∗ Cours de seconde ∗ − −
Téléchargement