Ch 4 Statistiques I/ Vocabulaire - CDI de l`Institution Jeanne d`Arc

publicité
Ch 4 Statistiques
I/ Vocabulaire
Une série statistique correspond à un ensemble de données d’un caractère étudié obtenu à partir d’une
population.
Ce caractère peut être quantitatif, c’est-à-dire que l’on peut le mesurer (par exemple la taille, le
nombre de votants…) ou qualitatif (par exemple la couleur des yeux…).
Une série quantitative peut être discrète, si les valeurs sont distinctes (par exemple le nombre de
téléviseurs dans un foyer), ou continue, si on les regroupe par classes (par exemple la durée de vie
d’une ampoule).
A chaque valeur prise par le caractère, on associe un effectif. La somme des effectifs s’appelle
l’effectif total.
Ces données se présentent généralement sous forme d’un tableau. On peut également ajouter les
effectifs cumulés, croissants ou décroissants.
La fréquence correspond à la proportion de l’effectif par rapport à l’effectif total.
Dans la suite du chapitre, nous n’étudierons que des séries quantitatives.
II/ Paramètres de position
1) Mode
Définition : Le mode d’une série discrète (la classe modale dans le cas d’une série continue)
correspond au caractère ayant le plus grand effectif.
Ex 1 :
Note
5
7
8
9
Effectif
1
4
2
4
Le mode de cette série est 10 car l’effectif est de 7.
10
7
11
6
13
4
15
1
18
1
Ex 2 :
Note
[0; 5[
[5; 8[ [8; 10[ [10; 12[ [12; 14[ [14; 16[ [16; 20]
Effectif
3
6
7
12
6
4
2
La classe modale de cette série est [10; 12[.
2) Moyenne
Définition : Soit une série statistique dont le caractère prend les valeurs 𝑥𝑖 associées aux effectifs 𝑛𝑖 .
La moyenne notée 𝑥̅ , correspond à :
𝑛
1
𝑥̅ = ∑ 𝑥𝑖 𝑛𝑖
𝑛
𝑖=1
Ex 1 :
1 × 5 + 4 × 7 + 2 × 8 + 4 × 9 + 7 × 10 + 6 × 11 + 4 × 13 + 1 × 15 + 1 × 18
𝑥̅ =
= 10,2
30
Rq :
-
Dans le cas d’une série continue, les 𝑥𝑖 correspondent aux milieux des intervalles.
On parle également de moyenne pondérée.
Ex 2 :
𝑥̅ =
3 × 2,5 + 6 × 6,5 + 7 × 9 + 12 × 11 + 6 × 13 + 4 × 15 + 2 × 18
≃ 10,37
40
3) Médiane
Définition : La médiane d’une série statistique correspond à la valeur, notée Med telle que :
- la moitié au moins des effectifs ont des valeurs inférieures ou égales à Med.
- la moitié au moins des effectifs ont des valeurs supérieures ou égales à Med.
Propriété : Pour déterminer la médiane d’une série statistique discrète de 𝑛 valeurs,
𝑛+1 è𝑚𝑒
) valeur.
2
𝑛è𝑚𝑒
moyenne entre la 2
et
-
si 𝑛 est impair, on prend la (
-
si 𝑛 est pair, on prend la
𝑛
è𝑚𝑒
la (2 + 1)
valeur.
Ex 1 : L’effectif total de la série est 30, donc un nombre pair. On va donc calculer la moyenne entre
la 15𝑒 et la 16𝑒 valeur, soit entre 10 et 10. On a donc Med= 10.
Rq : Pour pouvoir déterminer la médiane d’une série, il faut que celle-ci soit ordonnée.
Propriété : Pour déterminer la médiane d’une série continue, il faut tracer la ligne polygonale des
effectifs cumulés. Celle-ci se trace dans un repère avec le caractère étudié en abscisse et les effectifs
cumulés en ordonnée. Au maximum de chaque intervalle, on associe l’effectif cumulé et on trace la
ligne brisée. La médiane correspond à l’antécédent du demi-effectif.
Ex 2 :
Ici, la médiane est donc Med≃ 10,7.
Rq :
-
On peut se servir des effectifs cumulés croissants comme décroissants.
On peut se servir des fréquences cumulées (puisqu’il y a proportionnalité)
On peut chercher la classe médiane d’une série continue, qui se détermine comme la médiane
d’une série discrète.
On peut déterminer la médiane d’une série continue de manière plus précise. Pour cela, il
faudra déterminer la fonction affine représentée par la ligne polygonale sur la classe médiane,
puis déterminer l’antécédent du demi-effectif. On parle alors d’interpolation linéaire.
4) Quartiles
Définition : Le premier quartile (resp. troisième) d’une série statistique, noté 𝑄1 (resp. 𝑄3 ), correspond
à la plus petite valeur de la série telle que le quart (resp. les trois quarts) au moins des effectifs ont des
valeurs inférieures ou égales à 𝑄1 (resp. 𝑄3 ).
Ex 1 : On prend la 8è𝑚𝑒 valeur pour 𝑄1 et la 23è𝑚𝑒 valeur pour 𝑄3 .
Donc 𝑄1 = 9 et 𝑄3 = 11.
Rq :
-
Il existe aussi les déciles (𝐷1 et 𝐷9 ) pour 10% et 90%.
Dans le cas d’une série continue, on procède de la même manière que pour la médiane, en
prenant les antécédents de 25% et 75% de l’effectif total.
Ex 2 :
On cherche les antécédents de 10 et 30, ce qui donne
𝑄1 ≃ 8,4 et 𝑄3 ≃ 12,3.
III/ Paramètres de dispersion
1) Etendue
Définition : L’étendue d’une série statistique correspond à a différence entre la plus grande et la plus
petite valeur de cette série.
Ex 1 : Ici, l’étendue est de 18 − 5 = 13.
Dans le cas d’une série continue, on prend la différence entre les deux valeurs extrêmes des classes.
Ex 2 : Ici, l’étendue est de 20 − 0 = 20.
2) Ecart interquartile
Définition : L’écart interquartile d’une série statistique correspond à la différence entre les premier et
troisième quartiles.
Ex 1 : Ici, l’écart interquartile est égal à 𝑄3 − 𝑄1 = 11 − 9 = 2.
IV/ Représentation graphique
Dans le cas d’une série discrète, on utilise différents types de représentations (diagrammes en bâtons,
circulaires, nuages de points…)
En revanche, dans une série continue, on privilégiera l’histogramme.
L’histogramme est constitué d’un axe représentant le caractère étudié à partir duquel sont tracés des
rectangles dont les largeurs correspondent aux amplitudes des différentes classes et dont la surface est
proportionnelle à l’effectif associé. On a donc besoin d’une échelle d’aire (par exemple, un carreau
représente un effectif de 4).
Pour tracer l’histogramme associé à une série, il faut donc commencer par déterminer une échelle
d’aire, puis calculer la hauteur de chaque rectangle en divisant l’effectif par la largeur de l’intervalle
puis par l’échelle choisie.
Ex 2 :
V/ Fluctuation d’échantillonnage
Définition : Une expérience aléatoire est une expérience que l’on peut reproduire dans les mêmes
conditions et dont on connait, à priori, les résultats (ou issues) possibles sans pour autant connaître
celui qui résultera de l’expérience (par exemple, le lancer d’un dé, le tirage de boules dans une
urne…).
Un échantillon de taille 𝑛 est constitué des résultats de 𝑛 répétitions indépendantes de la même
expérience.
On obtient ainsi une fréquence de répartition des issues différente pour chaque échantillon. On parle
alors de fluctuation d’échantillonnage.
Simuler une expérience aléatoire, c’est répéter un grand nombre de fois cette expérience à l’aide d’un
outil comme une calculatrice ou un ordinateur. On remplace donc des tirages réels par des tirages
fictifs.
Propriété : Sur une population on prélève un échantillon de 𝑛 individus, 𝑛 ≥ 25. On s’intéresse à un
caractère donné dont on connait la proportion 𝑝 dans la population, 0,2 ≤ 𝑝 ≤ 0,8.
La fréquence 𝑓 de ce caractère dans cet échantillon sera telle que, dans 95% des cas,
1
1
𝑓 ∈ [𝑝 −
;𝑝 + ]
√𝑛
√𝑛
Cet intervalle s’appelle l’intervalle de fluctuation au seuil de 95%.
Ex : Dans une urne de 560 boules, il y a 140 boules rouges.
Dans un échantillon de 100 boules, il y a 95% de chances que la fréquence des boules rouges soit
140
1
140
1
dans l’intervalle [560 − 100 ; 560 + 100] soit[0,15; 0,35].
√
Rq :
-
√
L’amplitude de l’intervalle de fluctuation est
2
√𝑛
. Au plus la taille de l’échantillon est grande,
au plus cet intervalle se rapproche de la valeur 𝑝.
Lorsque la proportion d’un caractère dans une population est supposée connue, cet intervalle
permet d’étudier la pertinence d’un échantillon. Si 𝑓 n’appartient pas à cet intervalle, on
rejette l’hypothèse faite sur 𝑝 (avec un risque d’erreur de 5%), sinon on la valide (sans
connaître le risque d’erreur).
1
1
Définition : Sous les mêmes conditions, et avec les mêmes notations, l’intervalle [𝑓 − 𝑛 ; 𝑓 + 𝑛] est
√
√
appelé intervalle de confiance. Il permet d’estimer une proportion d’un caractère dans une population à
partir de sa fréquence dans un échantillon dans 95% des cas.
Téléchargement