Ch 4 Statistiques I/ Vocabulaire Une série statistique correspond à un ensemble de données d’un caractère étudié obtenu à partir d’une population. Ce caractère peut être quantitatif, c’est-à-dire que l’on peut le mesurer (par exemple la taille, le nombre de votants…) ou qualitatif (par exemple la couleur des yeux…). Une série quantitative peut être discrète, si les valeurs sont distinctes (par exemple le nombre de téléviseurs dans un foyer), ou continue, si on les regroupe par classes (par exemple la durée de vie d’une ampoule). A chaque valeur prise par le caractère, on associe un effectif. La somme des effectifs s’appelle l’effectif total. Ces données se présentent généralement sous forme d’un tableau. On peut également ajouter les effectifs cumulés, croissants ou décroissants. La fréquence correspond à la proportion de l’effectif par rapport à l’effectif total. Dans la suite du chapitre, nous n’étudierons que des séries quantitatives. II/ Paramètres de position 1) Mode Définition : Le mode d’une série discrète (la classe modale dans le cas d’une série continue) correspond au caractère ayant le plus grand effectif. Ex 1 : Note 5 7 8 9 Effectif 1 4 2 4 Le mode de cette série est 10 car l’effectif est de 7. 10 7 11 6 13 4 15 1 18 1 Ex 2 : Note [0; 5[ [5; 8[ [8; 10[ [10; 12[ [12; 14[ [14; 16[ [16; 20] Effectif 3 6 7 12 6 4 2 La classe modale de cette série est [10; 12[. 2) Moyenne Définition : Soit une série statistique dont le caractère prend les valeurs 𝑥𝑖 associées aux effectifs 𝑛𝑖 . La moyenne notée 𝑥̅ , correspond à : 𝑛 1 𝑥̅ = ∑ 𝑥𝑖 𝑛𝑖 𝑛 𝑖=1 Ex 1 : 1 × 5 + 4 × 7 + 2 × 8 + 4 × 9 + 7 × 10 + 6 × 11 + 4 × 13 + 1 × 15 + 1 × 18 𝑥̅ = = 10,2 30 Rq : - Dans le cas d’une série continue, les 𝑥𝑖 correspondent aux milieux des intervalles. On parle également de moyenne pondérée. Ex 2 : 𝑥̅ = 3 × 2,5 + 6 × 6,5 + 7 × 9 + 12 × 11 + 6 × 13 + 4 × 15 + 2 × 18 ≃ 10,37 40 3) Médiane Définition : La médiane d’une série statistique correspond à la valeur, notée Med telle que : - la moitié au moins des effectifs ont des valeurs inférieures ou égales à Med. - la moitié au moins des effectifs ont des valeurs supérieures ou égales à Med. Propriété : Pour déterminer la médiane d’une série statistique discrète de 𝑛 valeurs, 𝑛+1 è𝑚𝑒 ) valeur. 2 𝑛è𝑚𝑒 moyenne entre la 2 et - si 𝑛 est impair, on prend la ( - si 𝑛 est pair, on prend la 𝑛 è𝑚𝑒 la (2 + 1) valeur. Ex 1 : L’effectif total de la série est 30, donc un nombre pair. On va donc calculer la moyenne entre la 15𝑒 et la 16𝑒 valeur, soit entre 10 et 10. On a donc Med= 10. Rq : Pour pouvoir déterminer la médiane d’une série, il faut que celle-ci soit ordonnée. Propriété : Pour déterminer la médiane d’une série continue, il faut tracer la ligne polygonale des effectifs cumulés. Celle-ci se trace dans un repère avec le caractère étudié en abscisse et les effectifs cumulés en ordonnée. Au maximum de chaque intervalle, on associe l’effectif cumulé et on trace la ligne brisée. La médiane correspond à l’antécédent du demi-effectif. Ex 2 : Ici, la médiane est donc Med≃ 10,7. Rq : - On peut se servir des effectifs cumulés croissants comme décroissants. On peut se servir des fréquences cumulées (puisqu’il y a proportionnalité) On peut chercher la classe médiane d’une série continue, qui se détermine comme la médiane d’une série discrète. On peut déterminer la médiane d’une série continue de manière plus précise. Pour cela, il faudra déterminer la fonction affine représentée par la ligne polygonale sur la classe médiane, puis déterminer l’antécédent du demi-effectif. On parle alors d’interpolation linéaire. 4) Quartiles Définition : Le premier quartile (resp. troisième) d’une série statistique, noté 𝑄1 (resp. 𝑄3 ), correspond à la plus petite valeur de la série telle que le quart (resp. les trois quarts) au moins des effectifs ont des valeurs inférieures ou égales à 𝑄1 (resp. 𝑄3 ). Ex 1 : On prend la 8è𝑚𝑒 valeur pour 𝑄1 et la 23è𝑚𝑒 valeur pour 𝑄3 . Donc 𝑄1 = 9 et 𝑄3 = 11. Rq : - Il existe aussi les déciles (𝐷1 et 𝐷9 ) pour 10% et 90%. Dans le cas d’une série continue, on procède de la même manière que pour la médiane, en prenant les antécédents de 25% et 75% de l’effectif total. Ex 2 : On cherche les antécédents de 10 et 30, ce qui donne 𝑄1 ≃ 8,4 et 𝑄3 ≃ 12,3. III/ Paramètres de dispersion 1) Etendue Définition : L’étendue d’une série statistique correspond à a différence entre la plus grande et la plus petite valeur de cette série. Ex 1 : Ici, l’étendue est de 18 − 5 = 13. Dans le cas d’une série continue, on prend la différence entre les deux valeurs extrêmes des classes. Ex 2 : Ici, l’étendue est de 20 − 0 = 20. 2) Ecart interquartile Définition : L’écart interquartile d’une série statistique correspond à la différence entre les premier et troisième quartiles. Ex 1 : Ici, l’écart interquartile est égal à 𝑄3 − 𝑄1 = 11 − 9 = 2. IV/ Représentation graphique Dans le cas d’une série discrète, on utilise différents types de représentations (diagrammes en bâtons, circulaires, nuages de points…) En revanche, dans une série continue, on privilégiera l’histogramme. L’histogramme est constitué d’un axe représentant le caractère étudié à partir duquel sont tracés des rectangles dont les largeurs correspondent aux amplitudes des différentes classes et dont la surface est proportionnelle à l’effectif associé. On a donc besoin d’une échelle d’aire (par exemple, un carreau représente un effectif de 4). Pour tracer l’histogramme associé à une série, il faut donc commencer par déterminer une échelle d’aire, puis calculer la hauteur de chaque rectangle en divisant l’effectif par la largeur de l’intervalle puis par l’échelle choisie. Ex 2 : V/ Fluctuation d’échantillonnage Définition : Une expérience aléatoire est une expérience que l’on peut reproduire dans les mêmes conditions et dont on connait, à priori, les résultats (ou issues) possibles sans pour autant connaître celui qui résultera de l’expérience (par exemple, le lancer d’un dé, le tirage de boules dans une urne…). Un échantillon de taille 𝑛 est constitué des résultats de 𝑛 répétitions indépendantes de la même expérience. On obtient ainsi une fréquence de répartition des issues différente pour chaque échantillon. On parle alors de fluctuation d’échantillonnage. Simuler une expérience aléatoire, c’est répéter un grand nombre de fois cette expérience à l’aide d’un outil comme une calculatrice ou un ordinateur. On remplace donc des tirages réels par des tirages fictifs. Propriété : Sur une population on prélève un échantillon de 𝑛 individus, 𝑛 ≥ 25. On s’intéresse à un caractère donné dont on connait la proportion 𝑝 dans la population, 0,2 ≤ 𝑝 ≤ 0,8. La fréquence 𝑓 de ce caractère dans cet échantillon sera telle que, dans 95% des cas, 1 1 𝑓 ∈ [𝑝 − ;𝑝 + ] √𝑛 √𝑛 Cet intervalle s’appelle l’intervalle de fluctuation au seuil de 95%. Ex : Dans une urne de 560 boules, il y a 140 boules rouges. Dans un échantillon de 100 boules, il y a 95% de chances que la fréquence des boules rouges soit 140 1 140 1 dans l’intervalle [560 − 100 ; 560 + 100] soit[0,15; 0,35]. √ Rq : - √ L’amplitude de l’intervalle de fluctuation est 2 √𝑛 . Au plus la taille de l’échantillon est grande, au plus cet intervalle se rapproche de la valeur 𝑝. Lorsque la proportion d’un caractère dans une population est supposée connue, cet intervalle permet d’étudier la pertinence d’un échantillon. Si 𝑓 n’appartient pas à cet intervalle, on rejette l’hypothèse faite sur 𝑝 (avec un risque d’erreur de 5%), sinon on la valide (sans connaître le risque d’erreur). 1 1 Définition : Sous les mêmes conditions, et avec les mêmes notations, l’intervalle [𝑓 − 𝑛 ; 𝑓 + 𝑛] est √ √ appelé intervalle de confiance. Il permet d’estimer une proportion d’un caractère dans une population à partir de sa fréquence dans un échantillon dans 95% des cas.