Nom de l’élève : Cahier de statistique Classe : Ce document sera complété par des exemples, des exercices d’application, des expériences et des simulations à l’aide de la calculatrice et un tableur. Cette production pourrait être continuée en première et en terminale.Garder soigneusement ce document et ces annexes. SERIE STATISTIQUE A UNE VARIABLE 1. Vocabulaire. Une statistique désigne d'une part un recueil de données concernant une population et d'autre part les méthodes de traitement et d’interprétation de ces données. 1.1 La population est l'ensemble des individus sur lesquels vont porter les observations ( ensembles d’objets, de personnes, d’entreprises, de machines, d’animaux...). Chaque élément de cette population est appelé individu. Le nombre total d’individus de la population s’appelle effectif total de la population 1.2 L'échantillon est un sous ensemble de la population. 1.3 Le caractère statistique ou la variable statistique est la propriété étudiée. Un caractère peut être qualitatif une marque de produit, le sport pratiqué, le groupe sanguin il peut être quantitatif : la taille, le salaire, le nombre d'enfants d'une famille... Un caractère est discret s'il ne prend que des valeurs isolées : le nombre d'enfants d'une famille. Un caractère est continu s'il peut prendre toutes les valeurs dans un intervalle donné partagé en classes. 2. Série statistique quantitative Une série statistique quantitative se présente sous forme de tableau dans lequel figure les valeurs du caractère et les effectifs correspondants. Exemple 1 Nombre d’enfants par famille 0 1 2 3 4 5 6 Effectif 7 10 13 9 6 4 1 Lorsque le caractère est continu, la série sera présentée par classes de valeurs. Une classe est un intervalle pour lequel un sous ensemble de la population correspond à une valeur ou à des valeurs voisines prises par le caractère. ( les intervalles n’ont pas forcément la même amplitude). Exemple 2 Nombre d’exploitations 29 35 60 31 45 Superficie en ha [0 ; 5[ [5 ; 10[ [10 ; 30[ [30 ; 40[ [40 ; 60[ Présentation générale d’une série statistique : Valeurs du caractère ou centres des classes xi effectifs : ni le centre de la classe [ a ; b [ est x1 x2 … … xp n1 n2 … … np a b par exemple le centre de la classe [30 ; 40[ est 35 2 L'effectif total de la série est la somme des effectifs de toutes les valeurs possibles de xi, N = nI +n2+n3+…. np 3. Fréquences La fréquence d'une valeur (ou d’une modalité) est égale au quotient de la valeur par l’effectif total de la population. ni La fréquence d’une valeur xi est f i N La fréquence s’exprime sous forme fractionnaire, décimale ou sous forme de pourcentage. N.M. page 1 Cahier de statistique Propriétés de la fréquence : Une fréquence est un nombre compris entre 0 et 1. La somme de toutes les fréquences est égale à 1, on note i p fi 1 et on lit : « somme de i égal 1 à p des fi » i 1 Fréquences cumulées croissantes et fréquences cumulées décroissantes Les fréquences cumulées croissantes s’obtiennent en ajoutant au fur et à mesure les fréquences. Les fréquences cumulées décroissantes s’obtiennent en partant de 1 et en retranchant au fur et à mesure les fréquences successives. Exemple 3 Compléter le tableau ci-dessous : Superficie en ha Nombre Fréquence fi Fréquences cumulées Fréquences cumulées d’exploitations ni croissantes décroissantes 3 5 7 10 0,14 0,20 9 12 13 9 0,26 15 20 1 7 0,14 0,34 1 0,86 25 3 1 TOTAL 50 1 Quel est le pourcentage d’exploitations ayant moins de 15 ha de superficie (strictement) ? Quel est le pourcentage d’exploitations ayant plus de 9 ha de superficie ? 0,06 4. Exemples de série statistique qualitative Pour une série statistique qualitative le caractère n’est pas mesurable. On parle dans ce cas d’une modalité. Exemple 4 Activités sportives Effectifs Tennis 120 Natation 152 Equitation 66 Rugby 180 Marche 250 5. Représentations graphiques Il existe différentes sortes de représentations : Diagrammes en secteurs ( ou « camembert »), qui sont des disques partagés en secteurs dont l’angle au centre est proportionnel à l’effectif de chaque classe. Diagrammes en bâtons (ou en barres), formés de barres dont l’abscisse est xi et de hauteur proportionnelle à ni ou à fi. Histogrammes, lorsque les valeurs sont regroupées en classes. On construit des rectangles ayant pour bases chacune des classes et une aire proportionnelle à l’effectif. Polygones des effectifs. Polygones des effectifs cumulés. Polygones des fréquences. Polygones des fréquences cumulées… 5.1 Cas d’un caractère discret Les variables discrètes sont représentées par des diagrammes en bâtons Exemple 5 Notes du devoir Nombre d’élèves 5 4 8 7 10 9 12 8 15 2 Construire sur une feuille annexe le diagramme en bâtons. N.M. page 2 Cahier de statistique Exemple 6 Les graphiques ci-dessous sont réalisés à l’aide d’un tableur Excel. Vous pouvez les reproduire à l’aide de ce tableur ou un autre logiciel de votre choix. La recette journalière, en euros, d'un marchand de glaces pendant une période de trois mois donnent les résultats suivants: Recettes Effectifs xi ni Fréquences Fréquences fi en % cum. croissantes 50 3 3,33 3,33 60 10 11,11 14,44 70 15 16,67 31,11 80 18 20,00 51,11 90 24 26,67 77,78 100 15 16,67 94,45 110 3 3,33 97,78 100,00 120 2 2,22 TOTAL 90 100,00 Effectifs 110120 50 60 100 70 Effectifs 30 20 10 0 90 80 80 90 10 0 11 0 12 0 60 70 Xi 50 Effectifs Titre du graphique Polygone des effectifs 30 25 20 Effectifs 15 10 5 0 50 60 70 80 90 100 110 120 5.2 Cas d’un caractère continu Les variables continues sont représentées par des histogrammes (ou diagrammes en surface) : l’aire de chaque rectangle est proportionnelle à l’effectif ( ou à la fréquence). N.M. page 3 Cahier de statistique 50 60 70 80 90 100 110 120 Exemple 7 Superficie en ha Nombre d’exploitations ni 29 35 60 31 45 200 [0 ; 5[ [5 ; 10[ [10 ; 30[ [30 ; 40[ [40 ; 60[ TOTAL Histogramme 8 7 6 5 35 4 3 29 2 60 31 45 1 0 00 5 10 30 20 40 60 50 6. Caractéristiques de tendance centrale. 6.1 Le mode est la valeur du caractère qui a le plus grand effectif. Pour le cas continu, c'est le centre de la classe modale. Exemples : Dans l’exemple 1, le mode est : Dans l’exemple 2, la classe modale est : 6.2 La moyenne Valeurs du caractère ou centres des classes x effectifs : ni x1 x2 … … xp n1 n2 … … np La moyenne arithmétique de la série ou de l'échantillon sera notée x i p x ni xi n1 x1 n2 x2 ... n p x p i 1 N N Cette formule est équivalente à : p x f i xi f1 x1 f 2 x2 f 3 x3 ............. f p xp où fi est la fréquence de xi . i 1 N.M. page 4 Cahier de statistique Exemple 8 : Reprendre l’exemple 3, compléter le tableau suivant puis calculer la superficie moyenne. Superficie en ha xi 3 5 9 12 15 20 25 TOTAL Nombre d’exploitations ni 7 10 13 9 1 7 3 50 Fréquence fi f i xi ni xi 0,14 0,20 0,26 1 la superficie moyenne est :…………………………………………………………………………. Exemple 9 : Compléter le tableau puis calculer la moyenne de la série statistique Superficie en ha [0 ; 5[ [5 ; 10[ [10 ; 30[ [30 ; 40[ [40 ; 60[ TOTAL Nombre d’exploitations ni 29 35 60 31 45 Centre de la classe xi Produit nixi x Utilisation de la calculatrice Utiliser la calculatrice pour retrouver les moyennes dans les exemples 6 et 7 . Voir livre modulo seconde, pages 176 et 177, pour les fonctions statistiques d’une calculatrice. Linéarité de la moyenne : 1. Lorsqu’on ajoute ( ou en retranche ) un même nombre k à chacune des valeurs du caractère, sans changer les effectifs, la moyenne augmente ( ou diminue) de k. 2. Lorsqu’on multiplie chacune des valeurs du caractère par un même nombre k, sans changer les effectifs, la moyenne est multipliée par k. Exemple 10 : Dans une boutique la moyenne des prix est de 12 €. Si le commerçant décide d’augmenter tous les prix de 1 € alors le prix moyen dans cette boutique sera de 13 €. Si maintenant le commerçant décide d’augmenter tous les articles de 10%, alors le prix moyen sera multiplié par 1,1 car : 13 + 13 10% 13 (1 + 0,1) 13 1,1. Donc le prix moyen sera égal à 14,30€. Moyenne à partir des moyennes de sous- groupes. On considère une série statistique constituée de deux sous groupes disjoints. Le premier groupe a pour effectif n et pour moyenne x . Le second groupe a pour effectif p et pour moyenne y . La moyenne de la série statistique est donnée par la formule : m nx n py p Exemple 11 : Dans une classe de terminale S, la moyenne générale de 14 élèves ayant choisi la spécialité Maths est de 11,4 et la moyenne générale des 20 élèves ayant choisi la spécialité SVT est de 10,2. Quelle est la moyenne générale de la classe ? N.M. page 5 Cahier de statistique 6.3 La médiane est la valeur du caractère qui partage la série en deux parties de même effectif. Propriété : La médiane d’une série statistique, notée Me est le nombre tel que : 50% au moins des individus ont une valeur du caractère inférieure ou égale à ce nombre. 50% au moins des individus ont une valeur du caractère supérieure ou égale à ce nombre. Cas d’un caractère quantitatif discret Pour déterminer la médiane d’une série statistique discrète, il suffit de ranger les valeurs du caractère par ordre croissant, chacune des valeurs figurant un nombre de fois égal à son effectif. - Si le nombre de données est impair, la médiane est la valeur du milieu. - Si le nombre de données est pair, la médiane est la demi-somme des deux termes du milieu. On considère la liste des prix en euros 4 ; 5 ; 8 ; 10 ; 12 ; 13 ; 14 ; 16 ; 17. L’effectif est 9 (impair) la médiane est la 5 ème valeur. La médiane est 12. On considère la liste des prix en euros 4 ; 5 ; 8 ; 10 ; 11 ; 11 ; 12 ; 13 ;13 ; 14 ; 16 ; 17. L’effectif est 12 (pair) la médiane est la demi-sommee de la 6ième et la 7ième valeur. La médiane est égale à 11 12 2 11,5 . Méthode : Soit n est le nombre total des données qu’on ordonne par ordre croissant - Si n est impair, n = 2p + 1, alors la médiane est le terme du milieu c’est à dire le terme de rang p + 1. - Si n est pair, n = 2p, alors la médiane est la demi-somme des deux termes de rangs p et p+1. Cas d’un caractère quantitatif continu On peut déterminer graphiquement la médiane en utilisant le polygone des effectifs cumulés ou le polygone des fréquences cumulées. Avec les effectifs cumulés : La médiane est l’abscisse du point du polygone des effectifs cumulés dont l’ordonnée est égale à N . 2 Avec les fréquences cumulées : La médiane est l’abscisse du point du polygone des fréquences cumulées dont l’ordonnée est égale à 0,5. Exemple 12 : Superficie en ha [0 ; 5[ [5 ; 10[ [10 ; 30[ [30 ; 40[ [40 ; 60[ TOTAL Nombre d’exploitations ni 29 35 60 31 45 200 Fréquences fi Fréquences cumulées croissantes Compléter le tableau, tracer le polygone des fréquences cumulées croissantes puis trouver graphiquement la valeur de la médiane. 1 0,8 0,6 0,4 0,2 0 N.M. 5 10 15 20 25 page 6 30 35 40 45 50 55 60 Cahier de statistique 6.4 Les quartiles -1er quartile: c'est le plus petit élément Q1 des valeurs des termes de la série tel qu'au moins 25% des données soient inférieures ou égales a Q1 -3ème quartile: c'est le plus petit élément Q3 des valeurs des termes de la série tel qu'au moins 75% des données soient inférieures ou égales a Q3 Remarque : Q2 est la médiane L’intervalle interquartile est [Q1,Q3] L‘ écart interquartile est la différence Q= Q3-Q1, il mesure la dispersion donc plus Q est grand plus la série est dispersée, il ne dépend pas de valeurs extrêmes. Le couple (médiane, écart interquartile) donne N.M. page 7 Cahier de statistique 7. Fluctuation d’échantillonnage - Simulation Expérience aléatoire Une expérience aléatoire est une expérience pour laquelle il est impossible de prévoir le résultat : celui-ci dépend du hasard. Voici des exemples : - Lancer une pièce de monnaie et s’intéresser à la face visible. Résultats possibles : Pile, Face. - Lancer un dé et s’intéresser à la face supérieure : Résultats possibles 1 ; 2 ; 3 ; 4 ; 5 ou 6 Trouver d’autres exemples. Echantillon statistique Définition : Soit une série statistique formée des résultats d’une expérience, réalisée n fois, dans les mêmes conditions. Cette série constitue un échantillon statistique de taille n. Distribution des fréquences La distribution des fréquences associée à un échantillon est la liste des fréquences des issues de l’échantillon. Exemple 13 : On lance un dé numéroté de 1 à 6, bien équilibré, et on lit le chiffre qui apparaît sur la face supérieure. Si on répète ce lancer 20 fois, on obtient un échantillon de taille 20. Simulation A l’aide de la calculatrice TI, pour lancer un dé, on peut utiliser la procédure suivante : La fonction « NbrAléat » (ou « rand »), permet d’obtenir un nombre dans l’intervalle [0 ; 1[. Pour l’obtenir, faire : math (ou MATH) , PRB, puis 1:NbrAléa (ou 1:rand). 6*NbrAléat (ou 6*rand) permet d’obtenir un nombre dans l’intervalle [0 ; 6[. PartEnt(6*NbrAléa) (ou int(6*rand)) permet d’obtenir un entier entre 0 et 5. Pour obtenir « PartEnt » (ou « int »), faire : math (ou MATH), NUM, puis 5:PartEnt( (ou 5:int). PartEnt(6*NbrAléa) +1 (ou int(6*rand) +1) permet d’obtenir un entier entre 1 et 6. Utiliser cette dernière instruction pour simuler 20 lancers successifs d’un dé équilibré numéroté de 1 à 6, puis compléter Le tableau suivant : Chiffre de la face supérieure Effectif Fréquence 1 2 3 4 5 6 Comparer les résultats des différents élèves de la classe. Que remarque-t-on ? On constate que tous les élèves n’ont pas les mêmes résultats. On dit que pour des échantillons de même taille les fréquences peuvent fluctuer. Fluctuation d’échantillonnage Les distributions des fréquences varient d’un échantillon à l’autre pour une même expérience : c’est ce qu’on appelle la fluctuation d’échantillonnage. Exemple 14 : ( Chaque élève doit réaliser ses expériences en classe et à la maison ) Reprendre l’exemple précédent pour simuler 50 lancers successifs puis 100 puis 200 puis … du même dé. Reproduire dans des tableaux différents les distributions des fréquences pour chaque cas. Que remarque-t-on ? Conclusion : Lorsque la taille n de l’échantillon augmente, l’ampleur des fluctuations des distributions des fréquences calculées sur ces échantillons diminue et les fréquences tendent à se stabiliser. N.M. page 8 Cahier de statistique 8. Caractéristiques de dispersion 8. 1 L'étendue de la série est la différence entre la plus grande et la plus petite valeur du caractère. Exemples : Dans l’exemple 1, l’étendue est N.M. , dans l’exemple 2, l’étendue est page 9 Cahier de statistique