Chapitre 4 Statistiques Les statistiques sont une branche des mathématiques appliquées qui permettent d’étudier des phénomènes ayant un caractère intrinsèquement aléatoire. Elles utilisent un vocabulaire spécifique que nous allons d’abord introduire. 4.1 Vocabulaire des statistiques Pour chaque étude statistique on doit systématiquement définir : — la population étudiée, — le caractère auquel on s’intéresse pour chaque individu de la population. Exemples : — Une étude statistique s’intéresse, chez les jeunes de 12 à 25 ans, à la taille en cm. Quelle est la population ? Quel est le caractère ? Réponses : la population étudiée est celle des jeunes de 12 à 25 ans . Le caractère étudié est la taille en cm. — Donner (ou imaginer) un autre exemple d’étude statistique, puis donner la population et le caractère étudiés. Réponse : On peut étudier le nombre d’année(s) d’étude après le bac. La population est celle des bacheliers. Le caractère est le nombre d’années d’étude. Le but des études statistiques est d’offrir à d’autres sciences (physique, biologie, économie,...) des moyens de (1) recueillir (2) présenter des données décrivant la population. (3) analyser (4) utiliser Exemples : (1) Lors d’un recensement de la population d’un pays on recueille diverses informations sur des individus. Seul un groupe 1 de la population est interrogé. (2) On peut parfois présenter des données statistiques à l’aide d’un histogramme. (3) Pour analyser globalement les résultats d’une classe d’élèves on peut utiliser la moyenne générale de la classe. (4) En médecine, on peut utiliser une étude statistique pour savoir si tel médicament, testé sur un échantillon d’individus, aura une bonne efficacité sur l’ensemble de la population. Donner d’autres exemples illustrant les quatre objectifs poursuivis par une étude statistique : 1. On parle en statistique d’échantillon de la population. 1 Chpt.4 Statistiques 2 Exemples : (1) Les sondages (électoraux par exemple) sont un exemple d’étude statistique où l’on recueille des données. (2) On présente parfois les données statistiques à l’aide de diagrammes circulaires, ou de diagrammes en bâtons. (3) On peut analyser les données d’une étude statistique en calculant la plus grande et la plus petite valeurs receillies puis l’étendue (val. max. - val. min.). (4) On peut utiliser les résultats d’une enquête statistique sur la vente d’un produit pour prévoir si il existe un marché pour ce dernier. Le caractère étudié peut être de plusieurs sortes comme l’indique l’arbre suivant : caractère qualitatif (1) quantitatif (2) discret (2.1) continu (2.2) Exemples : (1) Si on étudie la couleur naturelle de cheveux d’une population de personnes, et qu’on admet que cette couleur est dans la liste {blond, châtain, brun, roux}, alors le caractère étudié sera qualitatif (ne correspondant pas à un nombre) 2 . (2.1) Si on étudie le nombre de véhicules personnels dans une population de ménages, alors le caractère sera quantitatif discret , car ne pouvant être qu’un nombre entier (par exemple de 0 à 4). (2.2) Si une expérience de physique consiste à mesurer la température à une heure donnée du jour sur un ensemble de points géographiques, alors le caractère sera quantitatif continu, car pouvant être mesuré par un nombre réel (par exemple de l’intervalle [−50°; 50°]). Dans ce cas on rassemblera les valeurs mesurées dans des classes, c.-à-d. des intervalles. Par exemple ici on pourra choisir 3 des classes de largeur 10°, de [−50°; −40°] jusqu’à [40°; 50°] Donner ci-dessous d’autres exemples des trois types de caractère qu’on peut rencontrer en statistiques : Exemples : (1) Qualitatif : La qualité des repas fournis par une cantine de lycée pourrait être mesurée auprés des élèves en leur faisant choisir leur réponse dans une liste du type {mauvais, passable, correct, bon ,très bon}. (2.1) Quantitatif discret : Une étude peut consister à étudier sur un groupe de personnes ayant un abonnement internet le nombre de courriers électroniques envoyés par mois, dans la liste {0, 1, . . . , 599, 600}. (2.2) Quantitatif continu : La durée de vie d’un modèle donné d’ampoule à incandescence peut être mesurée dans des classes de largeur 100 heures, par exemple de [0; 100], [100; 200] à [900; 1000]. Pour consigner les données recueillies, on utilise la notion de série statistique. Plus précisément, une série statistique est représentable par un tableau contenant : — la suite des valeurs prises par le caractère 4 ; — la suite des effectifs associés à chaque valeur. 2. On parle alors parfois des modalités du caractère 3. Le choix de la largeur de chaque classe est arbitraire. Celui qui conçoit l’étude statistique fixe cette largeur. 4. ou la suite des classes, si le caractère est continu. − − ∗ Cours de seconde ∗ − − Chpt.4 Statistiques 3 Exemple : Pour l’exemple (2.1) donné précédemment on a obtenu 5 : Valeur (Nb. de véhicules) Effectif (Nb. de familles) 0 1 2 3 4 49 543 756 123 29 Cette série comporte 5 valeurs différentes du caractère. L’effectif total N de la série est la somme de tous les effectifs. La fréquence f d’une valeur du caractère dont l’effectif est n est f= effectif n = . effectif total N En utilisant ces définitions, compléter le tableau suivant, en donnant les fréquences avec une précision de 10−3 : Valeur 0 1 2 3 4 Total 49 543 756 123 29 1500 0,033 0,362 0,504 0,082 0,019 1 (Nb. de véhicules) Effectif (Nb. de familles) Fréquence Les fréquences vérifient les propriétés suivantes qu’il faut connaître : Propriétés : 1. Toute fréquence f vérifie : 0 6 f 6 1 ; 2. La somme des fréquences est égale à 1. On peut aussi calculer les effectifs (ou les fréquences) cumulé(e)s croissant(e)s, qui sont surtout utilisés pour un caractère quantitatif continu, pour lequel les valeurs du caractère sont réparties en classes (intervalles). Voici un exemple, où on s’intéresse au salaire mensuel net des salariés d’une entreprise : Valeur (salaire net (en e)) [0; 1000[ Effectif (Nb. de personnes) [1000; 1200[ [1200; 1500[ [1500; 2500[ [2500; 3000[ 5 8 24 13 2 Total 52 L’Effectif Cumulé Croissant (ou ECC) d’une valeur est le nombre d’individus ayant un caractère inférieur ou égal à cette valeur. Les Fréquences Cumulées Croissantes (FCC) sont les ECC divisés par l’effectif total. Cette définition permet de compléter le tableau suivant : Valeur (salaire net (en e)) Effectif [0; 1000[ [1000; 1200[ [1200; 1500[ [1500; 2500[ [2500; 3000[ 5 8 24 13 2 ECC 5 13 37 50 52 FCC 0,096 0,250 0,712 0,962 1 (Nb. de personnes) Dans cet exemple, et d’après le tableau ci-dessus, le nombre de salariés ayant un salaire inférieur ou égal à 1500 e est 37 . De même, puisque la FCC en % de la valeur 2500 est 96,2, cela signifie que 96,2 % des salariés de cet entreprise ont un salaire inférieur ou égal à 2500 e. 5. D’après une enquête de 1995 dans une région du Québec. − − ∗ Cours de seconde ∗ − − Chpt.4 Statistiques 4.2 4 Représentations d’une série statistique Les représentations des données statistiques sont très variées. Selon la nature du caractère étudié, certaines représentations graphiques sont plus appropriées. Schématiquement, si le caractère est — qualitatif : on trace un diagramme circulaire — quantitatif discret : on trace un diagramme en bâtons (ou en barres) — quantitatif continu : on trace un histogramme et, éventuellement, le polygone des effectifs (ou des fréquences) cumulé(e)s croissant(e)s. La construction de ces représentations à partir des données brutes, ou leur utilisation (par exemple pour retrouver des effectifs) sont des compétences à maîtriser. On renvoit aux exercices traités en classe pour leur bonne acquisition. Nous donnons ci-dessous des exemples de chacune de ces représentations évoquées ci-dessus. Insectes: 19 Oiseaux: 35 Amphibiens: 11 Mammifères: 40 Reptiles: 10 Figure 4.1: Exemple de diagramme circulaire. Étude des espèces animales menacées Nombre de familles effectif égal à 5 700 600 500 400 300 200 100 0 0 1 2 3 4 Nombre de véhicules Figure 5.2 – Exemple de diagramme en bâtons. Nombre de véhicules dans les familles. 0 500 1000 1200 1500 2000 2500 3000 e Figure 5.3 – Exemple d’histogramme. Salaires (en e) dans une entreprise. − − ∗ Cours de seconde ∗ − − Chpt.4 Statistiques 5 On peut retenir, pour le tracé pratique de ces représentations, que : — dans un diagramme circulaire les angles des secteurs sont proportionnels aux effectifs (ou fréquences) ; — dans un diagramme en bâtons, les hauteurs des bâtons sont proportionnelles aux effectifs (ou aux fréquences) ; — dans un histogramme, les aires des rectangles sont proportionnelles aux effectifs (ou aux fréquences). Dans chaque cas, les unités indiquées sur le graphique permettent de retrouver ce coefficient de proportionnalité. Enfin, pour un caractère continu, on utilisera parfois le polygone des effectifs (ou fréquences) cumulé(e)s croissant(e)s, qui permet de retrouver certains des paramètres caractérisant la série statistique : 55 50 Effectifs cumulés croissants 45 40 35 30 25 20 15 10 5 0 0 500 1000 1500 2000 Salaires (en e) 2500 3000 Figure 4.4: Polygone des Effectifs Cumulés Croissants Salaires dans une entreprise. Une utilisation possible est la détermination (par lecture graphique ou par un calcul) de la médiane. Ici, puisque l’effectif total est de 52, on cherche la valeur du salire qui correspondrait à un effectif de 26, sachant que 13 salariés ont un salaire inférieur ou égal à 1200 et 37 ont un salaire inférieur ou égal à 1500. On trouve (exercice) : Me=1362,5 e. 4.3 Paramètres de position et de dispersion Ayant donné un minimum de définitions pour décrire une série statistique on va maintenant définir des paramètres qui permettent d’analyser cette série. Définition : Soit une série statistique à caractère quantitatif discret comportant p valeurs distinctes, d’effectif total N. La moyenne de cette série est le réel noté x̄ tel que x̄ = n1 x1 + n2 x2 + · · · + np xp N Valeur x1 x2 ··· xp Effectif n1 n2 ··· np Remarque : La moyenne peut aussi se calculer à partir des fréquences f1 , f2 , . . . , fp en remarquant, dans la formule précédente, que fi = nNi . Donner cette formule : − − ∗ Cours de seconde ∗ − − Chpt.4 Statistiques 6 n1 x1 + n2 x2 + · · · + np xp N n2 x2 np xp n1 x1 + + ··· + = N N N n1 n2 np = x1 + x2 + · · · + xp N N N x̄ = f1 x1 + f2 x2 + · · · + fp xp x̄ = Exemple : Reprendre le tableau de l’étude statistique sur le nombre de véhicules par famille et calculer, en arrondissant à l’entier le plus proche, la moyenne de cette série. On pourra utiliser et compléter le tableau suivant qui permet de disposer les calculs : Valeur xi 0 1 2 3 4 Total Effectif ni 49 543 756 123 29 1500 ni × xi 0 543 1512 369 116 2540 n1 x1 + n2 x2 + · · · + np xp N 2540 = 1500 '2 x̄ = Définition : Soit une série statistique à caractère quantitatif discret, d’effectif total N. On classe les N résultats obtenus par ordre croissant : x1 6 x2 6 · · · 6 xN−1 6 xN La médiane de la série, notée Me, est la valeur théorique qui sépare l’effectif total en deux parties de même effectif. Plus précisément : — Si N est impair Me est la valeur centrale. — Si N est pair Me est la demi-somme des deux valeurs centrales. Exemples : Soit la série statistique correspondant au tableau suivant : Valeur 5 10 11 13 15 Effectif 3 1 1 3 1 Si on classe les 9 résultats par ordre croissant on obtient : 5 6 5 6 5 6 10 6 11 6 13 6 13 6 13 6 15 On voit qu’ici (9 étant impair) il existe une unique valeur centrale, la cinquième, donc Me = 11. Soit les séries statistiques suivantes comportant 6 résultats et qui, une fois classées, donnent les listes suivantes : 10 6 10 6 11 6 11 6 12 6 18 et 9 6 9 6 11 6 12 6 15 6 16 On voit qu’ici (6 étant pair) ces séries comportent deux valeurs centrales, dont il faut calculer la demi-somme. La médiane de la première série est donc 11+11 = 11 tandis que celle de la deuxième est 11+12 = 11, 5. 2 2 Exemple : Calculer la médiane de la série associée à la série du nombre de véhicules par ménage. On a N = 1500, qui est pair (1500 = 2 × 750). Les deux valeurs centrales sont la 750 -ième et la 751 -ième. Or ces deux valeurs sont égales à 2 (car 49 + 543 = 592 < 750 et 49 + 543 + 756 = 1348 > 750). Donc Me = 2. − − ∗ Cours de seconde ∗ − − Chpt.4 Statistiques 7 Remarque : Dans le cas d’une série statistique à caractère quantitatif continu on défini de façon analogue la moyenne, la médiane et le mode. Définition : Soit une série statistique à caractère quantitatif discret. Le premier quartile, noté Q1 de la série, est la valeur de la série telle qu’au moins 25 % de l’effectif total soit inférieur ou égal à Q1 . Le troisième quartile, noté Q3 de la série, est la valeur de la série telle qu’au moins 75 % de l’effectif total soit inférieur ou égal à Q3 . Exemple : Calculer le premier et le troisième quartile pour les séries de 6 notes données ci-dessus. On dit que la moyenne, la médiane, le premier et le troisième quartile sont des paramètres de position, ce qui signifie qu’il indiquent « autour » de quelle valeur (ou position) se situe le phénomène observé. En revanche ces paramètres n’indiquent pas comment les résultats obtenus se placent autour de ces valeurs centrales. En effet les résultats peuvent être très concentrés autour d’une valeur centrale, ou au contraire très dispersés. Les paramètres de dispersion, permettent d’avoir une idée de cette répartition. Nous donnons maintenant la définition de deux d’entre eux. Définition : Soit une série statistique à caractère quantitatif. Soit xmin et xmax la plus petite et la plus grande valeur. Alors l’étendue de la série est xmax − xmin . Exemple : Quelle est l’étendue de la série statistique sur le nombre de véhicules par ménages ? Réponse : Elle est de 4 − 0 = 4. Définition : Soit une série statistique à caractère quantitatif discret. Alors l’écart inter-quartile est le nombre Q3 -Q1 . C’est l’amplitude de l’intervalle [Q1 ; Q3 ], qui regroupe 50 % des valeurs de la série. Exemple : Calculer les écarts inter-quartiles des deux séries de 6 notes précédentes. Comparer ces deux séries. Remarque : Y a-t-il à votre avis un lien entre la valeur d’un paramètre de position (par exemple la moyenne) et un paramètre de dispersion (l’étendue) ? Donner des exemples. Réponse : Il n’y a aucun lien . Une même moyenne peut être associée à deux étendues différentes et réciproquement. Par exemple, en prenant les notes d’un élève, une même moyenne de 10/20 peut être asociée à deux notes de 9 et 11 (étendue : 2) ou de 1 et 19 (étendue : 18). Inversement une même étendue de 6 peut être associée à une moyenne de 13 (notes : 10 et 16) ou a ne moyenne de 4 (notes : 2 et 6). 4.4 Fluctuation d’échantillon – Intervalle de confiance Pour traiter ce paragraphe, on propose de simuler, à l’aide de la caculatrice, l’expérience qui consiste à jeter un dé équilibré. Pour cela : ouvrir le menu q(menu des calculs numériques habituel), puis i, puis prob (utiliser u pour faire apparaître ce menu, puis e pour le sélectionner), puis rand (r), puis Int (w). La commande RanInt#( s’affiche à l’écran. La compléter en RanInt#(0,1) puis l’exécuter avec l (attention : bien saisir une virgule et non un point entre 0 et 1). La commande RanInt#(0,1) génère un nombre entier aléatoire compris entre 0 et 1 (inclus) ; chaque nombre ayant une égale probabilité d’apparaître. Vérifier, en appuyant plusieurs fois sur l, qu’on obtient bien une succession aléatoire de 0 et de 1. Il suffit de décider que − − ∗ Cours de seconde ∗ − − Chpt.4 Statistiques 8 le côté Pile de la pièce correspondra à 0 et Face à 1. On va ainsi, avec la calculatrice, réaliser un échantillon de taille 30 de cette expérience aléatoire. Définition : On appelle échantillon de taille N une liste de N résultats obtenus par N répétitions indépendantes d’une même expérience aléatoire. Exemple : Soit l’expérience du tirage d’une pièce de monnaie à Pile ou Face : ) PFPPFFPFPP deux échantillons de taille 10 FPPFFFPFPP Remarque : En statistiques, la plupart du temp N est choisi «très grand». En utilisant votre calculatrice compléter le tableau ci-dessous et réaliser un échantillon de taille 30 de l’expérience du jet d’une pièce équilibrée. P P F P P F P F F P F P P P P F F P P F F F P F P F F P P F Comparer l’échantillon que vous avez obtenu avec celui de votre voisin. Sont-ils exactement identiques ? Définition : Pour une population donnée, des échantillons produits suivant le même protocole peuvent avoir (et ont, la plupart du temps) des composition différentes : on dit qu’il y a fluctuation d’échantillon. Soit une valeur donnée du caractère dans l’expérience aléatoire à laquelle on s’intéresse, par exemple «Pile» dans l’expérience du jet d’une pièce. Dans un échantillon de taille N on peut déterminer la fréquence f de ce caractère. Exemple : Dans les deux 10-échantillons précédents : f= f= 6 10 5 10 = 0, 6 dans le premier échantillon = 0, 5 dans le second Calculer la fréquence observée f de «Pile» dans votre échantillon de taille 30 et donner sa valeur décimale arrondie à 10−2 . 16 f= ' 0, 53 30 Intuitivement, plus N est grand, plus la fréquence que l’on va observer devrait se rapprocher de la vraie probabilité p du caractère (ici, pour une pièce équilibrée, de p = 21 ). La propriété suivante précise cette idée : Propriété : Si 0, 2 6 p 6 0, 8 et si N > 25, alors dans 95 % des cas au moins, la fréquence f (observée) du caractère de probabilité p (théorique) appartient à l’intervalle 1 1 p − √ ;p + √ . N N Cet intervalle est appelé intervalle de fluctuation au seuil de 95 % d’un échantillon de taille N. Exemple : Dans le jet d’une pièce de monnaie équilibrée, déterminer l’intervalle de fluctuation au seuil de 95 % pour un échantillon de taille 1000. − − ∗ Cours de seconde ∗ − − Chpt.4 Statistiques 9 Déterminer l’intervalle de fluctuation au seuil de 95 % de la fréquence de «Pile» dans l’expérience consistant à simuler 30 jets d’une pièce équilibrée. Votre fréquence f observée appartient-elle à cet intervalle ? Interpréter. Pour l’effectif de la classe, combien d’élèves environ devraient avoir obtenus une fréquence n’appartenant pas à cet intervalle ? Ici l’intervalle de fluctuation est calculable car d’une part la condition N = 30 > 25 est vérifiée et, d’autre part, la pièce étant équilibrée on a p = 21 , donc la condition 0, 2 6 p 6 0, 8 est aussi vérifiée. L’intervalle est, arrondi à 10−2 , 1 1 p − √ ;p + √ N N 1 1 1 1 −√ ; +√ 2 30 2 30 [0, 32; 0, 68] Dans le 30-échantillon obtenu, la fréquence observée de «Pile» est de 0, 53, donc elle appartient à l’intervalle de fluctuation de «Pile» au seuil de 95 %. Interprétation : le 30-échantillon obtenu est «statistiquement normal». Normalement, sur un effectif de 38 élèves, seulement 5 % des fréquences observées devraient ne pas appartenir à l’intervalle de fluctuation, soit 38×5 100 ' 2 élèves. Remarque : Lorsque p est inconnue, mais qu’on dispose, par simulation, d’une fréquence f observée sur un échantillon de taille N, on peut (à condition que 0, 2 6 f 6 0, 8 et que N > 25) renverser la démarche précédente et trouver un intervalle, appelé intervalle de confiance pour p au seuil de 95 %, qui contient la valeur p avec une probabilité de 95 %. Cet intervalle est 1 1 . f − √ ;f + √ N N − − ∗ Cours de seconde ∗ − −