STATISTIQUES I Statistiques à une variable - rappels Exercice 01 (voir réponses et correction) On a relevé le prix de vente d'un CD et le nombre de CD vendus chez différents fournisseurs. Les résultats forment une série statistique à une variable, donnée dans le tableau suivant : Prix de vente en euros Nombre de CD vendus 15 83 16 48 17 32 18 20 19 17 Quelles sont les différentes valeurs de la série. Donner la fréquence correspondant à chacune de ces valeurs. Donner la moyenne et l'écart-type de la série. Que représentent ces nombres ? Représenter la série par un diagramme à barres. Définitions On considère une série statistique donnée par le tableau suivant : Valeur : xi Effectif : ni x1 n1 x2 n2 x3 n3 … … … … n x x + n2 x x2 + n3 x x3 + … + np x xp La moyenne de cette série est : x = 1 1 = n1 + n2 + n3 + … + np … … xp np ∑nixi ∑ni La moyenne permet d'avoir une idée du "centre" de la série, c'est une mesure de tendance centrale. n x (x1 - x )2 + n2 x (x2 - x )2 + n3 x (x3 - x )2 + … + np x (xp - x )2 La variance de cette série est : V = 1 n1 + n2 + n3 + … + np On note V= ∑ni(xi - x )2 ∑ni ; on a aussi V = ∑ni(xi)2 - x 2 ∑ni L'écart-type de cette série est : σ = V L'écart-type permet d'avoir une idée de la façon dont les valeurs de la série s'écartent par rapport à la moyenne. C'est une mesure de dispersion. Un écart-type faible correspond à une série concentrée autour de la moyenne. Remarques • Si la série statistique n'est pas donnée avec les effectifs mais avec les fréquences fi, on a : x = f1 x x1 + f2 x x2 + f3 x x3 + … + fp x xp = ∑ fi xi et V = f1 x (x1 - x )2 + f2 x (x2 - x )2 + f3 x (x3 - x )2 + … + fp x (xp - x )2 = ∑fi(xi - x )2 • Les calculs de moyenne, de variance et d'écart-type sont, pour des séries prenant un grand nombre de valeurs, des calculs compliqués. Les calculatrices utilisées en mode statistique et les ordinateurs rendent alors de grands services pour ces calculs. Propriété Lorsqu'on augmente (ou lorsqu'on diminue) d'un même nombre r chacune des valeurs du caractère d'une série statistique, la moyenne augmente (ou diminue) de r. Lorsqu'on multiplie (ou lorsqu'on divise) par un même nombre non nul k chacune des valeurs du caractère d'une série statistique, la moyenne est multipliée (ou divisée) par k. Exercice 02 (voir réponses et correction) Dans une classe de 30 élèves, la moyenne des 20 filles est 11,5 et la moyenne des 10 garçons est 8,5. Donner la moyenne de la classe. http://xmaths.free.fr/ TES − Statistiques page 1 Propriété Soit une série statistique d'effectif N, partagée en deux groupes : un groupe d'effectif p et de moyenne m1 un groupe d'effectif q = N - p et de moyenne m2 p x m1 + q x m2 Alors la moyenne m de la série est m = N Définitions On considère une série, dont les valeurs sont ordonnées (rangées dans l'ordre croissant). Si la série comporte un nombre pair 2n de termes, la médiane de cette série est la demi-somme de la valeur du terme de rang n et de la valeur du terme de rang n+1. Si la série comporte un nombre impair 2n+1 de termes, la médiane de cette série est la valeur du terme de rang n+1 (c'est-à-dire le terme partageant la série en deux groupes de même effectif). On appelle premier quartile d'une série la plus petite valeur q des termes de la série pour laquelle au moins un quart (25%) des données sont inférieures ou égales à q. On appelle troisième quartile d'une série la plus petite valeur q' des termes de la série pour laquelle au moins trois quarts (75%) des données sont inférieures ou égales à q'. On appelle intervalle interquartile l'intervalle [q ; q']. On appelle écart interquartile l'amplitude de l'intervalle [q ; q'], c'est-à-dire le nombre q' - q. On appelle premier décile d'une série la plus petite valeur d des termes de la série pour laquelle au moins un dixième (10%) des données sont inférieures ou égales à d. On appelle neuvième décile d'une série la plus petite valeur d' des termes de la série pour laquelle au moins neuf dixièmes (90%) des données sont inférieures ou égales à d'. On appelle intervalle interdécile l'intervalle [d ; d']. On appelle écart interdécile l'amplitude de l'intervalle [d ; d'], c'est-à-dire le nombre d' - d. Exercice 03 (voir réponses et correction) Déterminer la médiane de chacune des séries : 101 101 105 105 107 108 108 110 87 88 89 89 90 92 92 93 97 99 99 Exercice 04 (voir réponses et correction) Déterminer la médiane, les quartiles et l'écart interquartile de la série : 11 , 12 , 12 , 13 , 15 , 16 , 16 , 17 , 17 , 18 , 19 , 20 , 22 , 23 Exercice 05 (voir réponses et correction) Déterminer la médiane, les quartiles, les déciles, l'écart interquartile et l'écart interdécile de la série : 4, 5, 5, 5, 6, 6, 7, 8, 8, 9, 9, 9, 9, 10, 10, 11, 11, 11, 12, 13, 13, 13, 14, 14, 15, 15, 17 Exercice 06 (voir réponses et correction) Déterminer la moyenne et l'écart-type de la série : 4, 5, 5, 5, 6, 6, 7, 8, 8, 9, 9, 9, 9, 10, 10, 11, 11, 11, 12, 13, 13, 13, 14, 14, 15, 15, 17 Exercice 07 (voir réponses et correction) Le tableau suivant donne une répartition des salaires mensuels en euros des employés d'une entreprise. Salaire [1000 ; 1200[ [1200 ; 1500[ [1500 ; 2000[ [2000 ; 3000[ [3000 ; 10000[ Effectif 326 112 35 8 3 1°) Quel est le nombre d'employés de l'entreprise ? 2°) Quel est le nombre d'employés touchant un salaire mensuel supérieur ou égal à 1200 euros. 3) Représenter les données par un histogramme (voir éventuellement page suivante). 4) Quel est le salaire moyen des employés de l'entreprise ? http://xmaths.free.fr/ TES − Statistiques page 2 Histogramme Si les données sont regroupées en classes (intervalles), la série peut être représentée par un histogramme. Dans un histogramme ce sont les aires des rectangles qui correspondent aux effectifs. (Dans un diagramme à barres ou à bandes, ce sont les hauteurs des barres qui correspondent aux effectifs) Exemple On considère la série : xi 0 1 2 ni 3 5 4 3 5 4 6 5 7 6 7 7 8 9 10 11 12 13 14 15 16 17 18 19 20 10 13 20 25 21 23 12 10 5 7 5 3 2 1 Si on regroupe les valeurs dans des classes, on obtient par exemple : xi ni [0 ; 5,5] 30 ]5,5 ; 8,5] 30 ]8,5 ; 11,5] 66 ]11,5 ; 14,5] 45 ]14,5 ; 20] 23 On peut alors faire les représentations graphiques correspondantes : Diagramme à barres Exercice 08 Histogramme (voir réponses et correction) Un entomologiste a fait des relevés sur la taille de 50 courtilières adultes. 33 35 36 36 37 37 37 38 38 38 39 39 39 39 40 40 40 40 40 41 41 41 41 41 41 41 42 42 42 42 42 42 43 43 43 43 44 44 44 44 45 45 45 46 46 47 47 48 48 50 1°) Organiser les relevés dans le tableau d'effectifs suivant : Valeur Effectif 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 Effectif cumulé croissant 2°) Représenter les données par un diagramme à barres. Un diagramme circulaire serait-il intéressant ? 3°) Calculer la moyenne de la série. Déterminer sa médiane. 4°) Déterminer le 1er et le 3ème quartile puis le 1er et le 9ème décile. 5°) Construire le diagramme en boîte correspondant à la série (voir éventuellement page suivante). 6°) On regroupe les données en classes, c'est-à-dire en intervalles. Compléter le tableau des effectifs suivants : Valeur Effectif [33 ; 37[ [37;40[ [40 ; 42[ [42 ; 44[ [44 ; 47[ [47 ; 51[ Dessiner l'histogramme correspondant. http://xmaths.free.fr/ TES − Statistiques page 3 Construction d'un diagramme en boîte Ce type de diagramme est aussi appelé diagramme de Tuckey, boîte à moustaches ou boîte à pattes. er ème er ème quartile, le 1 et le 9 décile ou les valeurs extrêmes d'une série. Il utilise la médiane, le 1 et le 3 La construction ci-contre est faite pour une série caractérisée par : médiane : 113 er 1 quartile : 110 er 1 décile : 108 ème 3 quartile : 117 ème 9 décile : 119 ème 3 quartile On choisit une graduation verticale permettant de représenter les différentes valeurs de la série. On pourra par exemple graduer entre 90 et 130. Le "corps" du diagramme, c'est-à-dire la "boîte" est formée d'un rectangle ayant pour extrémité inférieure le er ème 1 quartile et pour extrémité supérieure le 3 quartile. A l'intérieur de ce rectangle on tracera un segment représentant la médiane. médiane er 1 quartile La largeur du rectangle n'est pas fixée, elle sera choisie de façon à obtenir un graphique "harmonieux". Ce rectangle représente les données contenues dans l'intervalle interquartile. ème 9 décile er On repère ensuite les hauteurs correspondant au 1 et ème décile, et on trace deux pattes représentant les au 9 données contenues dans l'intervalle interdécile. (la largeur des pattes n'a pas d'importance). er 1 décile Facultatif On peut ensuite terminer le graphique, en faisant figurer par des points les données qui sont en dehors de l'intervalle interdécile. Si certaines données, sont manifestement très éloignées, on ne les représentera pas, mais on pourra écrire leurs valeurs au dessous du diagramme. Remarques • Le graphique est parfois fait en dessinant des pattes er ème correspondant non pas au 1 et au 9 décile, mais er ème aux valeurs extrêmes (ou au 1 et au 99 centile). • Une boîte et des "pattes" courtes indiquent que la série est assez concentrée autour de sa médiane. Au contraire une boîte et des "pattes" longues indiquent que la série est assez dispersée. • Un des avantages de cette représentation, est qu'elle nécessite très peu de calculs. • La représentation peut aussi se faire horizontalement, d'où l'appellation de "boîte à moustaches". La graduation se trouve alors sur l'axe horizontal, http://xmaths.free.fr/ TES − Statistiques page 4 Exercice 09 (voir réponses et correction) On a relevé les taux de cholestérol de 200 employés des hôpitaux de Los Angeles victimes de maladie cardiaque. 270 250 300 200 260 240 270 270 290 240 320 230 150 230 240 300 250 270 300 300 310 270 350 230 290 280 230 250 320 330 250 230 230 220 230 220 290 250 340 240 250 240 210 360 270 240 220 240 350 300 300 200 250 290 250 230 220 250 170 330 250 210 230 270 360 300 310 280 290 200 270 240 250 240 190 280 260 210 200 190 270 210 220 170 180 220 260 350 140 300 190 270 310 190 260 240 230 200 310 240 200 210 180 280 350 190 250 230 260 210 260 130 280 250 180 170 300 210 260 240 260 220 300 270 250 320 200 240 240 200 330 290 290 280 280 150 160 200 220 260 280 220 190 300 270 320 230 210 180 170 280 200 220 240 240 200 270 330 320 270 250 220 250 210 220 210 280 200 220 250 240 330 230 260 230 270 180 260 300 250 330 270 220 190 220 230 300 310 310 270 250 260 220 250 220 270 270 160 250 190 1°) Organiser ces données dans un tableau faisant apparaître les effectifs. er ème 2°) Déterminer la médiane, le 1 quartile, le 3 er ème quartile, le 1 décile et le 9 décile de la série. 3°) Construire un diagramme en boîte pour représenter la série. Exercice 10 (voir réponses et correction) Le tableau ci-dessous indique les résultats aux différentes séries du baccalauréat dans l'académie de Bordeaux en 1999. (Source : Direction de la programmation et du développement, MENRT) Bac Général 12 133 3 516 Admis Refusés Bac Technologique 6 133 1 439 Bac Pro 4 038 1 119 Total Total 1°) Reproduire et compléter ce tableau d'effectifs en remplissant la dernière ligne et la dernière colonne qui sont appelées distributions marginales (marges). 2°) Présenter un tableau similaire dans lequel seront indiquées les fréquences (en pourcentage avec une décimale) calculées par rapport à l'effectif total. Que représente la valeur se trouvant à l'intersection de la colonne "Bac Général" et de la ligne "Total" ? Cette valeur s'appelle fréquence marginale de la catégorie "Bac Général". Que représente la valeur se trouvant à l'intersection de la ligne "Admis" et de la colonne "Total" ? Cette valeur s'appelle fréquence marginale de la catégorie "Admis". 3°) Présenter un tableau similaire dans lequel seront indiquées les fréquences (en pourcentage avec une décimale) calculées par rapport au total de chaque colonne. Que représente la valeur se trouvant à l'intersection de la colonne "Bac Général" et de la ligne "Admis" ? Cette valeur s'appelle fréquence conditionnelle de la catégorie "Admis" dans la catégorie "Bac Général". 4°) Présenter un tableau similaire dans lequel seront indiquées les fréquences (en pourcentage avec une décimale) calculées par rapport au total de chaque ligne. Que représente la valeur se trouvant à l'intersection de la colonne "Bac Général" et de la ligne "Admis" ? Cette valeur s'appelle fréquence conditionnelle de la catégorie "Bac Général" dans la catégorie "Admis". 5°) A partir des tableaux précédents, répondre aux questions suivantes : • Quelle est la fréquence des admis au baccalauréat ? • Quelle est la fréquence des "Bac Pro" ? • Quelle est la fréquence des élèves refusés sachant qu'ils présentaient un Bac Technologique ? • Quelle est la fréquence des "Bac Pro" parmi les admis ? http://xmaths.free.fr/ TES − Statistiques page 5 II Statistiques à deux variables Définition On considère deux variables statistiques numériques observées sur une même population de n individus On note x1 ; x2 ; ... xn les valeurs relevées pour la première variable et y1 ; y2 ; ... yn les valeurs relevées pour la deuxième variable. Les couples (x1 ; y1) ; (x2 ; y2) ; ... ; (xn ; yn) forment une série statistique à deux variables. Dans le plan rapporté à un repère orthogonal, on appelle nuage de points associé à cette série statistique à deux variables, l'ensemble des points M1(x1 ; y1) ; M2(x2 ; y2) ; ... ; Mn(xn ; yn) . On appelle point moyen de cette série le point G de coordonnées ( − x;− y ) où − x et − y sont les moyennes respectives des séries x1 ; x2 ; ... xn et y1 ; y2 ; ... yn . Exemple On considère la série statistique à deux variables, donnant le poids en kg et la taille en cm d'enfants de 60 mois et de sexe masculin. Poids Taille 20 112 18 106 17 105 20 110 On peut représenter le nuage de points correspondant et placer le point moyen G dont les coordonnées sont données par : − x ≈ 19,4 −y = 109,1 NB : Il est possible que deux points du nuage soient confondus 20 111 17 106 116 115 114 113 112 111 110 109 108 107 106 105 104 103 102 101 100 20 112 18 108 21 112 19 106 20 108 23 114 18 107 20 110 taille en cm G Poids en kg 15 16 17 18 19 20 21 22 23 24 Remarque Lorsque le nuage de points a un aspect rectiligne, on pourra procéder à un ajustement affine, c'est-à-dire que l'on assimilera le nuage à une droite assez proche de tous ses points. Cet ajustement affine pourra être utilisé pour prodéder à des interpolations ou à des extrapolations. Le problème se posera de savoir quelle droite sera la plus proche du nuage et donnera les meilleurs résultats. http://xmaths.free.fr/ TES − Statistiques page 6 Exemple Le nuage de points ci-contre représente le chiffre d'affaires en millions d'euros d'une Chiffre d'affaires entreprise pendant la période allant de 1980 à 2000. 2 Le nuage ayant un aspect rectiligne, on admet que l'on peut faire un ajustement affine par la droite d'équation y = 0,05x - 98 que l'on représente sur le dessin. 1,5 Cette droite permet de trouver par exemple • par interpolation le chiffre d'affaires approché de l'entreprise en 1996 : y(1996) = 0,05 x 1996 - 98 = 1,8 1 Année • par extrapolation le chiffre d'affaires prévisible de l'entreprise en 2010 : 1 980 1 985 1 990 1 995 2 000 2 005 2 010 y(2010) = 0,05 x 2010 - 98 = 2,5 On parle d'interpolation pour des valeurs à l'intérieur de la plage des valeurs observées et d'extrapolation pour des valeurs à l'extérieur de cette plage. Bien entendu, les résultats obtenus par interpolation et par extrapolation sont à exploiter avec prudence. Remarque Lorsque le nuage de points n'a pas un aspect rectiligne, on peut parfois faire un ajustement par une courbe qui n'est pas une droite. Certains exemples nécessitant des connaissances supplémentaires (fonction logarithme népérien, fonction exponentielle, fonctions puissances) seront donnés ultérieurement. Exercice 11 (voir réponses et correction) Le tableau suivant présente l'évolution du taux de chômage, en pourcentage de la population active, au Japon, entre 1950 et 1996. Année Rang de l'année xi Taux yi (en %) 1950 1960 1965 1970 1975 1980 1985 1990 1995 1996 0 10 15 20 25 30 35 40 45 46 1,2 1,6 1,6 1,2 1,1 2,0 2,6 2,1 3,1 3,4 1°) Représenter le nuage de points correspondant à la série (xi ; yi). On choisira un repère orthogonal pour lequel : 1cm représente 5 années sur l'axe des abscisses, 1cm représente un taux de chômage de 0,5% sur l'axe des ordonnées. 2°) Déterminer les coordonnées du point moyen A de ce nuage. Le placer sur le graphique. 3°) On prend pour droite d'ajustement de ce nuage la droite D passant par A et de coefficient directeur 0,04. a) Déterminer une équation de D. b) Représenter D sur le graphique. 4°) Répondre aux questions suivantes en utilisant l'ajustement précédent. a) Quel est le taux de chômage prévisible pour 2005 ? b) À partir de quelle année le taux prévisible dépassera-t-il à nouveau 3,2% ? http://xmaths.free.fr/ TES − Statistiques page 7 Exercice 12 (voir réponses et correction) Le tableau suivant donne la consommation française en tonnes d'une certaine matière première M pour la période de 1996 à 2003. Année Consommation en tonnes 1996 1997 1998 1999 2000 2001 2002 2003 7740 7800 7880 7900 7920 8000 8020 8060 On appelle xi le rang de l'année exprimé à partir de 1995 et yi la consommation française en tonnes de la matière M. 1°) Représenter le nuage de points de coordonnées (xi ; yi) On choisira un repère orthogonal avec 2cm pour 1 unité en abscisses et 1cm pour 20 unités en ordonnées. 2°) Dans le but de prévoir la consommation de la matière M pour les années suivantes, on décide de procéder à un ajustement affine de la série statistique (xi ; yi). On appelle G1 le point moyen du sous-nuage formé par les points d'abscisses 1 , 2 , 3 et 4 . et G2 le point moyen du sous-nuage formé par les autres points. a) Calculer les coordonnées de G1 et de G2 . b) Donner une équation de la droite (G1G2) sous la forme y = mx + p . c) Tracer la droite (G1G2) sur le dessin précédent. On admettra que cette droite (appelée droite de Mayer) représente un ajustement affine de la série. d) Calculer, en utilisant cet ajustement, une valeur approchée, à une tonne près, de la consommation française de matière M prévisible pour 2010. Remarque On considère un nuage de points M1(x1 ; y1) ; M2(x2 ; y2) ; ... ; Mn(xn ; yn) de forme rectiligne. Soit d d'équation y = ax + b une droite d'ajustement. Considérons les points P1 ; P2 ; ... ; Pn d'abscisses respectives x1 ; x2 ; ... ; xn sur la droite d. Ces points ont pour ordonnées respectives ax1+b ; ax2+b ; ... ; axn+b La somme (M1P1)2 + (M2P2)2 + ... + (MnPn)2 est appelée somme des carrés des résidus. On appelle droite des moindre carrés la droite d pour laquelle la somme des carrés des résidus est minimale. Mn M2 d M1 Mn M2 P1 d Pn P2 M1 Propriété On considère un nuage de points M1(x1 ; y1) ; M2(x2 ; y2) ; ... ; Mn(xn ; yn) de forme rectiligne. La droite d'ajustement d obtenue par la méthode des moindres carrés est la droite passant par le point moyen G et ayant pour coefficient directeur : i=n ∑ (x - −x)(yi - −y) − − − − − − (x1 - x)(y1 - y) + (x2 - x)(y2 - y) + ... + (xn - x)(yn - y) i = 1 i a= = i=n (x1 - − x)(x1 - − x) + (x2 - − x)(x2 - − x) + ... + (xn - − x)(xn - − x) −2 ∑ (xi - x) Cette droite a pour équation : y = a(x - − x) + − y La droite d est aussi appelée droite de régression de y en x . http://xmaths.free.fr/ TES − Statistiques i=1 page 8 Exemple On considère la série xi yi 10 105 i=n 11 107 17 112 18 115 ∑ yi On a − x = i = 1 = 14 et − y = i = 1 = 110. 6 6 On peut calculer dans un tableau : (xi - − x)2 15 111 i=n ∑ xi xi yi (xi - − x) − (yi - y) (xi - − x)(yi - − y) 13 110 Le point moyen G a pour coordonnées (14 ; 110) 10 105 11 107 13 110 -1 0 0 15 111 1 1 1 17 112 3 2 6 18 115 4 5 20 -4 -5 20 -3 -3 9 16 9 1 1 9 16 On en déduit le coefficient directeur de la droite d'ajustement a = 20 + 9 + 0 + 1 + 6 + 20 = 56 ≈ 1,077 16 + 9 +1 + 1 +9 + 16 52 La droite d'ajustement par la méthode des moindres carrés est donc la droite d'équation : y = 56 (x - 14) + 110 52 On pourra donner l'équation en utilisant une valeur approchée du coefficient a y = 1,077(x - 14) + 110 ou y = 1,077 x + 94,922 On peut en déduire par interpolation : • La valeur de y correspondant à x = 12 : • La valeur de x correspondant à y = 114 : et par extrapolation : • La valeur de y correspondant à x = 20 : • La valeur de x correspondant à y = 120 : y = 1,077 x 12 + 94,922 donc y ≈ 107,8 114 = 1,077 x + 94,922 donc x ≈ 17,7 y = 1,077 x 20 + 94,922 donc y ≈ 116,5 120 = 1,077 x + 94,922 donc x ≈ 23,3 Remarque Les calculs donnant la droite d'ajustement par la méthode des moindres carrés peuvent être faits avec une calculatrice ou un ordinateur. Le principe, avec une calculatrice, est d'entrer les valeurs de xi dans une première liste, les valeurs de yi dans une deuxième liste puis de demander les calculs statistiques concernant les statistiques à 2 variables. On peut aussi obtenir le tracé du nuage des points et de la droite d'ajustement par la méthode des moindres carrés. Avec une calculatrice TI 82 : http://xmaths.free.fr/ TES − Statistiques page 9 Exercice 13 (voir réponses et correction) Le tableau suivant représente l'évolution du chiffre d'affaires en milliers d'euros d'une entreprise pendant dix années, entre 1995 et 2004. Année rang de l'année xi chiffre d'affaires yi 1995 0 110 1996 1 130 1997 2 154 1998 3 180 1999 4 190 2000 5 210 2001 6 240 2002 7 245 2003 8 270 2004 9 295 1°) Représenter le nuage de points Mi(xi ; yi). On choisira un repère orthogonal ayant pour unités 2cm en abscisse et 1cm pour 20 milliers d'euros en ordonnée. 2°) Quel est, en pourcentage, l'augmentation du chiffre d'affaires entre les années 1995 et 2004 ? (on donnera le résultat à 1% près par excès) 3°) Soit G le point moyen du nuage. Calculer les coordonnées de G et placer G sur le dessin. 4°) Justifier qu'il est judicieux de procéder pour cette série à un ajustement affine. Donner, en utilisant la calculatrice, l'équation de la droite d'ajustement D obtenue par la méthode des moindres carrés. 5°) Vérifier que G appartient à la droite D et tracer D sur le dessin. 6°) En admettant que l'évolution continue au même rythme et en utilisant l'ajustement affine, quel chiffre d'affaires peut-on attendre pour l'année 2010 ? 7°) On suppose qu'à partir de l'année 2004, le chiffre d'affaires progresse de 8% par an. Quel est alors le chiffre d'affaire prévisible en 2010 ? Exercice 14 (voir réponses et correction) Le tableau suivant donne la distance de freinage nécessaire à une automobile circulant sur une route humide pour s'arrêter. Vitesse xi en km.h-1 Distance de freinage di en mètres yi = di 30 40 50 60 70 80 90 100 110 120 18 26 40 58 76 98 120 148 180 212 Cette série statistique est représentée par le nuage de points ci-contre 200 On pose yi = di et on considère la série statistique (xi ; yi). 1°) Reproduire et compléter la dernière ligne du tableau. Les valeurs yi seront arrondies à 0,01 près 2°) Représenter le nuage de points Mi(xi ; yi). On choisira un repère orthogonal ayant pour unités 1cm pour 20 km.h-1 en abscisse et 0,5 cm en ordonnée. 150 100 3°) Donner, en utilisant la calculatrice, la droite de régression de y en x. Les coefficients seront arrondis à 0,001 près. 4°) En déduire une expression de la distance de freinage d en fonction de la vitesse x. 5°) En utilisant cette expression déterminer la distance de freinage correspondant à une vitesse de 160 km.h-1 et déterminer la vitesse correspondant à une distance de freinage de 300 mètres. http://xmaths.free.fr/ TES − Statistiques 50 -20 O 20 40 60 80 100 120 page 10 III Adéquation à une loi équirépartie Exemple On considère deux dés cubiques dont les faces sont numérotées de 1 à 6. On jette 600 fois chacun de ces dés on obtient les résultats suivants : Dé rouge Nombre d'apparitions Dé bleu Nombre d'apparitions 1 2 3 4 5 6 124 84 99 112 92 89 1 2 3 4 5 6 92 91 113 96 94 114 On se pose la question de savoir si ces dés sont équilibrés. Lorsqu'un dé est équilibré, la probabilité d'apparition de chacune de ses faces est 1 . 6 1 Ainsi, si les fréquences d'apparition de chacune des faces sont proches de , on peut penser que le dé a "de 6 fortes chances d'être équilibré". Sur les 600 lancers des tableaux précédents, les fréquences d'apparition de chacune des faces sont : Dé rouge Fréquence d'apparition Dé bleu Fréquence d'apparition 1 2 3 4 5 6 0,206667 0,14 0,165 0,186667 0,153333 0,148333 1 2 3 4 5 6 0,153333 0,151667 0,188333 0,16 0,156667 0,19 Afin de quantifier l'expression "de fortes chances d'être équilibré", on cacule l'expression : d2obs = i=6 2 ∑ fi - 16 i=1 2 2 2 2 2 2 = f1 - 1 + f2 - 1 + f3 - 1 + f4 - 1 + f5 - 1 + f6 - 1 6 6 6 6 6 6 On obtient pour le dé rouge d2obs = 0,003228 et pour le dé bleu d2obs = 0,001561 Si le dé est équilibré, le nombre d2obs doit être "petit". Mais les résultats d'une série de 600 tirages avec un même dé, même s'il est parfaitement équilibré, ne sont jamais exactement les mêmes, c'est ce que l'on appelle la fluctuation d'échantillonnage. L'étude de la fluctuation d'échantillonnage permettra de décider si la valeur de d2obs que l'on a obtenue est "petite" ou non, c'est-à-dire de savoir si la variation que l'on obtient dans les résultats pour chacune des faces est "normale" (dans ce cas le dé est équilibré) ou "anormale" (dans ce cas le dé n'est pas équilibré). Pour cela on effectue des séries de 600 tirages au hasard d'un nombre compris entre 1 et 6 (on peut faire ce tirage à partir d'un ordinateur ou d'une calculatrice) et on calcule la valeur de d2 pour chacune de ces séries. On obtient les résultats suivants, pour 1000 séries de 600 tirages : d2 effectif d2 effectif [0 ; 0,0005[ 115 [0,0005 ; 0,001[ [0,001 ; 0,0015[ [0,0015 ; 0,002[ [0,002 ; 0,0025[ [0,0025 ; 0,003[ [0,003 ; 0,0035[ 258 247 173 103 49 30 [0,0035 ; 0,004[ [0,004 ; 0,0045[ [0,0045 ; 0,005[ [0,005 ; 0,0055[ [0,0055 ; 0,006[ [0,006 ; 0,0065[ [0,0065 ; 0,007[ 16 3 3 0 2 0 1 En utilisant les effectifs cumulés, on peut remarquer que le 9 décile D9 de la série des d2 se trouve dans l'intervalle [0,0025 ; 0,003[. On a donc D9 ³ 0,0025. • Lorsque, pour le dé observé, on obtient d2obs £ D9, on déclare que le dé est équilibré. ème • Lorsque, pour le dé observé, on obtient d2obs > D9, on déclare que le dé n'est pas équilibré avec un risque de 10% (c'est-à-dire que l'on se trompe dans 10% des cas). On peut donc dire que le dé bleu est équilibré alors que le dé rouge ne l'est pas (au risque de 10%). Remarques • Plutôt que de faire la comparaison sur d2, on aurait pu la faire sur 600d2 ou sur 1000d2 pour la commodité des calculs. ème • Le risque de 10% (c'est-à-dire 0,1) découle de l'utilisation du 9 décile. On pourrait travailler avec un risque plus faible. ème centile. Par exemple le risque de 5% (c'est-à-dire 0,05) correspondrait à l'utilisation du 95 Plus on choisit un risque faible, plus on accepte facilement l'hypothèse d'équiprobabilité. http://xmaths.free.fr/ TES − Statistiques page 11 Exercice 15 (voir réponses et correction) 1°) La simulation de 1000 lancers au hasard d'une pièce de monnaie, permet de calculer le nombre : 2 2 d2 = f1 - 1 + f2 - 1 2 2 où f1 désigne la fréquence de "pile" et f2 la fréquence de "face". On répète 500 fois cette simulation et on obtient les résultats suivants pour la série des valeurs de d2 : Minimum 0 1er décile 0,000008 1er quartile 0,00005 médiane 0,000242 3ème quartile 0,000648 9ème décile 0,001352 Maximum 0,004802 Dessiner le diagramme en boîte correspondant 2°) On lance 4 pièces de monnaie 1000 fois chacune et on voudrait rejeter les pièces que l'on considère comme non équilibrées. On a obtenu les résultats suivants : Face Pile Pièce A 493 507 Pièce B 518 482 Pièce C 532 468 Pièce D 475 525 Quelles sont les pièces rejetées au risque de 10% ? au risque de 25% 3°) Quelle est le nombre minimum et le nombre maximum de "pile" que l'on doit obtenir pour que la pièce ne soit pas rejetée au risque de 10% Exercice 16 (voir réponses et correction) Une roue de loterie comporte 5 secteurs angulaires de même taille. Ces secteurs sont numérotés de 1 à 5. Lorsqu'un joueur participe, son gain est déterminé par le secteur sur lequel s'arrête la roue. Un observateur a noté les 1000 premiers résultats de cette loterie tout au long d'une journée. Il a rassemblé les résultats dans le tableau suivant : Secteur Nombre de tirages 1 2 3 4 5 195 173 200 205 227 On se pose la question de savoir si la roue est "équilibrée", c'est-à-dire si les secteurs apparaissent de façon équiprobable. 1°) Calculer les fréquences f1 ; f2 ; f3 ; f4 ; f5 de chacun des secteurs. 2°) Calculer le nombre d2 = i=5 2 ∑ fi - 15 i=1 2 2 2 2 2 = f1 - 1 + f2 - 1 + f3 - 1 + f4 - 1 + f5 - 1 5 5 5 5 5 On note 1000d2obs la valeur 1000d2 obtenue. Donner la valeur de 1000d2obs . 3°) On simule 1000 tirages de loterie suivant la loi équirépartie et on note la valeur de 1000d2 obtenue. Cette simulation étant répétée 500 fois, la série des 500 valeurs de 1000d2 est représentée par le diagramme en boîte ci-contre, où les extrémités des "pattes" correspondent respectivement au 1er et au 9ème décile. Lire sur ce diagramme une valeur approchée du 9ème décile. 4°) Peut-on affirmer avec un risque d'erreur inférieur à 10% que la roue n'est pas équilibrée ? Justifier. http://xmaths.free.fr/ TES − Statistiques page 12