TSTMG I. Statistiques Cours Statistiques à une variable Médiane et écart interquartile Considérons une série statistique ordonnée. Définitions La médiane d’une série statistique est : La valeur centrale lorsque l’effectif total de la série est impair ; La demi-somme des deux valeurs centrales lorsque l’effectif total de la série est pair. Le rang du premier quartile Q de cette série statistique est le plus petit entier supérieur ou égal à 25 % de l’effectif total N. Le rang du troisième quartile Q3 de cette série est le plus petit entier supérieur ou égal à 75 % de l’effectif total N. L’écart interquartile est la différence Q3 – Q1 Le digramme en boite d’une série statistique est un diagramme regroupant les quartiles, la médiane et les valeurs extrêmes d’une série statistique. Moyenne et écart-type Soit la série statistique donnée par le tableau cicontre : Valeur x1 x2 ….. xp Total Effectif n1 n2 …... np N Définition La moyenne de cette série est le réel : 𝑥̅ = 𝑛1 𝑥1 +𝑛2 𝑥2+⋯+ 𝑛𝑝 𝑥𝑝 𝑁 L’écart-type d’une série statistique est un nombre positif noté : qui mesure la dispersion des valeurs autour de la moyenne. Ce nombre peut être obtenu avec la calculatrice. Les paramètres d’une série statistique à connaitre sont : Paramètres dépendants des valeurs extrêmes : La moyenne : 𝑥̅ L’écart-type : L’intervalle Paramètres indépendants des valeurs extrêmes La médiane : Me Les quartiles Q1 et Q3 L’intervalle interquartile : [Q1 ; Q3 ] E xemple Un maire a mené une étude statistique auprès des habitants de sa ville. Il a interrogé 1 600 personnes âgées de 18 ans à 59 ans afin de connaitre le nombre de jours pendant lesquels elles sont parties en vacances durant l’année 2016. Les résultats sont donnés dans le tableau ci-dessous. S. MORABET 1 TSTMG Nombre de jours Effectif Statistiques 0 328 2 20 5 41 Cours 6 99 7 128 8 132 10 142 13 42 14 194 15 237 16 118 18 58 21 27 28 14 31 12 35 8 1. Déterminer la médiane, les premiers et troisième quartiles de cette série. Interpréter ces résultats. 2. Calculer (à 0,1 près) le nombre moyen de jours durant lesquels une personne de ce groupe est partie en vacances au cours de l’année 2016. 3. Quel est (à 0,1 près) l’écart-type de cette série. II. Statistiques à deux variables Définition Quand on étudie deux caractères statistiques sur une même population, on obtient une série statistique à deux variables. Si les valeurs prises par le premier caractère sont : x1, x2,…., xn et celles prises par le second caractère sont notées : y1, y2, ….., yn Cette série est définie alors par le tableau cicontre Dans un repère du plan, les points M1(x1, y1) ; M2(x2, y2) ; …. ; Mn(xn, yn) constituent ce qu’on appelle le nuage de points de cette série. Nuage de points Une série statistique double (xi ; yi) se représente par un nuage de points Mi(xi ; yi). Le point moyen du nuage est le point G(x ; y ) ; L’abscisse est la moyenne de la série (xi) : 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 𝑥̅ = 𝑛 Et l’ordonnée est la moyenne de la série (yi) : 𝑦̅ = 𝑦1 + 𝑦2 + ⋯ + 𝑦𝑛 𝑛 S. MORABET 2 TSTMG Statistiques Cours E xemple : On considère deux séries de notes Notes xi obtenues au baccalauréat obtenues par des élèves de Notes yi obtenues au concours TSTMG, respectivement au baccalauréat et à un concours. 7 8 8 9 11 11 13 12 16 13 1. Représenter sur le repère ci-contre le nuage des points de ces deux séries. 2. Calculer et représenter le point moyen. Ajustement affine Définition Lorsque les points du nuage statistique à deux variables sont sensiblement alignés, on peut construire une droite passant au plus près de ces points. On dit que cette droite réalise un ajustement affine du nuage de points. On a deux méthodes pour déterminer la droite d’ajustement affine ou droite de régression : Une méthode graphique, en traçant une droite au plus près possible des points du nuage. La méthode des moindres carrés. Les coefficients de l’équation de cette droite s’obtiennent avec la calculatrice ou le tableur. S. MORABET 3 TSTMG Statistiques Cours Méthodes des moindres carrés Définition Dans le plan muni d’un repère orthonormé, on considère un nuage de n points de coordonnées (xi; yi). La droite D d’équation y = ax+b est appelée droite de régression de y en x de la série statistique si et seulement si la quantité suivante est minimale : 𝑛 𝑛 ∑(𝑀𝑖 𝑄𝑖 )² = ∑[ 𝑦𝑖 − (𝑎𝑥𝑖 + 𝑏)] 2 𝑖 =1 𝑖 =1 Les coefficients a et b de l’équation de la droite de régression sont données par la calculatrice. Pour tracer cette droite on utilisera deux points dont le point moyen qui se trouve sur cette droite et un deuxième dont on calculera les coordonnées à partir de l’équation. On donne ci-dessous un rappel du mode opératoire pour les deux marques de calculatrices. Situation réelle : Représenter et analyser un nuage de points On présente ci-dessous la fréquentation de l’hôtellerie de tourisme en France, en millions de nuitées. Rang de l’année i Nombre total de nuitées xi Dont étrangers yi 2005 1 2006 2 2007 3 2008 4 2009 5 2010 6 2011 7 192.7 191.9 198.9 197.6 188.0 192.2 198.4 70.5 68.8 72.4 71.1 63.2 64.9 66.5 1. Construire le nuage de points Mi(xi ; yi) dans un repère commençant en (187 ; 62) et avec 1 cm pour 1 million. Placer le point moyen G. 2. Quelle serait la forme du nuage si chaque année la proportion des étrangers était constante ? Argumenter. S. MORABET 4 TSTMG Statistiques TD Exercice 1 : statistique à une variable Partie 1 : Etude des machines Trefiable Pour l’étude du nombre d’interventions sur les machines Trefiable, on dispose uniquement du diagramme en boite à moustache donné ci-contre. Recopier et compléter les phrases suivantes en justifiant les réponses. 1. Environ…………% des machines Trefiable nécessitent un nombre d’interventions inférieur ou égal à 9. 2. Environ 25 % des machines Trefiable nécessitent un nombre d’interventions au moins égal à …………. Partie 2 : Etude des machines Cessolid On étudie maintenant le nombre d’interventions sur les machines Cessolid. Le tableau statistique a été réalisé sur tableur. Dans la cellule B14, on saisit la formule 1. Quelle est la valeur affichée dans la cellule B14 ? 2. Quelle formule peut-on saisir dans la cellule C3 pour obtenir, par recopie vers le bas, les effectifs cumulés croissants ? 3. Compléter la colonne C du tableau ci-dessus. 4. Déterminer la médiane et les quartiles de cette série. 5. Sur le graphique de la partie 1, représenter le diagramme en boite de la série du nombre d’interventions sur les machines Cessolid. 6. Calculer la moyenne et l’écart-type de cette série. 7. L’affirmation suivante est-elle vraie ? Justifier la réponse. « Il y a autant de machines de chaque marque nécessitant un nombre d’interventions inférieur ou égal à 6 ». Exercice 2 : Statistiques à deux variables Décider de la pertinence d’un ajustement affine Année Rang de l’année xi Nombre de factures 2011 1 119 2012 2 115 2013 3 112 2014 4 110 2015 5 107 2016 6 102 Le tableau ci-contre donne le nombre de factures établies par une petite entreprise durant les années de 2011 à 2016. 1. Représenter le nuage de points de la série (xi ; yi) dans un repère orthogonal d’unités : 1 cm pour une année d’abscisses ; 2 cm pour dix unités en ordonnées, en commençant la graduation à 70. 2. Expliquer pourquoi ce nuage de points permet d’envisager un ajustement affine. 3. On décide d’ajuster le nuage de points à l’aide de droite (d) d’équation : y = -3,2x + 122 4. Représenter la droite (d) dans le repère précédent. 5. Estimer graphiquement le nombre de factures que l’entreprise établira durant l’année 2023. S. Morabet 1 TSTMG Statistiques TD Exercice 3 : Statistiques à deux variables Le tableau ci-dessous récapitule la production en tonnes, sur la côte atlantique, d’un ostréiculteur. Année 1997 1998 199 2000 2001 2002 2003 2004 2005 2006 Rang de l’année : xi 1 4 Production d’huitres : yi 20 2 3 21,5 23,1 28 5 6 7 8 9 10 31,4 32,4 35 37,4 39,5 42 1. Représenter le nuage de points de cette série. On prendra comme échelle 1 cm pour 1 an en abscisse et 1 cm pour 2 tonnes en ordonnées. 2. Un ajustement affine est-il envisageable ? 3. Déterminer les coordonnées du point moyen G du nuage. Placer G sur le graphique. 4. Placer le point A de coordonnées A(0 ; 16). On prendra alors comme droite d’ajustement la droite (AG). 5. Montrer que (AG) a pour équation réduite : y = 2,73x + 16 6. On suppose que la tendance observée se poursuit. a. Calculer une estimation de la production en 2007. b. Calculer l’année à partir de laquelle la production dépassera 57 tonnes. c. Retrouver graphiquement les résultats de la question 5. S. Morabet 2 TSTMG Statistiques TD Exercice 4 : Méthode des moindres carrés Une entreprise s’intéresse au lien entre ses Dépenses publicitaires : xi 0,5 2,0 2,9 4,5 5,6 dépenses publicitaires et son chiffre d’affaires. Elle recueille les données Chiffre d’affaires : yi 35 37 75 92 90 suivantes exprimées en millions d’euros, portant sur 5 périodes où les dépenses publicitaires sont notées x1, x2,…., x5 et les chiffres d’affaires y1, y2,…,y5. A l’aide d’une calculatrice ou d’un tableur, on détermine l’équation de la droite qui minimise les écarts du nuage de points à cette droite que l’on appelle Voici un bref descriptif de l’emploi de la calculatrice TI-82 Vous obtenez pour l’exemple précédent : 𝑎= { 𝑏= S. Morabet 𝑒𝑡 𝑑𝑜𝑛𝑐 𝑙′ é𝑎𝑢𝑡𝑖𝑜𝑛𝑑𝑒 𝑙𝑎 𝑑𝑟𝑜𝑖𝑡𝑒 𝑑𝑒 𝑟é𝑔𝑟𝑒𝑠𝑠𝑖𝑜𝑛 ∶ 𝑦 = 3 TSTMG Statistiques TD Exercice 5 : D’après BAC M. Picsou a créé dans son entreprise une nouvelle activité en janvier 2005. À la fin du mois d’octobre, il décide d’étudier l’évolution de cette activité. Il demande, alors, au service comptable de lui fournir, mois par mois, le montant des charges supportées par l’entreprise ainsi que le chiffre d’affaires pour cette nouvelle activité. Celui-ci lui communique le tableau récapitulatif suivant : Mois Janvier Février Mars Avril Mai Juin Juillet Aout Septembre Octobre 1 2 3 4 5 6 7 8 9 10 Montant, en €, des charges yi 5 000 5 150 5 300 5 430 5 570 5 740 5 860 6 000 6 120 6 260 Chiffre d’affaires, en €, zi 2 300 2 550 2 800 3 000 3 300 3 500 3 900 4 250 4 500 5 000 Rang xi M. Picsou veut savoir à partir de quel moment il pourra envisager un profit sur cette nouvelle activité. Partie A : Évolution du montant des charges Une représentation graphique du nuage de points Ai de coordonnées (xi , yi ) dans un repère orthogonal est donnée en annexe. On décide de réaliser un ajustement affine. 1. A l’aide de la calculatrice, déterminer une équation de la droite obtenue par la méthode des moindres carrés : les coefficients seront donnés à l’unité près. La tracer sur le graphique ci-dessous. 2. En supposant que le modèle reste valable pour les six mois suivants, extrapoler graphiquement le montant des charges pour le mois de mars 2006 (arrondir à la centaine d’euros la plus proche). 3. Retrouver le résultat précédent par un calcul. Partie B : Évolution du chiffre d’affaires Le service comptable informe M. Picsou qu’un ajustement du nuage des points Bi de coordonnées (xi , zi ) relatif au chiffre d’affaires de son entreprise peut être donné par la fonction f définie sur l’intervalle [1, 15] par f (x) = 2200e0,08x . 4. Montrer que la fonction f est strictement croissante sur l’intervalle [1, 15]. 5. Reproduire et compléter le tableau suivant (arrondir à la dizaine d’euros) : x f(x) 1 2 6 8 10 12 15 4 900 6. Tracer la courbe représentative C de la fonction f sur le graphique en annexe. S. Morabet 4 TSTMG Statistiques TD Partie C : Conclusion M. Picsou espérait dégager un profit sur la nouvelle activité à partir du mois de février 2006. À la lecture du graphique, que va-t-il constater ? S. Morabet 5 TSTMG Statistiques TD Exercice 6 Un audit est effectué auprès d’une collectivité locale afin de connaitre l’évolution de son budget concernant sa dépense pour l’équipement (véhicules, fournitures, …). Cette évolution est résumée dans le tableau suivant où la dépense est exprimée en centaines de milliers d’euros : On a représenté ci-dessous le nuage des points de coordonnées (xi ; yi) dans un repère orthogonal du plan. Partie A A l’aide de la calculatrice, déterminer une équation de la droite d’ajustement affine de y en x obtenue par la méthode des moindres carrés. Elle sera notée (d) et on arrondira ses coefficients à 0,01 près. Pour la suite, on utilisera comme équation de la droite (d) : y = -2,2x +16,8 Tracer cette droite dans le repère donnée ci-dessous. A l’aide de cet ajustement, donner une estimation de la dépense de la collectivité locale pour l’année 2015. Partie B On considère la fonction f définie sur l’intervalle [1 ; 15] par : 𝑓 (𝑥) = 20𝑥+21 𝑥 2 +1 La représentation graphique Cf de la fonction f est tracée sur le graphique suivant. On note f’ la fonction dérivée de la fonction f. 1. 2. 3. 4. Calculer la dérivée f’ de la fonction f Démontrer que la fonction f est strictement décroissante sur l’intervalle [1 ; 15] On choisit désormais la courbe Cf comme ajustement du nuage de points. A l’aide de cet ajustement, donner une estimation de la dépense de la collectivité locale pour l’année 2015. S. Morabet 6 TSTMG Statistiques TD Exercice 7 Partie A La série statistique à deux variables suivante décrit la superficie certifiée de production biologique exprimée en hectares (ha) en France de 2004 à 2009 : yi est la superficie pour l’année 2003 + xi. Année 2004 2006 2007 2008 2009 Remarque : on ne dispose pas des données pour xi 1 3 4 5 6 l’année 2005. yi 468 500 497 502 526 S. Morabet 7 TSTMG Statistiques TD Le graphique donné en annexe représente le nuage de points associé à cette série. 1. Donner, à l’aide de la calculatrice, une équation de la droite d’ajustement affine de y en x, obtenue par la méthode des moindres carrés. Les coefficients seront arrondis à l’unité. 2. Tracer cette droite sur le graphique donné en annexe. 3. Estimer la superficie totale consacrée à l’agriculture biologique en France en 2011, arrondie à l’hectare. Partie B L’étude a également permis d’obtenir les données suivantes. Année 2010 2011 2012 xi 7 8 9 4. Placer les points associés aux données de ce Superficie (en ha) yi 572 701 tableau sur le graphique donné en annexe. 5. Que peut-on dire de la validité de l’ajustement précédent ? Justifier la réponse. S. Morabet 856 8 TSTMG Statistiques TD Exercice 8 Dans un supermarché ouvert de 9 h à 20 h, on a relevé le nombre de clients présents en caisse à différentes heures de la journée. Les résultats sont consignés dans le tableau suivant. Heure 10 11 12 13 14 15 16 17 18 19 20 Nombre de clients 68 32 22 55 52 79 108 131 144 138 110 Le nuage de points associé à ces relevés est donné en annexe. 1. Expliquer pourquoi il n’est pas pertinent d’envisager un ajustement affine de ce nuage de points. Dans toute la suite de l’exercice, on modélise le nombre de clients présents en caisse à l’instant t exprimé en heures par la fonction N définie sur [10 ; 20] par : N (t) = −t3 +45,375t2 −657t +3100. 2. Estimer, selon ce modèle, le nombre de clients attendus en caisse à 15 h 30. 3. Déterminer l’expression algébrique de N′(t), où N′ désigne la fonction dérivée de N sur l’intervalle [10 ; 20]. 4. a. Résoudre sur [10 ; 20] l’équation N′(t) = 0. b. En déduire le signe de N′ sur l’intervalle [10 ; 20]]. c. Donner le tableau de variations de la fonction N sur [10 ; 20]. 5. Le gérant affirme que le nombre de clients est maximal entre 18 h et 18 h 30. Est-ce confirmé par le modèle ? 6. Une valeur du tableau peut être considérée comme aberrante par rapport au modèle choisi. Laquelle ? Justifier votre choix. S. Morabet 9