Telechargé par sedmorabet

TSTMG Statistiques a deux variables Cours et TD

publicité
TSTMG
I.
Statistiques
Cours
Statistiques à une variable
Médiane et écart interquartile
Considérons une série statistique ordonnée.
Définitions






La médiane d’une série statistique est :
La valeur centrale lorsque l’effectif total de la série est impair ;
La demi-somme des deux valeurs centrales lorsque l’effectif total de la série est pair.
Le rang du premier quartile Q de cette série statistique est le plus petit entier
supérieur ou égal à 25 % de l’effectif total N.
Le rang du troisième quartile Q3 de cette série est le plus petit entier supérieur ou
égal à 75 % de l’effectif total N.
L’écart interquartile est la différence Q3 – Q1
Le digramme en boite d’une série statistique est un
diagramme regroupant les quartiles, la médiane et
les valeurs extrêmes d’une série statistique.
Moyenne et écart-type
Soit la série statistique donnée par le tableau cicontre :
Valeur x1 x2 ….. xp Total
Effectif n1 n2 …... np N
Définition
La moyenne de cette série est le réel : 𝑥̅
=
𝑛1 𝑥1 +𝑛2 𝑥2+⋯+ 𝑛𝑝 𝑥𝑝
𝑁
L’écart-type d’une série statistique est un nombre positif noté : qui mesure la dispersion des
valeurs autour de la moyenne. Ce nombre peut être obtenu avec la calculatrice.
Les paramètres d’une série statistique à connaitre sont :
Paramètres dépendants des valeurs
extrêmes :
 La moyenne : 𝑥̅
 L’écart-type : 
 L’intervalle
Paramètres indépendants des valeurs
extrêmes
 La médiane : Me
 Les quartiles Q1 et Q3
 L’intervalle interquartile : [Q1 ; Q3 ]
E xemple
Un maire a mené une étude statistique auprès des habitants de sa ville. Il a interrogé 1 600
personnes âgées de 18 ans à 59 ans afin de connaitre le nombre de jours pendant lesquels elles sont
parties en vacances durant l’année 2016. Les résultats sont donnés dans le tableau ci-dessous.
S. MORABET
1
TSTMG
Nombre de jours
Effectif
Statistiques
0
328
2
20
5
41
Cours
6
99
7
128
8
132
10
142
13
42
14
194
15
237
16
118
18
58
21
27
28
14
31
12
35
8
1. Déterminer la médiane, les premiers et troisième quartiles de cette série. Interpréter ces
résultats.
2. Calculer (à 0,1 près) le nombre moyen de jours durant lesquels une personne de ce groupe est
partie en vacances au cours de l’année 2016.
3. Quel est (à 0,1 près) l’écart-type de cette série.
II.
Statistiques à deux variables
Définition
Quand on étudie deux caractères statistiques sur une même population, on obtient une
série statistique à deux variables. Si les valeurs prises par le premier caractère sont : x1,
x2,…., xn et celles prises par le second caractère sont notées : y1, y2, ….., yn
Cette série est définie alors par le tableau cicontre
Dans un repère du plan, les points M1(x1, y1) ;
M2(x2, y2) ; …. ; Mn(xn, yn) constituent ce qu’on
appelle le nuage de points de cette série.
Nuage de points
Une série statistique double (xi ; yi) se représente
par un nuage de points Mi(xi ; yi).
Le point moyen du nuage est le point G(x ; y ) ;
L’abscisse est la moyenne de la série (xi) :
𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛
𝑥̅ =
𝑛
Et l’ordonnée est la moyenne de la série (yi) :
𝑦̅ =
𝑦1 + 𝑦2 + ⋯ + 𝑦𝑛
𝑛
S. MORABET
2
TSTMG
Statistiques
Cours
E xemple :
On considère deux séries de notes
Notes xi obtenues au baccalauréat
obtenues par des élèves de
Notes yi obtenues au concours
TSTMG, respectivement au baccalauréat
et à un concours.
7
8
8
9
11
11
13
12
16
13
1. Représenter sur le repère ci-contre
le nuage des points de ces deux
séries.
2. Calculer et représenter le point
moyen.
Ajustement affine
Définition
Lorsque les points du nuage statistique à deux variables sont sensiblement alignés, on
peut construire une droite passant au plus près de ces points. On dit que cette droite
réalise un ajustement affine du nuage de points.
On a deux méthodes pour déterminer la droite d’ajustement affine ou droite de régression :


Une méthode graphique, en traçant une droite au plus près possible des points du nuage.
La méthode des moindres carrés. Les coefficients de l’équation de cette droite s’obtiennent
avec la calculatrice ou le tableur.
S. MORABET
3
TSTMG
Statistiques
Cours
Méthodes des moindres carrés
Définition
Dans le plan muni d’un repère orthonormé, on
considère un nuage de n points de coordonnées
(xi; yi).
La droite D d’équation y = ax+b est appelée
droite de régression de y en x de la série
statistique si et seulement si la quantité
suivante est minimale :
𝑛
𝑛
∑(𝑀𝑖 𝑄𝑖 )² = ∑[ 𝑦𝑖 − (𝑎𝑥𝑖 + 𝑏)] 2
𝑖 =1
𝑖 =1
Les coefficients a et b de l’équation de la droite de
régression sont données par la calculatrice.
Pour tracer cette droite on utilisera deux points dont le point moyen qui se trouve sur cette droite et
un deuxième dont on calculera les coordonnées à partir de l’équation.
On donne ci-dessous un rappel du mode opératoire pour les deux marques de calculatrices.
Situation réelle : Représenter et analyser un nuage de points
On présente ci-dessous la fréquentation de l’hôtellerie de tourisme en France, en millions de nuitées.
Rang de l’année i
Nombre total de
nuitées xi
Dont étrangers yi
2005
1
2006
2
2007
3
2008
4
2009
5
2010
6
2011
7
192.7
191.9
198.9
197.6
188.0
192.2
198.4
70.5
68.8
72.4
71.1
63.2
64.9
66.5
1. Construire le nuage de points Mi(xi ; yi) dans un repère commençant en (187 ; 62) et avec 1 cm
pour 1 million. Placer le point moyen G.
2. Quelle serait la forme du nuage si chaque année la proportion des étrangers était constante ?
Argumenter.
S. MORABET
4
TSTMG
Statistiques
TD
Exercice 1 : statistique à une variable
Partie 1 : Etude des machines Trefiable
Pour l’étude du nombre d’interventions sur les machines
Trefiable, on dispose uniquement du diagramme en boite à
moustache donné ci-contre.
Recopier et compléter les phrases suivantes en justifiant
les réponses.
1. Environ…………% des machines Trefiable
nécessitent un nombre d’interventions inférieur ou égal à 9.
2. Environ 25 % des machines Trefiable nécessitent un nombre d’interventions au moins égal à
………….
Partie 2 : Etude des machines Cessolid
On étudie maintenant le nombre d’interventions sur les machines Cessolid.
Le tableau statistique a été réalisé sur tableur.
Dans la cellule B14, on saisit la formule
1. Quelle est la valeur affichée dans la cellule B14 ?
2. Quelle formule peut-on saisir dans la cellule C3 pour obtenir, par
recopie vers le bas, les effectifs cumulés croissants ?
3. Compléter la colonne C du tableau ci-dessus.
4. Déterminer la médiane et les quartiles de cette série.
5. Sur le graphique de la partie 1, représenter le diagramme en boite de la série du nombre
d’interventions sur les machines Cessolid.
6. Calculer la moyenne et l’écart-type de cette série.
7. L’affirmation suivante est-elle vraie ? Justifier la réponse.
« Il y a autant de machines de chaque marque nécessitant un nombre d’interventions inférieur ou égal
à 6 ».
Exercice 2 : Statistiques à deux variables
Décider de la pertinence d’un
ajustement affine
Année
Rang de l’année xi
Nombre de factures
2011
1
119
2012
2
115
2013
3
112
2014
4
110
2015
5
107
2016
6
102
Le tableau ci-contre donne le nombre de factures établies par une petite entreprise durant les années
de 2011 à 2016.
1. Représenter le nuage de points de la série (xi ; yi) dans un repère orthogonal d’unités :
 1 cm pour une année d’abscisses ;
 2 cm pour dix unités en ordonnées, en commençant la graduation à 70.
2. Expliquer pourquoi ce nuage de points permet d’envisager un ajustement affine.
3. On décide d’ajuster le nuage de points à l’aide de droite (d) d’équation : y = -3,2x + 122
4. Représenter la droite (d) dans le repère précédent.
5. Estimer graphiquement le nombre de factures que l’entreprise établira durant l’année 2023.
S. Morabet
1
TSTMG
Statistiques
TD
Exercice 3 : Statistiques à deux variables
Le tableau ci-dessous récapitule la production en tonnes, sur la côte atlantique, d’un ostréiculteur.
Année
1997 1998 199
2000 2001 2002 2003 2004 2005 2006
Rang de l’année : xi
1
4
Production d’huitres : yi 20
2
3
21,5
23,1 28
5
6
7
8
9
10
31,4
32,4
35
37,4
39,5
42
1. Représenter le nuage de points de cette série. On prendra comme échelle 1 cm pour 1 an en
abscisse et 1 cm pour 2 tonnes en ordonnées.
2. Un ajustement affine est-il envisageable ?
3. Déterminer les coordonnées du point moyen G du nuage. Placer G sur le graphique.
4. Placer le point A de coordonnées A(0 ; 16). On prendra alors comme droite d’ajustement la
droite (AG).
5. Montrer que (AG) a pour équation réduite : y = 2,73x + 16
6. On suppose que la tendance observée se poursuit.
a. Calculer une estimation de la production en 2007.
b. Calculer l’année à partir de laquelle la production dépassera 57 tonnes.
c. Retrouver graphiquement les résultats de la question 5.
S. Morabet
2
TSTMG
Statistiques
TD
Exercice 4 : Méthode des moindres carrés
Une entreprise s’intéresse au lien entre ses
Dépenses publicitaires : xi 0,5 2,0 2,9 4,5 5,6
dépenses publicitaires et son chiffre
d’affaires. Elle recueille les données
Chiffre d’affaires : yi
35 37 75 92 90
suivantes exprimées en millions d’euros,
portant sur 5 périodes où les dépenses publicitaires sont notées x1, x2,…., x5 et les chiffres d’affaires y1,
y2,…,y5.
A l’aide d’une calculatrice ou d’un tableur, on détermine l’équation de la droite qui minimise les écarts
du nuage de points à cette droite que l’on appelle
Voici un bref descriptif de l’emploi de la calculatrice TI-82
Vous obtenez pour l’exemple précédent :
𝑎=
{
𝑏=
S. Morabet
𝑒𝑡 𝑑𝑜𝑛𝑐 𝑙′ é𝑎𝑢𝑡𝑖𝑜𝑛𝑑𝑒 𝑙𝑎 𝑑𝑟𝑜𝑖𝑡𝑒 𝑑𝑒 𝑟é𝑔𝑟𝑒𝑠𝑠𝑖𝑜𝑛 ∶ 𝑦 =
3
TSTMG
Statistiques
TD
Exercice 5 : D’après BAC
M. Picsou a créé dans son entreprise une nouvelle activité en janvier 2005.
À la fin du mois d’octobre, il décide d’étudier l’évolution de cette activité.
Il demande, alors, au service comptable de lui fournir, mois par mois, le montant des charges
supportées par l’entreprise ainsi que le chiffre d’affaires pour cette nouvelle activité.
Celui-ci lui communique le tableau récapitulatif suivant :
Mois
Janvier
Février
Mars
Avril
Mai
Juin
Juillet
Aout
Septembre
Octobre
1
2
3
4
5
6
7
8
9
10
Montant, en €, des charges yi
5 000
5 150
5 300
5 430
5 570
5 740
5 860
6 000
6 120
6 260
Chiffre d’affaires, en €, zi
2 300
2 550
2 800
3 000
3 300
3 500
3 900
4 250
4 500
5 000
Rang xi
M. Picsou veut savoir à partir de quel moment il pourra envisager un profit sur cette nouvelle
activité.
Partie A : Évolution du montant des charges
Une représentation graphique du nuage de points Ai de coordonnées (xi , yi ) dans un repère
orthogonal est donnée en annexe.
On décide de réaliser un ajustement affine.
1. A l’aide de la calculatrice, déterminer une équation de la droite  obtenue par la
méthode des moindres carrés : les coefficients seront donnés à l’unité près. La tracer
sur le graphique ci-dessous.
2. En supposant que le modèle reste valable pour les six mois suivants, extrapoler
graphiquement le montant des charges pour le mois de mars 2006 (arrondir à la
centaine d’euros la plus proche).
3. Retrouver le résultat précédent par un calcul.
Partie B : Évolution du chiffre d’affaires
Le service comptable informe M. Picsou qu’un ajustement du nuage des points Bi de
coordonnées (xi , zi ) relatif au chiffre d’affaires de son entreprise peut être donné par la
fonction f définie sur l’intervalle [1, 15] par f (x) = 2200e0,08x .
4. Montrer que la fonction f est strictement croissante sur l’intervalle [1, 15].
5. Reproduire et compléter le tableau suivant (arrondir
à la dizaine d’euros) :
x
f(x)
1 2 6 8 10
12 15
4 900
6. Tracer la courbe représentative C de la fonction f sur le graphique en annexe.
S. Morabet
4
TSTMG
Statistiques
TD
Partie C : Conclusion
M. Picsou espérait dégager un profit sur la nouvelle activité à partir du mois de février 2006.
À la lecture du graphique, que va-t-il constater ?
S. Morabet
5
TSTMG
Statistiques
TD
Exercice 6
Un audit est effectué auprès d’une collectivité locale afin de connaitre l’évolution de son
budget concernant sa dépense pour l’équipement (véhicules, fournitures, …).
Cette évolution est résumée dans le tableau suivant où la dépense est exprimée en centaines
de milliers d’euros :
On a représenté ci-dessous le nuage des points de coordonnées (xi ; yi) dans un repère
orthogonal du plan.
Partie A
A l’aide de la calculatrice, déterminer une équation de la droite d’ajustement affine de y en x
obtenue par la méthode des moindres carrés.
Elle sera notée (d) et on arrondira ses coefficients à 0,01 près.
Pour la suite, on utilisera comme équation de la droite (d) : y = -2,2x +16,8
Tracer cette droite dans le repère donnée ci-dessous.
A l’aide de cet ajustement, donner une estimation de la dépense de la collectivité locale pour
l’année 2015.
Partie B
On considère la fonction f définie sur l’intervalle [1 ; 15] par : 𝑓 (𝑥) =
20𝑥+21
𝑥 2 +1
La représentation graphique Cf de la fonction f est tracée sur le graphique suivant.
On note f’ la fonction dérivée de la fonction f.
1.
2.
3.
4.
Calculer la dérivée f’ de la fonction f
Démontrer que la fonction f est strictement décroissante sur l’intervalle [1 ; 15]
On choisit désormais la courbe Cf comme ajustement du nuage de points.
A l’aide de cet ajustement, donner une estimation de la dépense de la collectivité locale
pour l’année 2015.
S. Morabet
6
TSTMG
Statistiques
TD
Exercice 7
Partie A
La série statistique à deux variables suivante décrit la superficie certifiée de production
biologique exprimée en hectares (ha) en France de 2004 à 2009 : yi est la superficie pour
l’année 2003 + xi.
Année 2004 2006 2007 2008 2009
Remarque : on ne dispose pas des données pour
xi
1
3
4
5
6
l’année 2005.
yi
468 500 497 502 526
S. Morabet
7
TSTMG
Statistiques
TD
Le graphique donné en annexe représente le nuage de points associé à cette série.
1. Donner, à l’aide de la calculatrice, une équation de la droite d’ajustement affine de y en
x, obtenue par la méthode des moindres carrés. Les coefficients seront arrondis à
l’unité.
2. Tracer cette droite sur le graphique donné en annexe.
3. Estimer la superficie totale consacrée à l’agriculture biologique en France en 2011,
arrondie à l’hectare.
Partie B
L’étude a également permis d’obtenir les données
suivantes.
Année
2010 2011 2012
xi
7
8
9
4. Placer les points associés aux données de ce
Superficie (en ha) yi 572 701
tableau sur le graphique donné en annexe.
5. Que peut-on dire de la validité de l’ajustement précédent ? Justifier la réponse.
S. Morabet
856
8
TSTMG
Statistiques
TD
Exercice 8
Dans un supermarché ouvert de 9 h à 20 h, on a relevé le nombre de clients présents en caisse
à différentes heures de la journée. Les résultats sont consignés dans le tableau suivant.
Heure
10 11 12 13 14 15 16
17
18
19
20
Nombre de clients 68 32 22 55 52 79 108 131 144 138 110
Le nuage de points associé à ces relevés est donné en annexe.
1. Expliquer pourquoi il n’est pas pertinent d’envisager un ajustement affine de ce nuage
de points.
Dans toute la suite de l’exercice, on modélise le nombre de clients présents en caisse à
l’instant t exprimé en heures par la fonction N définie sur [10 ; 20] par :
N (t) = −t3 +45,375t2 −657t +3100.
2. Estimer, selon ce modèle, le nombre de clients attendus en caisse à 15 h 30.
3. Déterminer l’expression algébrique de N′(t), où N′ désigne la fonction dérivée de N sur
l’intervalle [10 ; 20].
4. a. Résoudre sur [10 ; 20] l’équation N′(t) = 0.
b. En déduire le signe de N′ sur l’intervalle [10 ; 20]].
c. Donner le tableau de variations de la fonction N sur [10 ; 20].
5. Le gérant affirme que le nombre de clients est maximal entre 18 h et 18 h 30. Est-ce
confirmé par le modèle ?
6. Une valeur du tableau peut être considérée comme aberrante par rapport au modèle
choisi. Laquelle ? Justifier votre choix.
S. Morabet
9
Téléchargement