Telechargé par Henry Zeemann

statistiques-3

publicité
STATISTIQUES
I Statistiques à une variable - rappels
Exercice 01
(voir réponses et correction)
On a relevé le prix de vente d'un CD et le nombre de CD vendus chez différents fournisseurs.
Les résultats forment une série statistique à une variable, donnée dans le tableau suivant :
Prix de vente en euros
Nombre de CD vendus
15
83
16
48
17
32
18
20
19
17
Quelles sont les différentes valeurs de la série.
Donner la fréquence correspondant à chacune de ces valeurs.
Donner la moyenne et l'écart-type de la série. Que représentent ces nombres ?
Représenter la série par un diagramme à barres.
Définitions
On considère une série statistique donnée par le tableau suivant :
Valeur : xi
Effectif : ni
x1
n1
x2
n2
x3
n3
…
…
…
…
 n x x + n2 x x2 + n3 x x3 + … + np x xp
La moyenne de cette série est : x = 1 1
=
n1 + n2 + n3 + … + np
…
…
xp
np
∑nixi
∑ni
La moyenne permet d'avoir une idée du "centre" de la série, c'est une mesure de tendance centrale.




n x (x1 - x )2 + n2 x (x2 - x )2 + n3 x (x3 - x )2 + … + np x (xp - x )2
La variance de cette série est : V = 1
n1 + n2 + n3 + … + np
On note
V=
∑ni(xi - x )2
∑ni
;
on a aussi V =
∑ni(xi)2 - x 2
∑ni
L'écart-type de cette série est : σ = V
L'écart-type permet d'avoir une idée de la façon dont les valeurs de la série s'écartent par rapport à la
moyenne. C'est une mesure de dispersion.
Un écart-type faible correspond à une série concentrée autour de la moyenne.
Remarques
• Si la série statistique n'est pas donnée avec les effectifs mais avec les fréquences fi, on a :

x = f1 x x1 + f2 x x2 + f3 x x3 + … + fp x xp = ∑ fi xi





et V = f1 x (x1 - x )2 + f2 x (x2 - x )2 + f3 x (x3 - x )2 + … + fp x (xp - x )2 = ∑fi(xi - x )2
• Les calculs de moyenne, de variance et d'écart-type sont, pour des séries prenant un grand nombre de
valeurs, des calculs compliqués. Les calculatrices utilisées en mode statistique et les ordinateurs rendent
alors de grands services pour ces calculs.
Propriété
Lorsqu'on augmente (ou lorsqu'on diminue) d'un même nombre r chacune des valeurs du caractère d'une
série statistique, la moyenne augmente (ou diminue) de r.
Lorsqu'on multiplie (ou lorsqu'on divise) par un même nombre non nul k chacune des valeurs du caractère
d'une série statistique, la moyenne est multipliée (ou divisée) par k.
Exercice 02
(voir réponses et correction)
Dans une classe de 30 élèves, la moyenne des 20 filles est 11,5 et la moyenne des 10 garçons est 8,5.
Donner la moyenne de la classe.
http://xmaths.free.fr/
TES − Statistiques
page 1
Propriété
Soit une série statistique d'effectif N, partagée en deux groupes :
un groupe d'effectif p et de moyenne m1
un groupe d'effectif q = N - p et de moyenne m2
p x m1 + q x m2
Alors la moyenne m de la série est m =
N
Définitions
On considère une série, dont les valeurs sont ordonnées (rangées dans l'ordre croissant).
Si la série comporte un nombre pair 2n de termes, la médiane de cette série est la demi-somme de la valeur
du terme de rang n et de la valeur du terme de rang n+1.
Si la série comporte un nombre impair 2n+1 de termes, la médiane de cette série est la valeur du terme de
rang n+1 (c'est-à-dire le terme partageant la série en deux groupes de même effectif).
On appelle premier quartile d'une série la plus petite valeur q des termes de la série pour laquelle au moins
un quart (25%) des données sont inférieures ou égales à q.
On appelle troisième quartile d'une série la plus petite valeur q' des termes de la série pour laquelle au
moins trois quarts (75%) des données sont inférieures ou égales à q'.
On appelle intervalle interquartile l'intervalle [q ; q'].
On appelle écart interquartile l'amplitude de l'intervalle [q ; q'], c'est-à-dire le nombre q' - q.
On appelle premier décile d'une série la plus petite valeur d des termes de la série pour laquelle au moins
un dixième (10%) des données sont inférieures ou égales à d.
On appelle neuvième décile d'une série la plus petite valeur d' des termes de la série pour laquelle au moins
neuf dixièmes (90%) des données sont inférieures ou égales à d'.
On appelle intervalle interdécile l'intervalle [d ; d'].
On appelle écart interdécile l'amplitude de l'intervalle [d ; d'], c'est-à-dire le nombre d' - d.
Exercice 03
(voir réponses et correction)
Déterminer la médiane de chacune des séries :
101 101 105 105 107 108 108 110
87 88 89 89 90 92 92 93 97 99 99
Exercice 04
(voir réponses et correction)
Déterminer la médiane, les quartiles et l'écart interquartile de la série :
11 , 12 , 12 , 13 , 15 , 16 , 16 , 17 , 17 , 18 , 19 , 20 , 22 , 23
Exercice 05
(voir réponses et correction)
Déterminer la médiane, les quartiles, les déciles, l'écart interquartile et l'écart interdécile de la série :
4, 5, 5, 5, 6, 6, 7, 8, 8, 9, 9, 9, 9, 10, 10, 11, 11, 11, 12, 13, 13, 13, 14, 14, 15, 15, 17
Exercice 06
(voir réponses et correction)
Déterminer la moyenne et l'écart-type de la série :
4, 5, 5, 5, 6, 6, 7, 8, 8, 9, 9, 9, 9, 10, 10, 11, 11, 11, 12, 13, 13, 13, 14, 14, 15, 15, 17
Exercice 07
(voir réponses et correction)
Le tableau suivant donne une répartition des salaires mensuels en euros des employés d'une entreprise.
Salaire
[1000 ; 1200[
[1200 ; 1500[
[1500 ; 2000[
[2000 ; 3000[
[3000 ; 10000[
Effectif
326
112
35
8
3
1°) Quel est le nombre d'employés de l'entreprise ?
2°) Quel est le nombre d'employés touchant un salaire mensuel supérieur ou égal à 1200 euros.
3) Représenter les données par un histogramme (voir éventuellement page suivante).
4) Quel est le salaire moyen des employés de l'entreprise ?
http://xmaths.free.fr/
TES − Statistiques
page 2
Histogramme
Si les données sont regroupées en classes (intervalles), la série peut être représentée par un histogramme.
Dans un histogramme ce sont les aires des rectangles qui correspondent aux effectifs.
(Dans un diagramme à barres ou à bandes, ce sont les hauteurs des barres qui correspondent aux effectifs)
Exemple
On considère la série :
xi
0 1 2
ni
3 5 4
3
5
4
6
5
7
6
7
7 8 9 10 11 12 13 14 15 16 17 18 19 20
10 13 20 25 21 23 12 10 5 7 5 3 2 1
Si on regroupe les valeurs dans des classes, on obtient par exemple :
xi
ni
[0 ; 5,5]
30
]5,5 ; 8,5]
30
]8,5 ; 11,5]
66
]11,5 ; 14,5]
45
]14,5 ; 20]
23
On peut alors faire les représentations graphiques correspondantes :
Diagramme à barres
Exercice 08
Histogramme
(voir réponses et correction)
Un entomologiste a fait des relevés sur la taille de 50 courtilières adultes.
33 35 36 36 37 37 37 38 38 38 39 39 39 39 40 40 40 40 40 41 41 41 41 41 41 41 42 42 42
42 42 42 43 43 43 43 44 44 44 44 45 45 45 46 46 47 47 48 48 50
1°) Organiser les relevés dans le tableau d'effectifs suivant :
Valeur
Effectif
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
Effectif cumulé
croissant
2°) Représenter les données par un diagramme à barres. Un diagramme circulaire serait-il intéressant ?
3°) Calculer la moyenne de la série. Déterminer sa médiane.
4°) Déterminer le 1er et le 3ème quartile puis le 1er et le 9ème décile.
5°) Construire le diagramme en boîte correspondant à la série (voir éventuellement page suivante).
6°) On regroupe les données en classes, c'est-à-dire en intervalles.
Compléter le tableau des effectifs suivants :
Valeur
Effectif
[33 ; 37[
[37;40[
[40 ; 42[ [42 ; 44[ [44 ; 47[ [47 ; 51[
Dessiner l'histogramme correspondant.
http://xmaths.free.fr/
TES − Statistiques
page 3
Construction d'un diagramme en boîte
Ce type de diagramme est aussi appelé diagramme de Tuckey, boîte à moustaches ou boîte à pattes.
er
ème
er
ème
quartile, le 1 et le 9
décile ou les valeurs extrêmes d'une série.
Il utilise la médiane, le 1 et le 3
La construction ci-contre est faite pour une série caractérisée par :
médiane : 113
er
1 quartile : 110
er
1 décile : 108
ème
3
quartile : 117
ème
9
décile : 119
ème
3
quartile
On choisit une graduation verticale permettant de
représenter les différentes valeurs de la série.
On pourra par exemple graduer entre 90 et 130.
Le "corps" du diagramme, c'est-à-dire la "boîte" est
formée d'un rectangle ayant pour extrémité inférieure le
er
ème
1 quartile et pour extrémité supérieure le 3
quartile.
A l'intérieur de ce rectangle on tracera un segment
représentant la médiane.
médiane
er
1 quartile
La largeur du rectangle n'est pas fixée, elle sera choisie
de façon à obtenir un graphique "harmonieux".
Ce rectangle représente les données contenues dans
l'intervalle interquartile.
ème
9
décile
er
On repère ensuite les hauteurs correspondant au 1 et
ème
décile, et on trace deux pattes représentant les
au 9
données contenues dans l'intervalle interdécile.
(la largeur des pattes n'a pas d'importance).
er
1 décile
Facultatif
On peut ensuite terminer le graphique, en faisant figurer
par des points les données qui sont en dehors de
l'intervalle interdécile.
Si certaines données, sont manifestement très éloignées,
on ne les représentera pas, mais on pourra écrire leurs
valeurs au dessous du diagramme.
Remarques
• Le graphique est parfois fait en dessinant des pattes
er
ème
correspondant non pas au 1 et au 9
décile, mais
er
ème
aux valeurs extrêmes (ou au 1 et au 99
centile).
• Une boîte et des "pattes" courtes indiquent que la
série est assez concentrée autour de sa médiane.
Au contraire une boîte et des "pattes" longues
indiquent que la série est assez dispersée.
• Un des avantages de cette représentation, est qu'elle nécessite très peu de calculs.
• La représentation peut aussi se faire horizontalement, d'où l'appellation de "boîte à moustaches".
La graduation se trouve alors sur l'axe horizontal,
http://xmaths.free.fr/
TES − Statistiques
page 4
Exercice 09
(voir réponses et correction)
On a relevé les taux de cholestérol de 200 employés des hôpitaux de Los Angeles victimes de maladie
cardiaque.
270
250
300
200
260
240
270
270
290
240
320
230
150
230
240
300
250
270
300
300
310
270
350
230
290
280
230
250
320
330
250
230
230
220
230
220
290
250
340
240
250
240
210
360
270
240
220
240
350
300
300
200
250
290
250
230
220
250
170
330
250
210
230
270
360
300
310
280
290
200
270
240
250
240
190
280
260
210
200
190
270
210
220
170
180
220
260
350
140
300
190
270
310
190
260
240
230
200
310
240
200
210
180
280
350
190
250
230
260
210
260
130
280
250
180
170
300
210
260
240
260
220
300
270
250
320
200
240
240
200
330
290
290
280
280
150
160
200
220
260
280
220
190
300
270
320
230
210
180
170
280
200
220
240
240
200
270
330
320
270
250
220
250
210
220
210
280
200
220
250
240
330
230
260
230
270
180
260
300
250
330
270
220
190
220
230
300
310
310
270
250
260
220
250
220
270
270
160
250
190
1°) Organiser ces données dans un tableau faisant apparaître les effectifs.
er
ème
2°) Déterminer la médiane, le 1 quartile, le 3
er
ème
quartile, le 1 décile et le 9
décile de la série.
3°) Construire un diagramme en boîte pour représenter la série.
Exercice 10
(voir réponses et correction)
Le tableau ci-dessous indique les résultats aux différentes séries du baccalauréat dans l'académie de
Bordeaux en 1999. (Source : Direction de la programmation et du développement, MENRT)
Bac Général
12 133
3 516
Admis
Refusés
Bac Technologique
6 133
1 439
Bac Pro
4 038
1 119
Total
Total
1°) Reproduire et compléter ce tableau d'effectifs en remplissant la dernière ligne et la dernière colonne qui
sont appelées distributions marginales (marges).
2°) Présenter un tableau similaire dans lequel seront indiquées les fréquences (en pourcentage avec une
décimale) calculées par rapport à l'effectif total.
Que représente la valeur se trouvant à l'intersection de la colonne "Bac Général" et de la ligne "Total" ?
Cette valeur s'appelle fréquence marginale de la catégorie "Bac Général".
Que représente la valeur se trouvant à l'intersection de la ligne "Admis" et de la colonne "Total" ?
Cette valeur s'appelle fréquence marginale de la catégorie "Admis".
3°) Présenter un tableau similaire dans lequel seront indiquées les fréquences (en pourcentage avec une
décimale) calculées par rapport au total de chaque colonne.
Que représente la valeur se trouvant à l'intersection de la colonne "Bac Général" et de la ligne "Admis" ?
Cette valeur s'appelle fréquence conditionnelle de la catégorie "Admis" dans la catégorie "Bac Général".
4°) Présenter un tableau similaire dans lequel seront indiquées les fréquences (en pourcentage avec une
décimale) calculées par rapport au total de chaque ligne.
Que représente la valeur se trouvant à l'intersection de la colonne "Bac Général" et de la ligne "Admis" ?
Cette valeur s'appelle fréquence conditionnelle de la catégorie "Bac Général" dans la catégorie "Admis".
5°) A partir des tableaux précédents, répondre aux questions suivantes :
• Quelle est la fréquence des admis au baccalauréat ?
• Quelle est la fréquence des "Bac Pro" ?
• Quelle est la fréquence des élèves refusés sachant qu'ils présentaient un Bac Technologique ?
• Quelle est la fréquence des "Bac Pro" parmi les admis ?
http://xmaths.free.fr/
TES − Statistiques
page 5
II Statistiques à deux variables
Définition
On considère deux variables statistiques numériques observées sur une même population de n individus
On note x1 ; x2 ; ... xn les valeurs relevées pour la première variable
et y1 ; y2 ; ... yn les valeurs relevées pour la deuxième variable.
Les couples (x1 ; y1) ; (x2 ; y2) ; ... ; (xn ; yn) forment une série statistique à deux variables.
Dans le plan rapporté à un repère orthogonal, on appelle nuage de points associé à cette série statistique à
deux variables, l'ensemble des points M1(x1 ; y1) ; M2(x2 ; y2) ; ... ; Mn(xn ; yn) .
On appelle point moyen de cette série le point G de coordonnées ( −
x;−
y ) où −
x et −
y sont les moyennes
respectives des séries x1 ; x2 ; ... xn et y1 ; y2 ; ... yn .
Exemple
On considère la série statistique à deux variables, donnant le poids en kg et la taille en cm d'enfants de 60
mois et de sexe masculin.
Poids
Taille
20
112
18
106
17
105
20
110
On peut représenter le nuage de
points correspondant et placer le point
moyen G dont les coordonnées sont
données par :
−
x ≈ 19,4
−y = 109,1
NB : Il est possible que deux points du
nuage soient confondus
20
111
17
106
116
115
114
113
112
111
110
109
108
107
106
105
104
103
102
101
100
20
112
18
108
21
112
19
106
20
108
23
114
18
107
20
110
taille en cm
G
Poids en kg
15
16
17
18
19
20
21
22
23
24
Remarque
Lorsque le nuage de points a un aspect rectiligne, on pourra procéder à un ajustement affine, c'est-à-dire que
l'on assimilera le nuage à une droite assez proche de tous ses points.
Cet ajustement affine pourra être utilisé pour prodéder à des interpolations ou à des extrapolations.
Le problème se posera de savoir quelle droite sera la plus proche du nuage et donnera les meilleurs
résultats.
http://xmaths.free.fr/
TES − Statistiques
page 6
Exemple
Le nuage de points ci-contre représente le
chiffre d'affaires en millions d'euros d'une
Chiffre d'affaires
entreprise pendant la période allant de 1980
à 2000.
2
Le nuage ayant un aspect rectiligne, on
admet que l'on peut faire un ajustement
affine par la droite d'équation y = 0,05x - 98
que l'on représente sur le dessin.
1,5
Cette droite permet de trouver par exemple
• par interpolation le chiffre d'affaires
approché de l'entreprise en 1996 :
y(1996) = 0,05 x 1996 - 98 = 1,8
1
Année
• par extrapolation le chiffre d'affaires
prévisible de l'entreprise en 2010 :
1 980 1 985 1 990 1 995 2 000 2 005 2 010
y(2010) = 0,05 x 2010 - 98 = 2,5
On parle d'interpolation pour des valeurs à l'intérieur de la plage des valeurs observées et d'extrapolation
pour des valeurs à l'extérieur de cette plage.
Bien entendu, les résultats obtenus par interpolation et par extrapolation sont à exploiter avec prudence.
Remarque
Lorsque le nuage de points n'a pas un
aspect rectiligne, on peut parfois faire un
ajustement par une courbe qui n'est pas une
droite.
Certains
exemples
nécessitant
des
connaissances supplémentaires (fonction
logarithme népérien, fonction exponentielle,
fonctions
puissances) seront donnés
ultérieurement.
Exercice 11
(voir réponses et correction)
Le tableau suivant présente l'évolution du taux de chômage, en pourcentage de la population active, au
Japon, entre 1950 et 1996.
Année
Rang de l'année
xi
Taux yi
(en %)
1950
1960
1965
1970
1975
1980
1985
1990
1995
1996
0
10
15
20
25
30
35
40
45
46
1,2
1,6
1,6
1,2
1,1
2,0
2,6
2,1
3,1
3,4
1°) Représenter le nuage de points correspondant à la série (xi ; yi).
On choisira un repère orthogonal pour lequel :
1cm représente 5 années sur l'axe des abscisses,
1cm représente un taux de chômage de 0,5% sur l'axe des ordonnées.
2°) Déterminer les coordonnées du point moyen A de ce nuage.
Le placer sur le graphique.
3°) On prend pour droite d'ajustement de ce nuage la droite D passant par A et de coefficient directeur 0,04.
a) Déterminer une équation de D.
b) Représenter D sur le graphique.
4°) Répondre aux questions suivantes en utilisant l'ajustement précédent.
a) Quel est le taux de chômage prévisible pour 2005 ?
b) À partir de quelle année le taux prévisible dépassera-t-il à nouveau 3,2% ?
http://xmaths.free.fr/
TES − Statistiques
page 7
Exercice 12
(voir réponses et correction)
Le tableau suivant donne la consommation française en tonnes d'une certaine matière première M pour la
période de 1996 à 2003.
Année
Consommation
en tonnes
1996
1997
1998
1999
2000
2001
2002
2003
7740
7800
7880
7900
7920
8000
8020
8060
On appelle xi le rang de l'année exprimé à partir de 1995 et yi la consommation française en tonnes de la
matière M.
1°) Représenter le nuage de points de coordonnées (xi ; yi)
On choisira un repère orthogonal avec 2cm pour 1 unité en abscisses et 1cm pour 20 unités en
ordonnées.
2°) Dans le but de prévoir la consommation de la matière M pour les années suivantes, on décide de
procéder à un ajustement affine de la série statistique (xi ; yi).
On appelle G1 le point moyen du sous-nuage formé par les points d'abscisses 1 , 2 , 3 et 4 .
et G2 le point moyen du sous-nuage formé par les autres points.
a) Calculer les coordonnées de G1 et de G2 .
b) Donner une équation de la droite (G1G2) sous la forme y = mx + p .
c) Tracer la droite (G1G2) sur le dessin précédent. On admettra que cette droite (appelée droite de Mayer)
représente un ajustement affine de la série.
d) Calculer, en utilisant cet ajustement, une valeur approchée, à une tonne près, de la consommation
française de matière M prévisible pour 2010.
Remarque
On
considère
un
nuage
de
points
M1(x1 ; y1) ; M2(x2 ; y2) ; ... ; Mn(xn ; yn) de forme
rectiligne.
Soit d d'équation
y = ax + b une droite
d'ajustement.
Considérons les points P1 ; P2 ; ... ; Pn d'abscisses
respectives x1 ; x2 ; ... ; xn sur la droite d.
Ces points ont pour ordonnées respectives
ax1+b ; ax2+b ; ... ; axn+b
La somme
(M1P1)2 + (M2P2)2 + ... + (MnPn)2
est appelée somme des carrés des résidus.
On appelle droite des moindre carrés la droite d
pour laquelle la somme des carrés des résidus est
minimale.
Mn
M2
d
M1
Mn
M2
P1
d
Pn
P2
M1
Propriété
On considère un nuage de points M1(x1 ; y1) ; M2(x2 ; y2) ; ... ; Mn(xn ; yn) de forme rectiligne.
La droite d'ajustement d obtenue par la méthode des moindres carrés est la droite passant par le point
moyen G et ayant pour coefficient directeur :
i=n
∑ (x - −x)(yi - −y)
−
−
−
−
−
−
(x1 - x)(y1 - y) + (x2 - x)(y2 - y) + ... + (xn - x)(yn - y) i = 1 i
a=
=
i=n
(x1 - −
x)(x1 - −
x) + (x2 - −
x)(x2 - −
x) + ... + (xn - −
x)(xn - −
x)
−2
∑ (xi - x)
Cette droite a pour équation : y = a(x - −
x) + −
y
La droite d est aussi appelée droite de régression de y en x .
http://xmaths.free.fr/
TES − Statistiques
i=1
page 8
Exemple
On considère la série
xi
yi
10
105
i=n
11
107
17
112
18
115
∑ yi
On a −
x = i = 1 = 14 et −
y = i = 1 = 110.
6
6
On peut calculer dans un tableau :
(xi - −
x)2
15
111
i=n
∑ xi
xi
yi
(xi - −
x)
−
(yi - y)
(xi - −
x)(yi - −
y)
13
110
Le point moyen G a pour coordonnées (14 ; 110)
10
105
11
107
13
110
-1
0
0
15
111
1
1
1
17
112
3
2
6
18
115
4
5
20
-4
-5
20
-3
-3
9
16
9
1
1
9
16
On en déduit le coefficient directeur de la droite d'ajustement
a = 20 + 9 + 0 + 1 + 6 + 20 = 56 ≈ 1,077
16 + 9 +1 + 1 +9 + 16 52
La droite d'ajustement par la méthode des moindres carrés est donc la droite d'équation :
y = 56 (x - 14) + 110
52
On pourra donner l'équation en utilisant une valeur approchée du coefficient a
y = 1,077(x - 14) + 110 ou y = 1,077 x + 94,922
On peut en déduire par interpolation :
• La valeur de y correspondant à x = 12 :
• La valeur de x correspondant à y = 114 :
et par extrapolation :
• La valeur de y correspondant à x = 20 :
• La valeur de x correspondant à y = 120 :
y = 1,077 x 12 + 94,922 donc y ≈ 107,8
114 = 1,077 x + 94,922 donc x ≈ 17,7
y = 1,077 x 20 + 94,922 donc y ≈ 116,5
120 = 1,077 x + 94,922 donc x ≈ 23,3
Remarque
Les calculs donnant la droite d'ajustement par la méthode des moindres carrés peuvent être faits avec une
calculatrice ou un ordinateur.
Le principe, avec une calculatrice, est d'entrer les valeurs de xi dans une première liste, les valeurs de yi
dans une deuxième liste puis de demander les calculs statistiques concernant les statistiques à 2 variables.
On peut aussi obtenir le tracé du nuage des points et de la droite d'ajustement par la méthode des moindres
carrés.
Avec une calculatrice TI 82 :
http://xmaths.free.fr/
TES − Statistiques
page 9
Exercice 13
(voir réponses et correction)
Le tableau suivant représente l'évolution du chiffre d'affaires en milliers d'euros d'une entreprise pendant dix
années, entre 1995 et 2004.
Année
rang de l'année xi
chiffre d'affaires yi
1995
0
110
1996
1
130
1997
2
154
1998
3
180
1999
4
190
2000
5
210
2001
6
240
2002
7
245
2003
8
270
2004
9
295
1°) Représenter le nuage de points Mi(xi ; yi).
On choisira un repère orthogonal ayant pour unités 2cm en abscisse et 1cm pour 20 milliers d'euros en
ordonnée.
2°) Quel est, en pourcentage, l'augmentation du chiffre d'affaires entre les années 1995 et 2004 ?
(on donnera le résultat à 1% près par excès)
3°) Soit G le point moyen du nuage. Calculer les coordonnées de G et placer G sur le dessin.
4°) Justifier qu'il est judicieux de procéder pour cette série à un ajustement affine.
Donner, en utilisant la calculatrice, l'équation de la droite d'ajustement D obtenue par la méthode des
moindres carrés.
5°) Vérifier que G appartient à la droite D et tracer D sur le dessin.
6°) En admettant que l'évolution continue au même rythme et en utilisant l'ajustement affine, quel chiffre
d'affaires peut-on attendre pour l'année 2010 ?
7°) On suppose qu'à partir de l'année 2004, le chiffre d'affaires progresse de 8% par an.
Quel est alors le chiffre d'affaire prévisible en 2010 ?
Exercice 14
(voir réponses et correction)
Le tableau suivant donne la distance de freinage nécessaire à une automobile circulant sur une route humide
pour s'arrêter.
Vitesse xi en
km.h-1
Distance de
freinage di en
mètres
yi = di
30
40
50
60
70
80
90
100
110
120
18
26
40
58
76
98
120
148
180
212
Cette série statistique est représentée par le nuage de points
ci-contre
200
On pose yi =
di et on considère la série statistique (xi ; yi).
1°) Reproduire et compléter la dernière ligne du tableau.
Les valeurs yi seront arrondies à 0,01 près
2°) Représenter le nuage de points Mi(xi ; yi).
On choisira un repère orthogonal ayant pour unités 1cm
pour 20 km.h-1 en abscisse et 0,5 cm en ordonnée.
150
100
3°) Donner, en utilisant la calculatrice, la droite de régression
de y en x.
Les coefficients seront arrondis à 0,001 près.
4°) En déduire une expression de la distance de freinage d
en fonction de la vitesse x.
5°) En utilisant cette expression déterminer la distance de
freinage correspondant à une vitesse de 160 km.h-1 et
déterminer la vitesse correspondant à une distance de
freinage de 300 mètres.
http://xmaths.free.fr/
TES − Statistiques
50
-20 O
20
40
60
80
100 120
page 10
III Adéquation à une loi équirépartie
Exemple
On considère deux dés cubiques dont les faces sont numérotées de 1 à 6.
On jette 600 fois chacun de ces dés on obtient les résultats suivants :
Dé rouge
Nombre
d'apparitions
Dé bleu
Nombre
d'apparitions
1
2
3
4
5
6
124
84
99
112
92
89
1
2
3
4
5
6
92
91
113
96
94
114
On se pose la question de savoir si ces dés sont équilibrés.
Lorsqu'un dé est équilibré, la probabilité d'apparition de chacune de ses faces est 1 .
6
1
Ainsi, si les fréquences d'apparition de chacune des faces sont proches de , on peut penser que le dé a "de
6
fortes chances d'être équilibré".
Sur les 600 lancers des tableaux précédents, les fréquences d'apparition de chacune des faces sont :
Dé rouge
Fréquence
d'apparition
Dé bleu
Fréquence
d'apparition
1
2
3
4
5
6
0,206667
0,14
0,165
0,186667
0,153333
0,148333
1
2
3
4
5
6
0,153333
0,151667
0,188333
0,16
0,156667
0,19
Afin de quantifier l'expression "de fortes chances d'être équilibré", on cacule l'expression :
d2obs =
i=6
2
∑ fi - 16
i=1
2
2
2
2
2
2
= f1 - 1 + f2 - 1 + f3 - 1 + f4 - 1 + f5 - 1 + f6 - 1
6
6
6
6
6
6






On obtient pour le dé rouge d2obs = 0,003228
et pour le dé bleu d2obs = 0,001561
Si le dé est équilibré, le nombre d2obs doit être "petit".
Mais les résultats d'une série de 600 tirages avec un même dé, même s'il est parfaitement équilibré, ne sont
jamais exactement les mêmes, c'est ce que l'on appelle la fluctuation d'échantillonnage.
L'étude de la fluctuation d'échantillonnage permettra de décider si la valeur de d2obs que l'on a obtenue est
"petite" ou non, c'est-à-dire de savoir si la variation que l'on obtient dans les résultats pour chacune des faces
est "normale" (dans ce cas le dé est équilibré) ou "anormale" (dans ce cas le dé n'est pas équilibré).
Pour cela on effectue des séries de 600 tirages au hasard d'un nombre compris entre 1 et 6 (on peut faire ce
tirage à partir d'un ordinateur ou d'une calculatrice) et on calcule la valeur de d2 pour chacune de ces séries.
On obtient les résultats suivants, pour 1000 séries de 600 tirages :
d2
effectif
d2
effectif
[0 ; 0,0005[
115
[0,0005 ; 0,001[ [0,001 ; 0,0015[ [0,0015 ; 0,002[ [0,002 ; 0,0025[ [0,0025 ; 0,003[ [0,003 ; 0,0035[
258
247
173
103
49
30
[0,0035 ; 0,004[ [0,004 ; 0,0045[ [0,0045 ; 0,005[ [0,005 ; 0,0055[ [0,0055 ; 0,006[ [0,006 ; 0,0065[ [0,0065 ; 0,007[
16
3
3
0
2
0
1
En utilisant les effectifs cumulés, on peut remarquer que le 9
décile D9 de la série des d2 se trouve dans
l'intervalle [0,0025 ; 0,003[. On a donc D9 ³ 0,0025.
• Lorsque, pour le dé observé, on obtient d2obs £ D9, on déclare que le dé est équilibré.
ème
• Lorsque, pour le dé observé, on obtient d2obs > D9, on déclare que le dé n'est pas équilibré avec un
risque de 10% (c'est-à-dire que l'on se trompe dans 10% des cas).
On peut donc dire que le dé bleu est équilibré alors que le dé rouge ne l'est pas (au risque de 10%).
Remarques
• Plutôt que de faire la comparaison sur d2, on aurait pu la faire sur 600d2 ou sur 1000d2 pour la
commodité des calculs.
ème
• Le risque de 10% (c'est-à-dire 0,1) découle de l'utilisation du 9
décile.
On pourrait travailler avec un risque plus faible.
ème
centile.
Par exemple le risque de 5% (c'est-à-dire 0,05) correspondrait à l'utilisation du 95
Plus on choisit un risque faible, plus on accepte facilement l'hypothèse d'équiprobabilité.
http://xmaths.free.fr/
TES − Statistiques
page 11
Exercice 15
(voir réponses et correction)
1°) La simulation de 1000 lancers au hasard d'une pièce de monnaie, permet de calculer le nombre :
2
2
d2 = f1 - 1 + f2 - 1
2
2


où f1 désigne la fréquence de "pile" et f2 la fréquence de "face".
On répète 500 fois cette simulation et on obtient les résultats suivants pour la série des valeurs de d2 :
Minimum
0
1er
décile
0,000008
1er
quartile
0,00005
médiane
0,000242
3ème
quartile
0,000648
9ème
décile
0,001352
Maximum
0,004802
Dessiner le diagramme en boîte correspondant
2°) On lance 4 pièces de monnaie 1000 fois chacune et on voudrait rejeter les pièces que l'on considère
comme non équilibrées.
On a obtenu les résultats suivants :
Face
Pile
Pièce A
493
507
Pièce B
518
482
Pièce C
532
468
Pièce D
475
525
Quelles sont les pièces rejetées au risque de 10% ? au risque de 25%
3°) Quelle est le nombre minimum et le nombre maximum de "pile" que l'on doit obtenir pour que la pièce ne
soit pas rejetée au risque de 10%
Exercice 16
(voir réponses et correction)
Une roue de loterie comporte 5 secteurs angulaires de même taille.
Ces secteurs sont numérotés de 1 à 5.
Lorsqu'un joueur participe, son gain est déterminé par le secteur sur lequel s'arrête la roue.
Un observateur a noté les 1000 premiers résultats de cette loterie tout au long d'une journée.
Il a rassemblé les résultats dans le tableau suivant :
Secteur
Nombre de
tirages
1
2
3
4
5
195
173
200
205
227
On se pose la question de savoir si la roue est "équilibrée", c'est-à-dire si les secteurs apparaissent de façon
équiprobable.
1°) Calculer les fréquences f1 ; f2 ; f3 ; f4 ; f5 de chacun des secteurs.
2°) Calculer le nombre d2 =
i=5
2
∑ fi - 15
i=1
2
2
2
2
2
= f1 - 1 + f2 - 1 + f3 - 1 + f4 - 1 + f5 - 1
5
5
5
5
5





On note 1000d2obs la valeur 1000d2 obtenue.
Donner la valeur de 1000d2obs .
3°) On simule 1000 tirages de loterie suivant la loi équirépartie
et on note la valeur de 1000d2 obtenue.
Cette simulation étant répétée 500 fois, la série des 500
valeurs de 1000d2 est représentée par le diagramme en
boîte ci-contre, où les extrémités des "pattes" correspondent
respectivement au 1er et au 9ème décile.
Lire sur ce diagramme une valeur approchée du 9ème décile.
4°) Peut-on affirmer avec un risque d'erreur inférieur à 10% que
la roue n'est pas équilibrée ?
Justifier.
http://xmaths.free.fr/
TES − Statistiques
page 12
Téléchargement