CHAPITRE 1 : PUISSANCES, CALCUL LITTERAL

publicité
CHAPITRE 15 : STATISTIQUES, GESTION DE DONNEES.
La statistique descriptive est une méthode scientifique qui recueille, ordonne, analyse et interprète des
données à partir d’observations, enquêtes, expériences etc. Pour une meilleure lisibilité, ces données
sont représentées graphiquement, dans des tableaux. Elle est utilisée dans des domaines aussi variés
que la biologie, l’économie, l’agronomie etc.
I VOCABULAIRE :
L’ensemble sur lequel porte l’étude statistique s’appelle la population. Les éléments la composant
sont appelés individu ou unité statistique.
Lorsque la population est trop importante, on peut pour des raisons économiques y prélever un
échantillon représentatif, d’une plus petite taille.
A chacune des unités statistiques, peut-être associé un caractère ou une variable statistique (propriété
commune aux individus), mesurable ou pas. Les valeurs prises par la variable statistique sont appelées
modalités.
Une variable statistique est soit qualitative, soit quantitative.
Une variable qualitative est une variable qui n’est pas mesurable. Une variable est dite qualitative
ordinale quand les modalités (valeurs) qui lui sont associées peuvent être hiérarchisées (mention au
bac). Une variable est dite qualitative nominale lorsque les modalités qui lui sont associées ne
peuvent pas être hiérarchisées (yeux bleus, marrons etc.).
Un variable quantitative est une variable qui est mesurable (nombre de frères et sœurs, notes, taille etc).
Une variable est quantitative discrète si elle peut prendre des valeurs isolées (nombre de frères et
sœurs, de voitures par foyer etc.).
Une variable est quantitative continue si elle peut prendre toutes les valeurs d’un intervalle de
nombres réels ( de la forme [a ; b[ ) appelé classe (taille, salaire etc.). Pour les calculs, on utilise les
valeurs centrales des classes.
On organise les informations en tableaux faisant apparaitre le nombre (effectifs) d’individus pour
chaque caractère. L’effectif total est la somme de tous les effectifs. On obtient ainsi une distribution
des individus selon le caractère étudié. On peut alors calculer la fréquence de chaque valeur. C’est le
quotient de l’effectif de cette valeur par l’effectif total. Elle s’exprime souvent en pourcentages.
Cette liste d’informations fait l’objet de différents calculs qui permettent de caractériser la population :
elle constitue une série statistique.
Le mode de la série statistique est la valeur de la variable associée au plus grand effectif ou à la plus
grande fréquence.
II REPRESENTATIONS GRAPHIQUES (NON EXHAUSTIVES) :
Les représentations permettent de visualiser les données. Elles sont choisies en fonction du type de
variable, du traitement statistique associé, de l’usage qui en fait, d’où l’importance d’exercer son esprit
critique.
2.1 cas des variables qualitatives :
On utilise généralement des diagrammes en barres (ou tuyaux d’orgue) constitués de rectangles
contigus ou non ayant la même largeur. Les hauteurs des rectangles sont proportionnelles aux effectifs
de chaque catégorie.
On utilise aussi des diagrammes circulaires ou semi-circulaires. Les mesures des angles au centre
des secteurs sont proportionnelles aux effectifs ou aux fréquences de chaque catégorie. L’effectif total
est représenté par un disque de mesure 360 ° ou un demi-disque de mesure 180 °.
Master1, UE4, EC 9A : Eléments de mathématiques chapitre 15 statistiques, gestion de données
Page 1
On utilise enfin les diagrammes en bande. La surface d’un rectangle est découpée en sous-surfaces
rectangulaires dont les longueurs variables (l’une étant fixée) sont proportionnelles aux effectifs de
chaque catégorie.
2.2 cas des variables quantitatives discrètes:
On utilise généralement des diagrammes en bâtons. Leur hauteur est proportionnelle aux effectifs.
Les logiciels de « tableur-grapheur » ne permettent pas souvent de les construire. Il faut alors
construire un diagramme en barres puis réduire la largeur du rectangle en choisissant un écart
maximum entre deux barres.
2.3 cas des variables quantitatives continues:
On peut utiliser les histogrammes et les courbes.
L’histogramme est constitué de rectangles contigus dont les aires sont proportionnelles aux effectifs
de chaque classe. Sur l’axe des abscisses sont reportées les bornes des classes de la série.
III PARAMETRES DE POSITION:
Pour effectuer des observations ou effectuer des études comparatives entre des séries statistiques à
variables quantitatives, on peut calculer les indicateurs de tendance que sont la moyenne et la
médiane.
Rappel : le mode d’une série statistique est la valeur de la variable associée au plus grand effectif ou à
la plus grande fréquence. Dans le cas d’une variable continue dont les classes sont de même amplitude,
la classe associée au plus grand effectif rectifié est appelée classe modale. Le mode est le centre de
cette classe. On peut donc noter qu’une population n’a pas toujours un mode ou une classe modale
unique.
3.1 moyenne arithmétique :
Définition : La moyenne arithmétique de p observations est le quotient de leur somme par l’effectif
total N.
x
x1  ...  x p
n1  ...  n p
ou bien
1
x
N
i p
x
i 1
i
Exercice 1 :
Siloé a eu les notes suivantes en mathématiques : 12 ; 11 ; 8 ; 7 ; 13.
a) Elle calcule sa moyenne et trouve 13,5. Sans faire de calcul comment peut-on être sûr qu’elle s’est
trompée.
b) Calculer sa moyenne.
Master1, UE4, EC 9A : Eléments de mathématiques chapitre 15 statistiques, gestion de données
Page 2
3.2 moyenne arithmétique pondérée:
Définition : C’est la moyenne des x i pondérés par les effectifs n i .
x
n1 x1  ...  n p x p
n1  ...  n p
ou bien
1
x
N
i p
n x .
i 1
i i
On peut aussi la calculer en pondérant les x i par leur fréquence respective f i :
i p
x  f1 x1  ...  f p x p
ou bien
x   f i xi .
i 1
Si la série se présente sous forme de classes, on admet que toutes les valeurs observées se regroupent
au centre de classe. On obtient alors une moyenne pondérée approchée.
Exercice 2 :
Lucas a eu 8 notes en français au cours du 1er trimestre :
- trois notes d’interrogation surprise : 14 ; 12 et 7 qui ont 1 de coefficient ;
- deux notes de devoir rédigé à la maison : 15 et 13 de coefficient 2 ;
- trois notes de contrôle : 12 ; 9 et 11 de coefficient 3.
Quelle est sa moyenne du 1er trimestre ?
Exercice 3 :
a) Dans une station d’essence la caissière a noté la quantité en litres achetée par les 5 premiers clients
du matin : 45,7 ; 56,8 ; 35,6 ; 37,6 ; 46.
Quelle est la quantité moyenne achetée par ces clients ?
b) Après avoir noté la quantité d’essence achetée par le 6ème client, elle calcule la quantité moyenne
achetée par les six premiers clients et trouve : 43,8 L. Quelle quantité d’essence a pris le 6 ème client ?
Exercice 4 : Effectifs
Notes
Un professeur des écoles a réalisé un diagramme en bâton avec les notes obtenues par ses élèves d’une
classe de CE1 à la dernière évaluation de mathématiques :
Trouver la moyenne obtenue par ses élèves. On donnera une valeur approchée à 0,1 près par excès.
Master1, UE4, EC 9A : Eléments de mathématiques chapitre 15 statistiques, gestion de données
Page 3
Exercice 5 :
Dans un examen l’épreuve de français a pour coefficient 3, l’épreuve de maths coefficient 4 et
l’épreuve de langue coefficient 2.
Un étudiant a obtenu 12 en français et 8 en mathématiques. Combien doit-il avoir en langue pour
réussir l’examen, c'est-à-dire avoir au moins une moyenne de 10 ?
3.3 moyenne géométrique:
Définition : La moyenne géométrique de n valeurs positives x i est la racine ne de leur produit.
G  n x1  ...xn  ( x1  ...  xn )
1
n
Elle est utile pour calculer les moyennes de pourcentages.
Exercice 6 :
Le prix d’un article a subi trois hausses successives de 5%, 6 % et 8 % et deux baisses de 3 % et 4% .
Déterminer l’augmentation moyenne de l’article.
3.4 moyenne harmonique:
Définition : La moyenne harmonique de n valeurs positives x i est le nombre H dont l’inverse est la
moyenne arithmétique des inverses de ces n valeurs.
1 1 1
1
   ...  
H n  x1
xn 
ou bien
H
n
1
1
 ... 
x1
xn
Elle est utile pour le calcul des vitesses moyennes sur une même distance
V 
d d
2

d
d
1
1


v1 v 2 v1 v 2
Exercice 7 :
Un cycliste a parcouru 4 étapes de 80 km chacune à la vitesse respective de 10 km/h, 20 km/h, 16km/h
et 32 km/h. Quelle est sa vitesse moyenne ?
3.5 les quantiles:
Attention, les modalités doivent être rangées dans l’ordre croissant.
La ligne des effectifs cumulés croissants peut aussi aider dans la recherche du rang des quantiles.
Définition : Les quantiles sont les valeurs du caractère x i qui partagent la série statistique en n séries
de même effectif. Selon la valeur de n, les quantiles sont appelés :
Médiane si n = 2
Quartiles (Q 1 ; Q 2 ; Q 3 ) si n = 4
Déciles D 1 ; … D 9 si n = 10
Centiles C 1 ; … C 99 si n = 100.
Master1, UE4, EC 9A : Eléments de mathématiques chapitre 15 statistiques, gestion de données
Page 4
3.5 a) la médiane:
Définition : La médiane Me est la valeur de x i qui partage la série statistique en deux séries de même
effectif. Il y a donc autant de valeurs inférieures à la médiane que de valeurs supérieures à la médiane.
Si le caractère est discret, on peut déterminer la médiane de la manière suivante :
Si l’effectif total N est impair, la médiane est la valeur du caractère x i située au rang
N 1
.
2
Si l’effectif total N est pair, la médiane est la moyenne arithmétique des deux valeurs du caractère x i
situés au rang
N
N
et au rang
+ 1.
2
2
Remarque : si le caractère est continu, on retiendra la classe associée à l’effectif cumulé croissant,
représentant au moins 50 % de l’effectif total. La médiane appartient alors à cette classe et peut être
déterminée graphiquement.
Exercice 8 :
a) Trouver la médiane de la série : 12 ; 2 ; 27 ; 15 ; 13 ; 16 ; 7.
b) Trouver la médiane de la série : 15 ; 12,5 ; 17 ; 5 ; 25 ; 36 ; 4,5 : 12.
Exercice 9 :
Stéphanie dit à son ami : « On vient de nous rendre les notes du concours blanc, j’ai eu 11 et il y a
autant d’étudiants de mon groupe qui ont plus que moi que d’étudiants qui ont moins que moi ».
Son ami : « Alors la moyenne du groupe est de 11 ».
Voici les notes du groupe de Stéphanie : 13 ; 5 ; 6 ; 7 ; 7 ; 8,5 ; 9 ; 9,5 ; 10 ; 12 ; 10 ; 6,5 ; 10,5 ; 11 ;
11,5 ; 12 ; 12 ; 12 ; 12 ; 12,5 ; 13 ; 14 ; 15 ; 8 ; 15.
1) Stéphanie a-t-elle raison ?
2) Sans calculer la moyenne, peut-on savoir si son ami a tort ou raison ?
3) Vérifier la réponse en calculant la moyenne
3.5 b) les quartiles:
Définition : Les quartiles d’une série statistique sont les trois valeurs Q 1 , Q 2 , Q 3 du caractère qui
partagent la série statistique en quatre parties de même effectif.
25 % au moins de l’effectif total a une valeur inférieur à Q 1 (1er quartile);
75 % au moins de l’effectif total a une valeur inférieur à Q 3 (3ème quartile);
Le deuxième quartile est égal à la médiane Me.
Si l’effectif total n’est pas un multiple de 4, alors les quartiles Q 1 et Q 3 sont respectivement les termes
de rang immédiatement supérieurs à
N
3N
.
et à
4
4
Si l’effectif total est un multiple de 4, alors les quartiles Q 1 et Q 3 sont respectivement les termes de
rang
N
3N
. Les quartiles sont toujours des valeurs de la série.
et à
4
4
Master1, UE4, EC 9A : Eléments de mathématiques chapitre 15 statistiques, gestion de données
Page 5
Exercice 10 :
Trouver le 1er et le 3e quartile de la série :
27 ; 12 ; 4,5 ; 16 ; 25 ; 18 ; 7 ; 15 ; 12,5 ; 26 ; 18,5 ; 11
Exercice 11 :
Voici deux séries statistiques :
- série A : 6 ; 7 ; 7 ; 7 ; 7 ; 10 ; 10 ; 11 ; 12 ; 14 ; 14 ; 15.
- série B : 6 ; 8 ; 8 ; 9 ; 10 ; 10 ; 10 ; 10 ; 11 ; 11 ; 12 ; 15.
1) vérifier que ces deux séries ont la même médiane, la même moyenne et la même étendue.
2) Et pourtant ces séries ne sont pas identiques on perçoit intuitivement que dans la 2 ème série les
valeurs sont « plus regroupées » autour de la moyenne. Un moyen de le voir plus objectivement est de
déterminer le 1er et le 3ème quartile de ces deux séries.
IV PARAMETRES DE DISPERSION:
Les paramètres de position ne suffisent pas toujours pour appréhender une population.
4.1 Etendue :
Définition : L’étendue d’une série statistique, notée e ,est la différence entre la plus grande valeur
x max et la plus petite x min du caractère. e = x max - x min . L’étendue est donc très sensible aux valeurs
extrêmes.
Exercice 12 :
Voici les notes obtenues par deux sous-groupes d’étudiant à une épreuve de français notée sur 20 :
- sous-groupe A : 4 ; 7 ; 8 ; 8 ; 9 ; 9.5 ; 9,5 ; 10 ; 11 ; 11,5 ; 12 ; 12,5 ; 14 ; 14 ; 16.
- sous-groupe B : 8,5 ; 8,5 ; 9 ; 9 ; 9 ; 9 ; 10 ; 10 ; 10 ; 11 ; 12 ; 12 ; 12 ; 13 ; 13.
Vérifier que ces deux sous-groupes ont la même moyenne et la même médiane.
Peut-on dire que la répartition des notes est « identique» ?
4.2 Intervalle interquartile :
Définition : [Q 1 ; Q 3 ] est appelé intervalle interquartile d’une série statistique. Il contient 50 % de
l’effectif total. Q 3 – Q 1 est appelé écart interquartile. Il mesure la dispersion des valeurs x i autour
de la médiane. Plus cet écart est petit, plus les valeurs appartenant à l’intervalle interquartile sont
proches de la médiane.
L’écart interquartile est un paramètre de dispersion (au même titre que l’étendue). Il a l’avantage de
n’intégrer que 50 % de l’effectif total, ce qui a pour effet d’éliminer l’influence des valeurs extrêmes,
souvent marginales.
Il est d’usage de représenter graphiquement les distributions ainsi obtenues par des diagrammes en
boîtes (ou boîte à moustaches ou de Tuckey).
Q 3– Q 1
x min
x max
Q1
Me
Q3
Master1, UE4, EC 9A : Eléments de mathématiques chapitre 15 statistiques, gestion de données
Page 6
Exercice 13 :
a) Soit la série : 12 ; 2 ; 27 ; 15 ; 13 ; 16 ; 7.
Quelle est l’étendue de cette série ? Quel est l’écart interquartile ?
b) Soit la série : 15 ; 12,5 ; 17 ; 5 ; 25 ; 36 ; 4,5 : 12.
Quelle est l’étendue de cette série ? Quel est l’écart interquartile ?
Exercice 14 :
Indiquez si les affirmations suivantes sont vraies ou fausses.
Si on ajoute 2 à toutes les valeurs d’une série, on augmente :
(1) la médiane de 2.
(2) la moyenne de 2.
(3) l’étendue de 2.
(4) le 1er quartile de 2.
V UTILISATION D’UN TABLEUR:
Tout tableur comporte des fonctions statistiques prédéfinies. Voici quelques formules élémentaires :
L’onglet « données » de la barre de menus propose l’outil « trier » qui permet de ranger des données
numériques dans l’ordre croissant ou décroissant (ou des données textuelles dans l’ordre alphabétique).
Le bouton  de la barre d’outils permet d’utiliser directement la fonction SOMME des nombres
contenus dans les cellules qui précèdent celle sélectionnée ou de toute autre sélection.
Pour une série de 10 données numériques figurant dans la colonne A, de la cellule A1 à A10,
=MAX(A1 :A10) – MIN(A1 :A10) donne l’étendue
=MOYENNE(A1 :A10) donne la moyenne
=MEDIANE(A1 :A10) donne la médiane
=QUARTILE(A1 :A10 ;1) donne Q1
=QUARTILE(A1 :A10 ;3) donne Q3.
Les tableurs sont aussi des grapheurs, ils permettent de construire des graphiques.
Après avoir sélectionné la zone de données à représenter, on clique sur l’icône « assistant graphique »
de la barre d’outils ou on utilise le menu « insertion » et on se laisse guider.
Exercice 15 :
Avec un tableur, créer une ligne de notes entre 0 et 20. Créer alors une ligne d’effectifs. La série
statistique est créée.
1/ Créer une ligne « effectifs cumulés croissants ».
2/ Créer une ligne fréquence en %.
3/ Créer une ligne « produits n x p ».
4/ Faire la somme des lignes 2 ; 4 et 5.
5/ Calculer la moyenne en dernière ligne.
Master1, UE4, EC 9A : Eléments de mathématiques chapitre 15 statistiques, gestion de données
Page 7
CORRIGE DES EXERCICES DU CHAPITRE 15 :
Exercice 1 :
a) La moyenne de données statistiques est toujours comprise entre la valeur minimale et la valeur maximale de
cette série. Or 13,5 est supérieur à 13 qui est la plus grande valeur des données statistiques, ça ne peut donc pas
être la moyenne.
b) (12 + 11 + 8 + 7 + 13)/5 = 10,2.
Exercice 2 :
M = [(14 + 12 + 7 ) + (15 + 13 ) x 2 + (12 + 9 + 11) x 3 ] / (3 + 4 + 9 ). Sa moyenne est d’environ 11,56
(défaut).
Exercice 3 :
a) 221,7 / 5 = 44,34 L.
b) Soit x la quantité d’essence achetée en litre par le 6 e client.
Donc 221,7 + x = 43,8 x 6 donc x = 41,1. Le 6e client a acheté 41,1 L.
Exercice 4 :
(2x2+ 3x3 + 4x2 + 5x6 + 6x6 + 7x8 + 8)/(2+3+2+6+6+8+1) = 151/ 28  5,4 (excès)
Exercice 5 :
Soit x sa note en langue.
donc (12x3 + 8x4 + 2x)/ 9 ≥ 10 donc x ≥ 11. Il doit avoir au moins 11 en langue.
Exercice 6 :
G  5 1,05 1,06 1,08  0,97  0,96  1,0228 L’augmentation moyenne est donc de 2,28 %.
Exercice 7 :
La réponse n’est évidemment pas la moyenne arithmétique des vitesses !
H
4
1
1
1
1

 
10 20 16 32
 16,41km / h.
Exercice 8 :
a) Rangeons ces données dans l’ordre croissant : 2 ; 7 ; 12 ; 13 ; 16 ; 15 ; 27 . 7 / 2 = 3,5. La médiane est la 4ème
valeur. La médiane est 13
b) Rangeons ces données dans l’ordre croissant : 4,5 ; 5 ; 12 ; 12,5 ; 15 ; 17 ; 25 ; 36 . 8/2 = 4 . La médiane est la
moyenne de la 4ème et 5ème valeur : la médiane est (12,5 + 15)/2 = 13,75
Exercice 9 :
1) Stéphanie a raison. Il y a en effet autant de notes inférieures à 11 que de notes supérieures à 11. Pour
répondre à cette question il est préférable d’écrire la liste des nombres dans l’ordre croissant.
2) Son ami a tort, la moyenne est d’environ 10,5. Pour calculer cette moyenne, il suffit d’ajouter toutes les notes
et de diviser le résultat obtenu par le nombre de notes.
Cet exemple permet de mettre en évidence la différence entre deux caractéristiques de position d’une série
statistique : la moyenne et la médiane.
Master1, UE4, EC 9A : Eléments de mathématiques chapitre 15 statistiques, gestion de données
Page 8
Exercice 10 :
Rangeons ces données dans l’ordre croissant : 4,5 ; 7 ; 11 ; 12 ; 12,5 ; 15 ; 16 ; 18 ; 18,5 ; 26 ; 25 ; 27
12/4 = 3 . Le 1er quartile est : 11
12 x 3 / 4 = 12 . Le 3e quartile est : 18,5.
Exercice 11 :
1/ laissé au lecteur.
- pour la série A ,la médiane est 10. La moyenne est 10. L’étendue est 9.
- pour la série B, la médiane est également 10. . La moyenne est 10L’étendue est 9.
2/ Pour trouver ces quartiles on divise l’effectif en quatre (12 : 4 = 3). Le 1 er quartile est donc le 3e terme de la
série. (12 : 4) × 3 = 9 donc le 3e quartile est le 9e terme de la série.
- pour la série A, le 1er quartile est 7 et le 3e est 12.
- pour la série B, le 1er quartile est 8 et le 3e est 11.
Exercice 12 :
sous-groupe A : moyenne : 10,4 - médiane : 10
sous-groupe B : moyenne : 10,4 - médiane : 10
On voit que dans le groupe A les notes sont beaucoup plus étalées, elles vont de 4 à 16 alors que dans
le groupe B elles vont de 8,5 à 13. Cela évidemment a des conséquences au niveau de la gestion de ces
groupes, en particulier au niveau de la gestion de l’hétérogénéité.
L’étendue des notes du groupe A est de : 16 - 4 = 12. L’étendue du groupe B est de : 13 - 8,5 = 4,5.
Exercice 13 :
a) L’étendue est 27 – 2 = 25. Q1 = 7 et Q3 = 16 donc Q3 – Q1 = 9.
b) L’étendue est : 36 – 4,5 = 31,5. Q1 = 5 et Q3 = 17 donc Q3 – Q 1 = 12.
Exercice 14 :
1,2 et 4 sont vraies.
Exercice 15 :
ATTENTION ! Colonne A vide ! :
notes p
Effectifs n
eff cumulés
fce %
produits nxp
Moyenne
0
2
2
8
0
10,8
cellule H2
5
5
7
20
25
10
10
17
40
100
15
3
20
12
45
20 total
5
25
20
100
25
100
270
Rajouter le symbole « = » ci-dessous pour obtenir le tableau précédent.
notes p
Effectifs n
eff cumulés
fce %
produits nxp
Moyenne
0
2
5
5
10
10
15
3
20 total
5 SOMME(C2:G2)
C2
C2+D2
D3+E2
E3+F2
F3+G2
C2/$H2*100 D2/$H2*100 E2/$H2*100 F2/$H2*100 G2/$H2*100 SOMME(C4:G4)
C1*C2
D1*D2
E1*E2
F1*F2
G1*G2
SOMME(C5:G5)
H5/H2
La fonction $ fixe la valeur H2 soit 25 !
Pour aller vite, cliquer sur  et valider
Master1, UE4, EC 9A : Eléments de mathématiques chapitre 15 statistiques, gestion de données
Page 9
Téléchargement