Statistique descriptive 1 - Collège Saint

publicité
Statistique descriptive
1
TABLE DES MATIERES
I.
INTRODUCTION .................................................................................................................................................. 3
1.
ACTIVITE : LECTURE GRAPHIQUE ............................................................................................................................ 3
2.
HISTORIQUE............................................................................................................................................................. 7
3.
VOCABULAIRE............................................................................................................................................................ 8
II.
PRESENTATION DES DONNEES ................................................................................................................. 10
1.
CAS D’UNE VARIABLE QUALITATIVE ...................................................................................................................... 10
a) Représentation sous forme de tableau .......................................................................................................... 10
b) Représentation sous forme de graphique ..................................................................................................... 11
2.
CAS D’UNE VARIABLE QUANTITATIVE DISCRETE .................................................................................................. 12
a) Représentation sous forme de tableau .......................................................................................................... 12
b) Représentation sous forme de graphique: ..................................................................................................... 13
3.
CAS D’UNE VARIABLE QUANTITATIVE CONTINUE ................................................................................................ 14
a) Représentation sous forme de tableau .......................................................................................................... 14
b) Représentation sous forme de graphique ..................................................................................................... 15
III.
CARACTERISATION DES DONNEES ......................................................................................................... 17
1.
PARAMETRES DE POSITION .................................................................................................................................... 17
a) Le mode M0 ou la classe modale
b) La moyenne arithmétique
…………................................................................................................................................ 17
............................................................................................................................... 17
c) La médiane M ou la classe médiane
..................................................................................... 17
d) Quartiles, centiles, déciles .............................................................................................................................. 18
2.
PARAMETRES DE DISPERSION ................................................................................................................................ 20
a) L’étendue
................................................................................................................................................... 20
b) La variance .......................................................................................................................................................... 20
c) L’écart type . ......................................................................................................................................................... 20
IV.
RESUME ................................................................................................................................................................ 21
V.
UTILISATION DU LOGICIEL………………………………………………………………………………………………………………….….22
2
Statistique descriptive
I. Introduction
1.
Activité : Lecture graphique
Dans les médias, tu te trouves parfois face à des résultats statistiques donnés sous
forme de tableaux, de graphiques illustrant un sondage, une étude, … Il est donc
important de savoir lire, comprendre et bien interpréter ces différents graphiques.
Voici quelques exemples.
a) Exemple 1 :
Dans le carnet du nourrisson de l’O.N.E. (Office de la Naissance et de l’Enfance), on
trouve dans les premières pages un graphique à compléter suivant le poids et la taille de
l’enfant en fonction de son âge. On peut alors situer cet enfant parmi les autres à l’aide
des données nationales.
Statistique descriptive
3
La courbe P50 représente la mesure (taille ou poids suivant le graphique) des filles qui
se situent au percentile 50 (c.-à-d. le milieu des données recueillies : 50% des filles se
situent en dessous de la mesure et 50% des filles se situent au- dessus de la
mesure).
La courbe P75 représente la mesure des filles qui se situent au percentile 75 (c.-à-d.
75% des filles se situent en dessous de la mesure et 25% des filles se situent audessus de la mesure).
Vérifie ta compréhension :
a) Quel est le poids et la taille d’une fille de 4 ans et 4 mois si elle se situe au
percentile 50 ?
b) Si une fille mesure 122cm à l’âge de 6 ans, sur quelle courbe se situe-t-elle ?
Qu’est-ce que cela signifie ?
c) Si une fille de 2 ans a une taille de 84cm, quel serait son poids idéal ?
b) Exemple 2 :
Graphique
4
Statistique descriptive
Ce graphique donne une photographie actuelle de la consommation hebdomadaire de
tabac pour chaque catégorie du sexe, du type d’enseignement et du niveau de la
classe.
Le graphique présente le pourcentage (point) de fumeurs réguliers dans chaque
catégorie avec son intervalle de confiance (lignes verticales).
L’intervalle de confiance correspond à une fourchette de valeurs possibles pour le
résultat qui serait observé si toutes les personnes de la population, dont est issu
l’échantillon, avaient été interrogées. Un intervalle de confiance à 95% signifie qu’on
est sûr à 95% que le résultat de la population est compris dans cet intervalle.
Vérifie ta compréhension :
a) L’évolution au cours du temps de la consommation de tabac est-elle identique chez
les filles et les garçons ?
b) Quel est le pourcentage de jeunes interrogés dans l’enseignement technique qui
fument en troisième secondaire ?
c) Lorsqu’on compare les résultats de l’enquête chez les filles de deuxième
secondaire, qu’obtient-on comme résultat ? Comment interpréter les « lignes »
verticales ?
c) Exemple 3 :
Le diagramme sectoriel suivant présente les pourcentages obtenus par 4 partis
politiques lors d'une élection.
Statistique descriptive
5
Vérifie ta compréhension :
Sur base de ce graphe, indiquez lequel de ces 4 partis a obtenu le plus de suffrages et
lequel en a obtenu le moins ?
Le plus de suffrages
Le moins de suffrages
PUB
PUB
PET
PET
PIF
PIF
PAF
PAF
Attention !!!
De nombreuses personnes sont abusées
par l'effet de perspective, qui fait
apparaître plus grands les angles orientés
vers le haut et vers le bas que ceux
tournés vers la gauche ou la droite.
Pour éviter de telles erreurs, il est préférable de présenter le diagramme sectoriel
de face comme à la page précédente.
d) Exemple 4 :
Les graphiques suivants sont tirés d’un communiqué de presse de l’INS (Institut
National de la Statistique) à l’occasion de la journée internationale de la femme du 8
mars 2007.
Selon l’Organisation internationale du Travail, les femmes et les hommes doivent
recevoir un salaire égal pour un travail équivalent. Cependant, les femmes gagnent en
moyenne moins que leurs collègues masculins.
6
Statistique descriptive
Vérifie ta compréhension :
a) Quel pourcentage d’hommes reçoit un salaire brut inférieur à 2000 euros ?
b) Et pour les femmes ?
c) Compare les parties supérieures et inférieures du graphique, que peux-tu en
dire ?
2.
Historique
La statistique a pour origine le besoin des États pour gérer rationnellement leurs
ressources. (En latin, status = état)
Pour cela, il était nécessaire après la collecte de nombreuses données, de les organiser en
tableaux et de disposer de méthodes permettant de définir les variations, les évolutions, les
ressemblances ou les différences entre régions, entre années, entre catégories.
Comme exemples de premières études statistiques, on compte le recensement des
populations, le dénombrement des terres, le calcul des impôts,…
Aujourd’hui, la statistique s’est considérablement développée et est utilisée dans tous les
domaines :
En biologie : génétique, hérédité, médecine ;
En psychologie : test d’orientation, sondage d’opinion ;
En industrie et économie : contrôle de fabrication, rentabilité d’un produit ou
d’une entreprise, assurances ;
En météorologie ; …
En mathématique, la statistique est une branche qui a pour objet la collecte, l’analyse et
l’interprétation d’ensembles d’observations relatives à un même phénomène dont le caractère
essentiel est la variabilité.
La partie des statistiques qui a pour but de rassembler, d’ordonner et de représenter les
données s’appelle la statistique descriptive. La partie qui s’occupe d’interpréter les résultats
et d’en tirer des conclusions est la statistique inférentielle ou inductive.
Statistique descriptive
7
3.
Vocabulaire
Pour éviter des confusions malheureuses, il convient de définir les termes d’usage
courant en statistique:
La population est l’ensemble des éléments auxquels se rapporte la recherche
statistique.
Exemples :
- l’ensemble des européens de 40 ans
- la production de clous d’une usine
- le parc automobile belge
- les rencontres de football disputées sur un week-end
Chaque élément de la population est appelé individu. Un individu peut être une
personne, un objet, un fait.
Il est souvent impossible d’étudier une population dans son entièreté (problèmes de
temps et d’argent), c’est pourquoi on se limite souvent à un échantillon qui doit être
représentatif de la population.
Exemple :
Si on décide d’étudier la capacité respiratoire de la population belge, on
sélectionne « au hasard » 1000 personnes qui participeront à un sondage
et qui sont censées représenter la population. Il est important dans ce
cas de ne pas choisir uniquement des personnes âgées ou uniquement des
sportifs.
L’effectif de la population, noté n, est le nombre d’individus de cette population.
Lorsque la population est ciblée, il faut définir avec précision le caractère qui va être
étudié.
Exemples :
- la taille, la couleur des yeux, le poids des européens de 40 ans
- le diamètre, la solidité des clous
- la marque, la puissance du moteur des automobiles en Belgique
- le nombre de buts marqués lors de chaque rencontre
8
Statistique descriptive
Les différentes valeurs ou formes prises par le caractère sont formulées à l’aide
d’une variable (formulation mathématique du caractère étudié) et sont appelées les
modalités de la variable.
Exemples :
- la taille en cm varie par exemple de 150cm à 210cm, la couleur des yeux peut
être le bleu, le brun, le vert, le noir.
- Le diamètre des clous varie de 1.1mm à 1.6mm.
- La marque des voitures peut être Audi, Peugeot, BMW, …
- Le nombre de buts marqués est de 0, 1, 2 ou plus.
Les variables sont divisées en deux types :
-
Les variables qualitatives (qui ne peuvent prendre que des valeurs non
mesurables).
Exemples : couleur des yeux, état civil, sexe,groupe sanguin,…
-
Les variables quantitatives qui sont elles-mêmes divisées en deux sousgroupes :
les variables quantitatives discrètes qui ne prennent qu’un nombre fini
de valeurs (des valeurs isolées et bien déterminées).
Exemples : le nombre d’enfants par famille, le nombre de buts marqués,
le nombre de chiots par portée, …
les variables quantitatives continues qui peuvent prendre toutes
les valeurs réelles comprises dans un intervalle.
Exemples : la taille, le poids, le diamètre, …
La série statistique est l’ensemble des résultats obtenus par la collecte des
observations, c’est-à-dire les valeurs prises par la variable statistique.
En résumé, on va considérer une population constituée d'individus. Souvent, on
n'étudiera pas toute la population, mais seulement un échantillon représentatif de la
population. Pour les individus de l'échantillon, on va observer un caractère qui peut
prendre plusieurs valeurs (modalités). Ce caractère va être représenté par une variable
statistique. Le résultat de cette collecte d'information est une série statistique.
Statistique descriptive
9
II. Présentation des données
1. Cas d’une variable qualitative
Exemple:
En avril 2001, des élèves de 4e année de cette école ont demandé à des jeunes de 13 à 18
ans le style de musique qu’ils préféraient. Voici les résultats obtenus :
a) Représentation sous forme de tableau :
Musique préférée (xi)
Nbre de jeunes (ni)
x1 : Rock
x2 : Techno
x3 : Chanson française
x4 : Hard
x5 : Rap
x6 : Blues, jazz
x7 : Dance
12
43
2
27
31
3
28
n=146
fi
0,08
0,29
0,01
0,18
0,21
0,02
0,19
7
∑f
i =1
1e colonne :
i
=1
On y inscrit les différentes modalités xi (i variant de 1 à k si le nombre
de modalités est k). Dans notre exemple, k=7
2e colonne : On indique l’effectif ni de la modalité xi c.-à-d. le nombre de fois
où la modalité xi apparaît dans le relevé des données. Sous la deuxième
colonne, on indique l’effectif total n = n1 + n2 + n3 + … + nk.
Il correspond au nombre d’individus observés.
Remarque : Dorénavant, nous utiliserons le symbole sommatoire suivant :
k
∑n
i =1
i
= n1 + n2 + n3 + ... + nk
3e colonne : On calcule les fréquences fi en divisant l’effectif ni par l’effectif total.
n
fi = i
n
Les fréquences des modalités sont intéressantes car elles ne font pas
intervenir le nombre d’individus de l’échantillon et permettent de
comparer des échantillons de tailles différentes.
Sous la troisième colonne, on vérifie que la somme des fréquences
calculées est 1.
n
n + n2 + ... + nk n
n n
En effet, f1 + f2 + … + fk = 1 + 2 + ... + k = 1
= =1
n n
n
n
n
43
Par exemple, la fréquence de x2 vaut
≅ 0, 29 , c’est-à-dire que 29 % de ces jeunes
146
préfèrent la musique techno.
10
Statistique descriptive
Vérifie ta compréhension :
a) Complète
Population :
Individu :
Caractère - Variable :
Type de variable :
Effectif :
Modalités :
b) Complète plus tard (Après avoir lu le point III du dossier)
Mode :
c) Réponds
Quel est le pourcentage de jeunes qui préfèrent le Blues ou le Jazz ?
b) Représentation sous forme de graphique :
La représentation graphique des résultats peut se faire de différentes manières en
fonction du type de variable et des renseignements souhaités.
Diagramme circulaire ou en secteurs
Dans un diagramme circulaire,
l’angle de chaque secteur est
proportionnel à l’effectif qu’il
représente. Cette vision n’impose
pas d’ordre sur les modalités ! Il
est donc idéal dans le cas d’une
variable qualitative.
Diagramme en bâtonnets des effectifs ou des fréquences
On porte
- en abscisse les modalités
- en ordonnée les effectifs ou les fréquences correspondant aux
différentes modalités
Diagramme des fréquences
Diagramme des effectifs
0,35
50
45
43
0,3
0,29
40
0,25
35
31
0,21
30
28
27
0,2
0,19
0,18
25
0,15
20
15
0,1
12
0,08
10
0,05
5
0,02
3
2
0,01
0
0
Rock
Techno
Chanson française
Hard
Rap
Blues, jazz
Dance
Rock
Statistique descriptive
Techno
Chanson française
Hard
Rap
Blues, jazz
Dance
11
2. Cas d’une variable quantitative discrète
Exemple:
Dans une école, on a demandé à des élèves de 4e secondaire le nombre de postes de
télévisions présents dans leur maison. Les résultats sont les suivants:
a) Représentation sous forme de tableau :
Nbre de postes
xi
x1 : 0
x2 : 1
x3 : 2
x4 : 3
x5 : 4
x6 : 5
Nbre d'élèves
ni
fi
Ni
Fi
2
10
22
9
4
1
n = 48
0,04
0,21
0,46
0,19
0,08
0,02
2
12
34
43
47
48
0,04
0,25
0,71
0,9
0,98
1
6
∑f
i =1
1e colonne :
i
( xi − m) 2
=1
On y inscrit les différentes modalités xi et on les ordonne
de la plus petite à la plus grande.
2e colonne : On indique l’effectif ni de la modalité xi.
Sous la deuxième colonne, on indique l’effectif total n.
n
fi = i .
3e colonne : On porte les fréquences fi des modalités xi
n
Sous la troisième colonne, on vérifie que la somme des fréquences
calculées est 1.
4e colonne : Elle reprend le nombre d’individus ayant obtenu au plus la modalité
reprise dans la première colonne. Ces nombres sont les effectifs
cumulés, ils sont notés Ni ou ni
Par exemple, l’effectif cumulé de x3 vaut 34, c’est-à-dire que 34 des personnes
interrogées ont 2 téléviseurs ou moins dans leur maison. On peut en déduire que
14 personnes ont donc plus de 2 téléviseurs chez eux.
5e colonne : On additionne cette fois les fréquences successives et on
obtient les fréquences cumulées, notées Fi ou fi
Par exemple, la fréquence cumulée de x3 vaut 0,71, c’est-à-dire que 71% des
personnes interrogées ont 2 téléviseurs ou moins dans leur maison. On peut en
déduire que 29% des personnes ont donc plus de 2 téléviseurs chez eux.
12
Statistique descriptive
Vérifie ta compréhension :
a) Complète
Population :
Caractère - Variable :
Individu :
Type de variable :
Effectif :
Modalités :
b) Complète plus tard (Après avoir lu le point III du dossier)
Paramètres de position :
Paramètres de dispersion :
Mode :
Etendue :
Moyenne :
Variance :
Médiane :
Ecart type :
c) Réponds
Quel est le pourcentage de familles possédant au moins 2 téléviseurs (c.-à–d. 2 TV ou
plus) ?
b) Représentation sous forme de graphique :
Diagramme en bâtonnets des effectifs ou des fréquences
Diagramme des effectifs
25
22
20
15
10
10
9
4
5
2
1
0
0
1
2
3
4
5
Postes de TV (nombre)
Diagramme des effectifs cumulés ou des fréquences cumulées
Pour les variables quantitatives discrètes :
On porte
- en abscisse les modalités
- en ordonnée les effectifs cumulés
ou les fréquences cumulées
Diagramme des fréquences cumulées
1,2
1
0,98
1
4
5
0,9
0,8
0,71
0,6
Remarque :
Se trouver entre deux points n’a pas
de sens, ce sont des sauts brusques,
un graphique en escalier avec des paliers.
Statistique descriptive
0,4
0,25
0,2
0,04
0
0
1
2
3
Poste de TV (nombre)
13
3. Cas d’une variable quantitative continue
Exemple:
On a demandé à chaque famille d'une rue la somme (en centaines d'euros) qu'elle
consacre à ses vacances. Les résultats ont été présentés comme suit:
a) Représentation sous forme de tableau :
Somme
dépensée
(Ci )
C1 : ]0, 6]
C2 : ]6,12]
C3 : ]12,18]
C4 : ]18, 24]
C5 : ]24,30]
ci
li
fi
Ni
Fi
6
Nbre de
familles
( ni )
13
3
0,22
13
0,22
9
6
25
0,42
38
0,64
15
6
15
0,25
53
0,89
21
6
5
0,08
58
0,97
27
6
2
0,03
60
1
(ci-m)2
n =60
1e colonne :
On y ordonne les différentes classes de modalités notées Ci .
2e colonne : On reprend les centres de classes ou les milieux c.-à-d. la somme des
extrémités de la classe divisée par deux. On les note ci .
3e colonne : Elle reprend la largeur de la classe, notée li . C’est la différence entre les
extrémités de la classe.
4e colonne : On indique l’effectif ni de la classe Ci et l’effectif total n en dessous de
la colonne.
n
fi = i .
5e colonne : On calcule les fréquences fi de chaque classe Ci
n
6e colonne : Elle reprend les effectifs cumulés, notés Ni ou ni
7e colonne : On calcule les fréquences cumulées notées Fi ou fi
Par exemple, la fréquence cumulée de C3 vaut 0,89, c’est-à-dire que 89 % des
familles interrogées dépensent moins de 1800€ pour leurs vacances. On peut en
déduire que 11% des familles dépensent donc plus de 1800€ pour leurs
vacances.
14
Statistique descriptive
Vérifie ta compréhension :
a) Complète
Population :
Caractère - Variable :
Individu :
Type de variable :
Effectif :
Classe des modalités :
b) Complète plus tard (Après avoir lu le point III du dossier)
Paramètres de position :
Paramètres de dispersion :
Classe Modale :
Etendue :
Moyenne :
Variance :
Classe Médiane :
Ecart type :
c) Réponds
Quel est le nombre de familles dépensant plus de 1800€ pour leurs vacances ?
b) Représentation sous forme de graphique :
Histogramme des effectifs ou des fréquences
Pour les variables quantitatives continues :
Un histogramme est un ensemble de rectangles dont chaque base représente une
classe de modalités et dont l’aire est proportionnelle à l’effectif ou la fréquence de
cette classe.
Remarque : Dans le cas où les largeurs de classes ne sont pas constantes, la hauteur
n
f
des rectangles se calcule comme suit : hauteur = i ou i .
li
li
Histogramme des effectifs
Histogramme des fréquences
0,42
25
0,25
15
0,22
13
0,08
5
2
]0,6]
]6,12]
]12,18]
]18,24]
]24,30]
0,03
]0,6]
Somme (centaine d'€)
]6,12]
]12,18]
]18,24]
]24,30]
Somme (centaine d'€)
Statistique descriptive
15
Diagramme des effectifs cumulés ou des fréquences cumulées
Pour les variables quantitatives continues :
On porte
- en abscisse les extrémités des classes de modalités
- en ordonnée les effectifs cumulés ou les fréquences cumulées
Remarque :
On porte Ni ou Fi à la borne supérieure de chaque classe et on joint les points
par des segments (se trouver entre deux points a un sens) On obtient un
polygone.
16
Statistique descriptive
III. Caractérisation des données
Devant les résultats d'une enquête, les statisticiens essayent de déterminer
- les valeurs centrales ou paramètres de position qui donnent une idée
de l'ordre de grandeur des valeurs observées du caractère.
- Les paramètres de dispersion qui donnent une indication sur
l'étalement des données.
1. Paramètres de position
a) Le mode M0 ou la classe modale
Il s’agit de la modalité ou la classe modale dont l'effectif est le plus élevé.
b) La moyenne arithmétique : (pour des variables quantitatives uniquement)
n1 x1 + n2 x2 + ... + nk xk
où n est l'effectif total et k le nombre de modalités.
n
k
k
nx
On écrit m = ∑ i i = ∑ f i xi .
i =1 n
i =1
m=
Remarque :
Lorsqu'on a une répartition en classe, on utilise les centres de
k
k
nc
classes ci :
m = ∑ i i = ∑ f i ci
i =1 n
i =1
c) La médiane M ou la classe médiane : (pour des variables quantitatives
uniquement)
La médiane M d'une série statistique est la valeur de la variable qui la
partage en deux groupes de même effectif.
Dans le cas d’une variable quantitative discrète, il suffit de les classer en ordre
croissant ou décroissant et de prendre l'élément du milieu.
-Si la série comprend un nombre impair d’éléments, il existe un élément qui
tient le milieu de cette liste : c’est la médiane.
Exemple : La série 12, 13, 13, 15, 15, 16, 17 comprend 7 éléments ; sa médiane
est le quatrième, donc M =15.
-Si la série comprend un nombre pair d’éléments, la médiane est la
moyenne arithmétique des deux éléments milieux de la liste.
Exemple : La série 13, 14, 14, 15, 16, 16 comprend 6 éléments. La médiane est
donc la moyenne arithmétique entre le 3e et le 4e.
14 + 15
Donc M =
= 14.5
2
Statistique descriptive
17
Dans le cas d’une variable
quantitative continue, la
détermination de M se fait
graphiquement. La médiane est
l'abscisse du point d'intersection
du polygone des effectifs cumulés
n
et de la droite d'équation y = .
2
Sur un diagramme cumulatif des
fréquences, on trace la droite y =
1
.
2
La classe médiane d’une série statistique est la classe dans laquelle se situe(nt) la
médiane.
d) Quartiles, centiles, déciles : (pour des variables quantitatives uniquement)
Par extension de la médiane qui divise en deux un ensemble de nombres rangés par
ordre croissant, on peut penser aux valeurs qui divisent l’ensemble en quatre
parties égales. On note ces valeurs Q1, Q2 et Q3.
Ainsi, un quart des observations sont inférieures à Q1, un quart des observations
sont comprises entre Q1 et Q2 et entre Q2 et Q3 et le dernier quart des observations
sont supérieures à Q3.
Ces valeurs sont appelées quartiles et Q2 correspond à la médiane.
L’intervalle [Q1 , Q3] est appelé intervalle interquartile.
On peut représenter cet intervalle par un diagramme en boîte. (voir ci-dessous)
Rem : De même, on appelle déciles les valeurs qui divisent l’ensemble en dix parties
égales et centiles celles qui les divisent en cent parties égales.
Exemple :
18
Statistique descriptive
e) Remarque:
Pour bien analyser une situation donnée, il faut tenir compte des paramètres de position mais
également des paramètres de dispersion. Montrons par deux exemples que ces paramètres
doivent être interprétés ensemble sous peine de mal interpréter la situation réelle.
Exemple 1 :
La moyenne est influencée par toutes les valeurs et malheureusement très sensible aux
valeurs extrêmes, au point d'en perdre parfois une bonne partie de sa représentativité,
surtout dans des échantillons de petite taille. Ainsi, la moyenne des 6 salaires mensuels
suivants 1.100€ - 1.400€ - 1.500€ - 1.700€ - 2.100€ - 12.000€ est égale à 3.300€ ! , alors
qu'un seul salaire dépasse cette moyenne.
Exemple 2 : Décidément, je n'ai pas de chance !
•
L'interrogation de statistique n'a pas été terrible : 8/20.
Comment annoncer cela à mes parents?
Dans l'ensemble il faut dire que ce n'était pas fameux. Nous sommes 10 en classe et
les résultats sont catastrophiques!
Pensez donc. Le petit génie a bien sûr fait 19, mais à part cela il y avait un 10, quatre
9 et trois 2.
D'accord, le mode est 9/20 et la médiane est également 9/20. Mais si je calcule la
moyenne, je trouve 7,9/20.
Je dirai donc à Papa que j'ai au-dessus de la moyenne.
•
Encore un 8. Mais cette fois les notes sont: 2, 3, 4, 5, 7, 8 (moi), 9, 9, 18 et 19 (le
génie).
J'ai calculé la moyenne, mais cette fois elle est de 8,4; je suis en dessous de la
moyenne; et le mode est 9. Heureusement, il n'y en a que 4 qui ont mieux réussi que
moi et les 5 autres sont après.
Je dirai donc à Papa que je suis au-dessus de la médiane.
•
Décidément, je n'ai pas de chance. Je suis abonné au 8/20. C'est sûrement la faute
du prof!
Cette fois les questions étaient tellement dures qu'il y en a 3 qui ont eu 7/20!. Les
autres ont obtenu 19 (toujours le même), 18, 12, 11, 10 et 2 (c'est aussi toujours le
même).
J'ai calculé la moyenne; cela fait 10,1. Pas de chance, je suis en dessous. Et cette fois
il y en a 5 qui ont plus que moi! Ça ne va plus l'histoire de la médiane! Heureusement
grâce aux trois copains, le mode est 7.
Je dirai cette fois à Papa que je suis au-dessus du mode.
Il semble donc interéssant pour caractériser une série statistique de donner, en plus de la
moyenne, une mesure de dispersion autour de cette moyenne.
Statistique descriptive
19
2. Paramètres de dispersion
Ils permettent de rendre compte de la façon dont la série de données se répartit
autour des valeurs centrales. Puisqu’il s’agit d’étudier la répartition des données autour
de la moyenne, ces paramètres ne concernent que les variables quantitatives.
a) L’étendue : C’est la différence entre la plus grande et la plus petite des valeurs
observées.
Remarque : Ce paramètre est fort influencé par les valeurs extrêmes ; d’où on
étudie d’autres paramètres de dispersion.
b) La variance : On appelle variance d’une distribution statistique, la moyenne
arithmétique des carrés des écarts entre les valeurs observées de tous
les individus et la moyenne.
k
ni ( xi − m)2
= ∑ fi ( xi − m) 2
n
i =1
i =1
2
k
k
n (c − m)
ou ∑ i i
= ∑ f i (ci − m) 2 s’il s’agit d’une répartition en classes.
n
i =1
i =1
k
V = σ²= ∑
Remarques : a) Plus la variance est grande, plus la dispersion autour de la
moyenne est grande.
b) Normalement, lorsqu’on calcule la variance d’un échantillon (et
non de la population entière), le dénominateur est n-1 et est
noté s².
c) La variance ne s’exprime pas dans la même unité que les
modalités ! Pour éliminer le problème de changement d’unité de
mesure, on peut prendre comme paramètre de dispersion la racine
carrée de la variance, ce nombre est appelé écart type.
c) L’écart type : Il s’agit de la racine carrée de la variance.
Remarque :
σ=
V
Une faible valeur de l’écart type signifie qu’il y a une forte
accumulation des observations autour de la moyenne. Une grande
valeur de σ traduit un étalement considérable des observations
autour de la moyenne.
Vérifie ta compréhension :
Tu peux maintenant compléter toutes les réponses aux questions b dans les exemples
précédents.
20
Statistique descriptive
IV.
Résumé
Statistique descriptive
21
V. Utilisation du logiciel OpenOffice.org Classeur
A.
Présentation du logiciel
OpenOffice.org Classeur est un tableur, comparable à Excel.
Un tableur sert essentiellement à faire des calculs, des plus simples aux plus complexes. Mais il est
également utile pour créer de petites bases de données (carnet d'adresses par exemple). Le tableur est
l'outil idéal pour faire parler les chiffres avec des diagrammes (ou graphiques).
Vous pouvez également trier les données, filtrer les résultats en fonction de critères choisis.
Voici à quoi devrait ressembler le classeur d’OpenOffice lors de son lancement :
La page de cases s'appelle une feuille de calcul.
Les cases sont appelées des cellules. Elles peuvent contenir des nombres, du texte, des formules de
calcul. Chaque cellule est désignée par une lettre majuscule (représentant la colonne) suivie d’un
numéro (représentant la ligne). Par exemple, la première cellule en haut à gauche de la feuille de calcul
est la cellule A1.
Ce logiciel est téléchargeable gratuitement sur le site :
http://fr.openoffice.org/
22
Statistique descriptive
B.
Activité 1 : étude d’une série statistique
Cas d’une variable quantitative discrète
Exploitons un exemple afin de guider nos premiers pas dans l’utilisation de ce programme très puissant
que vous pourrez découvrir de manière plus approfondie dans une utilisation personnelle.
Dans une classe de 25 élèves, on relève les cotes obtenues sur 20 à un contrôle de géographie.
12
11
11
8
10
3
15
13
12
17
13
13
20
5
5
15
13
12
8
15
17
18
20
11
19
Complète :
Population :
Caractère – variable :
Type de variable :
(1) Présentation des données
Ouvrons une nouvelle feuille de calcul dans OpenOffice.org Classeur que nous enregistrons sous :
Exemple - cotes
Rangeons les données dans les deux premières colonnes que nous intitulons :
1èrecolonne :
Modalités
xi
3
5
8
10
…
…
2ecolonne :
Effectifs
ni
1
2
2
1
…
…
Maintenant que nous avons entré nos données, le logiciel va nous permettre d’effectuer des calculs
avec le contenu de ces cellules et donc d’étudier notre série statistique.
(2) Effectif total (n)
Calculons l’effectif total de la classe :
Plaçons-nous dans la case B14
Sélectionnons dans la barre d’outils horizontale la fonction somme :
-
∑
.
Le programme propose =SOMME(B2 :B13) qui signifie « somme de B2 à B13 ». Nous
pouvons valider la formule (ENTER).
Si la sélection ne convient pas, nous pouvons modifier la formule. Le résultat s’ajuste
automatiquement au contenu des cellules. (Nous pouvons modifier un des effectifs et
constater le changement automatique de l’effectif total. N’oublions pas de réécrire les bonnes
données ensuite !)
Statistique descriptive
23
Remarques : (1) On peut obtenir la fonction SOMME en cliquant dans la barre d’outils sur le symbole
fx. Une fenêtre s’ouvre et fait défiler une liste de toutes les fonctions disponibles sur
OpenOffice automatiquement. Il suffit de choisir la fonction SOMME et de suivre les
instructions.
(2) On peut aussi taper manuellement la fonction dans la zone de texte. Il suffit de taper
=SOMME (B2 : B13) dans notre cas.
(3) Fréquences (fi)
Dans la 3e colonne, nous allons calculer les fréquences. Nous indiquons fi dans la cellule C1.
n
Afin d’obtenir f1 , il faut effectuer 1 :
n
Plaçons - nous en C2.
Cliquons dans la zone de texte de la feuille de calcul.
-
Nous pouvons maintenant demander d’effectuer un calcul. Nous commençons par
taper le symbole « = » suivi de B2/B14. Après avoir validé la formule (ENTER), 0,04
s’inscrit dans C2.
-
Pour éviter de réitérer cette même opération dans les cellules C3, C4, …, C13, nous
allons tenter de « copier » notre formule.
-
Sélectionnons la case C2. En plaçant la souris sur le coin inférieur droit de la cellule,
une croix apparaît. Il suffit alors d’étendre la formule en tirant le coin vers le bas
(jusqu’à la case C13)
+
-
Une erreur apparaît !! #DIV/0 !
-
Observons le contenu de C3. Le programme a modifié la formule de C2, = B2/B14 est
devenu =B3/B15 . Nous voyons donc que si nous glissons d’une ligne, le programme
modifie la ligne des éléments utilisés dans la formule. B2 devient B3 et B14 devient
B15. Or pour calculer f2, il faudrait effectuer =B3/B14
-
Pour bloquer l’évolution du numéro de la ligne 14, il suffit de placer devant le numéro
à bloquer le symbole $ dans la formule de la case C2. = B2/B$14 .
Nous pouvons alors recommencer à copier la formule en tirant sur le coin inférieur
droit de la cellule C2.
-
Nous pouvons maintenant vérifier que la division s’effectue par B14 dans chaque
formule. OpenOffice ajuste la référence B2, mais bloque B14.
Remarque :
24
Il est très important de bien comprendre le procédé permettant de « copier » des
formules. C’est là tout l’intérêt d’utiliser un logiciel puissant plutôt que de faire un
même calcul plusieurs fois.
Statistique descriptive
(4) Somme des fréquences
Effectuons la somme des fréquences en C14. Voir procédé utilisé en (b) ou copier la formule de la
cellule B14 qui va s’ajuster à la colonne C.
(5) Effectifs cumulés (Ni)
Nous intitulerons la colonne Ni.
Pour calculer les Ni , il faut additionner n1 + n2 + ... + ni .
Créons la formule en D7 par exemple, nous devons donc calculer N6 c.-à-d. n1 + n2 + ... + n6 .
-
On saisit dans la zone de texte la formule : =SOMME(B$2 :B7) , ce qui signifie « Somme de
B2 jusque B7 ». Nous bloquons la valeur de B2 car nous devrons toujours additionner à partir
de cette valeur. Seule la valeur B7 doit s’ajuster à la ligne concernée.
-
On copie ensuite cette formule dans les autres cases de la colonne (en tirant le coin inférieur
droit de la case D7 vers le bas et vers le haut). La case D13 doit évidemment contenir 25 (25
élèves ont obtenu au plus 20 points à l’interro).
(6) Fréquences cumulées (Fi)
Pour calculer les Fi , il faut additionner f1 + f 2 + ... + f i . Nous appellerons la colonne Fi. On copie la
formule de D2 dans E2 (clic gauche dans le coin inférieur droit de la cellule et on étend vers la droite).
On peut alors étendre la formule à toute la colonne.
(7) Moyenne arithmétique ( m =
12
∑fx
i =1
i i
)
12
-
Dans la case A16, on écrit « MOYENNE : » et dans B16, on effectue le calcul
∑fx .
i =1
i i
-
Pour cela, il existe une formule prédéfinie, la fonction SOMMEPROD qui va effectuer les
produits des éléments des colonnes A (les xi ) et C (les f i ) entre eux avant d’additionner tous
les résultats obtenus. Il s’agit donc de la moyenne recherchée.
-
Sélectionner SOMMEPROD dans l’outil fx et cliquer sur « suivant ».
-
Dans la matrice 1, on entre ensuite (ou on sélectionne avec la souris) les éléments de la 1ère
colonne A2 :A13. Dans la matrice 2, on entre les éléments de la 3èmecolonne C2 :C13.
La fonction s’occupe de multiplier A2.C2, A3.C3 ,…,A13.C13 et d’additionner les résultats
obtenus.
-
On obtient dès lors la
moyenne : 12,64.
-
Dans la case C16, on ajoute
l’unité : /20
Statistique descriptive
25
(8) Variance
12
Calculons maintenant la variance de cette distribution statistique : V = ∑ f i ( xi − m)2
i =1
-
Dans la case A18, on écrit « VARIANCE : » et dans B18, on effectue le calcul.
-
Nous allons créer une colonne supplémentaire dans laquelle nous calculerons les carrés des
écarts de chaque modalité à la moyenne.
-
Dans la colonne F, on indique le titre en F1 : (xi –m)2
-
Dans la case F2, on tape dans la zone de texte la formule : =(A2-B$16)^2
-
Nous copions ensuite la formule dans les autres cellules de la colonne.
-
Revenons à B18 où nous insérons la formule =SOMMEPROD(C2:C13 ;F2:F13) en utilisant
le même procédé qu’en (g).
(9) Ecart type
Calculons maintenant l’écart-type de cette distribution statistique : σ = V .
Dans la case A20, nous écrivons « Ecart type » et dans B20, nous calculons =RACINE(B18)
Dans la case C20, nous ajoutons l’unité : /20.
(10) Tableau final
Voici le tableau final que l’on doit obtenir :
Modalités xi
fi
Ni
Fi
(xi-m)^2
3
1
0,04
1
0,04
92,93
5
2
0,08
3
0,12
58,37
8
2
0,08
5
0,2
21,53
10
1
0,04
6
0,24
6,97
11
3
0,12
9
0,36
2,69
12
3
0,12
12
0,48
0,41
13
4
0,16
16
0,64
0,13
15
3
0,12
19
0,76
5,57
17
2
0,08
21
0,84
19,01
18
1
0,04
22
0,88
28,73
19
1
0,04
23
0,92
40,45
20
2
0,08
25
1
54,17
25
1
Moyenne :
12,64
Variance :
20,07
Ecart type :
26
Effectifs ni
/20
4,48 /20
Statistique descriptive
Quelques informations utiles dans OpenOffice.org Calc :
•
Toutes les fonctions disponibles se trouvent dans fx .
•
Pour ordonner une colonne, cliquer sur ↓ ZA .
•
Pour additionner des cellules, cliquer sur ∑ et donner les cellules à sommer.
Pour insérer une formule personnelle, la précéder de « = ».
Pour copier une même formule, cliquer dans le coin inférieur droit et étirer la cellule.
Pour bloquer une valeur, cliquer sur « $ » :
Exemple : $C$15 : le premier symbole fixe la colonne, le second fixe la ligne.
Afin d’avoir un tableau plus lisible, on arrondira les nombres à deux chiffres après la
virgule si ce n’est pas fait.
Pour ce faire, on sélectionne les colonnes et les cases qui doivent être modifiées.
Ensuite, en sélectionne le formatage de cellule par le clic droit. Dans l’onglet Nombre, on
choisit 2 décimales.
•
•
•
•
(11) Utilisation de l’outil graphique
Pour représenter graphiquement les données, une multitude de possibilités s’offre à nous : diagramme
en secteur, histogramme, diagramme des fréquences cumulées,…
Dans la feuille de calcul, ouvrons l’outil graphique (Assistant de diagramme) :
Diagramme en secteurs.
Etape 1 : Type du diagramme
Sélectionnons le type Secteur-Normal.
Validons le choix en cliquant
sur « Suivant ».
Etape 2 : Plage de données
Il s’agit des nombres à mettre en évidences (les ordonnées y).
Nous cliquons sur l’icône permettant
de sélectionner la plage de données.
Dans notre cas, il s’agit de la colonne
des fréquences (fi).
Nous cochons Série en colonnes et nous
décochons le reste.
Validons le choix en cliquant
sur « Suivant ».
Remarque :
On peut choisir de faire apparaître
en ordonnée les effectifs ou les fréquences.
Statistique descriptive
27
Etape 3 : Séries de données
Il s’agit des abscisses x.
Dans Catégories, nous cliquons sur
l’icône pour faire notre sélection.
Dans notre cas, il s’agit de la colonne
des modalités (xi).
Validons le choix en cliquant
sur « Suivant ».
Etape 4 : Eléments du diagramme
Nous choisissons les différents paramètres :
titres, légendes, axes,…
Validons le choix en cliquant
sur « Terminer ».
Le diagramme apparaît alors sur la feuille de calcul.
Nous pouvons encore modifier certains paramètres en effectuant un clic droit sur la partie à modifier.
Par exemple :
Nous pouvons cliquer sur le diagramme circulaire et choisir : Insérer des étiquettes de données.
Les valeurs des fréquences apparaissent alors.
Si nous préférons qu’elles apparaissent en pourcentage plutôt qu’en décimale, nous cliquons sur la valeur
en décimale et nous choisissons : Formater les étiquettes de données.
Il suffit alors de cocher Afficher la valeur sous forme de pourcentage à la place de nombre.
28
Statistique descriptive
Diagramme en bâtonnets
Dans le cas d’une variable quantitative discrète, on préfère souvent effectuer un diagramme en
bâtonnets des effectifs ou des fréquences.
Reprenons les 4 mêmes étapes :
Etape 1 : Nous sélectionnons cette fois le type de diagramme Colonne-Normal. Validons le choix en
cliquant sur « Suivant ».
Etape 2 : Nous sélectionnons comme plage de donnée (les ordonnées) la colonne des effectifs par
exemple.
Nous cochons Série en colonnes et nous décochons le reste.
Etape 3 : Nous sélectionnons comme catégorie (les abscisses) la colonne des modalités xi .
Etape 4 : On indique les titres complets (avec les unités sur les axes) et on choisit de ne pas afficher la
légende.
Diagramme en bâtonnets des effectifs
4,5
4
3,5
Effectif (ni)
3
2,5
2
1,5
1
0,5
0
3
5
8
10
11
12
13
15
17
18
19
20
Cotes sur 20 (xi)
Statistique descriptive
29
Activité 2 : étude d’une série statistique
Cas d’une variable quantitative continue
Durée (en min) Effectifs
Exploitons un 2e exemple. Cette fois, la variable est quantitative
continue.
On a demandé à des élèves de 4e combien de temps ils passaient
devant un ordinateur par jour. Les résultats sont repris dans le
tableau ci-joint où la durée est exprimée en minutes.
(1)
Tableau
[0;30[
37
[30;60[
80
[60,90[
220
[90;120[
218
[120,150[
130
[150;180[
74
[180,210[
182
[210;240[
46
[240,270[
7
[270;300[
2
Pour effectuer l’étude statistique, nous reprenons les mêmes étapes que dans l’exemple précédent.
Ce qui change :
La première colonne qui reprenait les modalités xi est remplacée par 3 nouvelles colonnes :
les Classes de modalités (Ci), les centres des classes (ci) et les largeurs des classes (li)
Ce sont les centres des classes (ci) qui remplacent les modalités (xi) dans les différentes
formules (Moyenne, Variance,…).
Pour représenter les données dans le cas continu, on préférera un histogramme ou un
diagramme cumulatif. (Voir ci – après)
Au final, le tableau complété est celui-ci :
Classes de
modalités Ci
[0;30[
Centres ci largeurs li
Effectifs ni
fi
Ni
Fi
(ci-m)^2
15
30
37
0,04
37
0,04
11446,42
[30;60[
45
30
80
0,08
117
0,12
5927,14
[60,90[
75
30
220
0,22
337
0,34
2207,87
[90;120[
105
30
218
0,22
555
0,56
288,59
[120,150[
135
30
130
0,13
685
0,69
169,31
[150;180[
165
30
74
0,07
759
0,76
1850,04
[180,210[
195
30
182
0,18
941
0,94
5330,76
[210;240[
225
30
46
0,05
987
0,99
10611,48
[240,270[
255
30
7
0,01
994
1
17692,2
[270;300[
285
30
2
0
996
1
26572,93
996
1
Moyenne :
Variance :
Ecart type :
30
121,99 minutes
3253,58
57,04
minutes
Statistique descriptive
(2)
Utilisation de l’outil graphique
Histogramme
Dans le cas d’une variable quantitative continue (série répertoriée en classes de mêmes largeurs), on
peut effectuer un histogramme des effectifs ou des fréquences.
Reprenons les 4 mêmes étapes :
Etape 1 : Nous sélectionnons cette fois le type de diagramme Colonnes.
Etape 2 : Nous sélectionnons comme plage de donnée la colonne des effectifs par exemple.
Nous cochons Série en colonnes et nous décochons le reste.
Etape 3 : Nous sélectionnons comme catégorie la colonne des classes de modalités.
Etape 4 : On indique le titre, le titre de l’axe x et on choisit de ne pas afficher la légende.
Une fois le graphique terminé, nous constatons que les rectangles n’ont pas une largeur suffisante pour
couvrir toutes les largeurs des classes. Il faut modifier l’apparence du graphique (Clic droit sur un des
rectangles) :
- Formater les séries de données
Histogramme des effectifs
- Options
- Paramètre d’espacement : 0
220
218
182
Il faut ensuite supprimer l’axe y (Clic droit sur l’axe) :
- Supprimer l’axe
130
80
Il faut aussi afficher les étiquettes au-dessus
de chaque colonne (Clic droit sur un des rectangles) :
- Insérer des étiquettes de données
74
46
37
7
[0;30[
[30;60[
[60,90[
[90;120[ [120,150[ [150;180[ [180,210[ [210;240[ [240,270[ [270;300[
Durée (min)
Diagramme cumulatif
Dans le cas d’une variable quantitative continue, on peut aussi effectuer un diagramme des effectifs ou
des fréquences cumulées.
Avant de reprendre les 4 étapes, nous devons créer une colonne supplémentaire (colonne I) dans
laquelle nous indiquons l’extrémité de chaque classe. Cette colonne aura une importance au moment de
choisir les étiquettes de série.
Reprenons à présent les 4 mêmes étapes :
Etape 1 : Nous sélectionnons cette fois le type de diagramme Lignes (Points et lignes).
Etape 2 : Nous sélectionnons comme plage de donnée la colonne des effectifs cumulés par exemple.
Etape 3 : Nous sélectionnons comme catégorie la colonne des extrémités de classe.
Etape 4 : On indique les titres.
Remarque :
Dans le cas discret, le diagramme cumulatif est
un diagramme en escalier.
Statistique descriptive
2
31
C.
EXERCICES
1) Le tableau suivant indique la répartition des cyclomotoristes victimes des accidents de la route
selon, l'âge pour l'année 2001 en Belgique.
Age (ans)
Nombre
d'accidentés
]12,13]
]13,14]
]14,15]
]15,16]
]16,17]
]17,18]
]18,19]
]19, 20]
]20, 21]
13
a) Donne la population, la variable étudiée et le type de la variable.
b) Complète le tableau avec les fréquences, effectifs cumulés et
fréquences cumulées. (Remarquons qu’en arrondissant à 2 chiffres
32
après la virgule nous perdons un peu d’information.)
275
489
c) Représente l'histogramme des effectifs et le diagramme des effectifs
cumulés.
652
d) Estime les paramètres de position et de dispersion de la variable.
614
e) Quel est le pourcentage de victimes qui avaient plus de 18 ans ?
389
201
149
2) Lors d'un contrôle de vitesse, la police a relevé les vitesses suivantes (en km/h) des automobilistes
passant sur une autoroute. (arrondies à l'entier inférieur ou égal) :
117
126
134
111
140
92
134
101
146
143
105
104
130
106
111
145
119
113
113
121
139
111
134
130
127
121
123
110
128
120
125
104
124
119
119
84
98
124
130
114
137
166
110
117
123
104
109
138
124
109
120
126
122
129
122
128
133
99
130
119
a) Donne la population, la variable étudiée et le type de la variable.
b) Groupe ces données par classes : ]80,90] , ]90,100] , etc. Pour éviter des erreurs dans tes
comptages, tu peux introduire toutes tes données dans le tableur, puis les ordonner à l’aide
de l’icône ↓ ZA . (Ou demander le classement à ton professeur, si tu as du retard.☺)
c) Estime les paramètres de position et de dispersion de la variable.
d) Représente l'histogramme des fréquences et le diagramme des fréquences cumulées.
e) Quel est le pourcentage des automobilistes roulant à 100km/h ou moins ?
f) Si la vitesse est limitée à 120km/h, quel est le pourcentage d’automobilistes en infraction ?
Combien cela rapportera-t-il à l’Etat s’ils sont pénalisés d’une amende de 100€ ?
32
Statistique descriptive
3) Le service de contrôle de qualité d’une PME décide de contrôler le contenu de 355 sacs de riz
étiquetés « 500g ». Les mesures ont donné les résultats suivants :
Masse en g
Effectif a) Donne la population, la variable étudiée et le type de la variable.
]475 ;480]
19
b) Estime les paramètres de position et de dispersion de la variable.
]480 ;485]
20
c) Représente l'histogramme des effectifs et le diagramme des effectifs
]485 ;490]
27
]490 ;495]
32
]495 ;500]
35
]500 ;505]
56
]505 ;510]
54
La moyenne appartient à [495,505] ;
]510 ;515]
45
L’écart-type est inférieur à 10 ;
]515 ;520]
28
95% de la production se situe dans l’intervalle [500-2σ ; 500+2σ].
]520 ;525]
21
]525 ;530]
18
cumulés.
d) La production sera jugée satisfaisante si les mesures effectuées sur
l’échantillon prélevé vérifient les conditions suivantes :
Dans ces conditions, la production est-elle jugée satisfaisante ?
4) Un fabricant de cigarettes souhaite commercialiser une nouvelle sorte de cigarette. Il a besoin de
connaître la concentration moyenne de goudron par cigarette. Pour cela, il a fait mesurer la
quantité moyenne de goudron (en mg) d'un échantillon de 50 de ces cigarettes.
Voici les résultats :
11.70
10.32
10.86
11.36
10.90
10.31
11.06
10.66
10.87
11.87
11.02
10.33
11.05
10.65
10.74
11.85
11.68
10.94
11.14
10.98
11.24
10.89
11.23
11.33
11.42
10.88
10.82
11.14
10.79
10.92
11.12
11.88
9.67
12.00
10.03
10.97
10.16
10.28
10.65
11.20
12.23
10.72
10.88
10.71
10.35
10.77
9.89
10.35
11.07
11.49
a) Donne la population, la variable étudiée et le type de la variable.
b) Réunis ces données en 9 classes d'amplitude égale entre 9.60 mg et 12.30 mg.
c) Dessine l'histogramme des effectifs en utilisant les classes obtenues au point b), puis
dessine le diagramme cumulatif des effectifs.
d) Calcule la valeur moyenne m de la qualité de goudron par cigarette ainsi que l'écart type σ .
e) La qualité de cette nouvelle cigarette est jugée stable si la quantité de goudron d'au moins
3/4 des cigarettes se situe entre m − σ et m + σ .
Est-ce que cet échantillon donne satisfaction ?
Statistique descriptive
33
5) Lors d’un recensement, on a relevé le nombre de pièces habitables par logement dans une ville de
Flandre. Les résultats sont les suivants :
Nombre de
pièces
Fréquences (en %)
1
2
3
4
5
6
2,2
8,1
20,3
28,1
29,4
11,9
a) Donne la population, la variable étudiée et le type de la variable.
b) Sachant que, dans cette ville, 2950 foyers ont participé à ce recensement, trouve les effectifs
arrondis à l’unité, les fréquences et les effectifs cumulés de cette série.
c) Calcule la moyenne et l’écart type de cette série.
d) Détermine le pourcentage de la population pour lequel le nombre de pièces habitables est
dans l’intervalle [ m − 2σ ; m + 2σ ] .
6) Une machine fabrique des pièces cylindriques dont le diamètre théorique est de 25 mm. Sur un
échantillon de 100 pièces, les mesures du diamètre ont donné les résultats suivants :
Diamètre
(en mm)
]24, 2; 24, 4]
]24, 4; 24, 6]
]24, 6; 24,8]
]24,8; 25]
]25; 25, 2]
]25, 2; 25, 4]
]25, 4; 25, 6]
]25, 6; 25,8]
]25,8; 26]
Pièces
cylindriques
5
13
24
19
14
10
8
5
2
a) Calcule la moyenne à 10−2 près ainsi que la variance et l’écart type de cette série.
b) La production sera jugée bonne si la série des mesures est telle que :
• m ∈ [ 24,9; 25,1]
•
σ < 0, 4
• 90% au moins de l’effectif se trouve dans l’intervalle [ m − σ ; m + σ ] .
Dans ces conditions, la production est-elle jugée bonne ?
34
Statistique descriptive
7) L’histogramme suivant donne la répartition des retraits effectués par plusieurs clients à un guichet
automatique :
Histogramme des effectifs
31
22
18
14
13
2
]0,10]
]10,20]
]20,30]
]30,40]
]40,50]
]50,60]
Sommes (€)
a) Sur combien de clients s’est effectuée cette statistique ?
b) A partir de ce graphique, établis le tableau représentatif de cette répartition (classes, effectifs,
fréquences, effectifs cumulés, fréquences cumulées).
c) Estime les paramètres de position et de dispersion de la variable.
d) Etablis le graphique des fréquences cumulées.
e) Quel est le pourcentage des clients qui retirent au maximum 30€ ?
f) A partir du graphique des fréquences cumulées, détermine les quartiles.
8) Durant l'année 1997, l'officier de l'état-civil d'une commune a relevé l'âge de l'épouse pour chacun
des mariages contractés. Tu trouveras ci-dessous le diagramme d'effectifs cumulés qu'il a obtenu
pour les 340 mariages de l'année 1997.
a) Donne la population, la variable étudiée et le type de la variable.
b) A partir de ce graphique, établis le tableau représentatif de cette répartition (classes, effectifs,
fréquences, effectifs cumulés, fréquences cumulées).
c) Estime les paramètres de position et de dispersion de la variable.
d) Représente l'histogramme des fréquences.
e) Pour combien de mariages l'épouse était-elle âgée de 30 ans ou moins ?
Statistique descriptive
35
SOLUTIONS
1)
Ci
]12,13]
]13,14]
]14,15]
]15,16]
]16,17]
]17,18]
]18,19]
]19,20]
]20,21]
ci
12,5
13,5
14,5
15,5
16,5
17,5
18,5
19,5
20,5
Moyenne :
li
1
1
1
1
1
1
1
1
1
ni
13
32
275
489
652
614
389
201
149
2814
17,00 ans
fi
0,00
0,01
0,10
0,17
0,23
0,22
0,14
0,07
0,05
1
Ni
13
45
320
809
1461
2075
2464
2665
2814
Fi
0,00
0,02
0,11
0,29
0,52
0,74
0,88
0,95
1,00
2,75
Variable : age en ans
Ecart Type
1,66 ans
Type : quantitative continue
]16,17] ans
Classe médiane :
]16,17] ans
Pourcentage des victimes de + de 18 ans :
Etendue :
9 ans
Histogramme des effectifs
652
614
489
389
275
201
149
13
32
]12,13] ]13,14] ]14,15] ]15,16] ]16,17] ]17,18] ]18,19] ]19,20] ]20,21]
Age (ans)
36
13
14
15
16
17
18
19
20
21
Population : les cyclomotoristes victimes des accidents de la route
Variance :
Classe modale :
(ci-m)^2
20,24
12,24
6,24
2,25
0,25
0,25
2,25
6,26
12,26
Statistique descriptive
26,26%
2)
Ci
]80,90]
]90,100]
]100,110]
]110,120]
]120,130]
]130,140]
]140,150]
]150,160]
]160,170]
ci
85
95
105
115
125
135
145
155
165
li
10
10
10
10
10
10
10
10
10
ni
1
3
10
14
20
8
3
0
1
60
fi
0,02
0,05
0,17
0,23
0,33
0,13
0,05
0,00
0,02
1
Ni
1
4
14
28
48
56
59
59
60
Fi
0,02
0,07
0,23
0,47
0,80
0,93
0,98
0,98
1,00
(ci-m)^2
1236,69
633,36
230,03
26,69
23,36
220,03
616,69
1213,36
2010,03
90
100
110
120
130
140
150
160
170
Moyenne :
120,17 km/h
Population : automobilistes passant sur une autoroute
Variance :
198,31
Variable : vitesse en km/h
Ecart Type :
14,08 km/h
Type : Variable quantitative continue
Classe modale :
]120,130] km/h
Pourcentage des automobilistes roulant à 100 ou
moins :
6,67%
Classe médiane:
]120,130] km/h
Pourcentage d'automobilistes en infraction :
53,33%
Gain de l'Etat en € :
3.200 €
Etendue :
90 km/h
Histogramme des fréquences
0,33
0,23
0,17
0,13
0,05
0,05
0,02
0,02
0,00
]90,100]
]80,90]
]110,120]
]130,140]
]150,160]
]100,110]
]120,130]
]140,150]
]160,170]
Vitesse (km/h)
Statistique descriptive
37
3)
Moyenne :
503,16 g
Population : les sacs de riz d'une PME
Variance :
173,72
Variable : masse en g
Ecart Type :
13,18 g
Classe modale :
] 500,505] g
Classe médiane :
] 500,505] g
Type : variable quantitative continue
Production non satisfaisante
Etendue :
55 g
4)
Moyenne :
10,94 mg
Population : Cigarettes d'une nouvelle sorte
Variance :
0,28
Variable : concentration de goudron en mg
Ecart Type :
0,53 mg
Type : Variable quantitative continue
Classe modale :
]10,8;11,1] mg
[m-σ, m+σ]=
Classe médiane
:
[10,405;11,471]
]10,8;11,1] mg
Pourcentage des cigarettes dans cet intervalle :
Etendue :
5)
Moyenne :
4,10 pièces/logement
Variance :
1,48
Ecart type :
66%
2,7 mg
1,22 pièces/logement
Population : Logements d'une ville de Flandre
Variable : Nombre de pièces par logement
Type : quantitative discrète
[m-2σ, m+2σ]=
[1,664;6,538]
Pourcentage dans cet intervalle :
97,7966102
6)
Moyenne
24,95 mm
Variance
0,15
Écart type
0,39 mm
38
Non, car il n’y a pas 90% de l’effectif dans l’intervalle
[m-σ, m+σ]= [24,56;25,33]
Statistique descriptive
7)
Ci
]0,10]
]10,20]
]20,30]
]30,40]
]40,50]
]50,60]
ci
5
15
25
35
45
55
li
10
10
10
10
10
10
ni
18
22
31
14
13
2
100
fi
0,18
0,22
0,31
0,14
0,13
0,02
1,00
Ni
18
40
71
85
98
100
Fi
0,18
0,40
0,71
0,85
0,98
1,00
(ci-m)^2
353,44
77,44
1,44
125,44
449,44
973,44
Moyenne :
23,8 €
Pourcentage de clients qui retirent maximum 30€ : 71%
Variance :
176,56
Q1 : environ 13 € ; Q2 : environ 23 € ; Q3 : environ 32 €
Ecart Type :
13,29 €
10
20
30
40
50
60
Classe modale : ]20 ; 30] €
Classe médiane : ]20 ; 30] €
Etendue :
8)
Ci
]15,20]
]20,25]
]25,30]
]30,35]
]35,40]
]40,45]
]45,50]
60 €
ci
17,5
22,5
27,5
32,5
37,5
42,5
47,5
li
5
5
5
5
5
5
5
ni
60
150
70
20
20
10
10
340
fi
0,18
0,44
0,21
0,06
0,06
0,03
0,03
1,00
Ni
60
210
280
300
320
330
340
Fi
0,18
0,62
0,82
0,88
0,94
0,97
1,00
(ci-m)^2
63,06
8,65
4,24
49,83
145,42
291,00
486,59
20
25
30
35
40
45
50
Moyenne :
25,44 ans
Population : Épouses des mariages d'une commune en 97
Variance :
50,17
Variable : Age en ans
Ecart Type :
7,08 ans
Type : Variable quantitative continue
Nombre de mariages où l'épouse a moins de 30 ans : 280
Classe modale : ]20 ; 25] ans
Histogramme des fréquences
Classe médiane : ]20 ; 25] ans
Etendue :
0,44
35 ans
0,21
0,18
0,06
]15,20]
]20,25]
]25,30]
]30,35]
0,06
]35,40]
0,03
0,03
]40,45]
]45,50]
Age (ans)
Statistique descriptive
39
40
Statistique descriptive
Téléchargement