Statistique, vocabulaire, tableaux et graphiques

publicité
STAT01
COURS
Octobre 2000
Cycles préparatoires du
Service Commun de Formation Continue de l’INPL
COURS
de
STATISTIQUE et PROBABILITÉS
Cours et exercices : Philippe Leclère
Cycles Préparatoires du Service Commun de Formation Continue de L’INPL
Cours et Exercices : Philippe Leclère
1
STAT01
COURS
Octobre 2000
1-Statistiques descriptives à une variable
1
1.1
Statistique, vocabulaire, tableaux et graphiques
Définitions, vocabulaire :
La statistique a longtemps consisté en de simples dénombrements fournissant des
renseignements sur la population ou l'économie d'un pays. Si nous ouvrons un
dictionnaire, nous trouvons la définition suivante : « La statistique est la science qui a
pour objet l'étude numérique et graphique d'un très grand nombre de faits analogues
quelle que soit leur nature ».
Cette science n’étudie pas les individus dans leur spécificité, elle permet de les
rassembler dans ce qu’ils ont en commun. Les sondages sont en général anonymes et
les conclusions portent sur le groupe.
L'objet de la statistique est de rassembler, organiser, analyser, interpréter, des
observations que l'on peut mesurer ou classer.
1.1.1 Population :
Les observations que le statisticien est conduit à faire portent sur un ensemble qu'il
convient de définir avec une grande précision. Cet ensemble porte le nom de
population et chaque élément qui la constitue est un individu ou une unité
statistique. Les ensembles et objets de la statistique doivent être parfaitement connus
et identifiés. Cela implique une précision de temps et de définition.
•
Population des élèves de seconde année de STS biotechnologiques pour l’année
97-98 sur la France métropolitaine inscrits dans un lycée public ou en contrat
avec l’état. Ces précisions permettent de cerner très exactement la population. Il
n’est pas toujours simple de définir celle-ci avec précision, mais cela est
nécessaire.
•
Population des pièces usinées par la machine A de la chaîne1 d’un processus de
fabrication pendant le mois de septembre 1998. Ici la population n’est pas vivante
bien que le vocabulaire reste très humanisé. La pièce usinée est toujours
l’individu que l’on étudie. Il conviendrait mieux ici de parler d’unité statistique.
Cycles Préparatoires du Service Commun de Formation Continue de L’INPL
Cours et Exercices : Philippe Leclère
2
STAT01
COURS
Octobre 2000
1.1.2 Caractère :
On étudie certaines propriétés des unités statistiques de la population. Chacune de
ces propriétés s'appelle un caractère statistique. On parle de caractère qualitatif
lorsque celui-ci n'est pas mesurable (exemples : couleur des cheveux, profession,
qualité...etc). Ce caractère qualitatif est dit ordinal lorsque l’on peut faire intervenir
une notion d’ordre ( exemple : les grades de l’armée ), sinon le caractère qualitatif est
dit nominal. On peut affecter un nombre à chaque attribut, cependant toute opération
arithmétique doit être maniée avec précaution et exclue s’il s’agit de caractère
qualitatif nominal.
On parle au contraire de caractère quantitatif lorsque celui-ci est mesurable
(exemples : poids, taille, degré d’alcool dans le sang...etc).
Un caractère statistique est aussi appelé variable statistique.
Nous dirons qu’une variable statistique quantitative est discrète si elle ne peut
prendre qu'un nombre dénombrable de valeurs numériques; en revanche, nous dirons
qu'elle est continue si elle peut prendre toute valeur numérique appartenant à un
intervalle réel.
•
« le nombre d’enfants d’une famille » est un caractère discret fini, il ne peut
prendre qu’un nombre fini de valeurs
•
« le poids d’un paquet de sucre » est un caractère continu car tous les réels de
l’intervalle peuvent être atteints.
Dans le cas des mesures, on effectue des observations discontinues, en raison des
arrondis sur les données imposés par la manipulation alors qu’en réalité le caractère
est
continu.
Cycles Préparatoires du Service Commun de Formation Continue de L’INPL
Cours et Exercices : Philippe Leclère
3
STAT01
1.2
COURS
Octobre 2000
Collecte de l’information :
une fois la population parfaitement définie et le caractère étudié choisi, on collecte
les observations et on constitue ainsi une série statistique. Cette série est exhaustive
si tous les éléments de la population ont été observés : on parle alors de
recensement. Lorsque l’étude exhaustive de la population se révèle trop onéreuse ou
trop longue à obtenir on observe seulement une partie de la population à l’aide d’un
échantillon. C’est quasiment toujours le cas. La plupart du temps l’enquête
statistique utilise un questionnaire qui doit être élaboré avec le plus grand soin afin
de recueillir les renseignements que l’on souhaite. Il faut qu’il soit non ambigu et pas
trop compliqué. On peut également recourir à des documents existants : les registres,
les documents de comptabilité ...etc. Il faut ensuite dépouiller toutes ces données et
procéder à un rangement (stockage) de toutes ces informations afin de pouvoir les
exploiter.
1.3
Tableaux statistiques : trois représentations proposées.
Les observations sont le plus souvent nombreuses et se présentent sous forme
désordonnée (liste de nombres, tableaux de valeurs...etc). Il faut alors les dépouiller,
les ordonner, les classer pour en donner une représentation claire.
1.3.1 Le tableau exhaustif :
On a relevé les températures des mois de décembre, janvier et février à Nancy sous
abri à 3 heures et obtenu le tableau suivant :
5 8 6
7
8
2
−1 −2
2 6 5 12 12 13 10
8
4 8 9
2
−1 −2 −1 −3
0 2 −5 −2 −1 −4 −2
2
9 5 8
3
5
4
3
2
2
−2 −5 −8 −12 −16 −4 −2
6
4
5
6
2
−1 −2 5
−2 −1 −5 −8 −15 −16 −13 −12
0 2 6
5
4
6
3
3
−7 −10
5
6
−2 −4
3
8
−1 −2
0
4
5
4
−5 −2
2
5
Population : les 90 jours ( 31 en décembre, 31 en janvier et 28 en février)
Unité statistique : un jour ( le 8 janvier par exemple)
Variable statistique : température en degré Celsius relevée à 3 heures et à un
endroit donné.
Ce tableau est inexploitable sous cette forme. On peut juste dire qu’il ne fait pas
chaud à Nancy en hiver. (mais ça, on le savait)
Cycles Préparatoires du Service Commun de Formation Continue de L’INPL
Cours et Exercices : Philippe Leclère
4
STAT01
COURS
Octobre 2000
1.3.2 Regroupement de données :
Lorsque les données sont très nombreuses, on peut les regrouper de la manière
suivante :
Désignons par X la variable statistique et par x1 , x2 ,! , xn les n valeurs possibles
distinctes prises par la variable statistique X (en général si cela est possible, les
valeurs xi sont rangées par ordre croissant,). Nous notons ni le nombre de fois où la
valeur xi a été observée dans la population (ou dans l'échantillon étudié). Ce nombre
ni est l'effectif associé à la valeur xi de la variable statistique X. L'ensemble des
couples ( xi ,ni ) est appelé série statistique. Il peut évidemment s’agir ici d’une série
statistique qualitative ou quantitative.
En désignant par N le nombre total d'observations, nous avons la relation
n
N = ∑ ni
i =1
sur l’exemple précédent on obtient
tempé. xi
effectif ni
tempé. xi
effectif ni
−16 −15 −
−13 −12 −11 −10 −9 −8 −7 −6 −5 −4 −3 −2
14
2
1
0
1
2
0
1
0 2 1 0 4 3 1 11
1
2
3
4
5
6 7 8 9 10 11 12 13
−1 0
7
3
0 10 5
6 10 7 1 6 2 1 0 2 1
Aucune information quantitative n’est perdue, seuls les jours où telle température a
été relevée ne sont plus connus. Il faudra veiller à ce que cette perte ne soit pas
préjudiciable à l’exploitation que l’on veut faire de cette étude. Le tableau est un peu
plus lisible que le précédent. On peut par exemple noter les températures les plus
souvent atteintes lors de cette période. On peut déjà avoir une idée de la moyenne.
Cycles Préparatoires du Service Commun de Formation Continue de L’INPL
Cours et Exercices : Philippe Leclère
5
STAT01
COURS
Octobre 2000
1.3.3 Regroupement par classes :
Le nombre de valeurs est encore élevé et la lecture du tableau peu commode. On peut
encore simplifier la restitution des données. Il suffit de créer des classes et de
compter l’effectif de chaque classe. On partage alors l’étendue (plus grande valeur −
plus petite valeur, ici 13 − ( −16 ) = 29 des valeurs en p intervalles.
Classe
[−16; −13[
[−13; −10[
[−10; −7[
[−7; −4[
[−4; −1[
effectif
3
3
3
5
15
Classe
[−1; 2[
[2; 5[
[5; 8[
[8;11[
[11;14[
effectif
10
21
18
9
3
Cette troisième représentation sera obligatoirement choisie s’il s’agit d’une variable
continue. Les p classes sont alors disjointes et leur réunion recouvre la totalité des
valeurs possibles. On dit que l’on fabrique une partition de l’ensemble. On ouvre
classiquement l’intervalle à droite et on le ferme à gauche comme dans l’exemple
suivant :
Classe
[ 0;4 [
effectif
5
[4
;8
[
10
[ 8 ; 12 [
[ 12 ; 16 [
[ 16 ; 20 [
5
3
2
Les classes n’ont pas forcément la même amplitude (différence entre la borne
supérieure et la borne inférieure). La perte d’information est évidemment le plus gros
problème que pose cette technique de stockage. Le choix de l’amplitude permet un
compromis satisfaisant au regard des conclusions que l’on veut tirer. On fait ensuite
la supposition que chaque élément de la classe possède la valeur du milieu de classe
appelé aussi centre de classe. Il est parfois difficile de préciser les classes extrêmes.
On utilise souvent des classes ouvertes « Plus de » ou « moins de » qui ne possèdent
pas de centre de classe. En l’absence d’informations complémentaires, on prendra
alors comme centre un nombre situé à une demi amplitude de la borne de cette classe
ouverte ( l’amplitude choisie étant celle de la classe voisine )
exemple :
Classe
effectif
[ 0 ; 4 [ [4
5
;8
10
[ [ 8 ; 12 [ [ 12 ; 16 [
5
3
16 et plus
2
Cycles Préparatoires du Service Commun de Formation Continue de L’INPL
Cours et Exercices : Philippe Leclère
6
STAT01
COURS
Octobre 2000
Pour la dernière classe, l’amplitude de la classe voisine étant 4, si on ne possède pas
d’autres informations, on prendra comme centre de classe 16+2=18. On considère en
fait que la dernière classe a une amplitude de 4.
Graphiques divers :
1.4.1 Diagramme en bâtons
Lorsque les distributions sont quantitatives, et la variable discrète, le graphique est
réalisé en général avec en abscisse les valeurs du paramètre observé et en ordonnée
l’effectif ou la fréquence.
La représentation ainsi obtenue est appelée diagramme en bâtons. L’effectif ou la
fréquence est illustrée par un segment de droite. (On peut également avoir cette
représentation pour une variable qualitative). Reprenons les températures de
l’exemple précédent. On obtient le graphique suivant :
Températures à Nancy
12
10
8
effectif ni
6
4
2
12
10
8
6
4
2
0
-2
-4
-6
-8
0
-1
2
-1
4
-1
6
0
-1
1.4
Lorsque l’on rejoint par des segments de droite les sommets des bâtonnets, on obtient
le
polygone
des
effectifs.
Cycles Préparatoires du Service Commun de Formation Continue de L’INPL
Cours et Exercices : Philippe Leclère
7
STAT01
COURS
Octobre 2000
1.4.2 Histogramme
Dans le cas de la variable continue, le graphique est appelé histogramme. On suppose
la répartition uniforme dans une classe et on constitue les rectangles ayant pour base
l’amplitude de la classe et une hauteur telle que leur aire soit proportionnelle à
l’effectif ou la fréquence de la classe.
Considérons la série statistique suivante qui décrit la charge de rupture d’un fil :
Charge
en gramme
Effectif
[720 ; 760[
[760 ; 800[
[800 ;840[
[840 ;880[
[880 ; 920[
10
920 et plus
16
23
4
15
32
Histogramme
35
30
25
20
15
Effectif
10
5
0
720 à 760
760 à 800
800 à 840
840 à 880
880 à 920
920 et plus
Cycles Préparatoires du Service Commun de Formation Continue de L’INPL
Cours et Exercices : Philippe Leclère
8
STAT01
COURS
Octobre 2000
Si les classes ont la même amplitude, on peut retrouver le polygone des effectifs en
prenant comme valeur pour chaque élément de la classe le centre.
Si les classes n’ont pas la même amplitude il faut recalculer la hauteur du rectangle.
Par exemple, pour un même effectif dans une classe d’amplitude double, la hauteur
du rectangle sera deux fois plus petite.
1.4.3 Diagrammes à bandes, à secteurs, figuratifs
On utilisera ces différentes représentations lorsque le caractère est qualitatif.
On considère la production d’une entreprise de fabrication d’automobiles (en milliers
de véhicules)
1970
Effectif
10,2
8,3
5,5
1,0
25
Véhicule
Cabriolet, 2 places
4 places
5 places
modèle de luxe
TOTAL
Pourcentage
40,8
33,2
22
4
1978
Effectif
25,8
35,4
19,6
16,2
100
Pourcentage
25,8
35,4
19,6
16,2
Diagramme à secteurs
modèle de luxe
4%
5 places
22%
Cabriolet, 2 places
41%
4 places
33%
On fera en sorte systématiquement que le total des pourcentages soit 100. Il est
parfois nécessaire de « corriger » les arrondis. On utilise pour cela la règle des
moindres erreurs.
Cycles Préparatoires du Service Commun de Formation Continue de L’INPL
Cours et Exercices : Philippe Leclère
9
STAT01
COURS
Octobre 2000
Diagramme à bandes année 1970
12
10
8
Série1
6
4
2
0
Cabriolet,
2 places
4 places
5 places
modèle
de luxe
Bandes comparatives.
comparaison des années 1970-1978
40
35
effectif
30
25
20
15
10
5
0
Cabriolet, 2 places
4 places
5 places
modèle de luxe
1970
1978
véhicule
Cycles Préparatoires du Service Commun de Formation Continue de L’INPL
Cours et Exercices : Philippe Leclère
10
STAT01
COURS
Octobre 2000
Diagramme figuratif
Cabriolets
Petites 4 places
Cinq places
Luxe
Attention à ces représentations qui sont souvent utilisées dans la presse de façon
approximative et ne permettent pas une exploitation « scientifique ». On ignore en
fait la variable du graphique qui est proportionnelle à l’effectif. Est-ce la hauteur du
rectangle, la hauteur de la voiture ?
Il est fortement conseillé de ne pas utiliser ce type de diagramme, dont
l’interprétation peut prêter à confusion.
1.4.4 Autres représentations utilisées :
Diagrammes de type Boxplot que nous présenterons plus loin après avoir introduit
les quartiles et qui ne nécessitent pas la notion de fréquence
Diagrammes de type dotplots et diagrammes de type stem-and-leaf qui se
rapprochent des diagrammes à bâtons et des histogrammes
2
2.1
Etude des séries statistiques simples quantitatives
Introduction
Un tableau statistique ou un graphique est parfois long à consulter, sans permettre
d'avoir une idée suffisamment concise de la distribution statistique observée.
La notion de moyenne arithmétique est bien connue et permet de donner une idée
globale de la série. On peut par exemple connaître le poids total d’une population
connaissant sa moyenne et son effectif et autoriser 10 personnes à monter dans un
bateau dont la charge limite est de 800 kg si on sait que la moyenne des poids des
individus de ce groupe n’excède pas 80 kg. On parlera de paramètre de position ou
de statistique de position.
Il est important également de connaître la répartition de la population autour de cette
moyenne. Dans l’exemple du bateau, il est primordial, si le groupe n’est pas de poids
homogène de répartir les « lourds » et les « légers » équitablement à bâbord et tribord
pour ne pas risquer le dessalage. On parlera de paramètre de dispersion ou de
statistique de dispersion.
Cycles Préparatoires du Service Commun de Formation Continue de L’INPL
Cours et Exercices : Philippe Leclère
11
STAT01
2.2
COURS
Octobre 2000
Paramètres de position.
2.2.1 La moyenne arithmétique :
La moyenne arithmétique d'une série de valeurs d'une variable statistique est égale à
la somme de ces valeurs divisée par leur nombre. Autrement dit, la moyenne
arithmétique est la valeur commune qu'auraient les données si elles étaient toutes
égales de façon à ce que leur somme reste la même : les surplus des nombres les plus
élevés seraient répartis entre les nombres les moins élevés. On note en général cette
moyenne m ou x
•
Cas de données énumérées (description exhaustive).
m=
1
N
N
∑ xk
k =1
où les xk sont les valeurs prises par la variable statistique X. N est l’effectif total
de la population.
N
∑
est une manière abrégée d'indiquer que l'on effectue une somme de N
k =1
termes, identiques à celui qu'introduit le symbole, mais différant par l'indice : k
prenant successivement toutes les valeurs entières de 1 à N.
Sur les données du tableau 1 du chapitre 1, l'on effectue la somme des poids ; on
divise ensuite cette somme par 90; d'où la moyenne : x = 1 (on lit « x barre »)
La moyenne des températures pour les mois de décembre, janvier et février est de
1 degré.
•
Données regroupées par valeur
1 n
m = ∑ nk xk
N k =1
nk est le nombre d’individus qui ont pour valeur du paramètre xk
La moyenne calculée par cette méthode à l’aide du deuxième tableau donne le
même résultat que précédemment : soit 1. Il n’y a aucune perte quantitative
d’information. Vous remarquerez que le calcul est plus aisé avec moins de risque
d’erreurs de saisie.
Cycles Préparatoires du Service Commun de Formation Continue de L’INPL
Cours et Exercices : Philippe Leclère
12
STAT01
•
COURS
Octobre 2000
Variable continue et données groupées en classes.
Si la variable est continue et si les données sont regroupées en p classes comme
dans le tableau 3 du paragraphe 1, on ne peut qu’estimer une moyenne à
l'intérieur de chaque classe, à défaut d'autre renseignement, on choisit le « centre
de classe » ( ck pour la classe k qui est le milieu de l’intervalle représentant la
classe). Le calcul est effectué comme si tous les individus d'une classe avaient
pour caractère le centre de classe, avec toute la part d'approximation que cela
comporte.
1
m≈
N
p
∑ nk ck
où p est le nombre de classes
k =1
( −15 )* 3 + ( −12 )* 3 + ( −9 )* 3 + ....... + 6 * 18 + 9 * 9 + 12 * 3
= 1,16
90
On fera attention aux classes ouvertes. (voir 2-c)
m≈
On peut mesurer dans cet exemple la perte de précision due au regroupement des
données en classes et au choix du centre de classe comme moyenne de la classe.
Cependant on peut se satisfaire du résultat. On annoncera dans un cas comme dans
l’autre que la moyenne de ces trois mois est de 1 degré. Malgré cette perte
d’information nous aurons recours souvent au regroupement en classes afin de
« visualiser » plus simplement la série. ( Pour le calcul, il est préférable de garder les
valeurs)
Les machines à calculer (calculettes) permettent aisément tous les calculs de
statistique et sont vivement conseillées.
2.2.2 Le mode et la classe modale
Dans le cas d’une variable discrète, on appelle mode ou valeur modale toute valeur
que la variable statistique prend le plus fréquemment. Pour les valeurs regroupées,
toute valeur dont l’effectif est le plus grand.
Dans le cas d'une variable continue, et si les données sont groupées en classes, toute
classe dont l'effectif est le plus élevé (effectif ramené à l'unité d'amplitude) est
appelée classe modale. Attention, il peut arriver que la classe modale ne soit pas
celle où l'effectif apparaît le plus élevé sur le tableau. En effet, cette dernière classe
peut avoir une amplitude plus grande qu'une autre dont l'effectif par unité
d'amplitude, est plus élevé. Il peut y avoir plusieurs modes ou classes modales.
Dans l’exemple des températures :
Le mode est −2 lorsque les données sont regroupées par valeurs
la classe modale est [2; 4] pour le regroupement en classes.
Cycles Préparatoires du Service Commun de Formation Continue de L’INPL
Cours et Exercices : Philippe Leclère
13
STAT01
COURS
Octobre 2000
2.2.3 La médiane
La médiane d'une série statistique est un réel tel qu'il y ait autant d'observations
ayant une valeur supérieure que d'observations ayant une valeur inférieure. Nous
allons définir ce réel de façon unique.
Lorsque les observations sont toutes données, il suffit donc de les classer par ordre de
grandeurs croissantes (ou décroissantes), et de prendre celle qui se trouve au milieu.
Si le nombre des observations est pair, la médiane est la demi-somme des deux
valeurs du milieu. Pour les températures, la médiane est 2. On verra dans le
paragraphe prochain une technique à l’aide du cumul des effectifs.
si N = 2k + 1
 xk +1

N étant l’effectif total.
En résumé : la médiane est  xk + xk +1
si N = 2k

2
En revanche lorsque les observations sont groupées en classes, la médiane ne peut
être qu’estimée. Elle est nécessairement élément d’un intervalle que l’on appelle
classe médiane. On fait donc l’hypothèse que la répartition des valeurs de la classe
est affine et on procède à une interpolation linéaire.
Il faut toutefois retenir que « faire des statistiques » c’est travailler avec les
vraies données. Les regroupements sont le fait des statisticiens. En conséquence
les méthodes d’approximation, dont celle de la médiane, apparaissent comme
des exercices techniques un peu gratuits et même inutiles. ( sauf pour le
professeur de mathématiques )
2.2.4 Fréquences cumulées croissantes et décroissantes.
•
Variable discrète.
Lors d’un examen, 100 étudiants répondent à 8 questions. On pose X la variable
statistique qui à chaque questionnaire associe le nombre de bonnes réponses. On
obtient le tableau suivant :
Valeur xi
effectif ni
effectifs cumulés crois X<xi
effectifs cum. décrois. X ≥ xi
0
2
0
100
1
7
2
98
2
6
9
91
3
19
15
85
4
25
34
66
5
15
59
41
6
15
74
26
Cycles Préparatoires du Service Commun de Formation Continue de L’INPL
Cours et Exercices : Philippe Leclère
7
9
89
11
8
2
98
2
9
0
100
0
14
STAT01
COURS
Octobre 2000
: Effectifs cumulés croissants :
On peut interpréter la troisième ligne de la façon suivante : 15 est le nombre
d’étudiants ayant répondu correctement à au plus deux questions. C’est en fait
l’effectif pour lequel X<3. Mathématiquement : 15 = ∑ nk
xk <3
: Effectifs cumulés décroissants :
Dans la dernière ligne, 41 est le nombre d’étudiants ayant répondu correctement à au
moins 5 questions. C’est en fait l’effectif pour lequel X ≥ 5.
On obtient ainsi le polygone des effectifs cumulés croissants et décroissants.
Polygone des effectifs cumulés
120
100
80
effectifs cumulés croissants
X<xi
60
effectifs cumulés décrois. X xi
40
20
0
0
1
2
3
4
5
6
7
8
9
Pour une série statistique discrète, la représentation polygonale ne paraît pas très
adaptée. L’interpolation n’a pas beaucoup de sens. Il faut lui préférer la fonction en
escaliers suivante.
Cycles Préparatoires du Service Commun de Formation Continue de L’INPL
Cours et Exercices : Philippe Leclère
15
STAT01
COURS
Octobre 2000
effectifs cumulés croissants X<xi
120
100
80
effectifs cumulés croissants X<xi
60
40
20
0
0
1
2
3
4
5
6
7
8
9
Dans certains ouvrages on trouve une définition différente des effectifs cumulés. On
prendra X ≤ x ( norme AFNOR ) pour les effectifs cumulés croissants, ce qui change
évidemment la courbe pour une variable discrète. En revanche pour une variable
continue, cela ne change rien.
On verra que ce choix paraîtra justifié lorsque nous étudierons en probabilité la
fonction de répartition.
On peut également considérer les fréquences au lieu des effectifs. Cela ne change pas
l’allure des courbes
La fréquence de la modalité xi est le nombre fi =
ni
où ni est l’effectif pour la
N
valeur xi du paramètre.
i
La fréquence cumulée en xi est donc
∑ fi =
k =1
f1 + ! + fi si on prend X ≤ xi
Le pourcentage de la modalité xi est pi = 100 fi
Cycles Préparatoires du Service Commun de Formation Continue de L’INPL
Cours et Exercices : Philippe Leclère
16
STAT01
•
COURS
Octobre 2000
Variable continue.
En reprenant l’exemple des charges de rupture du chapitre 1-3-b
Charge en gramme
Effectif
10
effectifs
cumulés
croissants
10
effectifs
cumulés
décroissants
100
[700 ; 750[
[750 ; 800[
[800 ;840[
[840 ;880[
[880 ; 920[
23
33
90
4
37
67
15
52
63
32
84
48
920 et plus
16
100
16
Sur l’intervalle [ xk ; xk +1 [ on a :
effectif cumulé croissant =
∑
xi < xk +1
effectif cumulé décroissant =
∑
ni
xi > xk
ni
120
100
80
effectifs cumulés croissants
effectifs cumulés décroissants
60
40
20
Médiane
0
700
750
800
840
880
920
960
On peut ainsi trouver graphiquement une estimation de la médiane comme abscisse
du point d’intersection des courbes cumulées croissantes et décroissantes.
Cycles Préparatoires du Service Commun de Formation Continue de L’INPL
Cours et Exercices : Philippe Leclère
17
STAT01
COURS
Octobre 2000
On peut également procéder à une interpolation linéaire à partir de la courbe
cumulative croissante par exemple. On privilégiera cette méthode, préférable à la
précédente.
60
B(880 ; 52)
50
40
30
A(840 ; 37)
20
10
0
840
880
Soit 15 x − 8 y − 11 120 = 0 une équation de la droite ( AB ) . On obtient donc une
valeur approchée de la médiane en donnant à y la valeur 50 soit 874,67
Cette représentation ne présente aucune difficulté si le tableau des effectifs cumulés a
été correctement réalisé. L'échelle des abscisses doit être exacte ; par conséquent, les
classes d'amplitudes inégales doivent apparaître inégales. Entre deux points connus,
l'on suppose que la variation de l'effectif cumulé est linéaire ; on peut, par exemple,
lire sur la figure que 20 fils ont supporté moins 770 g, environ
Cycles Préparatoires du Service Commun de Formation Continue de L’INPL
Cours et Exercices : Philippe Leclère
18
STAT01
COURS
Octobre 2000
(STAT01E01A)
On donne les salaires annuels nets en milliers de francs des employés d’une
entreprise de textile.
Valeurs femmes
105 110 112
132 133 134
151 154 154
112
135
158
118
138
119
138
120
138
120
138
125
142
126
145
127
148
128
148
130
150
Valeurs hommes
141 144 146
156 156 160
172 172 176
148
160
179
149
160
150
163
150
164
151
164
153
165
153
166
153
168
154
168
155
170
1. Que pouvez-vous conclure en observant ces deux tableaux ?
2. Pour chacune des deux séries, hommes et femmes, vous effectuerez un
regroupement par classes d’amplitude 10, la première classe étant : [104;114[ .
Vous ferez un tableau comprenant les effectifs, les fréquences, les fréquences
cumulées Vous donnerez alors une représentation graphique adaptée pour chacun
des deux regroupements.
3. Calculer : x f ,x g et x , les moyennes exactes de salaires pour les femmes, les
hommes et l’ensemble de la population. (On utilisera le tableau exhaustif de
l’énoncé).
4. Calculer x ′ f ,x ′ g et x ′ les moyennes approchées de salaires pour les femmes,
les hommes et l’ensemble de la population. On utilisera le regroupement par
classes de la deuxième question. Quelle remarque peut-on faire ?
5. Calculer les médianes m f ,mg et m de la population des femmes, des hommes
et de la population totale. On utilisera les données exhaustives.
Cycles Préparatoires du Service Commun de Formation Continue de L’INPL
Cours et Exercices : Philippe Leclère
19
STAT01
2.3
COURS
Octobre 2000
Paramètres de dispersion.
On considère les deux séries de données suivantes :
99
1
100
100
101
199
Elles ont une moyenne arithmétique et une médiane égale à 100. Cependant elles
diffèrent profondément. Il apparaît que la deuxième série est beaucoup plus dispersée
que la première. Il est donc nécessaire d’évaluer cette dispersion autour d’une valeur
centrale. Nous définirons deux sortes de statistiques de dispersion : celles liées à la
moyenne : écart moyen et écart type ; celles liées à la médiane : écart interquartile,
écart interdécile, etc2.3.1 Ecart absolu moyen
On calcule la moyenne des écarts à la moyenne. Ce calcul se fait en valeur absolue
pour que le résultat soit exploitable. En effet, quelle que soit la série on a :
1 n
1 n
1 n
1
x
x
x
( i − ) = ∑ i − ∑ x = x − nx = 0
∑
n i =1
n i =1
n i =1
n
Ce calcul ne permet évidemment aucune exploitation.
On pose donc
1 n
e = ∑ xi − x si les n données sont toutes évaluées
n i =1
e=
1 p
∑ ni xi − x
n i =1
si les données sont regroupées en p valeurs distinctes.
1 p
∑ ni ci − x si les données sont regroupées dans p classes, ci étant le centre de
n i =1
classe.
e=
On a ainsi établi la moyenne des valeurs absolues des écarts à la moyenne. Cette
caractéristique rend convenablement compte de la dispersion entre les deux séries.
On peut également calculer cet écart moyen par rapport à la médiane. On démontre
d’ailleurs que c’est par rapport à la médiane que l’écart moyen absolu est le plus
faible.
L’écart moyen absolu est peu utilisé. La plupart des livres affirment que son
maniement algébrique difficile en est la cause. Cela ne paraît guère fondé. Il faudrait,
je pense rechercher la cause dans l’acception plus probabiliste de l’écart type dont
l’utilisation reste privilégiée et peut être dans son utilisation géométrique.
Cycles Préparatoires du Service Commun de Formation Continue de L’INPL
Cours et Exercices : Philippe Leclère
20
STAT01
COURS
Octobre 2000
2.3.2 Ecart type
On utilise la moyenne quadratique des écarts à la moyenne. On introduit donc un
intermédiaire que l’on appelle la variance de la variable statistique définie par les
formules :
2
1 n
var X = ∑ xi − x si les n données sont toutes disponibles
n i =1
(
)
1 p
∑ ni xi − x
n i =1
)
si les données sont regroupées par valeurs au nombre de p
1 p
∑ ni ci − x
n i =1
centre de classe.
)
si les données sont regroupées dans p classes, ci étant le
var X =
var X =
(
(
2
2
Ces formules se simplifient notablement de la façon suivante :
2
2
2
1 p
1 p
1 p
1 p
1 p
var X = ∑ ni xi − x = ∑ ni xi2 + x − 2 xi x = ∑ ni xi2 + ∑ ni x − ∑ 2ni xi x =
n i =1
n i =1
n i =1
n i =1
n i =1
(
(
)
2
1 p
2x
ni xi2 + x −
∑
n i =1
n
p
∑ xi =
i =1
)
2
1 p
ni xi2 + x − 2 x x =
∑
n i =1
2
1 p
ni xi2 − x
∑
n i =1
finalement on obtient :
2
1 n
var X = ∑ xi2 − x
n i =1
var X =
2
1 p
ni xi2 − x dans chacun des trois cas précédents.
∑
n i =1
var X =
2
1 p
ni ci2 − x
∑
n i =1
Cycles Préparatoires du Service Commun de Formation Continue de L’INPL
Cours et Exercices : Philippe Leclère
21
STAT01
COURS
Octobre 2000
La variance étant définie comme une somme de carré, par cohérence on utilisera la
racine carrée de la variance.
On appelle écart type ( on le note en général σ X ) la racine carrée de la variance
σ X = var X
On peut remarquer que le premier terme est la moyenne arithmétique des carrés des
valeurs de la variable statistique. On peut ainsi retenir de façon mnémotechnique :
2
( ) ()
var X= var X = x 2 − x
Contrairement à l’écart moyen, l’écart type est minimal si l’on prend la moyenne et
non la médiane.
2.3.3 Quartiles, déciles, centiles etc...
Les quartiles, déciles et centiles sont des caractéristiques qui correspondent au
même genre de préoccupation que la médiane. Leurs définitions sont également très
semblables.
•
Quartiles :
• Le premier quartile Q1 est la valeur pour laquelle 25% de la population est
•
en dessous.
Le deuxième quartile Q 2 est la médiane
•
Le troisième quartile Q 3 est la valeur pour laquelle 75% de la population est
en dessous
•
Déciles :
• Le premier décile D1 est la valeur pour laquelle 10% de la population est en
dessous
• Le deuxième décile D2 est la valeur pour laquelle 20% de la population est
en dessous
• etc..
• Le cinquième décile D5 est la médiane.
•
Le premier centile C1 est la valeur pour laquelle 1% de la population est en
dessous
Etc...
Cycles Préparatoires du Service Commun de Formation Continue de L’INPL
Cours et Exercices : Philippe Leclère
22
STAT01
COURS
Octobre 2000
2.3.4 Etendue, écart interquartile, interdécile etc...
L’étendue (range en anglais) d’une série statistique est la différence entre les deux
valeurs extrêmes de la variable étudiée. Attention toutefois ! si ces valeurs sont
anormales, cette étendue n’est pas significative de la série.
En adoptant comme paramètres de dispersion les quartiles, on définit l’écart
interquartile Q3 − Q1 étendue de la série statistique d’effectif moitié de la série
initiale centrée sur la médiane. C’est en fait l’intervalle qui contient 50% des
individus « du milieu ». Cela revient à éliminer le premier quart et le dernier quart.
De même on définit l’écart interdécile D9 − D1 et l’écart intercentile C99 − C1
(utilisé par exemple en démographie)
•
Pour les déciles, on conserve malgré tout 80% de la population alors que pour
l’écart interquartile, seule la moitié de la population est considérée.
En général on considère que les valeurs situées à plus de 1,5 × (Q3 − Q1 ) de Q2
sont aberrantes ou exceptionnelles. On les élimine.
•
Les calculs de ces paramètres se font sur le modèle de la médiane. (rangement
des valeurs dans l’ordre croissant pour les variables discrètes et interpolation
linéaire pour les valeurs groupées en classe)
On les appelle caractéristiques de position, puisqu'elles permettent de placer les
valeurs de la variable. Ces paramètres sont préférés en statistique à l’écart type
considéré plutôt comme un paramètre probabiliste.
Cycles Préparatoires du Service Commun de Formation Continue de L’INPL
Cours et Exercices : Philippe Leclère
23
STAT01
COURS
Octobre 2000
2.3.5 Les statistiques de dissymétrie.
On peut considérer les moments centrés d’ordre k par rapport à la
1 n
1 n
k
moyenne mk = ∑ ( xi − x ) ou mk = ∑ nk ( xi − x )k .
n i =1
n i =1
En général, les moments d’ordre pair rendent compte de la dispersion, alors que ceux
d’ordre impair reflètent la « dissymétrie » de la série. Ils sont nuls si la série est
symétrique et d’autant plus grands en valeur absolue que la dissymétrie est marquée.
Ils sont négatifs quand le maximum de fréquences est décentré vers la droite et
positifs si les fréquences sont décentrées vers la gauche. Le fait de prendre les centres
de classe dans les distributions groupées ne provoque pas beaucoup d’erreurs sur les
moments centrés d’ordre impair alors que les moments centrés d’ordre pair se
trouvent surestimés.
Les quartiles permettent de construire les diagrammes de type boxplots, ils sont
constitués de deux boîtes contiguës délimités par le premier quartile, la médiane et le
troisième quartile. Un segment s’étend de part et d’autre jusqu’au valeurs extrêmes.
On appelle aussi ces diagrammes : boîtes à moustaches.
Min
Q1
m=Q2
Q3
Max
( On peut définir des moustaches « normales » en faisant abstraction des
valeurs exceptionnelles définies ci-dessus.)
Cycles Préparatoires du Service Commun de Formation Continue de L’INPL
Cours et Exercices : Philippe Leclère
24
STAT01
COURS
Octobre 2000
(STAT01E02A)
On reprend les données de l’exercice STAT01E01A
Valeurs femmes
105 110 112
132 133 134
151 154 154
112
135
158
118
138
119
138
120
138
120
138
125
142
126
145
127
148
128
148
130
150
Valeurs hommes
141 144 146
156 156 160
172 172 176
148
160
179
149
160
150
163
150
164
151
164
153
165
153
166
153
168
154
168
155
170
1. Calculer l’écart interquartile pour chacune des trois séries, femmes, hommes et
ensemble de la population. (On utilisera le tableau exhaustif de l’énoncé)
2. Calculer : σ f , σ H et σ , les écarts types exacts des trois séries : femmes,
hommes et ensemble de la population (On utilisera le tableau exhaustif de
l’énoncé).
′ et σ ′ , les écarts types approchés des trois séries : femmes,
3. Calculer : σ ′f , σ H
hommes et l’ensemble de la population après le regroupement par classes, en
prenant comme valeur le milieu de la classe).
Cycles Préparatoires du Service Commun de Formation Continue de L’INPL
Cours et Exercices : Philippe Leclère
25
STAT01
COMPénoncés
Octobre 2000
(STAT01E03)
Dans un pays en voie de développement, on désire étudier le nombre d’enfants par
famille. On sélectionne un échantillon de 200 familles qui donne les résultats
suivants
xi
0
1
2
3
4
5
6
7
8
9
10
0
Total
ni
25
52
58
35
19
5
4
0
1
0
1
200
nixi
0
52
116
105
76
25
24
0
8
0
10
416
nixi2
0
52
232
315
304
125
144
0
64
0
100
1336
1. Faire un diagramme en bâtons.
2. Calculer la moyenne x .
3. Calculer l’écart type s.
4. Donner la valeur de la médiane m et des quartiles q1 et q 3 .
5. Trouver un intervalle théorique de la forme x − α ; x + α dans lequel on trouve
environ 75% de la population.
6. Donner le mode.
Cycles Préparatoires du Service Commun de Formation Continue de L’INPL
Cours et Exercices : Philippe Leclère
STAT01
COMPénoncés
Octobre 2000
(STAT01E04)
Une machine fabrique des rondelles de diamètre théorique 35,5mm, avec une
tolérance de ±11
, .
L’objectif est d’obtenir 95% de pièces acceptables.
On effectue des mesures sur un échantillon de 500 pièces prélevées au hasard
données dans le tableau suivant :
Diamètre
effectif
ni
[34 ; 34,2[ 10
[34,2; 34,4[ 8
[34,4; 34,6[ 15
[34,6; 34,8[ 23
[34,8; 35 [ 30
[35 ; 35,2[ 52
[35,2; 35,4[ 70
[35,4; 35,6[ 92
[35,6; 35,8[ 82
[35,8;36 [
57
[36 ; 36,2[ 23
[36,2; 36,4[ 15
[36,4; 36,6[ 10
[36,6; 36,8[ 6
[36,8; 37 [
5
[37 ; 37,2[
2
Total
500
centre de
classe ci
nici
nici2
34,10
34,30
34,50
34,70
34,90
35,10
35,30
35,50
35,70
35,90
36,10
36,30
36,50
36,70
36,90
37,10
569,60
341,00
274,40
517,50
798,10
1047,00
1825,20
2471,00
3266,00
2927,40
2046,30
830,30
544,50
365,00
220,20
184,50
74,20
17732,60
11628,10
9411,92
17853,75
27694,07
36540,30
64064,52
87226,30
115943,00
104508,18
73462,17
29973,83
19765,35
13322,50
8081,34
6808,05
2752,82
629036,20
1. Représenter l’histogramme des effectifs de cette série statistique, ainsi que le
polygone des fréquences cumulées croissantes.
2. Calculer une valeur approchée de la moyenne et de l’écart-type de la série au
centième le plus proche.
3. Déterminer, au vue du polygone des fréquences cumulées, la médiane et l’écart
interdécile. On donnera le résultat au dixième le plus proche.
4. Calculer le pourcentage de pièces acceptables. L’objectif est-il atteint ?
Cycles Préparatoires du Service Commun de Formation Continue de L’INPL
Cours et Exercices : Philippe Leclère
STAT01
COMPénoncés
Octobre 2000
(STAT01E05)
On considère les notes obtenues à l’épreuve de mathématiques par les 35 candidats
d’un concours.
16,5
9
15
6,5
12,5
7
13,5
1.
2.
3.
4.
5.
6.
7.
8.
13,5
16
11,5
7,5
7
16,5
15
2,5
9,5
8,5
12
9,5
11
11,5
8,5
10,5
6
5
5
11,5
15
17,5
9,5
5,5
7
16
18,5
9
Regrouper par valeurs cette série.
Tracer le diagramme en bâtons.
Déterminer la médiane.
Déterminer une valeur approchée au dixième le plus proche de la moyenne x de
cette série.
Quel est le pourcentage des notes appartenant à l’intervalle 7 ,5;13,5
Quel est approximativement l’écart interquartile de cette série.
Donner une valeur approchée au dixième le plus proche, de l’écart-type σ , de
cette série.
Déterminer le pourcentage de notes comprises dans l’intervalle
2
2
x − σ;x + σ
3
3
LM
N
OP
Q
Cycles Préparatoires du Service Commun de Formation Continue de L’INPL
Cours et Exercices : Philippe Leclère
STAT01
SUPénoncés
Octobre 2000
(STAT01S01)
Un recensement récent donne pour les 20 arrondissements de Paris cités dans
l’ordre les chiffres de population suivant ( arrondis à 100 unités près) :
18500
48900
146900
179400
21200
67500
138000
169500
36100
46400
170800
186900
34000
64100
138600
162600
62200
87000
225600
172000
1. Calculer la moyenne et l’écart type.
2. Effectuer un regroupement suivant les classes de largeur 30000 :
10000;40000 ... etc
3. Tracer l’histogramme et donner une conclusion. Calculer à nouveau la
moyenne et l’écart type. Comparer les résultats.
Cycles Préparatoires du Service Commun de Formation Continue de L’INPL
Cours et Exercices : Philippe Leclère
STAT01
SUPénoncés
Octobre 2000
(STAT01S02)
Une étude statistique dans une grande entreprise fait apparaître la répartition
des ouvriers par tranche de salaire net annuel suivante :
Salaire
Effectif Ni
moins de 72
[72 ; 75[
[75; 78[
[78; 81[
[81; 84[
[84; 87[
87 et plus
Somme
5
10
28
27
15
12
3
100
1. Faire un histogramme de cette série.
2. Calculer une valeur approchée de la moyenne et de l’écart-type de la distribution
des salaires, en prenant comme valeur commune de la classe, le centre.
3. Donner la classe modale de cette statistique.
4. Donner une estimation de la médiane en effectuant une interpolation linéaire.
5. Donner en effectuant les interpolations linéaires nécessaires, le pourcentage de la
population ouvrière dont les salaires sont dans l’intervalle : [ 75 ; 83 ] , puis dans
l’intervalle [ 71 ; 87 ]
Que vous inspirent ces résultats ?
Cycles Préparatoires du Service Commun de Formation Continue de L’INPL
Cours et Exercices : Philippe Leclère
STAT01
COMPsolutions
Octobre 2000
(STAT01E03)
1. Diagramme en bâtons
xi
0
1
2
3
4
5
6
7
8
9
10
0
Total
ni
25
52
58
35
19
5
4
0
1
0
1
200
2
nixi
0
52
116
105
76
25
24
0
8
0
10
416
nixi
0
52
232
315
304
125
144
0
64
0
100
1336
Diagramme en bâtons
70
Nombre de familles
60
50
40
30
20
10
0
1
2
3
4
5
6
7
Nombre d'enfants
8
9
10
11
2. Moyenne :
Nous avons un regroupement par valeurs, il faut donc utiliser la formule :
∑ ni xi = 416 = 2,08
∑ ni 200
Cycles Préparatoires du Service Commun de Formation Continue de L’INPL
Cours et Exercices : Philippe Leclère
STAT01
COMPsolutions
Octobre 2000
3- Ecart-type :
On calcule tout d’abord la variance :
2
ni xi 2
2
1336  416 
∑
VarX =
− x =
−
 = 2 ,35
200  200 
∑ ni
Puis l’écart-type :
()
σX
4
•
2
1336  416 
= VarX =
−
 = 1,5341
200  200 
Médiane et quartiles
Médiane :
Pour trouver la médiane, et les quartiles, il suffit de ranger par ordre croissant les
valeurs du caractère pour chaque famille. Le travail est déjà fait dans le tableau.
La médiane est LA valeur du caractère pour laquelle 50% de l’effectif a une
valeur supérieure ou égale et 50% inférieure ou égale.
Sur cet exemple, la 99ième famille, la 100ième et la 101ième ont deux enfants. Ici la
réponse est simple : la médiane est 2.
•
Quartiles q1 ( premier quartile ):
La valeur du caractère pour laquelle 75% de l’effectif a une valeur supérieure ou
égale et 25% inférieure ou égale.
Sur cet exemple, la 25ième famille n’a pas d’enfant, la 26ième en a un. Si on prend
0, on a 25% des familles avec une valeur inférieure ou égale et 76% avec une
valeur supérieure ou égale.
Il faut donc prendre le milieu. q1 = 0 ,5 . Ici le premier quartile n’est pas une
valeur du paramètre.
•
Quartile q3 : ( troisième quartile )
La valeur du caractère pour laquelle 25% de l’effectif a une valeur supérieure ou
égale et 75% inférieure ou égale.
Sur cet exemple, la 74ième famille, la 75ième et la 76ième ont quatre enfants : la
réponse est simple : q3 = 4 .
L’écart interquartile est donc : q3 − q1 = 4 − 0 ,5 = 3,5
Cycles Préparatoires du Service Commun de Formation Continue de L’INPL
Cours et Exercices : Philippe Leclère
STAT01
5
COMPsolutions
Octobre 2000
Intervalle  x − α ; x + α 
La moyenne est de 2,08. On cherche donc un réel α tel que dans l’intervalle
[2,08 − α ; 2,08 + α ] on trouve 3 individus sur 4. On remarque que l’intervalle [1; 4]
contient 52 + 58 + 35 + 19 = 164 individus.
Si on prend l’intervalle [2 , 08 − 1, 08; 2, 08 + 1, 08] = [1; 3,16] , celui-ci contient
145
≈ 0 , 725 , on peut considérer que cet
150
intervalle satisfait aux conditions de l’énoncé.
52 + 58 + 35 = 145 individus. Et comme
On peut également admettre l’intervalle
[2,08 − 1,92; 2,08 + 1,92] = [0,16; 4]
car
164
≈ 0,82 n’est pas très loin des conditions exigées.
200
4- Calcul du mode
Le mode ou les modes sont les valeurs du paramètre pour lesquelles l’effectif est le
plus grand. Ici le mode est unique et vaut 2 (effectif de 58 ).
Cycles Préparatoires du Service Commun de Formation Continue de L’INPL
Cours et Exercices : Philippe Leclère
STAT01
COMPsolutions
Octobre 2000
(STAT01E04)
1
Histogramme des effectifs et polygone des fréquences cumulées croissantes
92
70
52
30
34
2
35
35,4
36.
36,4
37
Calcul d’une valeur approchée de l a moyenne et de l’écart-type de la série..
Vous remarquerez qu’on parle de valeurs approchées.
En effet, nous n’avons aucun renseignement concernant la répartition des individus
dans chaque classe et nous faisons l’hypothèse que ceux-ci y sont uniformément
répartis. On prend donc comme valeur moyenne du caractère, le milieu de classe ci .
Les formules sont donc :
∑ ni ci = 17732,60 = 35,47
500
∑ ni
2
ni ci 2
2
629036 , 20  17732 ,60 
∑
VarX ≈
−x =
−
 = 0 , 29
500
 500 
∑ ni
x≈
σ X ≈ VarX = 0 ,54
Il faut, à chaque étape, reprendre la valeur non approchée du calcul précédent afin de
ne pas multiplier les erreurs.
Cycles Préparatoires du Service Commun de Formation Continue de L’INPL
Cours et Exercices : Philippe Leclère
STAT01
3
COMPsolutions
Octobre 2000
Résolution graphique.
On demande une résolution graphique que nous proposons sur la page suivante.
Diamètre
[34 ; 34,2[
[34,2; 34,4[
[34,4; 34,6[
[34,6; 34,8[
[34,8; 35 [
[35 ; 35,2[
[35,2; 35,4[
[35,4; 35,6[
[35,6; 35,8[
[35,8;36 [
[36 ; 36,2[
[36,2; 36,4[
[36,4; 36,6[
[36,6; 36,8[
[36,8; 37 [
[37 ; 37,2[
Total
effectif
ni
10
8
15
23
30
52
70
92
82
57
23
15
10
6
5
2
500
centre de
classe ci
34,1
34,3
34,5
34,7
34,9
35,1
35,3
35,5
35,7
35,9
36,1
36,3
36,5
36,7
36,9
37,1
569,6
effectifs cumulés
croissants
10
18
33
56
86
138
208
300
382
439
462
477
487
493
498
500
500
Cependant, nous allons faire le calcul théorique d’interpolation linéaire souvent
demandé dans les exercices.
Cette question encore d’actualité dans de nombreux sujets est très critiquée par les
statisticiens pour qui, cette interpolation linéaire n’a pas de sens. En effet disent-ils,
la médiane ou toute valeur de dispersion n’ont de sens que si elles sont calculées à
partir des valeurs exactes.
Cependant plions-nous de bonne grâce à la résolution de cet exercice purement
mathématique.
208 individus ont une valeur du caractère inférieure ou égale à 35,4 et 300 individus
ont une valeur du caractère inférieure ou égale à 35,6. La médiane est donc dans
l’intervalle [35, 4; 35,6] . Cette classe contient environ 100 individus en considérant
que les individus sont uniformément répartis dans cet intervalle, on sait que la valeur
cherchée sera proche de 35,5.
Cycles Préparatoires du Service Commun de Formation Continue de L’INPL
Cours et Exercices : Philippe Leclère
STAT01
COMPsolutions
Octobre 2000
Effectifs
300
B
250
208
C
A
34,4
D
E
34,6
Valeur du caractère
AD CD
CD
42
=
⇒ AD = AE ×
⇒ 0, 2 ×
= 0 ,09
AE BE
BE
92
Finalement la valeur obtenue grâce à cette interpolation linéaire
35, 4 + 0 ,09 = 35, 49 .
En appliquant Thalès :
est
On peut opérer de même pour les valeurs des premier et dernier déciles.
50 − 33
d1 = 34 ,6 + 0 , 2 ×
≈ 34 ,75
56 − 33
450 − 439
d9 = 36 + 0, 2 ×
≈ 36 ,1
462 − 439
L’écart interdécile est alors 1,35
On peut lire sur ce graphique représentant le polygone des effectifs cumulés
croissants les valeurs de la médiane et de l’écart interdécile.
Cycles Préparatoires du Service Commun de Formation Continue de L’INPL
Cours et Exercices : Philippe Leclère
STAT01
COMPsolutions
Octobre 2000
effectifs cumulés croissants
600
500
400
effectifs cumulés
croissants
300
200
100
34
,1
34
,5
34
,9
35
,3
35
,7
36
,1
36
,5
36
,9
0
m ≈ 35,5
d1 ≈ 34, 7 et d9 ≈ 36 ,1
e10 ≈ 36 ,1 − 34 ,7 ≈ 1, 4
On peut dire que 80% de la population est dans l’intervalle [34 , 7; 36 ,1] .
On notera que les résultats théoriques sont proches des lectures graphiques.
4
Pourcentage des pièces acceptables.
L’intervalle de tolérance est [35,5 − 1,1; 35,5 + 1,1] = [34 , 4; 36 ,6]
On compte les individus dont les valeurs du caractère sont dans cet intervalle.
On trouve : 500 − 31 = 469 .
469
× 100 ≈ 93,8 .
Cela représente
500
L’objectif n’est donc pas atteint.
Cycles Préparatoires du Service Commun de Formation Continue de L’INPL
Cours et Exercices : Philippe Leclère
STAT01
COMPsolutions
Octobre 2000
(STAT01E05)
1
Regroupement par valeurs
Note xi
2,50
5,00
5,50
6,00
6,50
7,00
7,50
8,50
9,00
9,50
10,50
11,00
11,50
12,00
12,50
13,50
15,00
16,00
16,50
17,50
18,50
Total
effectif ni
1
2
1
1
1
3
1
2
2
3
1
1
3
1
1
2
3
2
2
1
1
35
nixi
nixi
2,5
10
5,5
6
6,5
21
7,5
17
18
28,5
10,5
11
34,5
12
12,5
27
45
32
33
17,5
18,5
376
2
6,25
50
30,25
36
42,25
147
56,25
144,5
162
270,75
110,25
121
396,75
144
156,25
364,5
675
512
544,5
306,25
342,25
4618
Cycles Préparatoires du Service Commun de Formation Continue de L’INPL
Cours et Exercices : Philippe Leclère
STAT01
2
COMPsolutions
Octobre 2000
Diagramme en bâtons
Diagramme en bâtons
effectifs
4
3
2
1
0
notes
3
Médiane
La médiane est la valeur pour laquelle il y a autant d’individus ayant une valeur du
paramètre supérieure que d’individus ayant une valeur du paramètre inférieure.
Le nombre d’individus étant impair, la médiane est la 18ième valeur donc : 10,5
4
Valeur approchée de la moyenne
On choisit la formule de la moyenne pour les regroupements par valeur.
∑ xi ni = 376 ≈ 10,7
x=
∑ ni 35
5
Pourcentage d’individus dans l’intervalle [7 ,5;13,5]
Il suffit de compter dans le tableau.
Il y a 17 individus dans l’intervalle, donc
6
17
× 100 ≈ 48, 6%
35
Ecart interquartile
Les 8ième et 9ième individus ont pour valeur du caractère 7.
Les 27ième et 28ième individus ont pour valeur du caractère 15.
q1 ≈ 7 et q3 ≈ 15
q3 − q1 ≈ 8
7
Valeur approchée de l’écart type
On choisit la formule de l’écart type pour les regroupements par valeur.
Cycles Préparatoires du Service Commun de Formation Continue de L’INPL
Cours et Exercices : Philippe Leclère
STAT01
COMPsolutions
Octobre 2000
2
x 2i ni
2
4618  376 
∑
VarX =
−x =
−
 ≈ 16 ,53
35  35 
∑ ni
σ X = VarX = 4 ,1
8
2
2 

Pourcentage d’individus dans l’intervalle  x − σ ; x + σ 
3
3 

2
2 

 x − 3 σ ; x + 3 σ  = [7 ,97;13, 43]
On compte 14 individus dans cet intervalle soit
14
× 100 ≈ 40%
35
Cycles Préparatoires du Service Commun de Formation Continue de L’INPL
Cours et Exercices : Philippe Leclère
STAT01 : GI
SOLUTIONS
octobre 2000
(STAT01E01A)
1
Informations à la lecture de ces données.
•
•
•
L’effectif des hommes et des femmes est le même.
Les salaires féminins sont plus faibles que les salaires masculins.
Les salaires féminins sont compris dans l’intervalle 105;158
•
Les salaires masculins sont compris dans l’intervalle 141;179
2
Regroupement en classes
Femmes
Hommes
0,133
fréquences
cumulées
0,133
effectifs
fréquences
]104;114]
0
0,000
fréquences
cumulées
0,000
4
0,133
0,267
]114;124]
0
0,000
0,000
]124;134]
8
0,267
0,533
]124;134]
0
0,000
0,000
]134;144]
6
0,200
0,733
]134;144]
2
0,067
0,067
]144;154]
7
0,233
0,967
]144;154]
10
0,333
0,400
]154;164]
1
0,033
1,000
]154;164]
9
0,300
0,700
]164;174]
0
0,000
1,000
]164;174]
7
0,233
0,933
]174;184]
0
0,000
1,000
]174;184]
2
0,067
1,000
30
1,000
30
1,000
Classes
effectifs
fréquences
]104;114]
4
]114;124]
Total
Classes
Total
Représentation graphique
On peut dessiner deux histogrammes en portant indifféremment en ordonnées les
effectifs ou les fréquences car les classes sont de même amplitude.
Cycles Préparatoires du Service Commun de Formation Continue de l'INPL.
Cours et exercices : Philippe Leclère
STAT01 : GI
SOLUTIONS
octobre 2000
12
10
8
6
4
2
0
Série1
Série2
]1
04
;1
14
]1
]
14
;1
24
]
]1
24
;1
34
]
]1
34
;1
44
]1
]
44
;1
54
]
]1
54
;1
64
]
]1
64
;1
74
]
]1
74
;1
84
]
effectif
SALAIRES en milliers de francs
La série 1 représente les femmes et la série 2 les hommes.
3
Moyennes des distributions initiales :
On x la moyenne de la population totale
On x f la moyenne de la population féminine
On x h la moyenne de la population masculine
x=
1 60
1 30
1 30
4766 + 3988
x
xf
xhk =
=
+
= 145,9
∑
∑
∑
k
k
60 k =1
30 k =1
30 k =1
60
xf =
1 30
3988
xf k =
= 132 ,9
∑
30 k =1
30
1 30
4766
xh =
xhk =
= 158,9
∑
30 k =1
30
Cycles Préparatoires du Service Commun de Formation Continue de l'INPL.
Cours et exercices : Philippe Leclère
STAT01 : GI
4
SOLUTIONS
octobre 2000
Moyenne d’après les regroupements par classe.
Pour chaque classe on prend comme valeur du paramètre le milieu de la classe.
On obtient alors :
4 × 109 + 4 × 119 + 8 × 129 + 8 × 139 + 17 × 149 + 10 × 159 + 7 × 169 + 2 × 179
≈ 145,3
60
4 × 109 + 4 × 119 + 8 × 129 + 6 × 139 + 7 × 149 + 1 × 159
x′ f =
≈ 132 ,7
30
2 × 139 + 10 × 149 + 9 × 159 + 7 × 169 + 2 × 179
x′h =
≈ 158
30
On remarque que les résultats sont sensiblement différents des résultats exacts. La
répartition dans chaque classe n’est donc pas uniforme.
x′ =
5
Calcul des médianes
Pour la série totale
En observant les données rangées par ordre croissant, on trouve :
149 pour le rang 30 et 150 pour le rang 31. En appliquant la règle du cours : « demi149 + 150
= 149 ,5
somme de ces valeurs » ; mg =
2
Pour la série femmes
En observant les données rangées par ordre croissant, on trouve :
133 pour le rang 15 et 134 pour le rang 16. En appliquant la règle du cours : « demi133 + 134
somme de ces valeurs » ; m f =
= 133,5
2
Pour la série hommes
En observant les données rangées par ordre croissant, on trouve :
156 pour le rang 15 et 160 pour le rang 16. En appliquant la règle du cours : « demi156 + 160
= 158
somme de ces valeurs » ; m f =
2
On notera que calculer les médianes pour les valeurs regroupées n’a pas de
sens, bien que souvent ce soit demandé dans les sujets.
Si vous avez éprouvé des difficultés à résoudre cet exercice, nous vous
conseillons vivement de contacter votre tuteur.
Cycles Préparatoires du Service Commun de Formation Continue de l'INPL.
Cours et exercices : Philippe Leclère
STAT01 : GI
SOLUTIONS
octobre 2000
(STAT01E02A)
1. Calcul des quartiles
On reprend les tableaux exhaustifs des deux séries.
Pour la série des femmes :
•
•
Les termes de rang 7 et 8 valent 120. Donc Q1 = 120
Le terme de rang 22 vaut 142 et le terme de rang 23 vaut 145.
• Si on prend 142 alors 73,33% de la population ont une valeur inférieure ou
égale et 30% ont une valeur supérieure ou égale.
• Si on prend 145 alors 76,67% de la population ont une valeur inférieure ou
égale et 26,67% ont une valeur supérieure ou égale.
• Pour toute valeur comprise entre 142 et 145, on trouve : .73,33% en dessous
et 26,67 au dessus.
• Il est donc clair qu’il n’y a pas de valeur qui permette de répondre exactement
au problème. On choisira la moins mauvaise soit 145.
• l’écart interquartile vaut donc 145 − 120 = 25
D’une manière générale, si le nombre d’observations est grand, l’erreur commise est
assez faible et on peut se rapprocher fortement des valeurs 25% et 75%.
xk + xk +1
x
+ xn −k +1
et Q3 = n −k
( valeurs exactes )
2
2
et Q3 = xn−k ( valeurs approchées )
Si n = 4k alors Q1 =
Sinon Q1 = xk +1
On peut ne pas apprendre ces résultats et conjecturer en essayant les différentes
valeurs, comme ci-dessus.
Pour la série des hommes :
•
Q1 = 151 , Q3 = 166 et donc Q3 − Q1 = 166 − 151 = 15
Pour la série totale, on est dans le cas 60 = 4 × 15
•
Q1 =
x15 + x16
x + x66
= 133,5 et Q3 = 45
= 159
2
2
Cycles Préparatoires du Service Commun de Formation Continue de l'INPL.
Cours et exercices : Philippe Leclère
STAT01 : GI
SOLUTIONS
octobre 2000
2. Calcul des écarts type pour la série exhaustive.
σf
2
( )
1 30 2
=
∑ x f ,i − x f
30 i =1
2
( )
1 30 2
σh =
∑ xh,i − xh
30 i =1
σ =
2
()
1 60 2
∑ xi − x
60 i =1
2
536176  3988 
=
−
 ≈ 14, 2
30
 30 
=
2
=
759954  4766 
−
 ≈ 9 ,7
30
 30 
1296130
2
− (145.9 ) ≈ 17 ,8
60
3. Calcul des écarts type pour la série exhaustive.
σ ′f ≈ 14
σ h′ ≈ 10, 4
σ ′ ≈ 17 ,8
Sur les questions 2 et 3, on peut faire les remarques suivantes :
•
•
•
L’écart type des femmes est plus faible que celui des hommes. Cela signifie sans
doute que les fonctions remplies par les femmes sont assez homogènes. Compte
tenu des différences de salaires, elles occupent sans doute peu de postes à
responsabilité ou de cadre.
L’écart type de la population totale est important, ce qui est dû à la présence de
deux groupes assez différents.
Les pertes d’information ne sont pas très significatives après les regroupements
par classe.
Si vous avez éprouvé des difficultés à résoudre cet exercice, nous vous
conseillons vivement de contacter votre tuteur.
Cycles Préparatoires du Service Commun de Formation Continue de l'INPL.
Cours et exercices : Philippe Leclère
STAT01
AIDES
Octobre2000
(STAT01E01A)
1
Le tableau original ne permet pas de tirer des conclusions sur les raisons de
disparité des salaires entre les hommes et les femmes. On peut cependant s’en
tenir aux chiffres et donner les valeurs extrêmes pour chaque famille.
2
Regroupement en classes
On peut remplir le tableau suivant :
Femmes
Classes
]104;114]
effectifs
4
fréquences
Hommes
fréquences
cumulées
Classes
effectifs
fréquences
cumulées
]104;114]
]114;124]
]114;124]
]124;134]
]124;134]
]134;144]
]134;144]
]144;154]
]144;154]
]154;164]
]154;164]
]164;174]
]164;174]
]174;184]
]174;184]
Total
fréquences
Total
On peut dessiner deux histogrammes en portant indifféremment en ordonnées les
effectifs ou les fréquences car les classes sont de même amplitude.
3, 4 Pour les moyennes on se reportera au cours.
5
On observe les données rangées par ordre croissant
Service Commun de Formation Continue de l’INPL
Cours et exercices : Philippe Leclère
1
STAT01
AIDES
Octobre2000
(STAT01E02A)
Calcul des quartiles
On reprend les tableaux exhaustifs des deux séries et on opère comme pour la
médiane.
D’une manière générale, si le nombre d’observations est grand, l’erreur commise est
assez faible et on peut se rapprocher fortement des valeurs 25% et 75%.
xk + xk +1
x
+ xn −k +1
et Q3 = n −k
( valeurs exactes )
2
2
et Q3 = xn−k ( valeurs approchées )
Si n = 4k alors Q1 =
Sinon Q1 = xk +1
Pour les calculs d’écart type on se reportera aux formules du cours.
On essaiera de commenter les deux séries de résultats, données exhaustives et
données groupées.
Service Commun de Formation Continue de l’INPL
Cours et exercices : Philippe Leclère
2
Téléchargement