statistiques ii

publicité
ENS
2eme année
Dr. Aicha. Lazraq Khlass
2014-2015
Mathématiques
Statistiques (II)
Caractères statistiques
Dans ce chapitre, a…n d’approfondir l’analyse d’une série statistque, on va
dé…nir les caractéristques de position , de dispersion et de concentration d’une
telle série.
.
II. I. Caractéristiques de position.
Elles résument la série par sa valeur centrale.
.
II. I. i). Le mode.
* Cas discret.
Le mode est la valeur de la variable qui a l’e¤ectif le plus élevé.
Exemple :
Résultats obtenus à la dernière évaluation dans une classe de 35 élèves :
Note xi
3 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Total
E¤ectifs ni
1 1 2 3 1 3
4
6
7 2
1
1
0
2
1
35
E¤ectifs cumulés
1 2 4 7 8 11 15 21 28 30 31 32 32 34 35
croissants
Dans ce tableau le mode est la valeur 12.
A l’issue d’une course êtes vous arrivé dans le 1er groupe, dans le 3e groupe
ou avec le peloton de coureurs. Le mode représente le peloton.
.
* Cas continu.
La classe madale correspond à l’e¤ectif corrigé naii le plus élevé. C’est aussi
la classe correspondant au rectangle le plus élevé dans l’histogramme. Une
distribution statistique peut être bimodale, trimodale et mulitimodale.
Classes
[1000; 2000[ [2000; 3000[ [3000; 5000[ [5000; 7000[ [7000; 10000[
E¤ectifs ni
200
150
300
250
100
amplitudes ai
1000
1000
2000
2000
3000
E¤ectifs corrigés naii
0; 2
0; 15
0; 15
0; 125
0; 033
La classe madale est [1000; 2000[ :
.
II. I. ii). La médiane.
La médiane est la valeur de la variable qui partage la série classée par
ordre croissant en deux parties de même e¤ectif. On a, donc F ( ) = 0; 5, où F
est la fonction de répartition.
A l’issue d’une course êtes vous arrivé dans la 1er moitié ou dans la seconde?
* Cas discret.
1
On range les modalités par ordre croissant la médiane se trouve alors au
milieu de la série.
* Cas continue.
Classes
[1000; 2000[ [2000; 3000[ [3000; 5000[ [5000; 7000[
E¤ectifs ni
200
150
300
250
fréquences fi
0; 2
0; 15
0; 3
0; 25
Fréquences cumulées
0; 2
0; 35
0; 65
0; 9
F (1000) = 0
F (2000) = 0; 2
F (3000) = 0; 35
F (5000) = 0; 65
F (7000) = 0; 9
F (1000) = 1
.
.
.
.
.
.
.
.
On a : F ( ) = 0; 5 donc 3000
5000
On cherche l’équation de la droite y = ax + b qui passe par les points :
A(3000; 0; 35) et B(5000; 0; 65): On trouve, y = 0; 00015x 0; 1: Donc 0; 5 =
0; 00015
0; 1: Ainsi = 4000
Conclusion :
* 50% des salariés touchent au moins 4000 Dhs
* 50% des salariés touchent au plus 4000 Dhs
.
II. I. iii). Les quartiles.
Les quartiles sont les valeurs Q1 , Q2 , Q3 de la variable qui partagent l’e¤ectif
en même e¤ectif. Chaque ensemble contient 25% de l’e¤ectif.
A l’issue d’une course êtes vous arrivé dans le 1er /quart , le 2e /quart, le
e
3 /quart?
Exemples : Voir travaux dirigés.
.
II. I. iii). La moyenne arithmétique.
* Dé…nition.
Soit X une variable statistique, de la modalité xi , d’e¤ectif ni et de fréquance
fi:
La moyenne arithmétique pondérée de X permet de relativiser la variable
P
par l’e¤ectif. Elle est obtenu par la formule suivante : X = ni xi = fi xi :
ni
A l’issue d’une course avez vous mis plus ou moins que le temps moyen?
Dans le cas continu, chaque classe est représentée par son centre ci . On a
P
alors : X = ni ci = fi ci :
ni
2
[7000; 10000[
100
0; 1
1
.
* Exemples.
- Le cas discret.
=
Dans l’exemple précédent, X = 3+5+12+21+8+27+40+66+84+26+14+15+34+18
35
10; 66
La note moyenne de la classe est : 10; 66
.
- Exemple dans le cas continu.
Population : Les salariés d’une entreprise.
Caractère :salaire mensuel net en Dhs.
Classes
[1000; 2000[ [2000; 3000[ [3000; 5000[ [5000; 7000[ [7000; 10000[ Total
E¤ectifs ni
200
150
300
250
100
1000
200 1500+150 2500+300 4000+250 6000+100 8500
= 4225
On a : X =
1000
Le salaire moyen dans l’entreprise est de 4225 Dhs.
.
* Propriétés.
i) La somme desPécarts des valeurs par rapport à la moyenne arithmétique
est toujours nulle :
ni (xi X) = 0
ii) Changement de variable a¢ ne :
Si Y = X + ( 2 R ; 2 R), alors Y = X +
iii) Sous population :
Soit une population P constitué de deux sous populations :
P1 d’e¤ectif N1 et de moyenne X1
P2 d’e¤ectif N2 et de moyenne X2
Alors la moyenne arithmétique X relative à l’ensemble de la population P
est donnée par :
1 +N2 X2
X = N1 X
N1 +N2
Dans le cas où la population P est constituée de k sous populations, on a :
1 +:::+Nk Xk
X = N1 X
N1 +:::+Nk
Exemple.
Une entreprise est constituée de 150 hommes et 100 femmes. Le salaire
moyen des hommes est de 4000 Dhs et le salaire moyen des femmes est de 3500
100
Dhs. Le salaire moyen des salariés de l’entreprise est : X = 4000 150+3500
=
250
3800
Le salaire moyen dans l’entreprise est de 3800 Dhs.
.
II. II . Caractéristiques de dispersion.
II. II. 1. Introduction.
Considérant les deux séries statistiques suivantes :
(X) : 8; 8; 9; 9; 10; 10; 10; 11; 11; 12; 12
(Y ) : 1; 1; 10; 2; 10; 2; 10; 19; 19; 18; 18
Ces deux séries statistiques ont les mêmes caractéristiques de disposition :
La moyenne : X = Y = 10
Le mode : 10
La médiane : 10
3
Mais elles sont di¤érentes car les valeurs de (X) sont conentrées autour de la
moyenne X et les valeurs de (Y ) sont dispersées autour de cette même moyenne
Y : C’est pourquoi on dé…nit les caractéristiques de dispersion.
.
II. II. 2. L’étendue.
L’étendue, notée E(X), représente la di¤érence entre les valeurs extrêmes
de la distribution : E(X) = xmax xmin :
Dans les deux exemples précédents :
E(X) = xmax xmin = 12 8 = 4
E(Y ) = xmax xmin = 19 1 = 18
.
II. II. 3. L’intervalle interquartile.
L’intervalle interquartile, noté I, est la di¤érence entre les deux quartiles Q3
et Q1 : I = Q3 Q1 : Cet intervalle contient 50% de la population en en éliminant 25% à chaque extrémité. Cette caractéristique est nettement meilleure que
l’étendue car ce dernier ne dépend que des valeurs extrêmes qui sont exeptionnelles.
.
II. II. 4. L’écart absolu moyen.
On a P
montré que la somme des écarts entre les modalités et la moyenne est
nulle :
ni (xi X) = 0: On remplace la somme des écarts par la somme
1 i n
des valeurs absolues des écrats pour dé…nir l’écart absolu moyen de la variable
statistique (X) : P
eam(X) = N1
ni xi X :
1 i n
En reprenant les
:
Pdeux exemples précédents
ni xi X = 12
eam(X) = N1
11 = 1; 09
1 i n
P
68
eam(Y ) = N1
= 6; 02
ni yi Y = 11
1 i n
On a : eam(Y ) > eam(X), donc (Y ) est plus dispersé que (X):
.
II. II. 5. La variance.
C’est la caractéristique de dispersion la plus utilisée avec l’écart quadratique
moyen.
P
2
V (X) = N1
ni xi X
1 i n
Dans le cas d’une variable statistique continue, xi représente le centre de la
ième classe.
La variance est donc toujours positive ou nulle. Les formules ci-dessus im2
posent de calculer les di¤érences xi X . Pour faciliter le calcul, on peut
utiliser le théorème de Koenig :
.
Théorème de KOENIG :
On a aussi :
4
V (X) =
1
N
P
1 i n
ni x2i
Preuve : P
ni xi
V (X) = N1
!
P
2
X =
1 i n
X
2
1 i n
=
=
1
N
P
1 i n
fi x2i
ni x2i
!
1
N
X
2
P
1 i n
P
P
1
2
ni xi 2X N1
ni xi
N
1 i n
1 i n
P
2
2
= N1
ni x2i 2X + X :
1 i n
P
2
= N1
ni x2i X :
1 i n
P
2
ni X
1 i n
P
2
+ X N1
ni
1 i n
ni 2xi X+ N1
.
II. II. 6. Écart quadratique moyen.
L’écart
pquadratique moyen d’une série statistique est la racine carrée de la
variance V (X). On le note X :
A la di¤érence de la variance qui correspond à un carré, l’écart quadratique
moyen est homogène à la variable statistique et s’exprime dans les mêmes unités.
Il permet de mesurer la dispersion de la distribution statistique autour de sa
valeur moyenne.
.
II. II. 7. Coe¢ cient de variation.
L’écart type comme la moyenne s’expriment dans la même unité que la
variable statistique. Mais, on peut avoir à comparer la dispersion de deux
distributions qui ne s’expriment pas dans la même unité par exemple dispersion
des revenus dans 2 pays di¤érents. Dans ce cas, on fait recour à une mesure
de dispersion relative : le coe¢ cient de variation qui est le rapport entre l’écart
quadratique moyen et la moyenne :
C:V (X) = XX :
.
II. II. 8. Exemple.
Cas discret : Le nombre d’enfants par ménage :
xi 0 1 2 3 4 5 6 7 Total
ni 9 7 12 9 5 6 0 2
50
On a :
5+5 6+6 0+7 2
X = 9 0+7 1+12 2+9 3+4
= 2; 44
50
2
2
2
2
9 0 +7 1 +12 2 +9 32 +5 42 +6 52 +0 62 +2 72
(2; 44) = 3; 3264
V (X) =
50
p
p
V (X) = 3; 3264 = 1; 82
X =
.
Cas continu :
Classes [1000; 2000[ [2000; 3000[ [3000; 5000[ [5000; 7000[ [7000; 10000[ Total
ni
200
150
300
250
100
1000
On a :
4000+250 6000+100 8500
X = 200 1500+150 2500+3001000
= 4225
2
2
2
200 1500 +150 2500 +300 40002 +250 60002 +100 85002
V (X) =
(4225) = 4561875
1000
p
p
V (X) = 4561875 = 2136
X =
.
5
II. II. 9. Changement de variable a¢ ne.
Soit (a; b) 2 R
R. Si Y = aX + b, V (X) = a2 V (Y )
.
II. II. 10. Sous-population.
On considère une population P constituée de deux autres populations :
* P1 d’e¤ectif N1 de moyenne X 1 et de variance V1 :
* P2 d’e¤ectif N2 de moyenne X 2 et de variance V2 :
La moyenne de la population P est donné par :
1 +N2 X 2
X = N1 X
N1 +N2
La variance de la population P est donné par :
2
2
N1 (X 1 X ) +N2 (X 2 X )
+N2 V2
V (X) = N1NV11 +N
+
N1 +N2
2
.
II. II. 11. Exemple.
Une population est constiuée de 150 hommes et 100 femmes. Le salaire
moyen des hommes est de 4000 dh avec un écart type de 400 dh, le salaire moyen
des femmes est de 3500 dh avec un écart type de 500 dh. On veut calculer le
salaire moyen de la société ainsi que l’écart type global associé.
4000
1 +N2 X 2
= 100 3500+150
i) La moyenne : X = N1 X
N1 +N2
250
= 3800 dh
2
2
N1 (X 1 X ) +N2 (X 2 X )
2 V2
ii) La variance : V (X) = N1NV11 +N
+
+N2
N1 +N2
iii) L’écart type :
X
100 5002 +150 4002
250
2
+150(4000
+ 100(3500 3800) 250
+ 60000 = 256000 dh
p= 196000 p
= V (X) = 256000 = 506 dh
=
6
3800)2
Téléchargement