Statistique descriptive Fichier

publicité
Capes-Licence de mathématiques
2009/2010
Statistique descriptive
A
Série discrète
Soit X un caractère statistique discret dont la distribution est donnée par le tableau ci-dessous.
Valeurs prises par X
Effectifs
x1
n1
...
...
xp
np
Définition
P 1
= nNi .
a) N = pi=1 ni désignant l’effectif total, on définit pour tout i ∈ [1..p] la ie fréquence par fiP
b) La probabilité associée à cette distribution est la probabilité
PX définie sur R par PX = pi=1 fi δxi .
Pp
c) La moyenne x de la série est prise égale à E(PX ) = i=1 fi xi et la variance σx2 égale à
V (PX ) =
p
X
i=1
p
1 X
fi (xi − x) =
ni x2i − x2 .
N i=1
2
Définition 2 ( Médiane)
L’ensemble des médianes de la série, tel qu’il est défini en statistique descriptive, coïncide avec celui
de la probabilité PX . On peut encore définir cet ensemble de la manière suivante.
Définition 3 (Fonction de répartition)
La fonction de répartition des fréquences cumulées de la série statistique discrète (x1 , n1 ), ..., (xp , np )
P
est par définition est la fonction de répartition F de la probabilité P = ki=1 fi δxi ; F vérifie :
i) si x ∈] − ∞, x1 [
F (x) = 0
ii) si x ∈ [xk , +∞[
F (x) = 1
iii) si x ∈ [xi , xi+1 [
F (x) = Fi , pour i = 1, ..., p − 1.
Définition 4
1) L’ensemble
des médianes d’une suite x1 ≤ x2 ≤ ... ≤ xp est l’ensemble des points où l’application
P
f (x) = pi=1 |x − xi | atteint son minimum.
2)
PpL’ensemble des médianes d’une série (x1 , n1 ), ..., (xp , np ) est l’ensemble des points où l’application f (x) =
i=1 ni |x − xi | atteint son minimum.
On peut aussi en donner la définition équivalente suivante.
Définition 5
a) si n = 2p + 1, avec p ∈ N, l’ensemble des médianes est le singleton {xp+1 }
b) si n = 2p, avec p ∈ N∗ , l’ensemble des médianes est l’intervalle [xp , xp+1 ].
1
Remarque 6
La définition 1 est à rapprocher de la constatation suivante : la
xn = n1 (x1 + x2 + ... + xn )
Pmoyenne
n
d’une suite (x1 , ..., xn ) est le réel qui minimise l’application g(x) = i=1 (x − xi )2 .
Remarque 7
Lorsque l’ensemble des médianes est un intervalle [a, b], avec a < b, il est fréquent d’appeler médiane
de cet intervalle.
le milieu a+b
2
Remarque 8
L’ensemble des médianes de la série statistique du caractère discret X ci-dessus coïncide avec l’ensemble des médianes de la suite x1 , x1 , ..., x1 , x2 , ..., x2 , ..., xp , où chaque xi est répété ni fois.
B
Série continue
Soit une série statistique d’un caractère continu X dont la distribution figure ci-dessous.
Classes
Effectifs
[a0 , a1 [
n1
....
....
[ap−1 , ap [
np
A partir
ces données on pose les définitions suivantes :
Pde
p
- N = i=1 ni est l’effectif total
- pour tout i ∈ [1..p] fi = nNi est la ie fréquence
- Ni = n1 + ... + ni est le ie effectif cumulé et Fi = f1 + ... + fi =
- xi = a1−12+ai est le ie centre de classe
- li = ai − ai−1 est la ie étendue
- hi = flii est la ie fréquence corrigée
Ni
N
est la ie fréquence cumulée
1) Histogramme
P
On appelle densité de probabilité associée
à la série statistique la fonction f = pi=1 hi 1[ai−1 ,ai [
R
Cette fonction est continue à droite et vérifie R f (x)dx = 1. L’ensemble des rectangles construits à partir
du graphe de f s’appelle l’histogramme des fréquences de la distribution.
2) Moyenne et variance
P
On introduit les deux probabilités suivantes : P = f m1 et Q = pi=1 fi δxi .
a) La moyenne x de la série (telle qu’elle est définie en statistique descriptive ) coïncide avec
p
p
X
1 X
EP = EQ =
n i xi =
f i xi .
N i=1
i=1
b) La variance σx2 de la série coïncide avec
VQ=
p
X
i=1
p
1 X
fi (xi − x) =
ni x2i − x2 .
N i=1
2
2
Remarque 9
En général V P 6= V Q. Si toutes les classes possèdent la même étendue l, on a l’égalité
VP =VQ+
l2
12
( correction de Sheppard ).
3) Fonction de répartition
a) Soit F la fonction de répartition des fréquences cumulées de la série statistique continue ci-dessous.
[ap−1 , ap [
np
P
Par définition F est la fonction de répartition de la probabilité P = pi=1 fi Uai−1 ai , où Ua,b désigne la
loi uniforme sur l’intervalle [a, b].
F est continue et affine par morceaux, et vérifie :
i) si x ∈] − ∞, a0 ]
F (x) = 0
ii) si x ∈ [ap , +∞[
F (x) = 1
P
iii) F (ai ) = Fi pour tout indice i = 1, ..., p − 1, où Fi = ik=1 fk est la iime fréquence cumulée.
Classes
Effectifs
C
[a0 , a1 [
n1
[a1 , a2 [
n2
...
...
Quantiles
Définition 10
a) Soit P une probabilité sur R de fonction de répartition F (pour tout réel t F (t) = P (] − ∞, t]). Soit α
un réel appartenant l’intervalle ]0, 1[. On appelle quantile (ou fractile) de P d’ordre α tout réel ν vérifiant :
P (] − ∞, ν]) ≥ α et P ([ν, +∞[) ≥ 1 − α, ou de façon équivalente vérifiant les deux conditions : F (ν) ≥ α
et F (ν−) ≤ α.
b) Soit X une variable aléatoire réelle définie sur un espace probabilisé (Ω, F, P ). On appelle quantile de
X d’ordre α ∈]0, 1[ un quantile de PX d’ordre α. Un quantile de X d’ordre α est donc un réel ν vérifiant
les deux conditions :
P (X ≤ ν) ≥ α
et P (X ≥ ν) ≥ 1 − α.
Propriété 11
L’ensemble des quantiles d’ordre α d’une probabilité P sur R est un intervalle fermé borné non vide.
Lorsque cet ensemble est de la forme [a, b], avec a < b, on convient parfois de dire que le quantile d’ordre
α est le centre (a + b)/2 de cet intervalle. On peut également convenir de le prendre égal à a, en accord
avec la valeur G(α) de la fonction quantile G de X en α ; voir feuille Simulation.
Définition 12
a) Le quantile d’ordre 14 s’appelle le premier quartile ; le quantile d’ordre 42 = 12 est la médiane ; le quantile
d’ordre 43 s’appelle le troisième quartile.
b) Pour tout i ∈ [1..9], le quantile d’ordre 10i s’appelle le iime décile ; il est noté Di .
i
s’appelle le iime centile,noté Ci .
c) Pour tout i ∈ [1..99], le quantile d’ordre 100
3
Détermination des quantiles des séries discrètes
1) Soit F la fonction de répartition des fréquences cumulées d’une série discrète (x1 , n1 ), ..., (xk , nk ), et
soit α ∈]0, 1[.
a) S’il existe un indice i tel que F (xi ) = α, l’ensemble des quantiles d’ordre α de la série est
l’intervalle [xi , xi+1 ].
b) Sinon le quantile d’ordre α de la série est la valeur xi vérifiant F (xi−1 ) < α < F (xi ).
2) Pour une série discrète dont les valeurs ne sont pas regroupées x1 ≤ x2 ≤ ... ≤ xn , le quantile d’ordre
α ∈]0, 1[ de la série est donné par la règle suivante :
a) si nα ∈
/ N le quantile d’ordre α est x[nα]+1 ([nα] désigne la partie entière de nα)
b) si q = nα ∈ N l’ensemble des quantiles est l’intervalle [xq , xq+1 ].
Remarque 13
Le cas 1) se ramène au cas 2) en considérant la série x1 ≤ ... ≤ x1 ≤ x2 ≤ ... ≤ x2 ≤ ... ≤ xk , où la
valeur xi est répétée ni fois. Inversement le cas 2) se ramène au cas 1) en regroupant les valeurs égales.
Détermination des quantiles des séries continues
Soit F la fonction de répartition des fréquences cumulées de la série statistique continue ci-dessous.
Classes
Effectifs
[a0 , a1 [
n1
[a1 , a2 [
n2
...
...
[ap−1 , ap [
np
Soit α ∈]0, 1[ ; un quantile d’ordre α de la série est un réel ν qui vérifie F (ν) = α ; autrement dit
l’ensemble des quantiles d’ordre α est l’intervalle F −1 ({α}).
Exemple
On considère la série statistique suivante.
Valeurs
Effectifs
Effectifs cumulés
10
10
10
15
12
22
20
34
56
25
21
77
30
12
89
35
9
98
40
7
105
105/10 = 10, 5 , le premier décile est D1 = 15
105/4 = 26, 25 , le premier quartile est Q1 = 20
105/2 = 52, 5 , la médiane est µ = 20
3
105 = 78, 75 , le troisième quartile est Q3 = 30
4
9
105 = 94, 5 , le neuvième quartile est D9 = 35
10
D
Boîte à moustaches
Il n’y a pas de définition unique des boîtes à moustaches. La définition adoptée dans l’enseignement
secondaire est la suivante :
- la limite inférieure est le premier décile D1
- la base inférieure de la boîte est le premier quartile Q1
- la boîte est divisée en deux par la médiane
- la base supérieure de la boîte est le troisième quartile Q3
- la limite supérieure est le neuvième décile D9 .
On fait parfois figurer les valeurs plus petites que D1 et plus grandes que D9 .
4
Remarque
Les valeurs D1 et D9 sont parfois remplacées par Q1 − 32 (Q3 − Q1 ) et Q3 + 32 (Q3 − Q1 ).
5
Téléchargement