Capes-Licence de mathématiques 2009/2010
Statistique descriptive
A Série discrète
Soit Xun caractère statistique discret dont la distribution est donnée par le tableau ci-dessous.
Valeurs prises par X x1... xp
Effectifs n1... np
Définition 1
a) N=Pp
i=1 nidésignant l’effectif total, on définit pour tout i[1..p]la iefréquence par fi=ni
N.
b) La probabilité associée à cette distribution est la probabilité PXdéfinie sur Rpar PX=Pp
i=1 fiδxi.
c) La moyenne xde la série est prise égale à E(PX) = Pp
i=1 fixiet la variance σ2
xégale à
V(PX) =
p
X
i=1
fi(xix)2=1
N
p
X
i=1
nix2
ix2.
Définition 2 ( Médiane)
L’ensemble des médianes de la série, tel qu’il est défini en statistique descriptive, coïncide avec celui
de la probabilité PX. On peut encore définir cet ensemble de la manière suivante.
Définition 3 (Fonction de répartition)
La fonction de répartition des fréquences cumulées de la série statistique discrète (x1, n1), ..., (xp, np)
est par définition est la fonction de répartition Fde la probabilité P=Pk
i=1 fiδxi;Fvérifie :
i) si x]− ∞, x1[F(x)=0
ii) si x[xk,+[F(x)=1
iii) si x[xi, xi+1[F(x) = Fi, pour i= 1, ..., p 1.
Définition 4
1) L’ensemble des médianes d’une suite x1x2... xpest l’ensemble des points où l’application
f(x) = Pp
i=1 |xxi|atteint son minimum.
2) L’ensemble des médianes d’une série (x1, n1), ..., (xp, np)est l’ensemble des points où l’application f(x) =
Pp
i=1 ni|xxi|atteint son minimum.
On peut aussi en donner la définition équivalente suivante.
Définition 5
a) si n= 2p+ 1, avec pN, l’ensemble des médianes est le singleton {xp+1}
b) si n= 2p, avec pN, l’ensemble des médianes est l’intervalle [xp, xp+1].
1
Remarque 6
La définition 1 est à rapprocher de la constatation suivante : la moyenne xn=1
n(x1+x2+... +xn)
d’une suite (x1, ..., xn)est le réel qui minimise l’application g(x) = Pn
i=1(xxi)2.
Remarque 7
Lorsque l’ensemble des médianes est un intervalle [a, b],avec a < b, il est fréquent d’appeler médiane
le milieu a+b
2de cet intervalle.
Remarque 8
L’ensemble des médianes de la série statistique du caractère discret Xci-dessus coïncide avec l’en-
semble des médianes de la suite x1, x1, ..., x1, x2, ..., x2, ..., xp, où chaque xiest répété nifois.
B Série continue
Soit une série statistique d’un caractère continu Xdont la distribution figure ci-dessous.
Classes [a0, a1[.... [ap1, ap[
Effectifs n1.... np
A partir de ces données on pose les définitions suivantes :
-N=Pp
i=1 niest l’effectif total
- pour tout i[1..p]fi=ni
Nest la iefréquence
-Ni=n1+... +niest le ieeffectif cumulé et Fi=f1+... +fi=Ni
Nest la iefréquence cumulée
-xi=a11+ai
2est le iecentre de classe
-li=aiai1est la ieétendue
-hi=fi
liest la iefréquence corrigée
1) Histogramme
On appelle densité de probabilité associée à la série statistique la fonction f=Pp
i=1 hi1[ai1,ai[
Cette fonction est continue à droite et vérifie RRf(x)dx = 1. L’ensemble des rectangles construits à partir
du graphe de fs’appelle l’histogramme des fréquences de la distribution.
2) Moyenne et variance
On introduit les deux probabilités suivantes : P=fm1et Q=Pp
i=1 fiδxi.
a) La moyenne xde la série (telle qu’elle est définie en statistique descriptive ) coïncide avec
EP =EQ =1
N
p
X
i=1
nixi=
p
X
i=1
fixi.
b) La variance σ2
xde la série coïncide avec
V Q =
p
X
i=1
fi(xix)2=1
N
p
X
i=1
nix2
ix2.
2
Remarque 9
En général V P 6=V Q. Si toutes les classes possèdent la même étendue l, on a l’égalité
V P =V Q +l2
12
( correction de Sheppard ).
3) Fonction de répartition
a) Soit Fla fonction de répartition des fréquences cumulées de la série statistique continue ci-dessous.
Classes [a0, a1[ [a1, a2[... [ap1, ap[
Effectifs n1n2... np
Par définition Fest la fonction de répartition de la probabilité P=Pp
i=1 fiUai1ai, où Ua,b désigne la
loi uniforme sur l’intervalle [a, b].
Fest continue et affine par morceaux, et vérifie :
i) si x]− ∞, a0]F(x)=0
ii) si x[ap,+[F(x)=1
iii) F(ai) = Fipour tout indice i= 1, ..., p 1, où Fi=Pi
k=1 fkest la iimefréquence cumulée.
C Quantiles
Définition 10
a) Soit Pune probabilité sur Rde fonction de répartition F(pour tout réel t F (t) = P(] − ∞, t]). Soit α
un réel appartenant l’intervalle ]0,1[. On appelle quantile (ou fractile) de Pd’ordre αtout réel νvérifiant :
P(] − ∞, ν]) αet P([ν, +[) 1α, ou de façon équivalente vérifiant les deux conditions : F(ν)α
et F(ν)α.
b) Soit Xune variable aléatoire réelle définie sur un espace probabilisé (Ω,F, P ).On appelle quantile de
Xd’ordre α]0,1[ un quantile de PXd’ordre α. Un quantile de Xd’ordre αest donc un réel νvérifiant
les deux conditions :
P(Xν)αet P(Xν)1α.
Propriété 11
L’ensemble des quantiles d’ordre αd’une probabilité Psur Rest un intervalle fermé borné non vide.
Lorsque cet ensemble est de la forme [a, b], avec a < b, on convient parfois de dire que le quantile d’ordre
αest le centre (a+b)/2de cet intervalle. On peut également convenir de le prendre égal à a, en accord
avec la valeur G(α)de la fonction quantile Gde Xen α; voir feuille Simulation.
Définition 12
a) Le quantile d’ordre 1
4s’appelle le premier quartile ; le quantile d’ordre 2
4=1
2est la médiane ; le quantile
d’ordre 3
4s’appelle le troisième quartile.
b) Pour tout i[1..9], le quantile d’ordre i
10 s’appelle le iime décile ; il est noté Di.
c) Pour tout i[1..99], le quantile d’ordre i
100 s’appelle le iime centile,noté Ci.
3
Détermination des quantiles des séries discrètes
1) Soit Fla fonction de répartition des fréquences cumulées d’une série discrète (x1, n1), ..., (xk, nk), et
soit α]0,1[.
a) S’il existe un indice itel que F(xi) = α, l’ensemble des quantiles d’ordre αde la série est
l’intervalle [xi, xi+1].
b) Sinon le quantile d’ordre αde la série est la valeur xivérifiant F(xi1)< α < F (xi).
2) Pour une série discrète dont les valeurs ne sont pas regroupées x1x2... xn, le quantile d’ordre
α]0,1[ de la série est donné par la règle suivante :
a) si nα /Nle quantile d’ordre αest x[]+1 ([]désigne la partie entière de )
b) si q=Nl’ensemble des quantiles est l’intervalle [xq, xq+1].
Remarque 13
Le cas 1) se ramène au cas 2) en considérant la série x1... x1x2... x2... xk, où la
valeur xiest répétée nifois. Inversement le cas 2) se ramène au cas 1) en regroupant les valeurs égales.
Détermination des quantiles des séries continues
Soit Fla fonction de répartition des fréquences cumulées de la série statistique continue ci-dessous.
Classes [a0, a1[ [a1, a2[... [ap1, ap[
Effectifs n1n2... np
Soit α]0,1[ ; un quantile d’ordre αde la série est un réel νqui vérifie F(ν) = α; autrement dit
l’ensemble des quantiles d’ordre αest l’intervalle F1({α}).
Exemple
On considère la série statistique suivante.
Valeurs 10 15 20 25 30 35 40
Effectifs 10 12 34 21 12 9 7
Effectifs cumulés 10 22 56 77 89 98 105
105/10 = 10,5, le premier décile est D1= 15
105/4 = 26,25 , le premier quartile est Q1= 20
105/2 = 52,5, la médiane est µ= 20
3
4105 = 78,75 , le troisième quartile est Q3= 30
9
10 105 = 94,5, le neuvième quartile est D9= 35
D Boîte à moustaches
Il n’y a pas de définition unique des boîtes à moustaches. La définition adoptée dans l’enseignement
secondaire est la suivante :
- la limite inférieure est le premier décile D1
- la base inférieure de la boîte est le premier quartile Q1
- la boîte est divisée en deux par la médiane
- la base supérieure de la boîte est le troisième quartile Q3
- la limite supérieure est le neuvième décile D9.
On fait parfois figurer les valeurs plus petites que D1et plus grandes que D9.
4
Remarque
Les valeurs D1et D9sont parfois remplacées par Q13
2(Q3Q1)et Q3+3
2(Q3Q1).
5
1 / 5 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !