Université de Picardie Jules Verne 2010-2011
UFR des Sciences -LAMFA CNRS UMR 6140
PAF Amiens -Formation Enseignement des Mathématiques -28 janvier 2011
Mathématiques : statistiques et simulation
Aproposdelinégalité de Bienaymé-Tchebichev
Lors de la formation, un collègue a indiqué qu’il devait exister un résultat assurant que pour une série
d’observations x1,...,xn, on pouvait assurer qu’un pourcentage donné des observations se situait dans un
intervalle centré sur la moyenne. Effectivement, le résultat existe bien : c’est l’inégalité de
Bienaymé-Tchebychev "version statistique descriptive". Dans beaucoup d’ouvrages de Statistique et
Probabilités, on rencontre plus souvent la version "variable aléatoire". Ce document présente les deux versions
du résultat.
Cas dune série dobservations.
Considérons une série d’observations numériques x1,...,xnnon toutes égales. Certaines valeurs pouvant
cependant être égales, on désigne par :
-x1,...,xkles valeurs différentes observées ;
-nil’effectif de chaque valeur xi, c’est-à-dire le nombre de fois où l’on a observé la valeur (on a
i1
knin);
-fini
nla fréquence de chaque valeur xi, c’est-à-dire la proportion de fois où l’on a observé la
valeur (on a
i1
kfi) ; les couples xi,ficonstituent la distribution statistique étudiée ;
-x1
n
i1
knixila moyenne arithmétique des valeurs observées : on a x
i1
kfixi;
-varxsx
21
n
i1
knixix2
i1
kfixix2la variance des valeurs observées ;
-sxsx
2varxl’écart-type des valeurs observées ;
-xsx;xsxl’intervalle moyen ; on dit qu’en moyenne, les valeurs observées se trouvent dans
l’intervalle moyen.
A noter que sx
20 ; car sinon, toutes les observations xiseraient égales (à la moyenne x) , ce qui est
contraire à l’hypothèse de départ.
Proposition (inégalité de Bienaymé-Tchebichev version statistique descriptive)
Pour tout réel t0, la fréquence des observations se trouvant dans l’intervalle xtsx;xtsx
est au moins égale à 1 1
t2.
Autrement dit, au moins 11
t2100 % des observations se trouvent dans l’intervalle
xtsx;xtsx.Enpratique:
- soit on se donne t, et alors on obtient le pourcentage d’observations dans l’intervalle correspondant à
t: par exemple, pour t2, on a 1 1
t23
40.75, et donc au moins 75 % des observations dans
l’intervalle x2sx;x2sx;
- soit on se donne un pourcentage souhaité, et alors on obtient l’intervalle recherché : par exemple,
pour avoir au moins 95 % des observations dans l’intervalle, on cherche ttel que 1 1
t20.95, ce qui donne
t1
0.05 20 , et donc l’intervalle x20 sx;x20 sx.
Remarquons aussi que seul le cas t1 est utile ; en effet, pour 0 t1, on a 1 1
t20. En particulier,
on n’obtient pas de résultat intéressant pour t1, c’est-à-dire pour l’intervalle moyen xsx;xsx.
Stéphane Ducay 1
Preuve.
Soit tun réel tel que t1. Considérons la partition de I1,...,ken les deux ensembles suivants :
-AtiI/xixtsx;xtsxiI/|xix|tsx;
-BtiI/xixtsx;xtsxiI/|xix|tsx.
Insistons sur le fait que l’ensemble Atest l’ensemble des indices de toutes les valeurs xiappartenant à
l’intervalle xtsx;xtsx.
On a alors sx
2
iIfixix2
iAt
fixix2
iBt
fixix2
iBt
fixix2, puisque
iAt
fixix2
ne contient que des termes positifs. De plus, pour tout iBt,onaxix2tsx2,doù
iBt
fixix2
iBt
fitsx2t2sx
2
iBt
fi.
On a ainsi sx
2t2sx
2
iBt
fi. Comme sx0, on obtient 1 t2
iBt
fiet donc
iBt
fi1
t2.
Remarquant que 1
iIfi
iAt
fi
iBt
fi, on obtient
iAt
fi1
iBt
fi11
t2: la fréquence (cumulée)
des valeurs xiappartenant à l’intervalle xtsx;xtsxest donc au moins égale à 1 1
t2.
Cas dune variable aléatoire discrète finie.
Soit Xune variable aléatoire réelle discrète finie non constante définie sur un espace probabilisé ,A,P.
Désignons par x1,...,xkles valeurs possibles de Xet par pila probabilité PXxi, pour tout i1,...,k.Les
couples xi,pidéfinissent la loi de probabilité de X; on a en particulier
i1
kpi1.
Considérons l’espérance mathématique et la variance de X, à savoir EX
i1
kpixiet
varX
i1
kpixiEX2; remarquer l’analogie avec les formules de statistique descriptive (vues plus haut)
dans lesquelles piest remplacée par fi. Désignons par XvarXl’écart-type de X.
A noter que varX0 ; car sinon, Xserait une variable aléatoire constante vérifiant alors
PXEX 1, ce qui est contraire à l’hypothèse de départ.
Proposition (inégalité de Bienaymé-Tchebichev version variable aléatoire)
Pour tout t0, la probabilité que Xprenne une valeur dans l’intervalle
EXt
X;EXt
Xest au moins égale à 1 1
t2;
ce qui s’écrit PEXt
XXEXt
X P|XEX|tX 11
t2.
Preuve
Elle est analogue à la preuve précédente. On décompose la somme définissant la variance à l’aide des deux
ensembles AtiI/|xiEX|t
Xet BtiI/|xiEX|t
X, ce qui donne
varXt2varX
iBt
pi, puis
iBt
pi1
t2. Remarquant que 1
iAt
pi
iBt
pi, on obtient
iAt
pi11
t2.Le
résultat découle alors du fait que P|XEX|tX
iAt
pi.
Remarques
1) On peut étendre cette proposition aux variables aléatoires discrètes infinies (démonstration analogue,
les sommes devenant des séries) et aux variables aléatoires à densité, pourvu qu’elles admettent une variance :
par exemple, variables aléatoires de loi de Poisson, de loi Normale, ...
2) A noter que dans la preuve, on minore grossièrement
iAt
pixiEX2par 0. Ainsi, si cette inégalité
est utile d’un point de vue théorique (dans les problèmes de convergence de suites de variables aléatoires
réelles par exemple), elle ne donne pas en pratique des approximations suffisantes, comme le montrent
l’exemple suivant. D’après la proposition précédente, on a (pour t2ett3) :
P|XEX|2X 3
40,75 et P|XEX|3X 8
90,8889.
Or si Xsuit une loi normale N;,onaEXet Xet on montre que
P
|
XEX
|
2X 0,9544 et P
|
XEX
|
3X 0,9973.
Stéphane Ducay 2
3) Toujours pour Xde loi normale N;,onaaussiP|XEX|X 0.6826.
4) Dans la pratique, on voit parfois ces pourcentages 68,26 %, 95,44 % et 99,73 % (obtenus pour la loi
Normale) utilisés en statistique descriptive : par exemple, on lit que 68 % des observations se trouvent dans
l’intervalle xsx;xsx, 95 % des observations se trouvent dans l’intervalle x2sx;x2sx, ... Ce
n’est bien sur qu’un pourcentage approximatif, à condition que les observations puissent être considérées
comme provenant d’une variable Xde loi Normale (le fait que le diagramme en bâton des fréquences ait une
allure en cloche peut rassurer). Mais alors, les observations x1,...,xnne sont que des observations d’un
échantillon de taille nde X,xet sxn’étant que des estimations de EXet X: les pourcentages obtenus
avec la loi Normale ne peuvent donc pas être utilisés automatiquement. Prudence ...
Stéphane Ducay 3
1 / 3 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !