– la médiane m: si les xjsont rénumérotés de telle sorte que x(1) ≤ · · · ≤ x(n),
m=(x(k)si n= 2k−1,
1
2(x(k)+x(k+1))si n= 2k.
Les quartiles, les déciles, et plus généralement les s-quantiles sont définis de façon analogue en
répartissant les x(i)en 4, 10 ou s groupes, au lieu de 2 pour la médiane.
– le mode : la valeur a(ou l’une des valeurs) qui maximise |{j∈ {1,· · · , n}:xj=a}|.
On peut en décrire la dispersion par :
– l’étendue : différence entre la plus grande et la plus petite valeur des xi.
– l’écart entre certains quantiles : par exemple, différence entre les troisième et premier quartiles.
– l’écart moyen à la médiane : 1
nPn
i=1 |xi−m|.
– la variance empirique :
s2=1
n
n
X
i=1
(xi−¯x)2.
Reprenons l’exemple 1. S’il ne veut pas faire faillite, le fabricant des câbles ne peut pas mesurer
la charge de rupture de tous les câbles qu’il fabrique, puisque cette mesure les détruit. La valeur
moyenne de la charge de rupture qu’il a calculée en testant 12 câbles reflète-t-elle bien la valeur
moyenne de la charge de rupture de l’ensemble des câbles ? La fonction de répartition empirique
obtenue est-elle une bonne approximation de celle qu’on obtiendrait après le test de tous les câbles
ou de 1200 de ces câbles ? L’objet de la théorie des statistiques est de répondre à des questions de
ce type, c’est-à-dire d’estimer la pertinence de la généralisation des caractéristiques de l’échantillon
expérimental à la population toute entière.
La démarche choisie est celle de la modélisation probabiliste. On assimile le caractère numérique,
dont x1,· · · , xnest un échantillon observé, à une variable aléatoire Xdont la loi est inconnue, ou
dont le type est connu mais certains des paramètres sont inconnus. Par exemple, il se peut qu’on
sache, pour des raisons théoriques ou en conséquence d’expériences antérieures, que la charge de
rupture d’un câble suit une loi normale N(µ, σ2)de paramètres µet σ2inconnus ; mais on peut
aussi n’avoir aucune idée a priori sur le type de sa loi.
On représente l’expérience de l’échantillonage par nvariables aléatoires X1,· · · , Xn, indépendantes
et de même loi que X, et on considère que la liste (x1,· · · , xn)est un résultat possible de cette
expérience, c’est-à-dire une valeur particulière prise par le vecteur aléatoire (X1,· · · , Xn).
Nous allons dans ce cours voir comment l’échantillon expérimental peut être utilisé pour estimer la
loi de Xou certaines de ses caractéristiques, et donner des moyens de mesurer la validité de ces
estimations.
1.2 Echantillons aléatoires et statistiques
Définition 1. Soit Xune variable aléatoire associée à un univers Ω. Un échantillon aléatoire
de Xde taille nest un n-uplet (X1,· · · , Xn)de variables aléatoires indépendantes de même loi
que X. La loi de Xsera appelée loi mère. Une réalisation de cet échantillon est un n-uplet de réels
(x1,· · · , xn)où Xi(ω) = xi.
Définition 2. Soit (X1,· · · , Xn)un échantillon aléatoire. Une statistique est une variable aléatoire
de la forme Φ(X1,· · · , Xn), où Φest une fonction de Rndans Rp.
Exemple : Un mois avant un référendum, on sonde 1000 personnes inscrites sur les listes électorales
sur leur intention d’aller voter. Les 1000 personnes ont été tirées au hasard (avec remise) dans la
population des inscrits. On obtient 650 intentions favorables. Si on tire une personne au hasard et
qu’on l’interroge, on peut représenter sa réponse par une variable aléatoire X qui vaut 1 si elle a
l’intention d’aller voter, et 0 sinon. La loi de Xest une loi de Bernoulli de paramètre p, inconnu,
égal à la proportion dans la population des inscrits des personnes ayant l’intention d’aller voter.
On peut représenter l’expérience du sondage en introduisant 1000 variables aléatoires (X1,· · · , Xn)
indépendantes car les 1000 personnes ont été tirées au hasard (avec remise), et qui suivent la loi
B(1, p):(X1,· · · , Xn)est donc un échantillon aléatoire de loi B(1, p).
Le sondage a donné des valeurs expérimentales de cet échantillon, x1,· · · , x1000, telles que x1+
· · · +x1000 = 650. Une statistique usuelle est la moyenne empirique 1
n(X1+· · · +Xn), dont la
2