LA STATISTIQUE, DE LA PRATIQUE A LA THÉORIE1
Préparation à l’agrégation externe de Mathématiques - ENS Cachan Bretagne
Compléments de cours
Année 2009/2010
1. Un problème pour le statisticien
L’interlocuteur du statisticien est un industriel, responsable d’une machine qui produit des pièces classées soit "bonnes",
codé par 0, soit "défectueuses", codé par 1. Le nombre de pièces fabriquées étant gigantesque et l’examen de chaque
pièce étant relativement coûteux, il ne peut évaluer la qualité de sa production que sur un lot de taille nfaible au
regard de la production, par exemple n= 100. Soit x= (x1,···, xn)la suite de 0 et de 1 observée, et ¯xn= 0.22 la
moyenne observée. Pour l’industriel, l’enjeu est de déterminer la proportion de pièces défectueuses. Si cette proportion
est trop importante, il décidera d’arrêter la production pour réparer ou changer la machine. Cependant, une telle
opération est très coûteuse, et il ne veut en arriver à une telle extrémité qu’en cas de nécessité absolue.
Avant de rentrer dans la modélisation à proprement parler, il est d’usage de formuler cette question : Y a-t-il lieu
de considérer qu’est intervenue une part d’aléatoire ? Si oui, où se situe cette intervention du hasard ? De manière
stéréotypée, on peut considérer en général que l’aléa peut avoir 2 types de provenances :
1:Variabilité intrinsèque du phénomène. Dans notre exemple, on peut imaginer que de petites variations
dans la fabrication (par exemple dans la position de la pièce dans la machine qui la fabrique) influent sur la
qualité. Ces variations ne sont ni maîtrisables, ni descriptibles en détail, et seule la notion de probabilité de sortie
d’une pièce défectueuse peut en rendre compte.
2:Echantillonnage. Un échantillon est tiré au hasard dans la population des pièces fabriquées, et seule la qualité
des pièces ainsi extraites est examinée.
Pour être délibérement provocateur, on peut donc considérer que le statisticien met dans le mot "aléa" la somme de
ses ignorances.
La représentation probabiliste la plus simple que puisse proposer le statisticien consiste à supposer que (x1,···, xn)∈
{0,1}nest la réalisation d’une v.a. canonique (X1,···, Xn)définie sur l’espace probabilisé ({0,1}n,B(p)⊗n). Ainsi,
pour y= (y1,···, yn)∈{0,1}n:
B(p)⊗n(X1=y1,···, Xn=yn) = ps(y)(1 −p)n−s(y),
s(y) = y1+··· +ynreprésentant le nombre de pièces défectueuses.
Le statisticien a donc supposé que les v.a. X1,···, Xnsont indépendantes et de même loi. Ces hypothèses peuvent se
justifier dans les conditions expérimentales suivantes, qui correspondent chacune à l’un des 2 types d’aléa que nous
venons d’évoquer.
1: Il a examiné npièces produites pendant un certain laps de temps. Il admet que la production a été stable durant
cette période, cette stabilité étant caractérisée par la constance de la probabilité pour chaque pièce produite d’être
défectueuse. Il découle de ce postulat que les Xiont même loi. Il admet aussi que les petites variations aléatoires
pouvant influer sur la qualité de la pièce ne se répercutent pas d’une pièce à celles qui suivent, ce qui plaide en
faveur de l’indépendance des v.a.
2: Le statisticien a procédé à un tirage avec remise des npièces dans la production qui en compte N(un tirage
sans remise n’aurait pas donné un échantillon de v.a. indépendantes). Ce type de tirage lui a rendu un échantillon
issu de v.a. indépendantes et de même loi. En effet :
a. Pour réaliser son tirage, il a généré nv.a. S1,···, Snindépendantes et de loi uniforme sur {1,···, N }. Les
pièces de l’échantillon sont les pièces numéros S1,···, Sn, et les codes de ces pièces (0 ou 1) sont donc des v.a.
indépendantes et de même loi.
b. Il a pris la précaution d’utiliser un générateur aléatoire de période beaucoup plus grande que N(et donc n) afin
de s’assurer que les individus de l’échantillon puissent raisonnablement être considérés comme indépendants
et de loi U{1,···, N}.
Remarquons enfin que la probabilité pqu’une pièce soit défectueuse serait atteignable si le statisticien pouvait
faire un recensement de la production. En général, le fait d’extraire un échantillon est dû à la volonté de ne pas
faire un tel recensement (trop long, trop coûteux, ou parfois même irréalisable).
1Benoît Cadre - ENS Cachan Bretagne
1