LA STATISTIQUE, DE LA PRATIQUE A LA THÉORIE1
Préparation à l’agrégation externe de Mathématiques - ENS Cachan Bretagne
Compléments de cours
Année 2009/2010
1. Un problème pour le statisticien
L’interlocuteur du statisticien est un industriel, responsable d’une machine qui produit des pièces classées soit "bonnes",
codé par 0, soit "défectueuses", codé par 1. Le nombre de pièces fabriquées étant gigantesque et l’examen de chaque
pièce étant relativement coûteux, il ne peut évaluer la qualité de sa production que sur un lot de taille nfaible au
regard de la production, par exemple n= 100. Soit x= (x1,···, xn)la suite de 0 et de 1 observée, et ¯xn= 0.22 la
moyenne observée. Pour l’industriel, l’enjeu est de déterminer la proportion de pièces défectueuses. Si cette proportion
est trop importante, il décidera d’arrêter la production pour réparer ou changer la machine. Cependant, une telle
opération est très coûteuse, et il ne veut en arriver à une telle extrémité qu’en cas de nécessité absolue.
Avant de rentrer dans la modélisation à proprement parler, il est d’usage de formuler cette question : Y a-t-il lieu
de considérer qu’est intervenue une part d’aléatoire ? Si oui, où se situe cette intervention du hasard ? De manière
stéréotypée, on peut considérer en général que l’aléa peut avoir 2 types de provenances :
1:Variabilité intrinsèque du phénomène. Dans notre exemple, on peut imaginer que de petites variations
dans la fabrication (par exemple dans la position de la pièce dans la machine qui la fabrique) influent sur la
qualité. Ces variations ne sont ni maîtrisables, ni descriptibles en détail, et seule la notion de probabilité de sortie
d’une pièce défectueuse peut en rendre compte.
2:Echantillonnage. Un échantillon est tiré au hasard dans la population des pièces fabriquées, et seule la qualité
des pièces ainsi extraites est examinée.
Pour être délibérement provocateur, on peut donc considérer que le statisticien met dans le mot "aléa" la somme de
ses ignorances.
La représentation probabiliste la plus simple que puisse proposer le statisticien consiste à supposer que (x1,···, xn)
{0,1}nest la réalisation d’une v.a. canonique (X1,···, Xn)définie sur l’espace probabilisé ({0,1}n,B(p)n). Ainsi,
pour y= (y1,···, yn){0,1}n:
B(p)n(X1=y1,···, Xn=yn) = ps(y)(1 p)ns(y),
s(y) = y1+··· +ynreprésentant le nombre de pièces défectueuses.
Le statisticien a donc supposé que les v.a. X1,···, Xnsont indépendantes et de même loi. Ces hypothèses peuvent se
justifier dans les conditions expérimentales suivantes, qui correspondent chacune à l’un des 2 types d’aléa que nous
venons d’évoquer.
1: Il a examiné npièces produites pendant un certain laps de temps. Il admet que la production a été stable durant
cette période, cette stabilité étant caractérisée par la constance de la probabilité pour chaque pièce produite d’être
défectueuse. Il découle de ce postulat que les Xiont même loi. Il admet aussi que les petites variations aléatoires
pouvant influer sur la qualité de la pièce ne se répercutent pas d’une pièce à celles qui suivent, ce qui plaide en
faveur de l’indépendance des v.a.
2: Le statisticien a procédé à un tirage avec remise des npièces dans la production qui en compte N(un tirage
sans remise n’aurait pas donné un échantillon de v.a. indépendantes). Ce type de tirage lui a rendu un échantillon
issu de v.a. indépendantes et de même loi. En eet :
a. Pour réaliser son tirage, il a généré nv.a. S1,···, Snindépendantes et de loi uniforme sur {1,···, N }. Les
pièces de l’échantillon sont les pièces numéros S1,···, Sn, et les codes de ces pièces (0 ou 1) sont donc des v.a.
indépendantes et de même loi.
b. Il a pris la précaution d’utiliser un générateur aléatoire de période beaucoup plus grande que N(et donc n) afin
de s’assurer que les individus de l’échantillon puissent raisonnablement être considérés comme indépendants
et de loi U{1,···, N}.
Remarquons enfin que la probabilité pqu’une pièce soit défectueuse serait atteignable si le statisticien pouvait
faire un recensement de la production. En général, le fait d’extraire un échantillon est dû à la volonté de ne pas
faire un tel recensement (trop long, trop coûteux, ou parfois même irréalisable).
1Benoît Cadre - ENS Cachan Bretagne
1
2. Un modèle
L’espace des observations est {0,1}net l’ensemble des lois possibles pour (X1,···, Xn)est l’ensemble des lois de
Bernoulli {B(p)n, p ]0,1[}, car la seule information dont dispose le statisticien sur la vraie valeur de pest que c’est
un point de ]0,1[.
Définition 2.1
1. Un modèle statistique est un triplet (En,T,Q), où Enest l’espace des nobservations (supposé
probabilisable), Test une tribu de parties de Enet Qest une famille de lois de probabilités
sur (En,T). On note plus simplement Qle modèle, s’il n’y a pas d’ambiguïté possible.
2. Le modèle statistique Qest paramétré par Θsi Q={Pθ}θΘ. Il est alors identifiable si
l’application θ#→ Pθdéfinie sur Θest injective.
3. Le modèle statistique Q={Pθ}θΘparamétré par Θest dit paramétrique si il existe dIN tel
que ΘIRd. Sinon, il est dit non paramétrique.
4. Dans le modèle statistique {Pθ}θΘ, un échantillon de loi Pθest une v.a. (souvent canonique)
(Z1,···, Zn)de loi Pθ.
Le modèle statistique considéré est P={Pp, p ]0,1[}avec Pp=B(p)n, sur l’espace des observations X={0,1}n,
de sorte qu’un échantillon (X1,···, Xn)de la loi Ppest une suite i.i.d. de v.a. de loi B(p). Ce modèle est paramétrique
et identifiable.
Il est important de comprendre la démarche adoptée par le statisticien : la seule information dont il dispose est apportée
par l’observation (x1,···, xn). En étudiant les propriétés générales du modèle, i.e. les propriétés d’un échantillon de
chaque loi Pp, il sera en mesure de décider quelle est la valeur de pqui correspond le mieux à l’observation. La démarche
peut être résumée ainsi : le statisticien construit le modèle en examinant le phénomène, puis il ajuste la loi du modèle
à l’aide des observations.
Une caractéristique commune à toutes les lois de Pest qu’elles sont absolument continues par rapport à νn, où νest
la mesure de comptage sur {0,1}.
Définition 2.2 Un modèle statistique Qest dit dominé, si il existe une mesure µtelle que pour
chaque PQ:P&µ. La mesure µest la mesure dominante du modèle.
Le modèle statistique Pest dominé par νn.
Une fois le modèle construit, il est temps de s’interroger sur ses possiblités : quel type d’information le statisticien
peut-il fournir à l’industriel ? Quelle procédure de décision le statisticien peut-il envisager ? Nous examinerons les
notions suivantes :
1. Le statisticien peut proposer une valeur pour p, appelée estimation ponctuelle du paramètre. Cependant, partant
d’une réalité floue car aléatoire, il ne peut espérer une réponse exacte. Il faut alors fournir un ordre de grandeur
de l’imprécision de la réponse.
2. Cet ordre de grandeur est fourni par un intervalle de confiance sur p. Un intervalle de confiance peut servir à
étayer une décision : par exemple d’arrêter la production si l’intervalle contient 0.2.
3. Les procédures de décision dépendent des questions posées. Pour des raisons de qualité, l’industriel doit arrêter
sa production s’il apparaît que la probabilité de produire des pièces défectueuses est montée au dessus d’un seuil,
par exemple 0.2. Mais un arrêt coûte cher, et il ne le fera que si le statisticien arrive à le convaincre de la nécessité
d’y procéder. Tout ce qui intéresse l’industriel, c’est donc de savoir si il doit considérer que p0.2(et continuer
à produire) ou que p > 0.2(et se résoudre à arrêter). Une méthode pour répondre à cette question est appelée
test statistique.
3. Estimation ponctuelle
3.1 La notion d’estimateur
Pour le statisticien, la première tâche est de construire une fonction des observations x1,···, xn, dont la valeur est
proche de la vraie valeur du paramètre. Le cadre probabiliste envisagé lui fournit en prime la possibilité de dégager
une marge de confiance pour son approximation. Afin d’exploiter au mieux les propriétés de son modèle, il considère
donc plutôt une fonction des v.a.r. X1,···, Xn.
2
Définition 3.1 Soit {Pθ}θΘun modèle statistique, (Z1,···, Zn)un échantillon de loi Pθet gune
fonction borélienne définie sur Θet à valeurs dans IRd. Un estimateur ˆ
Gnde g(θ)est une statistique
à valeurs dans IRd, i.e. une fonction borélienne de Z1,···, Znà valeurs dans IRdindépendante de θ.
N’importe quelle fonction de X1,···, Xnest un estimateur de p. Par exemple, 0.2, X1et la moyenne empirique
¯
Xn= (1/n)!n
i=1 Xisont des estimateurs de p.
Les observations x1,···, xnétant issues de v.a. de loi commune B(p), il est vraisemblable que sous la loi Pp, la
probabilité que les v.a. X1,···, Xnprennent les valeurs x1,···, xnsoit maximale pour la vraie valeur du paramètre p.
Cette remarque donne une indication pour construire des estimateurs.
Définition 3.2 Soit {Pθ}θΘun modèle statistique dominé par µ,(Z1,···, Zn)un échantillon de loi Pθ
et Ln(.;θ)la densité de Pθpar rapport à µ.
1. La vraisemblance de l’observation (z1,···, zn)est la fonction définie sur Θpar :
θ#→ Ln(z1,···, zn;θ).
2. Supposons que pour toute observation (z1,···, zn):
arg max
θΘLn(z1,···, zn;θ) = {ˆ
θn(z1,···, zn)}.
La v.a. ˆ
θn(Z1,···, Zn)à valeurs dans Θest appelée estimateur du maximum de vraisemblance (EMV)
de θ.
L’un des estimateurs défini plus haut est-il l’EMV de p? Relativement à la mesure dominante νn, la vraisemblance
de l’observation y= (y1,···, yn)Xest, pour tout p]0,1[ :
Ln(y1,···, yn;p) = ps(y)(1 p)ns(y).
Le maximum de cette fonction est atteint en s(y)/n (dériver le logarithme de la vraisemblance), et l’EMV est donc
¯
Xn.
3.2 Qualité des estimateurs
D’après la loi faible des grands nombres, si (X1,···, Xn)est un échantillon de la loi Pp, alors ¯
Xnpen Pp-
probabilité. Il est légitime de considérer que l’éventualité xXtelle que xi=Xi(x)pour chaque i= 1,···, n fait
partie de l’ensemble de probabilité proche de 1 sur laquelle la moyenne empirique est proche de p. L’approximation
!n
i=1 xi/n pest ainsi justifiée.
Définition 3.3 Soient {Pθ}θΘun modèle statistique, (Z1,···, Zn)un échantillon de loi Pθ,gune
fonction borélienne définie sur Θet à valeurs dans IRd, et ˆ
Gnun estimateur de g(θ)construit avec
Z1,···, Zn.
1. Si ˆ
GnL1(Pθ)pour chaque θΘ, on dit que ˆ
Gnest sans biais lorsque pour chaque θΘ,
IEθˆ
Gn=g(θ). De plus, ˆ
Gnest dit asymptotiquement sans biais si IEθˆ
Gng(θ)lorsque n→ ∞.
2. On dit que ˆ
Gnest consistant si pour tout θΘ,ˆ
Gng(θ)en Pθ-probabilité, lorsque n→ ∞.
L’estimateur ¯
Xnest consistant (loi faible des grands nombres). La question de la convergence presque sûre est soi-
gneusement évitée ...
Une approximation n’a d’intérêt que si on peut lui ajouter des informations sur sa précision. Compte tenu du caractère
aléatoire de cette approximation, les questions qui se soulèvent ici sont : quelle est la variabilité de l’estimateur par
rapport au paramètre ? Quelle est la distance entre l’estimateur et le paramètre ?
Définition 3.4 Soient {Pθ}θΘun modèle statistique, gune fonction borélienne définie sur Θet à
valeurs dans IRd, et ˆ
Gnun estimateur de g(θ). On note IEθet varθl’espérance et la variance sous
Pθ.
1. Si ˆ
GnL2(Pθ), le risque quadratique de ˆ
Gnsous Pθest
R(θ;ˆ
Gn) := IEθ*ˆ
Gng(θ)*2=*IEθˆ
Gng(θ)*2+ varθ(ˆ
Gn),
*.*désignant la norme euclidienne.
3
2. Soit ˆ
G!
nun estimateur. Si ˆ
Gn,ˆ
G!
nL2(Pθ)pour chaque θΘ, on dit que ˆ
G!
nest préférable àˆ
Gn
lorsque pour chaque θΘ,R(θ;ˆ
G!
n)R(θ;ˆ
Gn).
3. On dit que ˆ
Gnest de vitesse (vn)n(resp. asymptotiquement normal) si il existe une suite
vn+ ∞ telle que pour chaque θΘ,vn(ˆ
Gng(θ)) converge en loi (resp. converge vers une loi
normale) sous Pθ, lorsque n→ ∞.
Les estimateurs ¯
Xnet X1de psont sans biais. De plus, ¯
Xnest préférable à l’estimateur X1, car son risque quadratique
est plus faible. En eet, pour tout p]0,1[ :
R(p;X1) = p(1 p),alors que R(p;¯
Xn) = p(1 p)/n.
D’autre part, le théorème de la limite centrale nous montre aussi que ¯
Xnest asymptotiquement normal, car pour
chaque p]0,1[ :n(¯
Xnp)N(0, p(1 p)) en loi pour la loi Pp.
Parmi les estimateurs proposés, ¯
Xnest celui qui possède les propriétés les plus intéressantes. Néanmoins, peut-on
trouver un estimateur plus performant ?
Théorème 3.1 (Rao-Blackwell) Soient {Pθ}θΘun modèle statistique, gune fonction borélienne définie
sur Θet à valeurs dans IRd, et ˆ
Gn,ˆ
G!
ndeux estimateurs de g(θ)tels que pour chaque θΘ,ˆ
Gn,ˆ
G!
n
L2(Pθ). Si la statistique ˆ
Gnest exhaustive, i.e. la loi sous Pθde l’échantillon sachant ˆ
Gnne dépend
pas de θ, alors IEθ(ˆ
G!
n|ˆ
Gn)est un estimateur préférable à ˆ
G!
n.
L’idée contenue dans la notion d’exhaustivité d’une statistique est la suivante : l’échantillon ne contient pas plus
d’information sur la valeur du paramètre qu’une statistique exhaustive.
Dans notre exemple, l’ordre dans lequel sont observées les pièces bonnes ou défectueuses n’apporte aucune information
supplémentaire sur le paramètre inconnu. Du coup, on peut résumer la suite des observations par la somme x1+···+xn,
ce qui indique que l’estimateur ¯
Xnest exhaustif. Faisons le calcul pour étayer cette intuition. Soit p]0,1[. Pour chaque
y1,···, yn{0,1}et z{0,···, n}tels que y1+··· +yn=z, on a :
Pp"X1=y1,···, Xn=yn#
#
#n¯
Xn=z$=
Pp"X1=y1,···, Xn=yn$
Pp(n¯
Xn=z)
=pz(1 p)nz
Cz
npz(1 p)nz=1
Cz
n
.
La loi de (X1,···, Xn)sachant n¯
Xnest donc la loi uniforme sur {yX:y1+··· +yn=n¯
Xn}. Cette loi ne dépend
pas du paramètre p, donc ¯
Xnest une statistique exhaustive : toute l’information sur pcontenue dans X1,···, Xn
est en fait contenue dans ¯
Xn. Par ailleurs, X1étant un estimateur de p, on sait avec le théorème de Rao-Blackwell
que IEp(X1|¯
Xn)est un estimateur préférable à X1. Comme IEp(X1|¯
Xn) = ¯
Xn, on retombe sur l’inévitable moyenne
empirique !
4
1 / 4 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !