LA STATISTIQUE, DE LA PRATIQUE A LA

publicité
LA STATISTIQUE, DE LA PRATIQUE A LA THÉORIE1
Préparation à l’agrégation externe de Mathématiques - ENS Cachan Bretagne
Compléments de cours
Année 2009/2010
1. Un problème pour le statisticien
L’interlocuteur du statisticien est un industriel, responsable d’une machine qui produit des pièces classées soit "bonnes",
codé par 0, soit "défectueuses", codé par 1. Le nombre de pièces fabriquées étant gigantesque et l’examen de chaque
pièce étant relativement coûteux, il ne peut évaluer la qualité de sa production que sur un lot de taille n faible au
regard de la production, par exemple n = 100. Soit x = (x1 , · · · , xn ) la suite de 0 et de 1 observée, et x̄n = 0.22 la
moyenne observée. Pour l’industriel, l’enjeu est de déterminer la proportion de pièces défectueuses. Si cette proportion
est trop importante, il décidera d’arrêter la production pour réparer ou changer la machine. Cependant, une telle
opération est très coûteuse, et il ne veut en arriver à une telle extrémité qu’en cas de nécessité absolue.
Avant de rentrer dans la modélisation à proprement parler, il est d’usage de formuler cette question : Y a-t-il lieu
de considérer qu’est intervenue une part d’aléatoire ? Si oui, où se situe cette intervention du hasard ? De manière
stéréotypée, on peut considérer en général que l’aléa peut avoir 2 types de provenances :
1 : Variabilité intrinsèque du phénomène. Dans notre exemple, on peut imaginer que de petites variations
dans la fabrication (par exemple dans la position de la pièce dans la machine qui la fabrique) influent sur la
qualité. Ces variations ne sont ni maîtrisables, ni descriptibles en détail, et seule la notion de probabilité de sortie
d’une pièce défectueuse peut en rendre compte.
2 : Echantillonnage. Un échantillon est tiré au hasard dans la population des pièces fabriquées, et seule la qualité
des pièces ainsi extraites est examinée.
Pour être délibérement provocateur, on peut donc considérer que le statisticien met dans le mot "aléa" la somme de
ses ignorances.
La représentation probabiliste la plus simple que puisse proposer le statisticien consiste à supposer que (x1 , · · · , xn ) ∈
{0, 1}n est la réalisation d’une v.a. canonique (X1 , · · · , Xn ) définie sur l’espace probabilisé ({0, 1}n , B(p)⊗n ). Ainsi,
pour y = (y1 , · · · , yn ) ∈ {0, 1}n :
B(p)⊗n (X1 = y1 , · · · , Xn = yn ) = ps(y) (1 − p)n−s(y) ,
s(y) = y1 + · · · + yn représentant le nombre de pièces défectueuses.
Le statisticien a donc supposé que les v.a. X1 , · · · , Xn sont indépendantes et de même loi. Ces hypothèses peuvent se
justifier dans les conditions expérimentales suivantes, qui correspondent chacune à l’un des 2 types d’aléa que nous
venons d’évoquer.
1 : Il a examiné n pièces produites pendant un certain laps de temps. Il admet que la production a été stable durant
cette période, cette stabilité étant caractérisée par la constance de la probabilité pour chaque pièce produite d’être
défectueuse. Il découle de ce postulat que les Xi ont même loi. Il admet aussi que les petites variations aléatoires
pouvant influer sur la qualité de la pièce ne se répercutent pas d’une pièce à celles qui suivent, ce qui plaide en
faveur de l’indépendance des v.a.
2 : Le statisticien a procédé à un tirage avec remise des n pièces dans la production qui en compte N (un tirage
sans remise n’aurait pas donné un échantillon de v.a. indépendantes). Ce type de tirage lui a rendu un échantillon
issu de v.a. indépendantes et de même loi. En effet :
a. Pour réaliser son tirage, il a généré n v.a. S1 , · · · , Sn indépendantes et de loi uniforme sur {1, · · · , N }. Les
pièces de l’échantillon sont les pièces numéros S1 , · · · , Sn , et les codes de ces pièces (0 ou 1) sont donc des v.a.
indépendantes et de même loi.
b. Il a pris la précaution d’utiliser un générateur aléatoire de période beaucoup plus grande que N (et donc n) afin
de s’assurer que les individus de l’échantillon puissent raisonnablement être considérés comme indépendants
et de loi U{1, · · · , N }.
Remarquons enfin que la probabilité p qu’une pièce soit défectueuse serait atteignable si le statisticien pouvait
faire un recensement de la production. En général, le fait d’extraire un échantillon est dû à la volonté de ne pas
faire un tel recensement (trop long, trop coûteux, ou parfois même irréalisable).
1 Benoît
Cadre - ENS Cachan Bretagne
1
2. Un modèle
L’espace des observations est {0, 1}n et l’ensemble des lois possibles pour (X1 , · · · , Xn ) est l’ensemble des lois de
Bernoulli {B(p)⊗n , p ∈]0, 1[}, car la seule information dont dispose le statisticien sur la vraie valeur de p est que c’est
un point de ]0, 1[.
Définition 2.1
1. Un modèle statistique est un triplet (E n , T , Q), où E n est l’espace des n observations (supposé
probabilisable), T est une tribu de parties de E n et Q est une famille de lois de probabilités
sur (E n , T ). On note plus simplement Q le modèle, s’il n’y a pas d’ambiguïté possible.
2. Le modèle statistique Q est paramétré par Θ si Q = {Pθ }θ∈Θ . Il est alors identifiable si
l’application θ #→ Pθ définie sur Θ est injective.
3. Le modèle statistique Q = {Pθ }θ∈Θ paramétré par Θ est dit paramétrique si il existe d ∈ IN tel
que Θ ⊂ IRd . Sinon, il est dit non paramétrique.
4. Dans le modèle statistique {Pθ }θ∈Θ , un échantillon de loi Pθ est une v.a. (souvent canonique)
(Z1 , · · · , Zn ) de loi Pθ .
Le modèle statistique considéré est P = {Pp , p ∈]0, 1[} avec Pp = B(p)⊗n , sur l’espace des observations X = {0, 1}n ,
de sorte qu’un échantillon (X1 , · · · , Xn ) de la loi Pp est une suite i.i.d. de v.a. de loi B(p). Ce modèle est paramétrique
et identifiable.
Il est important de comprendre la démarche adoptée par le statisticien : la seule information dont il dispose est apportée
par l’observation (x1 , · · · , xn ). En étudiant les propriétés générales du modèle, i.e. les propriétés d’un échantillon de
chaque loi Pp , il sera en mesure de décider quelle est la valeur de p qui correspond le mieux à l’observation. La démarche
peut être résumée ainsi : le statisticien construit le modèle en examinant le phénomène, puis il ajuste la loi du modèle
à l’aide des observations.
Une caractéristique commune à toutes les lois de P est qu’elles sont absolument continues par rapport à ν ⊗n , où ν est
la mesure de comptage sur {0, 1}.
Définition 2.2 Un modèle statistique Q est dit dominé, si il existe une mesure µ telle que pour
chaque P ∈ Q : P & µ. La mesure µ est la mesure dominante du modèle.
Le modèle statistique P est dominé par ν ⊗n .
Une fois le modèle construit, il est temps de s’interroger sur ses possiblités : quel type d’information le statisticien
peut-il fournir à l’industriel ? Quelle procédure de décision le statisticien peut-il envisager ? Nous examinerons les
notions suivantes :
1. Le statisticien peut proposer une valeur pour p, appelée estimation ponctuelle du paramètre. Cependant, partant
d’une réalité floue car aléatoire, il ne peut espérer une réponse exacte. Il faut alors fournir un ordre de grandeur
de l’imprécision de la réponse.
2. Cet ordre de grandeur est fourni par un intervalle de confiance sur p. Un intervalle de confiance peut servir à
étayer une décision : par exemple d’arrêter la production si l’intervalle contient 0.2.
3. Les procédures de décision dépendent des questions posées. Pour des raisons de qualité, l’industriel doit arrêter
sa production s’il apparaît que la probabilité de produire des pièces défectueuses est montée au dessus d’un seuil,
par exemple 0.2. Mais un arrêt coûte cher, et il ne le fera que si le statisticien arrive à le convaincre de la nécessité
d’y procéder. Tout ce qui intéresse l’industriel, c’est donc de savoir si il doit considérer que p ≤ 0.2 (et continuer
à produire) ou que p > 0.2 (et se résoudre à arrêter). Une méthode pour répondre à cette question est appelée
test statistique.
3. Estimation ponctuelle
3.1 La notion d’estimateur
Pour le statisticien, la première tâche est de construire une fonction des observations x1 , · · · , xn , dont la valeur est
proche de la vraie valeur du paramètre. Le cadre probabiliste envisagé lui fournit en prime la possibilité de dégager
une marge de confiance pour son approximation. Afin d’exploiter au mieux les propriétés de son modèle, il considère
donc plutôt une fonction des v.a.r. X1 , · · · , Xn .
2
Définition 3.1 Soit {Pθ }θ∈Θ un modèle statistique, (Z1 , · · · , Zn ) un échantillon de loi Pθ et g une
fonction borélienne définie sur Θ et à valeurs dans IRd . Un estimateur Ĝn de g(θ) est une statistique
à valeurs dans IRd , i.e. une fonction borélienne de Z1 , · · · , Zn à valeurs dans IRd indépendante de θ.
N’importe quelle
!n fonction de X1 , · · · , Xn est un estimateur de p. Par exemple, 0.2, X1 et la moyenne empirique
X̄n = (1/n) i=1 Xi sont des estimateurs de p.
Les observations x1 , · · · , xn étant issues de v.a. de loi commune B(p), il est vraisemblable que sous la loi Pp , la
probabilité que les v.a. X1 , · · · , Xn prennent les valeurs x1 , · · · , xn soit maximale pour la vraie valeur du paramètre p.
Cette remarque donne une indication pour construire des estimateurs.
Définition 3.2 Soit {Pθ }θ∈Θ un modèle statistique dominé par µ, (Z1 , · · · , Zn ) un échantillon de loi Pθ
et Ln (.; θ) la densité de Pθ par rapport à µ.
1. La vraisemblance de l’observation (z1 , · · · , zn ) est la fonction définie sur Θ par :
θ #→ Ln (z1 , · · · , zn ; θ).
2. Supposons que pour toute observation (z1 , · · · , zn ) :
arg max Ln (z1 , · · · , zn ; θ) = {θ̂n (z1 , · · · , zn )}.
θ∈Θ
La v.a. θ̂n (Z1 , · · · , Zn ) à valeurs dans Θ est appelée estimateur du maximum de vraisemblance (EMV)
de θ.
L’un des estimateurs défini plus haut est-il l’EMV de p ? Relativement à la mesure dominante ν ⊗n , la vraisemblance
de l’observation y = (y1 , · · · , yn ) ∈ X est, pour tout p ∈]0, 1[ :
Ln (y1 , · · · , yn ; p) = ps(y) (1 − p)n−s(y) .
Le maximum de cette fonction est atteint en s(y)/n (dériver le logarithme de la vraisemblance), et l’EMV est donc
X̄n .
3.2 Qualité des estimateurs
D’après la loi faible des grands nombres, si (X1 , · · · , Xn ) est un échantillon de la loi Pp , alors X̄n → p en Pp probabilité. Il est légitime de considérer que l’éventualité x ∈ X telle que xi = Xi (x) pour chaque i = 1, · · · , n fait
partie
!n de l’ensemble de probabilité proche de 1 sur laquelle la moyenne empirique est proche de p. L’approximation
i=1 xi /n ≈ p est ainsi justifiée.
Définition 3.3 Soient {Pθ }θ∈Θ un modèle statistique, (Z1 , · · · , Zn ) un échantillon de loi Pθ , g une
fonction borélienne définie sur Θ et à valeurs dans IRd , et Ĝn un estimateur de g(θ) construit avec
Z1 , · · · , Zn .
1. Si Ĝn ∈ L1 (Pθ ) pour chaque θ ∈ Θ, on dit que Ĝn est sans biais lorsque pour chaque θ ∈ Θ,
IEθ Ĝn = g(θ). De plus, Ĝn est dit asymptotiquement sans biais si IEθ Ĝn → g(θ) lorsque n → ∞.
2. On dit que Ĝn est consistant si pour tout θ ∈ Θ, Ĝn → g(θ) en Pθ -probabilité, lorsque n → ∞.
L’estimateur X̄n est consistant (loi faible des grands nombres). La question de la convergence presque sûre est soigneusement évitée ...
Une approximation n’a d’intérêt que si on peut lui ajouter des informations sur sa précision. Compte tenu du caractère
aléatoire de cette approximation, les questions qui se soulèvent ici sont : quelle est la variabilité de l’estimateur par
rapport au paramètre ? Quelle est la distance entre l’estimateur et le paramètre ?
Définition 3.4 Soient {Pθ }θ∈Θ un modèle statistique, g une fonction borélienne définie sur Θ et à
valeurs dans IRd , et Ĝn un estimateur de g(θ). On note IEθ et varθ l’espérance et la variance sous
Pθ .
1. Si Ĝn ∈ L2 (Pθ ), le risque quadratique de Ĝn sous Pθ est
R(θ; Ĝn ) := IEθ *Ĝn − g(θ)*2 = *IEθ Ĝn − g(θ)*2 + varθ (Ĝn ),
*.* désignant la norme euclidienne.
3
!
!
!
2. Soit Ĝn un estimateur. Si Ĝn , Ĝn ∈ L2 (Pθ ) pour chaque θ ∈ Θ, on dit que Ĝn est préférable à Ĝn
!
lorsque pour chaque θ ∈ Θ, R(θ; Ĝn ) ≤ R(θ; Ĝn ).
3. On dit que Ĝn est de vitesse (vn )n (resp. asymptotiquement normal) si il existe une suite
vn + ∞ telle que pour chaque θ ∈ Θ, vn (Ĝn − g(θ)) converge en loi (resp. converge vers une loi
normale) sous Pθ , lorsque n → ∞.
Les estimateurs X̄n et X1 de p sont sans biais. De plus, X̄n est préférable à l’estimateur X1 , car son risque quadratique
est plus faible. En effet, pour tout p ∈]0, 1[ :
R(p; X1 ) = p(1 − p),
alors que
R(p; X̄n ) = p(1 − p)/n.
D’autre part, le théorème
de la limite centrale nous montre aussi que X̄n est asymptotiquement normal, car pour
√
chaque p ∈]0, 1[ : n(X̄n − p) → N (0, p(1 − p)) en loi pour la loi Pp .
Parmi les estimateurs proposés, X̄n est celui qui possède les propriétés les plus intéressantes. Néanmoins, peut-on
trouver un estimateur plus performant ?
Théorème 3.1 (Rao-Blackwell) Soient {Pθ }θ∈Θ un modèle statistique, g une fonction borélienne définie
!
!
sur Θ et à valeurs dans IRd , et Ĝn , Ĝn deux estimateurs de g(θ) tels que pour chaque θ ∈ Θ, Ĝn , Ĝn ∈
L2 (Pθ ). Si la statistique Ĝn est exhaustive, i.e. la loi sous Pθ de l’échantillon sachant Ĝn ne dépend
!
!
pas de θ, alors IEθ (Ĝn |Ĝn ) est un estimateur préférable à Ĝn .
L’idée contenue dans la notion d’exhaustivité d’une statistique est la suivante : l’échantillon ne contient pas plus
d’information sur la valeur du paramètre qu’une statistique exhaustive.
Dans notre exemple, l’ordre dans lequel sont observées les pièces bonnes ou défectueuses n’apporte aucune information
supplémentaire sur le paramètre inconnu. Du coup, on peut résumer la suite des observations par la somme x1 +· · ·+xn ,
ce qui indique que l’estimateur X̄n est exhaustif. Faisons le calcul pour étayer cette intuition. Soit p ∈]0, 1[. Pour chaque
y1 , · · · , yn ∈ {0, 1} et z ∈ {0, · · · , n} tels que y1 + · · · + yn = z, on a :
"
$
#
"
$
X
=
y
,
·
·
·
,
X
=
y
P
p
1
1
n
n
#
Pp X1 = y1 , · · · , Xn = yn #nX̄n = z
=
Pp (nX̄n = z)
z
p (1 − p)n−z
1
=
= z.
Cnz pz (1 − p)n−z
Cn
La loi de (X1 , · · · , Xn ) sachant nX̄n est donc la loi uniforme sur {y ∈ X : y1 + · · · + yn = nX̄n }. Cette loi ne dépend
pas du paramètre p, donc X̄n est une statistique exhaustive : toute l’information sur p contenue dans X1 , · · · , Xn
est en fait contenue dans X̄n . Par ailleurs, X1 étant un estimateur de p, on sait avec le théorème de Rao-Blackwell
que IEp (X1 |X̄n ) est un estimateur préférable à X1 . Comme IEp (X1 |X̄n ) = X̄n , on retombe sur l’inévitable moyenne
empirique !
4
Téléchargement