LA STATISTIQUE, DE LA PRATIQUE A LA

LA STATISTIQUE, DE LA PRATIQUE A LA THÉORIE1

Préparation à l’agrégation externe de Mathématiques - ENS Cachan Bretagne

Compléments de cours

Année 2009/2010

1. Un problème pour le statisticien

L’interlocuteur du statisticien est un industriel, responsable d’une machine qui produit des pièces classées soit "bonnes",

codé par 0, soit "défectueuses", codé par 1. Le nombre de pièces fabriquées étant gigantesque et l’examen de chaque

pièce étant relativement coûteux, il ne peut évaluer la qualité de sa production que sur un lot de taille nfaible au

regard de la production, par exemple n= 100. Soit x= (x1,···, xn)la suite de 0 et de 1 observée, et ¯xn= 0.22 la

moyenne observée. Pour l’industriel, l’enjeu est de déterminer la proportion de pièces défectueuses. Si cette proportion

est trop importante, il décidera d’arrêter la production pour réparer ou changer la machine. Cependant, une telle

opération est très coûteuse, et il ne veut en arriver à une telle extrémité qu’en cas de nécessité absolue.

Avant de rentrer dans la modélisation à proprement parler, il est d’usage de formuler cette question : Y a-t-il lieu

de considérer qu’est intervenue une part d’aléatoire ? Si oui, où se situe cette intervention du hasard ? De manière

stéréotypée, on peut considérer en général que l’aléa peut avoir 2 types de provenances :

1:Variabilité intrinsèque du phénomène. Dans notre exemple, on peut imaginer que de petites variations

dans la fabrication (par exemple dans la position de la pièce dans la machine qui la fabrique) inﬂuent sur la

qualité. Ces variations ne sont ni maîtrisables, ni descriptibles en détail, et seule la notion de probabilité de sortie

d’une pièce défectueuse peut en rendre compte.

2:Echantillonnage. Un échantillon est tiré au hasard dans la population des pièces fabriquées, et seule la qualité

des pièces ainsi extraites est examinée.

Pour être délibérement provocateur, on peut donc considérer que le statisticien met dans le mot "aléa" la somme de

ses ignorances.

La représentation probabiliste la plus simple que puisse proposer le statisticien consiste à supposer que (x1,···, xn)∈

{0,1}nest la réalisation d’une v.a. canonique (X1,···, Xn)déﬁnie sur l’espace probabilisé ({0,1}n,B(p)⊗n). Ainsi,

pour y= (y1,···, yn)∈{0,1}n:

B(p)⊗n(X1=y1,···, Xn=yn) = ps(y)(1 −p)n−s(y),

s(y) = y1+··· +ynreprésentant le nombre de pièces défectueuses.

Le statisticien a donc supposé que les v.a. X1,···, Xnsont indépendantes et de même loi. Ces hypothèses peuvent se

justiﬁer dans les conditions expérimentales suivantes, qui correspondent chacune à l’un des 2 types d’aléa que nous

venons d’évoquer.

1: Il a examiné npièces produites pendant un certain laps de temps. Il admet que la production a été stable durant

cette période, cette stabilité étant caractérisée par la constance de la probabilité pour chaque pièce produite d’être

défectueuse. Il découle de ce postulat que les Xiont même loi. Il admet aussi que les petites variations aléatoires

pouvant inﬂuer sur la qualité de la pièce ne se répercutent pas d’une pièce à celles qui suivent, ce qui plaide en

faveur de l’indépendance des v.a.

2: Le statisticien a procédé à un tirage avec remise des npièces dans la production qui en compte N(un tirage

sans remise n’aurait pas donné un échantillon de v.a. indépendantes). Ce type de tirage lui a rendu un échantillon

issu de v.a. indépendantes et de même loi. En eﬀet :

a. Pour réaliser son tirage, il a généré nv.a. S1,···, Snindépendantes et de loi uniforme sur {1,···, N }. Les

pièces de l’échantillon sont les pièces numéros S1,···, Sn, et les codes de ces pièces (0 ou 1) sont donc des v.a.

indépendantes et de même loi.

b. Il a pris la précaution d’utiliser un générateur aléatoire de période beaucoup plus grande que N(et donc n) aﬁn

de s’assurer que les individus de l’échantillon puissent raisonnablement être considérés comme indépendants

et de loi U{1,···, N}.

Remarquons enﬁn que la probabilité pqu’une pièce soit défectueuse serait atteignable si le statisticien pouvait

faire un recensement de la production. En général, le fait d’extraire un échantillon est dû à la volonté de ne pas

faire un tel recensement (trop long, trop coûteux, ou parfois même irréalisable).

1Benoît Cadre - ENS Cachan Bretagne

2. Un modèle

L’espace des observations est {0,1}net l’ensemble des lois possibles pour (X1,···, Xn)est l’ensemble des lois de

Bernoulli {B(p)⊗n, p ∈]0,1[}, car la seule information dont dispose le statisticien sur la vraie valeur de pest que c’est

un point de ]0,1[.

Déﬁnition 2.1

1. Un modèle statistique est un triplet (En,T,Q), où Enest l’espace des nobservations (supposé

probabilisable), Test une tribu de parties de Enet Qest une famille de lois de probabilités

sur (En,T). On note plus simplement Qle modèle, s’il n’y a pas d’ambiguïté possible.

2. Le modèle statistique Qest paramétré par Θsi Q={Pθ}θ∈Θ. Il est alors identiﬁable si

l’application θ#→ Pθdéfinie sur Θest injective.

3. Le modèle statistique Q={Pθ}θ∈Θparamétré par Θest dit paramétrique si il existe d∈IN tel

que Θ⊂IRd. Sinon, il est dit non paramétrique.

4. Dans le modèle statistique {Pθ}θ∈Θ, un échantillon de loi Pθest une v.a. (souvent canonique)

(Z1,···, Zn)de loi Pθ.

Le modèle statistique considéré est P={Pp, p ∈]0,1[}avec Pp=B(p)⊗n, sur l’espace des observations X={0,1}n,

de sorte qu’un échantillon (X1,···, Xn)de la loi Ppest une suite i.i.d. de v.a. de loi B(p). Ce modèle est paramétrique

et identiﬁable.

Il est important de comprendre la démarche adoptée par le statisticien : la seule information dont il dispose est apportée

par l’observation (x1,···, xn). En étudiant les propriétés générales du modèle, i.e. les propriétés d’un échantillon de

chaque loi Pp, il sera en mesure de décider quelle est la valeur de pqui correspond le mieux à l’observation. La démarche

peut être résumée ainsi : le statisticien construit le modèle en examinant le phénomène, puis il ajuste la loi du modèle

à l’aide des observations.

Une caractéristique commune à toutes les lois de Pest qu’elles sont absolument continues par rapport à ν⊗n, où νest

la mesure de comptage sur {0,1}.

Déﬁnition 2.2 Un modèle statistique Qest dit dominé, si il existe une mesure µtelle que pour

chaque P∈Q:P&µ. La mesure µest la mesure dominante du modèle.

Le modèle statistique Pest dominé par ν⊗n.

Une fois le modèle construit, il est temps de s’interroger sur ses possiblités : quel type d’information le statisticien

peut-il fournir à l’industriel ? Quelle procédure de décision le statisticien peut-il envisager ? Nous examinerons les

notions suivantes :

1. Le statisticien peut proposer une valeur pour p, appelée estimation ponctuelle du paramètre. Cependant, partant

d’une réalité ﬂoue car aléatoire, il ne peut espérer une réponse exacte. Il faut alors fournir un ordre de grandeur

de l’imprécision de la réponse.

2. Cet ordre de grandeur est fourni par un intervalle de conﬁance sur p. Un intervalle de conﬁance peut servir à

étayer une décision : par exemple d’arrêter la production si l’intervalle contient 0.2.

3. Les procédures de décision dépendent des questions posées. Pour des raisons de qualité, l’industriel doit arrêter

sa production s’il apparaît que la probabilité de produire des pièces défectueuses est montée au dessus d’un seuil,

par exemple 0.2. Mais un arrêt coûte cher, et il ne le fera que si le statisticien arrive à le convaincre de la nécessité

d’y procéder. Tout ce qui intéresse l’industriel, c’est donc de savoir si il doit considérer que p≤0.2(et continuer

à produire) ou que p > 0.2(et se résoudre à arrêter). Une méthode pour répondre à cette question est appelée

test statistique.

3. Estimation ponctuelle

3.1 La notion d’estimateur

Pour le statisticien, la première tâche est de construire une fonction des observations x1,···, xn, dont la valeur est

proche de la vraie valeur du paramètre. Le cadre probabiliste envisagé lui fournit en prime la possibilité de dégager

une marge de conﬁance pour son approximation. Aﬁn d’exploiter au mieux les propriétés de son modèle, il considère

donc plutôt une fonction des v.a.r. X1,···, Xn.

Déﬁnition 3.1 Soit {Pθ}θ∈Θun modèle statistique, (Z1,···, Zn)un échantillon de loi Pθet gune

fonction borélienne définie sur Θet à valeurs dans IRd. Un estimateur ˆ

Gnde g(θ)est une statistique

à valeurs dans IRd, i.e. une fonction borélienne de Z1,···, Znà valeurs dans IRdindépendante de θ.

N’importe quelle fonction de X1,···, Xnest un estimateur de p. Par exemple, 0.2, X1et la moyenne empirique

Xn= (1/n)!n

i=1 Xisont des estimateurs de p.

Les observations x1,···, xnétant issues de v.a. de loi commune B(p), il est vraisemblable que sous la loi Pp, la

probabilité que les v.a. X1,···, Xnprennent les valeurs x1,···, xnsoit maximale pour la vraie valeur du paramètre p.

Cette remarque donne une indication pour construire des estimateurs.

Déﬁnition 3.2 Soit {Pθ}θ∈Θun modèle statistique dominé par µ,(Z1,···, Zn)un échantillon de loi Pθ

et Ln(.;θ)la densité de Pθpar rapport à µ.

1. La vraisemblance de l’observation (z1,···, zn)est la fonction définie sur Θpar :

θ#→ Ln(z1,···, zn;θ).

2. Supposons que pour toute observation (z1,···, zn):

arg max

θ∈ΘLn(z1,···, zn;θ) = {ˆ

θn(z1,···, zn)}.

La v.a. ˆ

θn(Z1,···, Zn)à valeurs dans Θest appelée estimateur du maximum de vraisemblance (EMV)

de θ.

L’un des estimateurs déﬁni plus haut est-il l’EMV de p? Relativement à la mesure dominante ν⊗n, la vraisemblance

de l’observation y= (y1,···, yn)∈Xest, pour tout p∈]0,1[ :

Ln(y1,···, yn;p) = ps(y)(1 −p)n−s(y).

Le maximum de cette fonction est atteint en s(y)/n (dériver le logarithme de la vraisemblance), et l’EMV est donc

Xn.

3.2 Qualité des estimateurs

D’après la loi faible des grands nombres, si (X1,···, Xn)est un échantillon de la loi Pp, alors ¯

Xn→pen Pp-

probabilité. Il est légitime de considérer que l’éventualité x∈Xtelle que xi=Xi(x)pour chaque i= 1,···, n fait

partie de l’ensemble de probabilité proche de 1 sur laquelle la moyenne empirique est proche de p. L’approximation

i=1 xi/n ≈pest ainsi justiﬁée.

Déﬁnition 3.3 Soient {Pθ}θ∈Θun modèle statistique, (Z1,···, Zn)un échantillon de loi Pθ,gune

fonction borélienne définie sur Θet à valeurs dans IRd, et ˆ

Gnun estimateur de g(θ)construit avec

Z1,···, Zn.

1. Si ˆ

Gn∈L1(Pθ)pour chaque θ∈Θ, on dit que ˆ

Gnest sans biais lorsque pour chaque θ∈Θ,

IEθˆ

Gn=g(θ). De plus, ˆ

Gnest dit asymptotiquement sans biais si IEθˆ

Gn→g(θ)lorsque n→ ∞.

2. On dit que ˆ

Gnest consistant si pour tout θ∈Θ,ˆ

Gn→g(θ)en Pθ-probabilité, lorsque n→ ∞.

L’estimateur ¯

Xnest consistant (loi faible des grands nombres). La question de la convergence presque sûre est soi-

gneusement évitée ...

Une approximation n’a d’intérêt que si on peut lui ajouter des informations sur sa précision. Compte tenu du caractère

aléatoire de cette approximation, les questions qui se soulèvent ici sont : quelle est la variabilité de l’estimateur par

rapport au paramètre ? Quelle est la distance entre l’estimateur et le paramètre ?

Déﬁnition 3.4 Soient {Pθ}θ∈Θun modèle statistique, gune fonction borélienne définie sur Θet à

valeurs dans IRd, et ˆ

Gnun estimateur de g(θ). On note IEθet varθl’espérance et la variance sous

Pθ.

1. Si ˆ

Gn∈L2(Pθ), le risque quadratique de ˆ

Gnsous Pθest

R(θ;ˆ

Gn) := IEθ*ˆ

Gn−g(θ)*2=*IEθˆ

Gn−g(θ)*2+ varθ(ˆ

Gn),

*.*désignant la norme euclidienne.

2. Soit ˆ

nun estimateur. Si ˆ

Gn,ˆ

n∈L2(Pθ)pour chaque θ∈Θ, on dit que ˆ

nest préférable àˆ

lorsque pour chaque θ∈Θ,R(θ;ˆ

n)≤R(θ;ˆ

Gn).

3. On dit que ˆ

Gnest de vitesse (vn)n(resp. asymptotiquement normal) si il existe une suite

vn+ ∞ telle que pour chaque θ∈Θ,vn(ˆ

Gn−g(θ)) converge en loi (resp. converge vers une loi

normale) sous Pθ, lorsque n→ ∞.

Les estimateurs ¯

Xnet X1de psont sans biais. De plus, ¯

Xnest préférable à l’estimateur X1, car son risque quadratique

est plus faible. En eﬀet, pour tout p∈]0,1[ :

R(p;X1) = p(1 −p),alors que R(p;¯

Xn) = p(1 −p)/n.

D’autre part, le théorème de la limite centrale nous montre aussi que ¯

Xnest asymptotiquement normal, car pour

chaque p∈]0,1[ :√n(¯

Xn−p)→N(0, p(1 −p)) en loi pour la loi Pp.

Parmi les estimateurs proposés, ¯

Xnest celui qui possède les propriétés les plus intéressantes. Néanmoins, peut-on

trouver un estimateur plus performant ?

Théorème 3.1 (Rao-Blackwell) Soient {Pθ}θ∈Θun modèle statistique, gune fonction borélienne définie

sur Θet à valeurs dans IRd, et ˆ

Gn,ˆ

ndeux estimateurs de g(θ)tels que pour chaque θ∈Θ,ˆ

Gn,ˆ

n∈

L2(Pθ). Si la statistique ˆ

Gnest exhaustive, i.e. la loi sous Pθde l’échantillon sachant ˆ

Gnne dépend

pas de θ, alors IEθ(ˆ

n|ˆ

Gn)est un estimateur préférable à ˆ

L’idée contenue dans la notion d’exhaustivité d’une statistique est la suivante : l’échantillon ne contient pas plus

d’information sur la valeur du paramètre qu’une statistique exhaustive.

Dans notre exemple, l’ordre dans lequel sont observées les pièces bonnes ou défectueuses n’apporte aucune information

supplémentaire sur le paramètre inconnu. Du coup, on peut résumer la suite des observations par la somme x1+···+xn,

ce qui indique que l’estimateur ¯

Xnest exhaustif. Faisons le calcul pour étayer cette intuition. Soit p∈]0,1[. Pour chaque

y1,···, yn∈{0,1}et z∈{0,···, n}tels que y1+··· +yn=z, on a :

Pp"X1=y1,···, Xn=yn#

#n¯

Xn=z$=

Pp"X1=y1,···, Xn=yn$

Pp(n¯

Xn=z)

=pz(1 −p)n−z

npz(1 −p)n−z=1

La loi de (X1,···, Xn)sachant n¯

Xnest donc la loi uniforme sur {y∈X:y1+··· +yn=n¯

Xn}. Cette loi ne dépend

pas du paramètre p, donc ¯

Xnest une statistique exhaustive : toute l’information sur pcontenue dans X1,···, Xn

est en fait contenue dans ¯

Xn. Par ailleurs, X1étant un estimateur de p, on sait avec le théorème de Rao-Blackwell

que IEp(X1|¯

Xn)est un estimateur préférable à X1. Comme IEp(X1|¯

Xn) = ¯

Xn, on retombe sur l’inévitable moyenne

empirique !

1 / 4 100%

Documents connexes

Devoir1

Exercices : Statistiques Paramétriques & Non Paramétriques

Devoir3

TD n 3 : Estimation par maximum de vraisemblance.

Une loi (8 points) 1 Variables Gaussiennes (12 points)

TD Estimation Maximum de Vraisemblance - Maths Supérieures

1 Estimateurs (inspirés de [1]) 2 Estimateurs du maximum de

Feuille de TD n˚7

TD no 10 : Bases de l`estimation paramétrique

M2 GRFA-rappels Econométrie (DOC, 110 Ko)

UNIVERSITE DE BOURGOGNE UV8: Probabilités et Statistiques

Devoir2

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

LA STATISTIQUE, DE LA PRATIQUE A LA

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

LA STATISTIQUE, DE LA PRATIQUE A LA

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib