Analyse non param´
etrique de l’algorithme abc
G´erard Biau 1& Fr´ed´eric C´erou 2& Arnaud Guyader 2,3
1LSTA
Universit´e Pierre et Marie Curie Paris VI
Boˆıte 158, Tour 15-25, 2`eme ´etage
4 place Jussieu, 75252 Paris Cedex 05, France
2INRIA Rennes Bretagne Atlantique
ASPI project-team
Campus de Beaulieu, 35042 Rennes Cedex, France
3Universit´e Rennes 2
Place du Recteur Henri Le Moal, CS 24307
35043 Rennes Cedex, France
esum´e. Apparues `a la fin des ann´ees 1990, les m´ethodes dites abc (pour Ap-
proximate Bayesian Computation) entrent dans la cat´egorie des techniques baesiennes.
Elles ont typiquement pour but d’estimer la densit´e a posteriori du param`etre Θpour
une observation donn´ee y0. Dans cette communication, nous pr´esentons une analyse
math´ematique d´etaill´ee d’un algorithme abc typique, en formalisant son lien avec des
techniques non param´etriques d’estimation de la densit´e conditionnelle par plus proches
voisins. Nous montrons en particulier qu’un estimateur de la densit´e correctement choisi
et calibr´e permet d’approcher la loi a posteriori, tout en donnant une heuristique pour le
choix du nombre de voisins `a conserver.
Mots-cl´es. Statistique bay´esienne, statistique non param´etrique, algorithme abc,
m´ethode des plus proches voisins.
Abstract. Dating back to the late 1990s, Approximate Bayesian Computation meth-
ods (abc in short) belong to the family of Bayesian techniques. They are used to estimate
the posterior density of a parameter Θgiven some observation y0. In this presentation,
we provide a detailed mathematical analysis of a typical abc algorithm, using its con-
nection with nonparametric nearest neighbor approaches for estimation of the conditional
distribution. We show in particular that such a density estimate, once well chosen and
calibrated, can provide an accurate approximation of the posterior distribution. We also
offer some heuristics to decide how many neighbors should be kept.
Keywords. Bayesian statistics, nonparametric statistics, abc algorithm, nearest
neighbor methods.
1
1 Introduction
Nous consid´erons dans cette note une observation al´eatoire Yprenant ses valeurs dans
Rd. Pr´ecisons d’embl´ee qu’il s’agit d’un objet g´en´erique qui peut, par exemple, prendre
la forme d’un ´echantillon de variables ind´ependantes et identiquement distribu´ees. Plus
g´en´eralement, il peut ´egalement s’agir des premi`eres observations d’une s´erie temporelle,
ou encore d’un objet al´eatoire plus complexe, tel qu’un arbre g´en´ealogique. Le vecteur
al´eatoire Yest suppos´e en outre admettre une densit´e f(y|θ) par rapport `a la mesure
de Lebesgue sur Rd. Ici, θ∈ T Rpd´esigne un param`etre inconnu que nous souhaitons
estimer.
Dans le paradigme bay´esien, on raisonne comme si le param`etre ´etait lui-mˆeme une
variable al´eatoire Θ`a valeurs dans T, la densit´e f(y|θ) devenant ainsi la densit´e con-
ditionnelle de Ylorsque Θ=θ. En admettant alors que la loi de Θest elle-mˆeme
absolument continue par rapport `a la mesure de Lebesgue sur Rp, de densit´e π(θ), la
loi conditionnelle de Θsachant Y=yadmet une densit´e g(θ|y), d´efinie P(Θ,Y)-presque
sˆurement et donn´ee par
g(θ|y) = f(y|θ)π(θ)
¯
f(y),
o`u
¯
f(y) = ZT
f(y|θ)π(θ)dθ
d´esigne la densit´e marginale de la variable al´eatoire Y. Dans ce contexte, la densit´e π(θ)
est dite densit´e a priori, tandis que la densit´e g(θ|y) porte le nom de densit´e a posteriori.
Dans la pratique, l’approche baesienne peut ˆetre rendue difficile lorsque l’on ne dis-
pose pas d’une expression analytique simple pour la densit´e a posteriori g(θ|y) et/ou les
quantit´es qui lui sont connexes. Dans une telle situation, on a en g´en´eral recours `a des
m´ethodes de simulation num´erique, par exemple les algorithmes de type MCMC (Markov
Chain Monte Carlo, voir par exemple l’ouvrage de Robert, 1996, pour une introduction
au sujet). Pourtant, malgr´e leur puissance et leur flexibilit´e, les algorithmes MCMC se
r´ev`elent inop´erants dans un nombre croissant d’applications impliquant des dimensions
tr`es importantes ou des mod`eles extrˆemement compliqu´es. C’est typiquement le cas en
´ecologie et en en´etique des populations. Il faut alors recourir `a de nouvelles strat´egies
de simulation, les plus prometteuses `a ce jour reposant sur les algorithmes dits abc, pour
Approximate Bayesian Computation (Beaumont, Zhang et Balding, 2002 ; Blum, 2010).
Dans cette communication, nous pr´esentons une analyse math´ematique d´etaill´ee d’un
algorithme abc typique, en formalisant en particulier son lien avec des techniques non
param´etriques d’estimation de la densit´e conditionnelle par plus proches voisins. En guise
de lecture pr´eliminaire, nous renvoyons le lecteur `a l’article de synth`ese de Marin, Pudlo,
Robert et Ryder (2011) consacr´e aux proc´edures abc.
2
2 L’algorithme abc
Dans cette partie, nous esignons par S=S(Y) une statistique `a valeurs dans Rm,
construite `a partir de l’observation Yet de dimension mtypiquement plus petite que
d(c’est-`a-dire la dimension de Y). La statistique Sadmet la loi conditionnelle h(s|θ);
il peut en particulier s’agir d’une statistique exhaustive pour le param`etre Θ, mais pas
obligatoirement. Pour plus de clart´e, nous noterons dans la suite y0la r´ealisation de
l’observation initiale suivant la loi de Y(c’est donc la quantit´e dont on dispose en d´ebut
d’analyse) et s0=s(y0) la valeur de scorrespondante, y0et s0´etant suppos´ee fix´ees une
fois pour toutes.
L’algorithme abc typique que nous souhaitons analyser peut alors ˆetre r´esum´e de la
fa¸con suivante :
Algorithm 1 Pseudo-code de l’algorithme abc
Require: Un entier strictement positif Net un nombre entier kNcompris entre 1 et N.
for i= 1 to Ndo
G´en´erer θi`a partir de la densit´e π(θ);
G´en´erer yi`a partir de la densit´e f(.|θi)
end for
return Les valeurs θitelles que s(yi) soit parmi les kNplus proches voisins de s(y0).
Afin d’analyser cet algorithme, quelques notations suppl´ementaires sont n´ecessaires.
D´esignons par (Θ1,Y1),· · · ,(ΘN,YN) un ´echantillon de couples al´eatoires ind´ependants
et identiquement distribu´es, de densit´e commune f(θ,y) = π(θ)f(y|θ). `
A cet ´echantillon
correspond naturellement l’´echantillon (Θ1,S1),··· ,(ΘN,SN), o`u chacun des couples
consid´er´es admet la densit´e π(θ)h(s|θ). Notons enfin S(1),··· ,S(kN)les kNplus proches
voisins de s0parmi S1,··· ,SN, et Θ(1),...,Θ(kN)les valeurs de Θcorrespondantes.
Avec ce jeu de notations, il est clair que l’algorithme abc proc`ede en deux temps :
1. On simule d’abord (les ealisations de) un Nechantillon (Θ1,Y1),··· ,(ΘN,YN).
2. On ne retient ensuite que les (r´ealisations des) variables Θ(1),··· ,Θ(kN).
Cette remarque, int´eressante en soi, ouvre la porte `a une analyse de l’algorithme
abc via des techniques math´ematiques reposant sur les plus proches voisins. Dans notre
pr´esentation, nous discuterons en particulier les propri´et´es de la distribution des kNob-
servations ainsi obtenues. Nous montrons ´egalement qu’un estimateur de la densit´e cor-
rectement choisi et calibr´e permet d’approcher cette distribution, tout en donnant une
heuristique pour le choix du nombre de voisins kN.
3
Bibliographie
[1] Beaumont, M.A., Zhang, W. et Balding, D. J. (2002), Approximate Bayesian Compu-
tation in population genetics, Genetics, 162, 2025–2035.
[2] Blum, M.G.B. (2010), Approximate Bayesian computation: A nonparametric perspec-
tive, Journal of the American Statistical Association, 105, 1178-1187.
[3] Marin, J.M., Pudlo, P., Robert, C. et Ryder, R. (2011), Approximate Bayesian com-
putational methods, Statistics and Computing, `a paraˆıtre.
[4] Robert, C. (1996), M´ethodes de Monte Carlo par chaˆınes de Markov, Economica, Paris.
4
1 / 4 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !