Analyse non paramétrique de l`algorithme abc

Téléchargement

Analyse non param´

etrique de l’algorithme abc

G´erard Biau 1& Fr´ed´eric C´erou 2& Arnaud Guyader 2,3

1LSTA

Universit´e Pierre et Marie Curie – Paris VI

Boˆıte 158, Tour 15-25, 2`eme ´etage

4 place Jussieu, 75252 Paris Cedex 05, France

gera[email protected]

2INRIA Rennes Bretagne Atlantique

ASPI project-team

Campus de Beaulieu, 35042 Rennes Cedex, France

Frederic.C[email protected]

3Universit´e Rennes 2

Place du Recteur Henri Le Moal, CS 24307

35043 Rennes Cedex, France

arnaud.guy[email protected]

R´esum´e. Apparues `a la ﬁn des ann´ees 1990, les m´ethodes dites abc (pour Ap-

proximate Bayesian Computation) entrent dans la cat´egorie des techniques bay´esiennes.

Elles ont typiquement pour but d’estimer la densit´e a posteriori du param`etre Θpour

une observation donn´ee y0. Dans cette communication, nous pr´esentons une analyse

math´ematique d´etaill´ee d’un algorithme abc typique, en formalisant son lien avec des

techniques non param´etriques d’estimation de la densit´e conditionnelle par plus proches

voisins. Nous montrons en particulier qu’un estimateur de la densit´e correctement choisi

et calibr´e permet d’approcher la loi a posteriori, tout en donnant une heuristique pour le

choix du nombre de voisins `a conserver.

Mots-cl´es. Statistique bay´esienne, statistique non param´etrique, algorithme abc,

m´ethode des plus proches voisins.

Abstract. Dating back to the late 1990s, Approximate Bayesian Computation meth-

ods (abc in short) belong to the family of Bayesian techniques. They are used to estimate

the posterior density of a parameter Θgiven some observation y0. In this presentation,

we provide a detailed mathematical analysis of a typical abc algorithm, using its con-

nection with nonparametric nearest neighbor approaches for estimation of the conditional

distribution. We show in particular that such a density estimate, once well chosen and

calibrated, can provide an accurate approximation of the posterior distribution. We also

oﬀer some heuristics to decide how many neighbors should be kept.

Keywords. Bayesian statistics, nonparametric statistics, abc algorithm, nearest

neighbor methods.

1 Introduction

Nous consid´erons dans cette note une observation al´eatoire Yprenant ses valeurs dans

Rd. Pr´ecisons d’embl´ee qu’il s’agit d’un objet g´en´erique qui peut, par exemple, prendre

la forme d’un ´echantillon de variables ind´ependantes et identiquement distribu´ees. Plus

g´en´eralement, il peut ´egalement s’agir des premi`eres observations d’une s´erie temporelle,

ou encore d’un objet al´eatoire plus complexe, tel qu’un arbre g´en´ealogique. Le vecteur

al´eatoire Yest suppos´e en outre admettre une densit´e f(y|θ) par rapport `a la mesure

de Lebesgue sur Rd. Ici, θ∈ T ⊂ Rpd´esigne un param`etre inconnu que nous souhaitons

estimer.

Dans le paradigme bay´esien, on raisonne comme si le param`etre ´etait lui-mˆeme une

variable al´eatoire Θ`a valeurs dans T, la densit´e f(y|θ) devenant ainsi la densit´e con-

ditionnelle de Ylorsque Θ=θ. En admettant alors que la loi de Θest elle-mˆeme

absolument continue par rapport `a la mesure de Lebesgue sur Rp, de densit´e π(θ), la

loi conditionnelle de Θsachant Y=yadmet une densit´e g(θ|y), d´eﬁnie P(Θ,Y)-presque

sˆurement et donn´ee par

g(θ|y) = f(y|θ)π(θ)

f(y),

o`u

f(y) = ZT

f(y|θ)π(θ)dθ

d´esigne la densit´e marginale de la variable al´eatoire Y. Dans ce contexte, la densit´e π(θ)

est dite densit´e a priori, tandis que la densit´e g(θ|y) porte le nom de densit´e a posteriori.

Dans la pratique, l’approche bay´esienne peut ˆetre rendue diﬃcile lorsque l’on ne dis-

pose pas d’une expression analytique simple pour la densit´e a posteriori g(θ|y) et/ou les

quantit´es qui lui sont connexes. Dans une telle situation, on a en g´en´eral recours `a des

m´ethodes de simulation num´erique, par exemple les algorithmes de type MCMC (Markov

Chain Monte Carlo, voir par exemple l’ouvrage de Robert, 1996, pour une introduction

au sujet). Pourtant, malgr´e leur puissance et leur ﬂexibilit´e, les algorithmes MCMC se

r´ev`elent inop´erants dans un nombre croissant d’applications impliquant des dimensions

tr`es importantes ou des mod`eles extrˆemement compliqu´es. C’est typiquement le cas en

´ecologie et en g´en´etique des populations. Il faut alors recourir `a de nouvelles strat´egies

de simulation, les plus prometteuses `a ce jour reposant sur les algorithmes dits abc, pour

Approximate Bayesian Computation (Beaumont, Zhang et Balding, 2002 ; Blum, 2010).

Dans cette communication, nous pr´esentons une analyse math´ematique d´etaill´ee d’un

algorithme abc typique, en formalisant en particulier son lien avec des techniques non

param´etriques d’estimation de la densit´e conditionnelle par plus proches voisins. En guise

de lecture pr´eliminaire, nous renvoyons le lecteur `a l’article de synth`ese de Marin, Pudlo,

Robert et Ryder (2011) consacr´e aux proc´edures abc.

2 L’algorithme abc

Dans cette partie, nous d´esignons par S=S(Y) une statistique `a valeurs dans Rm,

construite `a partir de l’observation Yet de dimension mtypiquement plus petite que

d(c’est-`a-dire la dimension de Y). La statistique Sadmet la loi conditionnelle h(s|θ);

il peut en particulier s’agir d’une statistique exhaustive pour le param`etre Θ, mais pas

obligatoirement. Pour plus de clart´e, nous noterons dans la suite y0la r´ealisation de

l’observation initiale suivant la loi de Y(c’est donc la quantit´e dont on dispose en d´ebut

d’analyse) et s0=s(y0) la valeur de scorrespondante, y0et s0´etant suppos´ee ﬁx´ees une

fois pour toutes.

L’algorithme abc typique que nous souhaitons analyser peut alors ˆetre r´esum´e de la

fa¸con suivante :

Algorithm 1 Pseudo-code de l’algorithme abc

Require: Un entier strictement positif Net un nombre entier kNcompris entre 1 et N.

for i= 1 to Ndo

G´en´erer θi`a partir de la densit´e π(θ);

G´en´erer yi`a partir de la densit´e f(.|θi)

end for

return Les valeurs θitelles que s(yi) soit parmi les kNplus proches voisins de s(y0).

Aﬁn d’analyser cet algorithme, quelques notations suppl´ementaires sont n´ecessaires.

D´esignons par (Θ1,Y1),· · · ,(ΘN,YN) un ´echantillon de couples al´eatoires ind´ependants

et identiquement distribu´es, de densit´e commune f(θ,y) = π(θ)f(y|θ). `

A cet ´echantillon

correspond naturellement l’´echantillon (Θ1,S1),··· ,(ΘN,SN), o`u chacun des couples

consid´er´es admet la densit´e π(θ)h(s|θ). Notons enﬁn S(1),··· ,S(kN)les kNplus proches

voisins de s0parmi S1,··· ,SN, et Θ(1),...,Θ(kN)les valeurs de Θcorrespondantes.

Avec ce jeu de notations, il est clair que l’algorithme abc proc`ede en deux temps :

1. On simule d’abord (les r´ealisations de) un N-´echantillon (Θ1,Y1),··· ,(ΘN,YN).

2. On ne retient ensuite que les (r´ealisations des) variables Θ(1),··· ,Θ(kN).

Cette remarque, int´eressante en soi, ouvre la porte `a une analyse de l’algorithme

abc via des techniques math´ematiques reposant sur les plus proches voisins. Dans notre

pr´esentation, nous discuterons en particulier les propri´et´es de la distribution des kNob-

servations ainsi obtenues. Nous montrons ´egalement qu’un estimateur de la densit´e cor-

rectement choisi et calibr´e permet d’approcher cette distribution, tout en donnant une

heuristique pour le choix du nombre de voisins kN.

Bibliographie

[1] Beaumont, M.A., Zhang, W. et Balding, D. J. (2002), Approximate Bayesian Compu-

tation in population genetics, Genetics, 162, 2025–2035.

[2] Blum, M.G.B. (2010), Approximate Bayesian computation: A nonparametric perspec-

tive, Journal of the American Statistical Association, 105, 1178-1187.

[3] Marin, J.M., Pudlo, P., Robert, C. et Ryder, R. (2011), Approximate Bayesian com-

putational methods, Statistics and Computing, `a paraˆıtre.

[4] Robert, C. (1996), M´ethodes de Monte Carlo par chaˆınes de Markov, Economica, Paris.

1 / 4 100%

Analyse non paramétrique de l`algorithme abc

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Analyse non paramétrique de l`algorithme abc

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib