Analyse non paramétrique de l`algorithme abc

publicité
Analyse non paramétrique de l’algorithme abc
Gérard Biau
1
& Frédéric Cérou
2
& Arnaud Guyader
2,3
1
LSTA
Université Pierre et Marie Curie – Paris VI
Boı̂te 158, Tour 15-25, 2ème étage
4 place Jussieu, 75252 Paris Cedex 05, France
[email protected]
2
INRIA Rennes Bretagne Atlantique
ASPI project-team
Campus de Beaulieu, 35042 Rennes Cedex, France
[email protected]
3
Université Rennes 2
Place du Recteur Henri Le Moal, CS 24307
35043 Rennes Cedex, France
[email protected]
Résumé. Apparues à la fin des années 1990, les méthodes dites abc (pour Approximate Bayesian Computation) entrent dans la catégorie des techniques bayésiennes.
Elles ont typiquement pour but d’estimer la densité a posteriori du paramètre Θ pour
une observation donnée y 0 . Dans cette communication, nous présentons une analyse
mathématique détaillée d’un algorithme abc typique, en formalisant son lien avec des
techniques non paramétriques d’estimation de la densité conditionnelle par plus proches
voisins. Nous montrons en particulier qu’un estimateur de la densité correctement choisi
et calibré permet d’approcher la loi a posteriori, tout en donnant une heuristique pour le
choix du nombre de voisins à conserver.
Mots-clés. Statistique bayésienne, statistique non paramétrique, algorithme abc,
méthode des plus proches voisins.
Abstract. Dating back to the late 1990s, Approximate Bayesian Computation methods (abc in short) belong to the family of Bayesian techniques. They are used to estimate
the posterior density of a parameter Θ given some observation y 0 . In this presentation,
we provide a detailed mathematical analysis of a typical abc algorithm, using its connection with nonparametric nearest neighbor approaches for estimation of the conditional
distribution. We show in particular that such a density estimate, once well chosen and
calibrated, can provide an accurate approximation of the posterior distribution. We also
offer some heuristics to decide how many neighbors should be kept.
Keywords. Bayesian statistics, nonparametric statistics, abc algorithm, nearest
neighbor methods.
1
1
Introduction
Nous considérons dans cette note une observation aléatoire Y prenant ses valeurs dans
Rd . Précisons d’emblée qu’il s’agit d’un objet générique qui peut, par exemple, prendre
la forme d’un échantillon de variables indépendantes et identiquement distribuées. Plus
généralement, il peut également s’agir des premières observations d’une série temporelle,
ou encore d’un objet aléatoire plus complexe, tel qu’un arbre généalogique. Le vecteur
aléatoire Y est supposé en outre admettre une densité f (y|θ) par rapport à la mesure
de Lebesgue sur Rd . Ici, θ ∈ T ⊂ Rp désigne un paramètre inconnu que nous souhaitons
estimer.
Dans le paradigme bayésien, on raisonne comme si le paramètre était lui-même une
variable aléatoire Θ à valeurs dans T , la densité f (y|θ) devenant ainsi la densité conditionnelle de Y lorsque Θ = θ. En admettant alors que la loi de Θ est elle-même
absolument continue par rapport à la mesure de Lebesgue sur Rp , de densité π(θ), la
loi conditionnelle de Θ sachant Y = y admet une densité g(θ|y), définie P(Θ,Y ) -presque
sûrement et donnée par
f (y|θ)π(θ)
g(θ|y) =
,
f¯(y)
où
f¯(y) =
Z
f (y|θ)π(θ)dθ
T
désigne la densité marginale de la variable aléatoire Y . Dans ce contexte, la densité π(θ)
est dite densité a priori, tandis que la densité g(θ|y) porte le nom de densité a posteriori.
Dans la pratique, l’approche bayésienne peut être rendue difficile lorsque l’on ne dispose pas d’une expression analytique simple pour la densité a posteriori g(θ|y) et/ou les
quantités qui lui sont connexes. Dans une telle situation, on a en général recours à des
méthodes de simulation numérique, par exemple les algorithmes de type MCMC (Markov
Chain Monte Carlo, voir par exemple l’ouvrage de Robert, 1996, pour une introduction
au sujet). Pourtant, malgré leur puissance et leur flexibilité, les algorithmes MCMC se
révèlent inopérants dans un nombre croissant d’applications impliquant des dimensions
très importantes ou des modèles extrêmement compliqués. C’est typiquement le cas en
écologie et en génétique des populations. Il faut alors recourir à de nouvelles stratégies
de simulation, les plus prometteuses à ce jour reposant sur les algorithmes dits abc, pour
Approximate Bayesian Computation (Beaumont, Zhang et Balding, 2002 ; Blum, 2010).
Dans cette communication, nous présentons une analyse mathématique détaillée d’un
algorithme abc typique, en formalisant en particulier son lien avec des techniques non
paramétriques d’estimation de la densité conditionnelle par plus proches voisins. En guise
de lecture préliminaire, nous renvoyons le lecteur à l’article de synthèse de Marin, Pudlo,
Robert et Ryder (2011) consacré aux procédures abc.
2
2
L’algorithme abc
Dans cette partie, nous désignons par S = S(Y ) une statistique à valeurs dans Rm ,
construite à partir de l’observation Y et de dimension m typiquement plus petite que
d (c’est-à-dire la dimension de Y ). La statistique S admet la loi conditionnelle h(s|θ);
il peut en particulier s’agir d’une statistique exhaustive pour le paramètre Θ, mais pas
obligatoirement. Pour plus de clarté, nous noterons dans la suite y 0 la réalisation de
l’observation initiale suivant la loi de Y (c’est donc la quantité dont on dispose en début
d’analyse) et s0 = s(y 0 ) la valeur de s correspondante, y 0 et s0 étant supposée fixées une
fois pour toutes.
L’algorithme abc typique que nous souhaitons analyser peut alors être résumé de la
façon suivante :
Algorithm 1 Pseudo-code de l’algorithme abc
Require: Un entier strictement positif N et un nombre entier kN compris entre 1 et N.
for i = 1 to N do
Générer θ i à partir de la densité π(θ);
Générer y i à partir de la densité f (.|θi )
end for
return Les valeurs θ i telles que s(y i ) soit parmi les kN plus proches voisins de s(y 0 ).
Afin d’analyser cet algorithme, quelques notations supplémentaires sont nécessaires.
Désignons par (Θ1 , Y 1 ), · · · , (ΘN , Y N ) un échantillon de couples aléatoires indépendants
et identiquement distribués, de densité commune f (θ, y) = π(θ)f (y|θ). À cet échantillon
correspond naturellement l’échantillon (Θ1 , S 1 ), · · · , (ΘN , S N ), où chacun des couples
considérés admet la densité π(θ)h(s|θ). Notons enfin S (1) , · · · , S (kN ) les kN plus proches
voisins de s0 parmi S 1 , · · · , S N , et Θ(1) , . . . , Θ(kN ) les valeurs de Θ correspondantes.
Avec ce jeu de notations, il est clair que l’algorithme abc procède en deux temps :
1. On simule d’abord (les réalisations de) un N-échantillon (Θ1 , Y 1 ), · · · , (ΘN , Y N ).
2. On ne retient ensuite que les (réalisations des) variables Θ(1) , · · · , Θ(kN ) .
Cette remarque, intéressante en soi, ouvre la porte à une analyse de l’algorithme
abc via des techniques mathématiques reposant sur les plus proches voisins. Dans notre
présentation, nous discuterons en particulier les propriétés de la distribution des kN observations ainsi obtenues. Nous montrons également qu’un estimateur de la densité correctement choisi et calibré permet d’approcher cette distribution, tout en donnant une
heuristique pour le choix du nombre de voisins kN .
3
Bibliographie
[1] Beaumont, M.A., Zhang, W. et Balding, D. J. (2002), Approximate Bayesian Computation in population genetics, Genetics, 162, 2025–2035.
[2] Blum, M.G.B. (2010), Approximate Bayesian computation: A nonparametric perspective, Journal of the American Statistical Association, 105, 1178-1187.
[3] Marin, J.M., Pudlo, P., Robert, C. et Ryder, R. (2011), Approximate Bayesian computational methods, Statistics and Computing, à paraı̂tre.
[4] Robert, C. (1996), Méthodes de Monte Carlo par chaı̂nes de Markov, Economica, Paris.
4
Téléchargement