SEIZIÈME COLLOQUE GRETSI — 15-19 SEPTEMBRE 1997 — GRENOBLE 519
Recuit simulé par augmentation de données appliqué à la
déconvolution bayésienne
Arnaud Doucet
LETI (CEA-Technologies Avancées)
DEIN - SPE CEA Saclay
91191 Gif-sur-Yvette cedex
ETIS - UCP ENSEA URA CNRS 2235
95014 Cergy-Pontoise cedex
RÉSUMÉ
Dans ce papier, nous proposons des algorithmes de recuit simulé,
essentiellement basés sur l’augmentation de données, afin de résoudre
des problèmes d’estimation bayésienne pour les modèles markoviens
linéaires gaussiens à sauts. Ces algorithmes sont appliqués avec
succès à un problème de déconvolution impulsionnelle.
ABSTRACT
In this paper, we propose simulated annealing algorithms mainly
based on data augmentation to solve Bayesian estimation problems
for jump Markov linear Gaussian systems. These algorithms are
successfully applied to deconvolution of sparse spike trains.
1 Introduction
Les modèles markoviens linéaires gaussiens à sauts ont
de multiples applications en radar et télécommunications.
Ils sont aussi implicitement très utilisés en géophysique et
en nucléaire car ils incluent les processus BG (Bernoulli-
Gauss) filtrés linéairement. La structure mathématique des
problèmes d’estimation optimale pour ces modèles est bien
connue. Malheureusement, elle requiert des coûts de calcul
et de mémoire croissant exponentiellement avec le temps
d’observation. De nombreuses méthodes sous-optimales ont
été proposées dans la littérature.
Dans ce papier, nous abordons des problèmes d’estima-
tion Bayésienne (optimale) hors-ligne pour cette classe de mo-
dèles. Ces problèmes peuvent se ramener à des problèmes
d’optimisation combinatoire. Nous présentons tout d’abord
un algorithme MCMC (Monte Carlo par chaîne de Markov)
basé sur l’augmentation de données permettant de simuler des
échantillons selon la loi jointe a posteriori. Cet algorithme
construit une chaîne de Markov convergeant uniformément
géométriquement vers cette loi. Cette propriété de conver-
gence est utilisée pour développer des algorithmes d’optimi-
sation de type recuit simulé, i.e. des chaînes de Markov non
homogènes convergeant vers les maxima globaux requis.
2 Modèle markovien linéaire gaussien
à sauts
Un modèle markovien linéaire gaussien vérifie pour k2
NÉ:
xkDAÄrkÅxkÄ1CBÄrkÅvkCFÄrkÅuk
ykDCÄrkÅxkCDÄrkÅwkCGÄrkÅuk
xk2Rnx,yk2Rny,uk2Rnu,vk2Rnvet wk2Rnw,
les matrices étant de dimensions appropriées. ukest un terme
de contrôle connu. vkòNê0;Invëet wkòNê0;Inwësont
deux suites i.i.d. gaussiennes et vk,wket x0òNÄb
x0;P0Å
sont mutuellement indépendants pour tout k2NÉ.rkest une
chaîne de Markov homogène du premier ordre à états finis de
probabilités de transition
pij ,Pr àrkC1DjåårkDiâ
.i;j/2SÇS,SDf1; :::; sget de distribution initiale
pi,Pr àr1Diâ. Dans la suite du papier, on supposera que
les paramètres suivants du modèle
nb
x0;P0;pij;p
i;A.
i/;B.
i/;C.
i/;D.
i/;F.
i/;G.
i/
o
sont connus. On désigne par la suite Y1!T,Äy1; :::; yTÅ,
R1!T,Är1; :::; rTÅet X0!T,Äx0;x1; :::; xTÅ(les redon-
dances intrinsèques au passage en représentation d’état étant
éliminées).
Les hypothèses suivantes sont adoptées :
1. pi>0etp
i;j>0 pour tout i;j2SÇS.
2. La distribution jointe apriori pÄX
0!Tå
åR
1!TÅest une
distribution gaussienne non dégénérée.
3. DtÄrkÅDÄrkÅ>0 pour kD1; :::; T.
L’hypothèse 1 peut être facilement affaiblie. L’hypothèse
2 sera levée dans (5.2). Nous nous intéressons aux trois
problèmes suivants :
Estimation de la distribution jointe a posteriori
pÄX0!T;R1!TååY1!TÅ.
520
Maximisation de la distribution jointe a posteriori
pÄX0!T;R1!TååY1!TÅ.
Maximisation de la distribution marginale a posteriori
pÄR1!TååY1!TÅ.
Par la suite, afin d’alléger les notations, nous indexons ar-
bitrairement les sTréalisations possibles de la chaîne de Mar-
kov à états finis àRl
1!TIlD1; :::; sTâet notons abusivement
R'ÄR1!TÅdR1!T':ST!Rpour PsT
lD1'ÄRl
1!TÅ.
Nous gardons toutefois la notation Rl
1!Tau lieu de lpour res-
ter “homogène” avec X0!T.
3 Estimation bayésienne par MCMC
On peut facilement exprimer analytiquement la distribution
a posteriori pÄX0!T;R1!TååY1!TÅ. Malheureusement, cette
distribution nécessite le calcul de sTtermes. En pratique, cette
expression n’est donc pas utilisable. De nombreux travaux ont
proposé des approximations analytiques sous-optimales pour
estimer les lois marginales pÄxkååY1!TÅet cette loi jointe [6].
Nous proposons ici une approximation basée sur une mé-
thode MCMC dans le cadre de l’augmentation de données
[11]. Les méthodes MCMC utilisées en physique depuis les
années 50 et plus récemment en imagerie par Geman et Geman
[7] sont des méthodes stochastiques pour simuler des échan-
tillons selon des distributions complexes. Elles ont récemment
révolutionné le domaine des statistiques appliquées. L’idée de
base des méthodes MCMC est de construire une chaîne de
Markov homogène nR.k/
1!T;X.k/
0!TIk2Noqui admet comme
distribution d’équilibre la distribution selon laquelle on dé-
sire simuler des échantillons. Nous utilisons ici l’algorithme
dit d’augmentation de données.
Algorithme : Augmentation de Données
1. Sélectionner aléatoirement êR.0/
1!T;X.0/
0!Të,iD1.
2. Répéter :
–SimulerX
.i/
0!Tselon pêX0!TååY1!T;R.iÄ1/
1!Të.
–SimulerR
.i/
1!Tselon pêR1!TååY1!T;X.i/
0!Të.
i iC1
pêX0!TååY1!T;R.iÄ1/
1!Tëest une distribution gaussienne
multivariée et pêR1!TååY1!T;X.i/
0!Tëest une distribution
discrète multivariée. Il n’est heureusement pas nécessaire
de calculer ces lois pour simuler des échantillons distribués
selon elles. Pour cela, on utilise la décomposition filtrage
avant/simulation arrière [2] dont la complexité est en O.T/.
L’application de l’augmentation de données pour de tels
modèles est présentée dans [2]. Ici, nous montrons que cet
algorithme a de “bonnes” propriétés de convergence que nous
utiliserons par la suite pour obtenir des versions recuit simulé.
Proposition 3.1 [6] 906C<C1 et 0<1
tels que pour toute distribution initiale p0ÄX0!T;R1!TÅ,
la distribution après iitérations de êX.i/
0!T;R.i/
1!Tënotée
piÄX0!T;R1!TÅvérifie
ç
çpiÄX0!T;R1!TÅÄpÄX0!T;R1!TååY1!TÅç
çTV 6Cö
i
k:kTV désigne la norme de la variation totale [11].
La démonstration s’appuie essentiellement sur le principe
de dualité introduit par Diebolt et Robert [5]. La chaîne de
Markov simulée converge uniformément géométriquement.
Ce résultat implique un théorème central limite pour les
moyennes ergodiques. Dans de nombreuses applications, on
ne cherche pas à estimer la distribution a posteriori mais
seulement à déterminer ses maxima joints ou marginaux. Ce
résultat est aussi important pour obtenir des versions non
homogènes de l’algorithme convergeant vers ces maxima.
4 Maximisation jointe
Nous désirons maximiser la distribution jointe a posteriori,
i.e. nous cherchons à estimer
arg max
.X0!T;Rl
1!T/pÄX0!TååY1!T;Rl
1!TÅpÄRl
1!TååY1!TÅ
La distribution pÄX0!TååY1!T;Rl
1!TÅest Gaussienne et non
dégénérée d’après les hypothèses, i.e. X0!TååY1!T;Rl
1!Tò
NÄml;6
lÅ. Il est équivalent de résoudre le problème d’opti-
misation combinatoire :
arg max
Rl
1!Tåå6lååÄ1=2pÄRl
1!TååY1!TÅ
åå6låådésigne le déterminant de la matrice 6l.On
note Ml’ensemble de ces maxima globaux. Une fois
cet estimateur obtenu, on obtient alors directement les
états associés X0!Tpar un lisseur de Kalman. Soit
fT.i/Ii2Ngune suite décroissante de “températures”. Par
la suite, on désigne par p1=T.i/ÄX0!TååY1!T;R1!TÅla dis-
tribution proportionnelle à p1=T.i/ÄX0!TååY1!T;R1!TÅet
p1=T.i/ÄR1!TååY1!T;X0!TÅla distribution proportionnelle à
p1=T.i/ÄR1!TååY1!T;X0!TÅ. Nous proposons tout d’abord
une version recuit simulé de l’algorithme d’augmentation de
données.
Algorithme : version recuit simulé de l’augmentation de
données
1. Sélectionner aléatoirement êR.0/
1!T;X.0/
0!Të,iD1.
2. Répéter :
–SimulerX
.i/
0!Tselon p1=T.i/êX0!TååY1!T;R.iÄ1/
1!Të.
–SimulerR
.i/
1!Tselon p1=T.i/êR1!TååY1!T;X.i/
0!Të.
i iC1
On simule des échantillons selon ces lois en utilisant la
procédure filtre avant/simulation arrière. On peut obtenir le
résultat suivant.
Proposition 4.1 [6] 9L>0tel que pour ç>Let u>0
si fT.i/Ii2Ngsatisfait T.i/Dç=ln .iCu/alors la distri-
bution à l’itération ide nR.i/
1!TIi2Novérifie pour toute dis-
tribution initiale lim
i!C1 RååpiÄR1!TÅÄp1ÄR1!TÅåådR1!TD
0
p1ÄRl
1!TÅ,åå6låå1=2
PRj
1!T2Mååå6jååå
1=2éMÄRl
1!TÅ
La distribution de nR.i/
1!TIi2Noconverge donc vers une
distribution concentrée sur les maxima globaux. Toutefois en
général, cette distribution n’est pas la distribution uniforme sur
SEIZIÈMECOLLOQUEGRETSI15-19SEPTEMBRE1997GRENOBLE 521
cetensemble.Lavantageprincipaldecetalgorithmeestqu’il
nenécessitepasl’évaluationgénéralementnumériquement
coûteusedelafonctionàmaximiser.
5Maximisationmarginale
Ondésiremaintenantobtenirl’estimateursuivant:
argmax
Rl
1!T
pÄRl
1!TååY1!TÅ
C’estunproblèmed’optimisationcombinatoireavecsTpossi-
bilités.OnnoteMl’ensembledecesmaximaglobaux.
5.1Recuitsimuléutilisantl’augmentationde
données
Lepremieralgorithmequenousproposonsestbasésur
l’augmentationdedonnées.L’idéeconsisteàutiliserl’algo-
rithmed’augmentationdedonnéescommedistributiondepro-
positionpourunalgorithmeM-H(Metropolis-Hastings).La
réversibilitédeladistributiondepropositionparrapportà
pÄR1!TååY1!TÅdonneuneexpressionsimplepourlerapport
d’acceptationdescandidats.
Algorithme:recuitsimuléavecaugmentationdedon-
nées.
1.Sélectionneraléatoirement êR.0/
1!T;X.0/
0!Të,iD1.
2.Répéter:
SimulerX
.i/
0!TselonpêX0!TååY1!T;R.iÄ1/
1!Të.
SimuleruncandidatRc
1!TselonpêR1!TååY1!T;X.i/
0!Të
etcalculer
ãêR.iÄ1/
1!T;Rc
1!TëD2
4pÄRc
1!TååY1!TÅ
pêR.iÄ1/
1!TåååY1!Të3
5
1=T.i/Ä1
Simuleru
iòU.0;1/.Siu
iêR
.iÄ1/
1!T;R
c
1!Tëalors
R.i/
1!TDRc
1!TsinonR.i/
1!TDR.iÄ1/
1!T.
i iC1
CetalgorithmenécessitelecalculdepÄR1!TååY1!TÅ/
pÄY1!TååR1!TÅpÄR1!TÅàuneconstantedeproportionna-
litéprès.Lepremiertermeestletermedevraisemblanceob-
tenudirectementparlefiltredeKalmanetpÄR1!TÅsecal-
culedirectement.LefiltredeKalmanétantcalculélorsdela
procédurefiltrageavant/simulationarrière,lachargedecal-
culsupplémentaireparrapportàl’augmentationdedonnées
estfaible.Ensuivantdesargumentsclassiques,onobtientla
convergencedepiÄR1!TÅversladistributionuniformesurM
pourunedécroissancelogarithmiquedelatempérature.
5.2Recuitsimulésurl’espacediscret
L’algorithmeprécédentmaximisantladistributionmar-
ginaleesttrèssimpleàimplémenteràpartirdedel’al-
gorithmed’augmentationdedonnées.Toutefois,ilneper-
metpasd’aborderlesmodèlespourlesquelsl’hypothèse2
n’estpasvérifiée,lachaînedevenantréductible[11].C’est
malheureusementlecaspourlesprocessusBG(bienque
cesprocessusproviennentsouventdel’approximationpar
unDiracd’unecomposanted’unmélangededeuxGaus-
siennes).Onpeutleverl’hypothèse2enconstruisantune
chaînedeMarkovuniquementsurST.Onsimulealorsune
chaînedeMarkovnonhomogènededistributioninvariante
p1=T.i/ÄR1!TååY1!TÅàl’itérationi.Cecipeutêtreréaliséen
simulantdirectementselon p1=T.i/êrkååR1!Tnfkg;Y1!Të/
p1=T.i/êrkååR1!Tnfkg;Y1!TëpourkD1;:::;Tauquelcason
aunéchantillonneurdeGibbs[7]oupardespasdeM-Had-
mettant p1=T.i/êrkååR1!Tnfkg;Y1!Tëcommeloiinvariante.
Cetteidéeestséduisantemaisuncalculdirectdecesdistri-
butionsrequiertOÄT2Åopérationsetestinutilisablepratique-
ment.Danslecasd’unMAàexcitationBG,Champagnatet
al.[4]ontproposéunalgorithmeréduisantcettecomplexité.
Pouruneclassedemodèlespluslarge,Carteretal.[3]ont
proposétrèsrécemmentunalgorithmepermettantdesimuler
seloncesdistributionsenO.T/opérations.Eneffet,ona
pêrkååR1!Tnfkg;Y1!Të/pÄY1!NååR1!TÅpêrkååR1!Tnfkgë
orlavraisemblancevérifie
pÄY1!TååR1!TÅD
pÄY1!kÄ1ååR1!kÄ1ÅpÄy.k/jY1!kÄ1;R1!kÄ1Å
ÇZpÄx.k/jR1!k;Y1!kÅ
ÇpÄYkC1!TååRkC1!T;x.k/Ådx.k/
Enutilisantcettedécomposition,Carteretal.proposeun
échantillonneurdeGibbsàbalayagedéterministedanslecas
oùAÄrkÅestinversible,voir[3]pourlesdétails.(Unelé-
gèremodificationestàapporteràleurséquationspourini-
tialiserlefiltrearrière).Notonsqu’onpeutaussiutiliserdi-
rectementcerésultatpourobtenirunalgorithmedemaximi-
sationdéterministedutypeSMLR[10]decomplexitéréduite.
DanslecasoùlaséquenceR1!Testindépendante,i.e.lorsque
pÄR1!TÅD
T
Q
kD1
pÄrkÅ,onadepluslerésultatsuivantquiest
uncorollairede([8],Th.5.1):
Proposition5.1Lacorrélationmaximale(voirf.[8])
delachaînedeMarkovsimuléeparl’échantillonneurde
Gibbshomogèneestinférieureàcelleobtenueparl’augmen-
tationdedonnéescritedanslasection(3).
L’échantillonneurdeGibbsàbalayagedéterministen’étant
pasréversible,onnepeuttoutefoisconclureàpartirdeces
résultatsàuneplusgrandevitessedeconvergencedecet
algorithme.Pourobtenirunetelleconclusion,onpeutpar
exemplesymétriserlesnoyauxdetransitionafind’assurerla
réversibilitémaisonnegardealorsqu’unevaleursimuesur
deux!
Onpeutdéfinirdirectementuneversionrecuitsimuléde
l’algorithmedeCarteretKohn.Lesrésultatsclassiquesde
convergences’appliquentdirectementdanscecas[7].
6 Applicationàladéconvolution
Nousprésentonsiciuneapplicationdecesalgorithmesà
ladéconvolutionimpulsionnelleBayésienne.D’autresappli-
cationssontprésentéesdans[6].
522
On s’intéresse au signal issu d’un capteur neutronique. On
peut modéliser ce signal par un modèle AR(2) excité par un
bruit de dynamique i.i.d. modélisé par un mélange de deux
Gaussiennes v0
k:
v0
kòïNÄ02
vÅC.
1Äï
/NÄ0;õ
v
2Å(1)
i.e. avec une probabilité 0 <ï<1 une particule arrive
sur le capteur, avec une probabilité .1Äï/on modélise les
perturbations externes en entrée du capteur. Typiquement, on a
õv<< õv. Ce signal est observé dans du bruit blanc Gaussien.
Ce signal peut être modélisé ainsi :
xkD a1a2
10
!
x
kÄ1
CB
Ä
r
k
Å
v
k(2)
ykDê10
ë
x
k
Cõ
w
w
k(3)
rkest donc ici i.i.d. à valeurs dans SDf1;2g;p11 D1Äï,
B.1/Dêõv0ëtet B.2/Dêõv0ët.ïD0:1,
õvD0:3, õvD0:1õv,a1D1:511;a20:549 et õwD0:3
sont supposés ici connus et TD250. Les hypothèses 1,2 et 3
sont vérifiées. Si on négligeait les perturbations en entrée du
capteur alors õvD0 et l’hypothèse 2 n’est plus vérifiée.
La convergence des algorithmes de recuit simulé requiert
en théorie des températures en T.i/Dç=ln .iCu/, ce qui
est inapplicable en pratique. Dans les simulations présentées,
nous utilisons une température en T.i/Dç=ã
i. La figure 1
représente une réalisation de X1!Tet des observations Y1!T.
050 100 150 200 250
−2
−1.5
−1
−0.5
0
0.5
1
FIG. 1 signal simulé X1!T(trait plein) et observations
Y1!T(pointillés)
050 100 150 200 250
1
1.5
2
2.5
3
3.5
4
4.5
5
FIG.2R
1!Tsimulée (haut) et estimées (milieu, bas)
La figure 2 représente la chaîne de Markov simulée R1!T
(haut de la figure) et l’estimation de son MAP marginal par
la version recuit simulé de l’échantillonnage de Gibbs (mi-
lieu) et par le recuit simulé utilisant l’augmentation de données
(bas) obtenus après 50 itérations. Pour ce modèle, les perfor-
mances de l’échantillonneur de Gibbs sont expérimentalement
meilleures que celles du recuit utilisant l’augmentation de don-
nées.
7Conclusion
Dans cet article, nous avons proposé des versions re-
cuit simulé d’algorithmes MCMC pour résoudre des pro-
blèmes d’estimation bayésienne pour les modèles markoviens
linéaires gaussiens à sauts. La convergence asymptotique de
ces algorithmes vers l’ensemble des maxima globaux est assu-
rée. En pratique, on obtient avec un faible nombre d’itérations
des résultats très satisfaisants. Ces algorithmes ont aussi été
utilisés dans des problèmes plus complexes de déconvolution
aveugle [1].
Remerciements
L’auteur remercie Christophe Andrieu (ETIS-ENSEA) et
Andrew Logothetis (Université de Melbourne).
Références
[1] C. Andrieu, A. Doucet and P. Duvaut, “Bayesian Estima-
tion of Filtered Point Processes using MCMC”, in Proc.
IEEE Conf. Asilomar, California, Nov. 1997.
[2] C.K. Carter and R. Kohn, “On Gibbs Sampling for State
Space Models”, Biometrika, Vol. 81, No. 3, 1994, pp.
541-553.
[3] C.K. Carter and R. Kohn, “Markov Chain Monte Carlo
in Conditionally Linear Gaussian State Space Models”,
Biometrika, Vol. 83, 1996.
[4] F. Champagnat, Y. Goussard and J. Idier, “Unsupervised
Deconvolution of Sparse Spike Trains Using Stochastic
Approximation”, IEEE Trans. on Sig. Proc., Vol. 44, No.
12, 1996, pp. 2988-2998.
[5] J. Diebolt and C.P. Robert, “Estimation of Finite Mixture
Distributions through Bayesian Sampling”, J. Roy. Stat.
Soc. B, Vol. 56, No. 2, 1994, pp. 363-375.
[6] A. Doucet and A. Logothetis, “Stochastic Annealing
Algorithms for Bayesian Estimation of Jump Markov
Linear Systems”, submitted, 1997.
[7] S. Geman and D. Geman, “Stochastic Relaxation, Gibbs
Distribution and the Bayesian Restoration of Images”,
IEEE Trans. Patt. Ana. Mac. Int., Vol. 6, No. 6, 1984,
pp. 721-741.
[8] J.S. Liu, W.H. Wong and A. Kong, “Covariance Structure
of the Gibbs Sampler with Applications to the Compari-
sons of Estimators and Augmentation Schemes”, Biome-
trika, Vol. 81, No. 1, 1994, pp. 27-40.
[9] A. Logothetis and V. Krishnamurthy, A Bayesian
Expectation-Maximization Algorithm for Estimating
Jump Markov Linear Systems”, submitted, 1997.
[10] J.M. Mendel, Maximum Likelihood Deconvolution,
Springer, New York, 1990.
[11] A.F.M. Smith and G.O. Roberts, “Bayesian Computation
via the Gibbs Sampler and Related Markov Chain Monte
Carlo methods”, J. Roy. Stat. Soc. B, Vol. 55, No. 1,
1993, pp. 3-23.
1 / 4 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !