Méthode du point proximal: principe et applications aux algorithmes

M´
ethode du point proximal: principe et applications aux algorithmes
it´
eratifs
Ziad NAJA1, Florence ALBERGE1, Pierre DUHAMEL2
1Univ Paris-Sud 11
2CNRS
Laboratoire des signaux et syst`
emes (L2S)
Supelec, 3 rue Joliot-Curie 91192 Gif-sur-Yvette cedex (France)
R´
esum´
e – Cet article est bas´
e sur l’algorithme du point proximal. Nous ´
etudions deux algorithmes it´
eratifs: l’algorithme de Blahut-Arimoto
commun´
ement utilis´
e pour le calcul de la capacit´
e des canaux discrets sans m´
emoire puis le d´
ecodage it´
eratif pour les modulations cod´
ees `
a
bits entrelac´
es. Dans les deux cas, il s’agit d’algorithmes it´
eratifs pour lesquels les m´
ethodes de type point proximal conduisent `
a une nouvelle
interpr´
etation et ouvrent la voie `
a des am´
eliorations en terme de vitesse de convergence notamment.
Abstract – This paper recalls the proximal point method. We study two iterative algorithms: the Blahut-Arimoto algorithm for computing
the capacity of arbitrary discrete memoryless channels, as an example of an iterative algorithm working with probability density estimates and
the iterative decoding of the Bit Interleaved Coded Modulation (BICM-ID). For these iterative algorithms, we apply the proximal point method
which allows new interpretations with improved convergence rate.
1 Introduction
Cet article s’int´
eresse `
a deux algorithmes it´
eratifs classiques :
l’algorithme de Blahut-Arimoto [1, 2] pour le calcul de la ca-
pacit´
e d’un canal discret sans m´
emoire et le d´
ecodage it´
eratif
des modulations cod´
ees `
a bits entrelac´
es (BICM-ID) [3]. Bien
que ces m´
ethodes soient radicalement diff´
erentes `
a la fois par
l’application vis´
ee et aussi par le processus it´
eratif mis en jeu,
elles ont pour point commun de pr´
esenter des connections avec
une m´
ethode d’optimisation bien connue, la m´
ethode du point
proximal [4].
En 1972, R. Blahut et S. Arimoto [1, 2] ont montr´
e comment
calculer num´
eriquement la capacit´
e des canaux sans m´
emoire
avec des entr´
ees et des sorties `
a alphabets finis. Depuis, plu-
sieurs extensions ont ´
et´
e propos´
ees citons notemment [5] qui a
´
etendu l’algorithme de Blahut-Arimoto aux canaux avec m´
emoire
et entr´
ees `
a alphabets finis et [6] qui a consid´
er´
e des canaux
sans m´
emoire avec des entr´
ees et/ou des sorties continues.
En parall`
ele, d’autres travaux se sont concentr´
es sur l’interpr´
etation
g´
eom´
etrique de l’algorithme de Blahut-Arimoto [7]. En se ba-
sant sur cette derni`
ere approche, Matz [8] a propos´
e une version
modifi´
ee de cet algorithme qui converge plus vite que l’algo-
rithme standard.
L’algorithme propos´
e par Matz est bas´
e sur une approximation
d’un algorithme de point proximal. Nous proposons donc dans
ce qui suit une vrai reformulation point proximal avec une vi-
tesse de convergence plus grande compar´
ee `
a celle de l’algo-
rithme classique de Blahut-Arimoto ainsi qu’`
a celle de l’ap-
proche dans [8].
D’autre part, les modulations cod´
ees `
a bits entrelac´
es (BICM)
ont ´
et´
e d’abord propos´
es par Zehavi [9] pour am´
eliorer la per-
formance des modulations cod´
ees en treillis dans le cas des ca-
naux de Rayleigh `
a´
evanouissement. Le d´
ecodage it´
eratif [10]
utilis´
e pour les BICM a une structure similaire `
a celle d’un
turbo d´
ecodeur s´
erie. Bien que tr`
es performant, le d´
ecodage
it´
eratif n’a pas ´
et´
e`
a l’origine introduit comme solution d’un
probl`
eme d’optimisation, ce qui rend difficile l’analyse de sa
convergence.
Cet article va donc mettre en ´
evidence le lien existant entre ces
deux algorithmes it´
eratifs et montrer comment cela conduit `
a
des am´
eliorations substantielles tout en r´
ev´
elant le lien existant
entre le d´
ecodage it´
eratif et les techniques classiques d’optimi-
sation.
2 Algorithme du point proximal
L’algorithme du point proximal, dans sa version d’origine,
est caract´
eris´
e par le processus it´
eratif [11] :
θ(k+1) = arg max
θ{ξ(θ)βkkθθ(k)k2}(1)
dans lequel ξ(θ)est la fonction de coˆ
ut qui croˆ
ıt au fil des
it´
erations et kθθ(k)k2est un terme de p´
enalit´
e qui assure que
la nouvelle valeur du param`
etre reste dans le voisinage de la va-
leur obtenue `
a l’it´
eration pr´
ec´
edente. {βk}k0est une s´
equence
de param`
etres positifs. lorsque la s´
equence βkconverge vers
z´
ero `
a l’infini, alors la m´
ethode pr´
esente une convergence super-
lin´
eaire [12]. L’algorithme du point proximal peut ˆ
etre g´
en´
eralis´
e
selon :
θ(k+1) = arg max
θ{ξ(θ)βkf(θ, θ(k))}
o`
uf(θ, θ(k))est toujours non n´
egative et f(θ, θ(k))=0si et
seulement si θ=θ(k). Dans la suite, nous utiliserons cette for-
mulation en consid´
erant pour fsoit la divergence de Kullback
soit la divergence de Fermi-Dirac. Nous rappelons maintenant
leurs d´
efinitions.
La distance de Kullback-Leibler (KLD) est d´
efinie pour deux
distributions de probabilit´
ep={p(x), x X}et q={q(x), x
X}d’une variable al´
eatoire discr`
ete Xprenant ses valeurs x
dans un ensemble discret Xpar :
D(p||q) = X
xX
p(x) log p(x)
q(x)
La distance de Kullback (appel´
ee aussi entropie relative) a deux
propri´
et´
es importantes : D(p||q)est toujours non-n´
egative, et
D(p||q)est nulle si et seulement si p=q. Cependant, ce n’est
pas une ”vraie” distance puisqu’elle n’est pas sym´
etrique
(D(p||q)6=D(q||p)) et ne satisfait pas en g´
en´
eral l’in´
egalit´
e
triangulaire.
La divergence de Fermi-Dirac est la divergence de Kullback-
Leibler appliqu´
ee `
a des probabilit´
es sur des ´
ev`
enements n’ayant
que deux issues, elle est d´
efinie pour deux distributions de pro-
babilit´
eri=PR(xi= 1) et si=PS(xi= 1) d´
efinies dans
l’ensemble X= (x1, . . . , xn)avec xi∈ {0,1}de la mani`
ere
suivante :
DF D(r,s) = Pn
i=1 rilog ³ri
si´+Pn
i=1(1 ri) log ³1ri
1si´
La divergence de Fermi-Dirac pr´
esente les deux mˆ
emes pro-
pri´
et´
es que la distance de Kullback : DF D(r,s)est toujours
non n´
egative et DF D(r,s)=0si et seulement si r=s. La
divergence de Fermi-Dirac n’est pas sym´
etrique.
3 M´
ethode de point proximal pour les
algorithmes it´
eratifs
3.1 Algorithme de Blahut-Arimoto [1] et
interpr´
etation point proximal
FIG. 1 – Canal.
Consid´
erons un canal discret sans m´
emoire avec pour entr´
ee
X prenant ses valeurs dans l’ensemble {x0, . . . , xM}et en sor-
tie Y prenant ses valeurs dans l’ensemble {y0, . . . , yN}. Ce ca-
nal est d´
efini par sa matrice de transition Q telle que [Q]ij =
Qi|j=P r(Y=yi|X=xj).
Nous d´
efinissons aussi pj=P r(X=xj)et qi=P r(Y=
yi). L’information mutuelle est donn´
ee par : I(X,Y) =I(p,Q) =
PM
j=0 PN
i=0 pjQi|jlog Qi|j
qi=PM
j=0 pjD(Qj||q)et la capa-
cit´
e du canal par :
C= max
pI(p, Q)
En r´
esolvant ce probl`
eme de maximisation et en prenant en
compte la condition de normalisation, nous obtenons le pro-
cessus it´
eratif :
p(k+1)(x) = p(k)(x) exp(Dk
x)
PM
xp(k)(x) exp(Dk
x)(2)
avec Dk
x=D(p(Y=y|X=x)||p(Y=y(k))). C’est l’algo-
rithme de Blahut-Arimoto. On peut montrer sans difficult´
e que
cet algorithme est ´
equivalent `
a :
p(k+1)(x) = arg max
p{I(k)(p(x)) D(p(x)||p(k)(x))}(3)
o`
uI(k)(p(x)) = Ep(x){Dk
x}. Cet algorithme n’est pas un algo-
rithme du point proximal puisque la fonction de coˆ
ut I(k)(p(x))
d´
epend des it´
erations. Il est toutefois possible d’exprimer l’in-
formation mutuelle comme suit :
I(p(x)) = I(k)(p(x)) D(q(y)||q(k)(y)) (4)
En introduisant (4) dans (3), nous obtenons :
p(k+1)(x) = arg max
p{I(p(x))(D(p(x)||p(k)(x))D(q(y)||q(k)(y)))}
D’apr`
es l’in´
egalit´
e de Jensen, nous pouvons montrer que le
terme de p´
enalit´
e
D(p(x)||p(k)(x)) D(q(y)||q(k)(y)) =
Ep(x,y)[log p(x)P˜xp(y|˜x)p(k)(˜x)
p(k)(x)P˜xp(y|˜x)p(˜x)]
est toujours positif et qu’il est nul si et seulement si
p(x) = p(k)(x)et q(y) = q(k)(y).
Le processus it´
eratif devient alors :
p(k+1)(x) = arg max
p(x){I(p(x))βk{D(p(x)||p(k)(x))D(q(y)||q(k)(y))}}
A chaque it´
eration, l’expression de p(k+1)(x)est la mˆ
eme que
dans (2). L’algorithme de Blahut-Arimoto s’interpr`
ete donc comme
un algorithme du point proximal dans lequel le param`
etre βk
est constant et ´
egal `
a 1.
L’approche intuitive de Matz [8] consiste `
a remplacer la distri-
bution de probabilit´
eq(y)dans le terme de droite de l’´
equation
pr´
ec´
edente par la mˆ
eme distribution q(k)(y)calcul´
ee `
a l’it´
eration
pr´
ec´
edente.
Nous allons maintenant utiliser le degr´
e de libert´
e suppl´
ementaire
amen´
e par βkpour augmenter la vitesse de convergence. Nous
choisissons βkcomme suit :
max
βk
βk(D(p(k+1)(x)||p(k)(x)) D(q(k+1)(y)||q(k)(y)))
dans lequel p(k+1)(x)et q(k+1)(y)d´
ependent de βk. Cela gua-
rantie que I(p(k+1)(x)) I(p(k)(x)) est maximale `
a chaque
it´
eration. Pour r´
esoudre ce probl`
eme de maximisation, nous
avons utilis´
e la m´
ethode de gradient conjugu´
e qui donne la va-
leur de βkla plus convenable en comparaison avec l’approche
propos´
ee par Matz.
FIG. 2 – Canal discret binaire sym´
etrique.
FIG. 3 – Canal Gaussian Bernouilli-Gaussian ayant comme pa-
ram`
etres (p= 0.3, σb= 0.01, σg= 1).
3.1.1 Simulation
Nous testons les 3 algorithmes it´
eratifs sur un canal discret
binaire sym´
etrique d´
efini par sa matrice de transition :
Q=½0.7 0.2 0.1
0.1 0.2 0.7¾
Les r´
esultats (fig.2) montrent que la capacit´
e du canal est at-
teinte apr`
es 20 it´
erations dans le cas classique, 7 it´
erations dans
l’approche de Matz et 4 it´
erations dans notre cas (avec une
pr´
ecision de 1011).
Nous comparons ensuite notre algorithme et celui de Matz
dans le cas d’un canal Gaussian Bernouilli-Gaussian dans le
but de former une matrice Q avec de grandes dimensions. Un
tel canal est d´
efini par : yk=xk+bk+γko`
u
b N (0, σ2
b)
γk=ekgkavec e : s´
equence de Bernouilli(p)
g N (0, σ2
g)avec σ2
b¿σ2
g
d’o`
uyk=xk+nk
avec p(nk) = (1 p)N(0, σ2
b) + pN(0, σ2
b+σ2
g)
La sortie yka´
et´
e discr´
etis´
ee sur 40 valeurs, et l’entr´
ee xksur
10 valeurs. Les r´
esultats sont report´
es sur la figure 3. Nous ob-
servons encore un gain cons´
equent grˆ
ace `
a notre approche.
3.2 Outils de base
Nous introduisons tout d’abord quelques notations. Soit Bi
{0,1}Nla repr´
esentation binaire d’un entier i, 0i2N1.
B= (B0,B1, ..., B2N1)Tde dimension 2N×Nest la ma-
trice de la repr´
esentation binaire de tous les mots de longueur
N. Soit ηla fonction densit´
e de probabilit´
e de la variable χ=
Bi. On a donc
η= (Pr[χ=B0],Pr[χ=B1], ..., Pr[χ=B2N1])T
Etant donn´
e une fonction densit´
e de probabilit´
eη, ses coor-
donn´
ees logarithmiques sont le vecteur θdont le ieme ´
el´
ement
est donn´
e par θi= ln(P r[χ=Bi]) ln(P r[χ=B0]).
Nous d´
efinissons aussi λle vecteur des ratio dont l’´
el´
ement
j est d´
efini par λj=log(P r[χj=1]
P r[χj=0] )o`
uχjest le jeme bit du
mot binaire χet λRN. Pour des densit´
es s´
eparables, c’est `
a
dire qui sont ´
egales au produit des marginales, les coordonn´
ees
logarithmiques prennent la forme θ=Bλ[13].
3.2.1 D´
ecodage it´
eratif des modulations cod´
ees `
a bits en-
trelac´
es [3]
FIG.4–Codeur des modulations cod´
ees `
a bits entrelac´
es.
FIG.5–D´
ecodeur it´
eratif des modulations cod´
ees `
a bits entrelac´
es.
Le d´
ecodage it´
eratif pour les modulations cod´
ees `
a bits en-
trelac´
ees est constitu´
e de deux blocs chacun ayant pour tˆ
ache
d’´
evaluer des probabilit´
es a posteriori. Le premier bloc (de-
mapping) contient les informations concernant le mapping et le
canal au travers de la loi de probabilit´
ep(y|s)o`
uyest le vec-
teur rec¸u et sun vecteur de symbole. Ce bloc rec¸oit un a priori
(aussi appel´
e extrins`
eque) qui lui est fourni par l’autre bloc. Il
est donc en mesure de fournir des probabilit´
es `
a posterori que
nous noterons pBλ1+θmo`
u(λ1)km+i= ln ³p(dkm+i=1;I)
p(dkm+i=0;I)´est
le vecteur contenant les log-ratio de la probabilit´
e a priori [13].
Le vecteur θmest le vecteur de coordonn´
ees logarithmiques
obtenu `
a partir de p(y|s). Le second bloc contient les informa-
tions correspondant au codeur au travers de la fonction indica-
trice du code. Ce second bloc fournit les probabilit´
es a poste-
riori sur les bits pBλ2+θco`
uλ2d´
epend de l’a priori `
a l’entr´
ee
du bloc et θcest le vecteur de coordonn´
ees logarithmiques ob-
tenu `
a partir de la fonction indicatrice du code [13]. Par ailleurs,
l’a priori du bloc suivant est calcul´
e en divisant la probabilit´
e
a posteriori du bloc pr´
ec´
edent par l’a priori qu’il a rec¸u (pro-
pagation d’extrins`
eques). Ce principe peut ˆ
etre r´
esum´
e par le
processus it´
eratif :
Trouver λ2(k+1) telle que pB(λ(k)
1+λ(k+1)
2)=pBλ(k)
1+θm(5)
Trouver λ1(k+1) telle que pB(λ(k+1)
1+λ(k+1)
2)=pBλ(k+1)
2+θc(6)
Ce processus it´
eratif correspond `
a la r´
esolution du probl`
eme de
minimisation suivant :
Au niveau du demapping
min
λ2
DF D(pBλ1+θm, pB(λ1+λ2))
Au niveau du d´
ecodeur
min
λ1
DF D(pBλ2+θc, pB(λ1+λ2))
Une solution est satisfaisante si elle r´
epond aux deux crit`
eres
simultan´
ement.
Cependant la minimisation de l’un de ces crit`
eres n’entraine
pas forc´
ement la diminution de l’autre crit`
ere `
a l’it´
eration sui-
vante. On peut donc craindre un comportement de l’algorithme.
La m´
ethode du point proximal permet de faire le lien entre les
deux crit`
eres via le terme de p´
enalit´
e qu’elle introduit. Nous
obtenons alors un nouveau processus de minimisation :
λ(k+1)
2= min
λ2
Jθm(λ1, λ2) = min
λ2
DF D(pBλ1+θm,pB(λ1+λ2))
+µmDF D(pB(λ(k)
1+λ(k)
2),pB(λ1+λ2))
λ(k+1)
1= min
λ1
Jθc(λ1, λ2) = min
λ1
DF D(pBλ2+θc,pB(λ1+λ2))
+µcDF D(pB(λ(k)
1+λ(k+1)
2),pB(λ1+λ2))
Cela revient `
a trouver λ(k+1)
2telle que
pB(λ(k)
1+λ(k+1)
2)=
pBλ(k)
1+θm+µmpB(λ(k)
1+λ(k)
2)
1 + µm
(7)
et λ(k+1)
1telle que
pB(λ(k+1)
1+λ(k+1)
2)=
pBλ(k+1)
2+θc+µcpB(λ(k)
1+λ(k+1)
2)
1 + µc
(8)
A la convergence, on retrouve les mˆ
emes points stationnaires
que pour (5) et (6). Pour assurer la d´
ecroissance des fonctions
de coˆ
ut, nous choisissons µmet µcafin que
Jθm(λ(k)
1, λ(k+1)
2)Jθc(λ(k)
1, λ(k)
2)et
Jθc(λ(k+1)
1, λ(k+1)
2)Jθm(λ(k+1)
1, λ(k+1)
2).
La premi`
ere in´
egalit´
e est ´
equivalente `
a
Jθm(λ(k)
1, λ(k+1)
2)µm
1+µm(DF D(pBλ(k)
1+θm,pB(λ(k)
1+λ(k)
2))+
DF D(pB(λ(k)
1+λ(k)
2),pBλ(k)
1+θm)) car la distance de Fermi-Dirac
est convexe par rapport `
a son deuxi`
eme param`
etre. D’autre part
DF D(pBλ(k)
2+θc,pB(λ(k)
1+λ(k)
2))Jθc(λ(k)
1, λ(k)
2)
D’apr`
es ces deux relations, nous obtenons une borne sup´
erieure
pour µm:
µm
DF D(pBλ(k)
2+θc,pB(λ(k)
1+λ(k)
2))
DF D DF D (pBλ(k)
2+θc,pB(λ(k)
1+λ(k)
2))
o`
uDF D est une distance sym´
etrique :
DF D =DF D (pBλ(k)
1+θm,pB(λ(k)
1+λ(k)
2))
+DF D(pB(λ(k)
1+λ(k)
2),pBλ(k)
1+θm)
La borne sup´
erieure pour µcpeut ˆ
etre obtenue d’une fac¸on si-
milaire. En it´
erant (7) et (8) avec µcet µmchoisis correcte-
ment nous obtenons un algorithme qui converge vers les mˆ
eme
points que le d´
ecodage it´
eratif classique (et qui a donc les mˆ
emes
performances en terme de taux d’erreur binaire) tout en dimi-
nuant au fil des it´
erations un crit`
ere d´
esir´
e.
4 Conclusion
Dans cet article, nous avons d’abord mis en ´
evidence l’algo-
rithme it´
eratif du point proximal. Nous avons ensuite pr´
esent´
e
deux algorithmes it´
eratifs diff´
erents `
a la fois par l’application
vis´
ee et le processus it´
eratif mis en jeu : l’algorithme it´
eratif de
Blahut-Arimoto et l’algorithme de d´
ecodage it´
eratif des modu-
lations cod´
ees `
a bits entrelac´
es. Une interpr´
etation de ces deux
algorithmes bas´
ee sur la m´
ethode de point proximal a donc ´
et´
e
propos´
ee appuy´
ee par des r´
esultats de simulation.
R´
ef´
erences
[1] S. Arimoto, “An algorithm for computing the capacity of
arbitrary discrete memoryless channels,IEEE Trans. Inf.
Theory, vol. 18, pp. 14–20, 1972.
[2] R. E. Blahut, “Computation of channel capacity and rate-
distortion functions,IEEE Trans. Inf. Theory, vol. 18, pp.
460–473, 1972.
[3] G. Caire, G.Taricco, and E. Biglieri, “Bit-interleaved co-
ded modulation,IEEE Trans. Inf. Theory, vol. 4, pp.
927–946, May 1998.
[4] G. Vige, “Proximal-point algorithm for minimizing qua-
dratic functions,” INRIA,RR-2610, Tech. Rep., 1995.
[5] F. Dupuis, W. Yu, and F. Willems, “Arimoto-Blahut algo-
rithms for computing channel capacity and rate-distortion
with side-information,” in ISIT, 2004.
[6] J. Dauwels, “On graphical models for communications
and machine learning : Algorithms, bounds, and analog
implementation,” Ph.D. dissertation, May 2006.
[7] I. Csisz´
ar and G. Tusn´
ady, “Information geometry and
alternating minimization procedure,Statistics and Deci-
sions, vol. supplement issue 1, pp. 205–237, 1984.
[8] G. Matz and P. Duhamel, “Information geometric formu-
lation and interpretation of accelerated Blahut-Arimoto-
Type algorithms,” in Proc. Information Theory Workshop,
2004.
[9] E. Zehavi, “8-PSK trellis codes for a Rayleigh fading
channel,IEEE Trans. Commun., vol. 40, pp. 873–883,
May 1992.
[10] X. Li, A. Chindapol, and J. Ritcey, “Bit interleaved coded
modulation with iterative decoding and 8-PSK signaling,
IEEE trans Commun., vol. 50, pp. 1250–1257, Aug 2002.
[11] S. Chr´
etien and A. O. Hero, “Kullback Proximal Algo-
rithms for Maximum LikelihoodEstimation,” INRIA,RR-
3756, Tech. Rep., Aug 1999.
[12] R. T. Rockafellar, “Monotone operators and the proximal
point algorithm,SIAM Journal on Control and Optimi-
zation, vol. 14, pp. 877–898, 1976.
[13] J. M. Walsh, P. Regalia, and C. R. Johnson, “Turbo deco-
ding as Iterative Constrained Maximum-Likelihood Se-
quence Detection,IEEE Trans. Inf. Theory, vol. 52, pp.
5426–5437, Dec. 2006.
1 / 4 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!