Me´thode du point proximal: principe et applications aux algorithmes ite´ratifs ZiadNAJA1,FlorenceALBERGE1,PierreDUHAMEL2 1UnivParis-Sud11 2CNRS Laboratoiredessignauxetsyste`mes(L2S) Supelec,3rueJoliot-Curie91192Gif-sur-Yvettecedex(France) 0 [email protected], [email protected], 1 0 [email protected] 2 n a Re´sume´ – Cetarticleestbase´ surl’algorithmedupointproximal.Nouse´tudionsdeuxalgorithmesite´ratifs:l’algorithmedeBlahut-Arimoto J commune´ment utilise´ pour lecalcul delacapacite´ descanaux discretssansme´moirepuislede´codage ite´ratifpour lesmodulations code´es a` 2 bitsentrelace´s.Danslesdeuxcas,ils’agitd’algorithmesite´ratifspourlesquelslesme´thodesdetypepointproximalconduisenta` unenouvelle 1 interpre´tationetouvrentlavoiea`desame´liorationsentermedevitessedeconvergencenotamment. ] T Abstract – Thispaper recallstheproximal point method. Westudy twoiterativealgorithms: theBlahut-Arimotoalgorithmfor computing I thecapacityofarbitrarydiscretememorylesschannels,asanexampleofaniterativealgorithmworkingwithprobabilitydensityestimatesand . s theiterativedecodingoftheBitInterleavedCodedModulation(BICM-ID).Fortheseiterativealgorithms,weapplytheproximalpointmethod c whichallowsnewinterpretationswithimprovedconvergencerate. [ 1 v 2 1 Introduction rithme classique de Blahut-Arimoto ainsi qu’a` celle de l’ap- 1 prochedans[8]. 9 D’autrepart,lesmodulationscode´esa` bitsentrelace´s(BICM) 1 Cetarticles’inte´ressea`deuxalgorithmesite´ratifsclassiques: . onte´te´ d’abordpropose´sparZehavi[9]pourame´liorerlaper- 1 l’algorithmede Blahut-Arimoto[1, 2]pourle calculdela ca- formancedesmodulationscode´esentreillisdanslecasdesca- 0 pacite´ d’uncanal discret sans me´moire et le de´codageite´ratif 0 desmodulationscode´esa` bitsentrelace´s(BICM-ID)[3].Bien nauxdeRayleigha` e´vanouissement.Lede´codageite´ratif[10] 1 utilise´ pour les BICM a une structure similaire a` celle d’un quecesme´thodessoientradicalementdiffe´rentesa` la foispar : turbo de´codeur se´rie. Bien que tre`s performant, le de´codage v l’applicationvise´eetaussiparleprocessusite´ratifmisenjeu, i ellesontpourpointcommundepre´senterdesconnectionsavec ite´ratif n’a pas e´te´ a` l’origine introduit comme solution d’un X proble`me d’optimisation, ce qui rend difficile l’analyse de sa uneme´thoded’optimisationbienconnue,lame´thodedupoint r convergence. a proximal[4]. Cetarticlevadoncmettreene´videncelelienexistantentreces En 1972,R. Blahut et S. Arimoto [1, 2] ontmontre´ comment deux algorithmes ite´ratifs et montrer commentcela conduit a` calculernume´riquementla capacite´ descanauxsansme´moire desame´liorationssubstantiellestoutenre´ve´lantlelienexistant avec des entre´es et des sorties a` alphabets finis. Depuis, plu- entrelede´codageite´ratifetlestechniquesclassiquesd’optimi- sieursextensionsonte´te´ propose´escitonsnotemment[5]quia sation. e´tendul’algorithmedeBlahut-Arimotoauxcanauxavecme´moire et entre´es a` alphabets finis et [6] qui a conside´re´ des canaux 2 Algorithme du point proximal sansme´moireavecdesentre´eset/oudessortiescontinues. Enparalle`le,d’autrestravauxsesontconcentre´ssurl’interpre´tation L’algorithme du point proximal, dans sa version d’origine, ge´ome´triquedel’algorithmedeBlahut-Arimoto[7].Enseba- estcaracte´rise´parleprocessusite´ratif[11]: santsurcettedernie`reapproche,Matz[8]apropose´uneversion modifie´e de cet algorithme qui convergeplus vite que l’algo- θ(k+1) =argmax{ξ(θ)−β kθ−θ(k)k2} (1) k rithmestandard. θ L’algorithmepropose´parMatzestbase´suruneapproximation dans lequel ξ(θ) est la fonction de couˆt qui croˆıt au fil des d’unalgorithmedepointproximal.Nousproposonsdoncdans ite´rationsetkθ−θ(k)k2estuntermedepe´nalite´quiassureque cequisuitunevraireformulationpointproximalavecunevi- lanouvellevaleurduparame`trerestedanslevoisinagedelava- tesse de convergenceplus grande compare´e a` celle de l’algo- leurobtenuea`l’ite´rationpre´ce´dente.{β } estunese´quence k k≥0 de parame`tres positifs. lorsque la se´quence β converge vers M N p Q logQi|j = M p D(Q ||q) et la capa- k j=0 i=0 j i|j qi j=0 j j ze´roa`l’infini,alorslame´thodepre´senteuneconvergencesuper- Pcite´ duPcanalpar: P line´aire[12].L’algorithmedupointproximalpeuteˆtrege´ne´ralise´ C =maxI(p,Q) selon: p En re´solvant ce proble`me de maximisation et en prenant en θ(k+1) =argmax{ξ(θ)−β f(θ,θ(k))} k compte la condition de normalisation, nous obtenons le pro- θ cessusite´ratif: ou` f(θ,θ(k)) est toujoursnonne´gativeet f(θ,θ(k)) = 0 si et p(k)(x)exp(Dk) seulementsiθ =θ(k).Danslasuite,nousutiliseronscettefor- p(k+1)(x)= x (2) Mp(k)(x)exp(Dk) mulationenconside´rantpourf soitladivergencedeKullback x x soitladivergencedeFermi-Dirac.Nousrappelonsmaintenant avecDk = D(p(Y = y|XP= x)||p(Y = y(k))).C’estl’algo- x leursde´finitions. rithmedeBlahut-Arimoto.Onpeutmontrersansdifficulte´que La distance de Kullback-Leibler(KLD) est de´finie pour deux cetalgorithmeeste´quivalenta` : distributionsdeprobabilite´p={p(x),x∈X}etq={q(x),x∈ p(k+1)(x)=argmax{I(k)(p(x))−D(p(x)||p(k)(x))} (3) X} d’une variable ale´atoire discre`te X prenant ses valeurs x p dansunensemblediscretXpar: ou` I(k)(p(x))=E {Dk}.Cetalgorithmen’estpasunalgo- p(x) x p(x) rithmedupointproximalpuisquelafonctiondecouˆtI(k)(p(x)) D(p||q)= p(x)log q(x) de´penddesite´rations.Ilesttoutefoispossibled’exprimerl’in- Xx∈X formationmutuellecommesuit: LadistancedeKullback(appele´eaussientropierelative)adeux I(p(x))=I(k)(p(x))−D(q(y)||q(k)(y)) (4) proprie´te´simportantes : D(p||q) est toujoursnon-ne´gative,et D(p||q)estnullesietseulementsip = q.Cependant,cen’est Enintroduisant(4)dans(3),nousobtenons: pasune”vraie”distancepuisqu’ellen’estpassyme´trique p(k+1)(x)=argmax{I(p(x))−(D(p(x)||p(k)(x))−D(q(y)||q(k)(y)))} (D(p||q) 6= D(q||p)) et ne satisfait pas en ge´ne´ral l’ine´galite´ p triangulaire. D’apre`s l’ine´galite´ de Jensen, nous pouvons montrer que le La divergencede Fermi-Dirac est la divergence de Kullback- termedepe´nalite´ Leiblerapplique´ea`desprobabilite´ssurdese´ve`nementsn’ayant D(p(x)||p(k)(x))−D(q(y)||q(k)(y)) = quedeuxissues,elleestde´finiepourdeuxdistributionsdepro- babilite´ ri = PR(xi = 1) et si = PS(xi = 1) de´finiesdans E [logp(x) x˜p(y|x˜)p(k)(x˜)] l’ensembleX = (x ,...,x )avec x ∈ {0,1}de la manie`re p(x,y) p(k)(Px) p(y|x˜)p(x˜) 1 n i x˜ suivante: esttoujourspositifetqu’ilestPnulsietseulementsi DFD(r,s)= ni=1rilog(cid:16)srii(cid:17)+ ni=1(1−ri)log(cid:16)11−−rsii(cid:17) p(x)=p(k)(x)etq(y)=q(k)(y). La divergencePde Fermi-Dirac pre´Psente les deux meˆmes pro- Leprocessusite´ratifdevientalors: prie´te´s que la distance de Kullback : D (r,s) est toujours FD p(k+1)(x)=argmax{I(p(x))−β {D(p(x)||p(k)(x))−D(q(y)||q(k)(y))}} non ne´gative et DFD(r,s) = 0 si et seulement si r = s. La p(x) k divergencedeFermi-Diracn’estpassyme´trique. Achaqueite´ration,l’expressiondep(k+1)(x)estlameˆmeque dans(2).L’algorithmedeBlahut-Arimotos’interpre`tedonccomme 3 Me´thode de point proximal pour les un algorithme du point proximaldans lequel le parame`tre β k algorithmes ite´ratifs estconstantete´gala` 1. L’approcheintuitivedeMatz[8]consistea` remplacerladistri- 3.1 AlgorithmedeBlahut-Arimoto [1]et butiondeprobabilite´q(y)dansletermededroitedel’e´quation interpre´tation point proximal pre´ce´denteparlameˆmedistributionq(k)(y)calcule´ea`l’ite´ration pre´ce´dente. Nousallonsmaintenantutiliserledegre´deliberte´supple´mentaire amene´parβ pouraugmenterlavitessedeconvergence.Nous k choisissonsβ commesuit: k FIGURE1–Canal. maxβ (D(p(k+1)(x)||p(k)(x))−D(q(k+1)(y)||q(k)(y))) k Conside´ronsuncanaldiscretsansme´moireavecpourentre´e βk Xprenantsesvaleursdansl’ensemble{x ,...,x }etensor- danslequelp(k+1)(x)etq(k+1)(y)de´pendentdeβ .Celagua- 0 M k tieYprenantsesvaleursdansl’ensemble{y ,...,y }.Ceca- rantie que I(p(k+1)(x))−I(p(k)(x)) est maximale a` chaque 0 N nal est de´fini par sa matrice de transition Q telle que [Q] = ite´ration. Pour re´soudre ce proble`me de maximisation, nous ij Q =Pr(Y =y |X =x ). avonsutilise´ lame´thodedegradientconjugue´quidonnelava- i|j i j Nous de´finissons aussi p = Pr(X = x ) et q = Pr(Y = leurdeβ laplusconvenableencomparaisonavecl’approche j j i k y ).L’informationmutuelleestdonne´epar:I(X,Y)=I(p,Q)= propose´eparMatz. i B = (B ,B ,...,B )T dedimension2N ×N estlama- 0 1 2N−1 trice delarepre´sentationbinairedetouslesmotsdelongueur N.Soitη lafonctiondensite´ deprobabilite´ delavariableχ = B .Onadonc i T η =(Pr[χ=B0],Pr[χ=B1],...,Pr[χ=B2N−1]) Etant donne´ une fonction densite´ de probabilite´ η, ses coor- donne´eslogarithmiquessontlevecteurθ dontleieme e´le´ment est donne´ par θi = ln(Pr[χ = Bi]) − ln(Pr[χ = B0]). Nous de´finissons aussi λ le vecteur des ratio dont l’e´le´ment FIGURE2– Canaldiscretbinairesyme´trique. j est de´fini par λ = log(Pr[χj=1]) ou` χ est le jeme bit du j Pr[χj=0] j motbinaireχetλ∈RN.Pourdesdensite´sse´parables,c’esta` direquisonte´galesauproduitdesmarginales,lescoordonne´es logarithmiquesprennentlaformeθ =Bλ[13]. 3.2.1 De´codageite´ratifdes modulationscode´es a` bitsen- trelace´s[3] FIGURE4–Codeurdesmodulationscode´esa`bitsentrelace´s. FIGURE 3– CanalGaussianBernouilli-Gaussianayantcommepa- rame`tres(p=0.3,σb=0.01,σg =1). 3.1.1 Simulation Noustestons les3 algorithmesite´ratifssur uncanaldiscret binairesyme´triquede´finiparsamatricedetransition: FIGURE5–De´codeurite´ratifdesmodulationscode´esa`bitsentrelace´s. Le de´codageite´ratif pourles modulationscode´esa` bits en- 0.7 0.2 0.1 Q= trelace´es est constitue´ de deux blocs chacun ayantpour taˆche (cid:26) 0.1 0.2 0.7 (cid:27) d’e´valuer des probabilite´s a posteriori. Le premier bloc (de- Les re´sultats (fig.2) montrent que la capacite´ du canal est at- mapping)contientlesinformationsconcernantlemappingetle teinteapre`s20ite´rationsdanslecasclassique,7ite´rationsdans canalautraversdelaloideprobabilite´p(y|s)ou` yestlevec- l’approche de Matz et 4 ite´rations dans notre cas (avec une teurrec¸uetsunvecteurdesymbole.Ceblocrec¸oitunapriori pre´cisionde10−11). (aussiappele´ extrinse`que)quiluiestfourniparl’autrebloc.Il Nous comparonsensuite notre algorithme et celui de Matz estdoncenmesuredefournirdesprobabilite´sa` posterorique dbuantsdelefocramsedr’uunnecmanaatlriGceauQssaivanecBdeerngoraunildlie-sGdaiumsseinasniodnasn.sUlne nousnoteronspBλ1+θm ou` (λ1)km+i =ln(cid:16)pp((ddkkmm++ii==01;;II))(cid:17)est levecteurcontenantleslog-ratiodelaprobabilite´apriori[13]. telcanalestde´finipar:y =x +b +γ ou` k k k k Le vecteur θ est le vecteur de coordonne´es logarithmiques – b∼N(0,σ2) m b obtenua` partirdep(y|s).Lesecondbloccontientlesinforma- – γ =e g avec e:se´quencedeBernouilli(p) k k k tionscorrespondantaucodeurautraversdelafonctionindica- – g ∼N(0,σ2) avec σ2 ≪σ2 g b g trice du code.Ce secondbloc fournitles probabilite´sa poste- d’ou` yk =xk+nk riorisurlesbitspBλ2+θc ou` λ2 de´penddel’aprioria` l’entre´e dublocetθ estlevecteurdecoordonne´eslogarithmiquesob- avec c p(nk)=(1−p)N(0,σb2)+pN(0,σb2+σg2) tenua`partirdelafonctionindicatriceducode[13].Parailleurs, Lasortiey ae´te´ discre´tise´esur40valeurs,etl’entre´ex sur l’a prioridu bloc suivantest calcule´ en divisantla probabilite´ k k 10valeurs.Lesre´sultatssontreporte´ssurlafigure3.Nousob- a posterioridu bloc pre´ce´dentpar l’a prioriqu’il a rec¸u (pro- servonsencoreungainconse´quentgraˆcea` notreapproche. pagation d’extrinse`ques).Ce principe peut eˆtre re´sume´ par le processusite´ratif: 3.2 Outilsde base Nousintroduisonstoutd’abordquelquesnotations.SoitB ∈ Trouverλ2(k+1) telleque pB(λ1(k)+λ2(k+1)) =pBλ(1k)+θm (5) i {0,1}N larepre´sentationbinaired’unentieri,0≤ i ≤ 2N−1. Trouverλ1(k+1) telleque pB(λ1(k+1)+λ2(k+1)) =pBλ2(k+1)+θc (6) 4 Conclusion Ceprocessusite´ratifcorresponda`lare´solutionduproble`mede minimisationsuivant: Auniveaududemapping Danscetarticle,nousavonsd’abordmisene´videncel’algo- rithmeite´ratifdupointproximal.Nousavonsensuitepre´sente´ mλi2nDFD(pBλ1+θm,pB(λ1+λ2)) deux algorithmesite´ratifsdiffe´rentsa` la foispar l’application Auniveaudude´codeur vise´eetleprocessusite´ratifmisenjeu:l’algorithmeite´ratifde Blahut-Arimotoetl’algorithmedede´codageite´ratifdesmodu- mλi1nDFD(pBλ2+θc,pB(λ1+λ2)) lationscode´esa` bitsentrelace´s.Uneinterpre´tationdecesdeux Une solution est satisfaisante si elle re´pond aux deux crite`res algorithmesbase´esurlame´thodedepointproximaladonce´te´ simultane´ment. propose´eappuye´epardesre´sultatsdesimulation. Cependant la minimisation de l’un de ces crite`res n’entraine Re´fe´rences pasforce´mentladiminutiondel’autrecrite`rea` l’ite´rationsui- vante.Onpeutdonccraindreuncomportementdel’algorithme. Lame´thodedupointproximalpermetdefairelelienentreles [1] S.Arimoto,“Analgorithmforcomputingthecapacityof deux crite`res via le terme de pe´nalite´ qu’elle introduit. Nous arbitrarydiscretememorylesschannels,”IEEETrans.Inf. obtenonsalorsunnouveauprocessusdeminimisation: Theory,vol.18,pp.14–20,1972. λ2(k+1) =mλi2nJθm(λ1,λ2)=mλi2nDFD(pBλ1+θm,pB(λ1+λ2)) [2] dRi.sEto.rBtiolanhfuutn,c“tCioonms,p”uItEaEtioEnTorafncsh.aInnnf.eTlhcaepoaryc,itvyoal.n1d8r,aptep-. +µmDFD(pB(λ(1k)+λ(2k)),pB(λ1+λ2)) 460–473,1972. λ1(k+1) =mλi1nJθc(λ1,λ2)=mλi1nDFD(pBλ2+θc,pB(λ1+λ2)) [3] dGe.dCmairoed,uGla.tTiaorni,c”coIE,aEnEdTEr.aBnisg.liIenrfi.,“TBheito-irnyt,ervloela.ve4d, cpop-. +µcDFD(pB(λ(1k)+λ2(k+1)),pB(λ1+λ2)) [4] 9G2.7V–i9g4e6,,“MPraoyxi1m99al8-.pointalgorithmforminimizingqua- Celarevienta` trouverλ(2k+1)telleque draticfunctions,”INRIA,RR-2610,Tech.Rep.,1995. pB(λ(1k)+λ2(k+1)) = pBλ(1k)+θm +1+µmµpmB(λ(1k)+λ(2k)) (7) [5] rFi.thDmuspufoisr,cWom.Ypuu,tianngdcFh.aWnnielllecmaps,a“cAityrimanodtora-Btel-adhiusttoarltgioon- etλ(k+1) telleque withside-information,”inISIT,2004. 1 [6] J. Dauwels, “On graphical models for communications pB(λ1(k+1)+λ2(k+1)) = pBλ2(k+1)+θc +1+µcµpcB(λ(1k)+λ2(k+1)) (8) aimndplmemacehnitnateiolnea,”rnPihn.gD:.dAislgseorrtiathtimons,,Mboauyn2d0s,06an.d analog A la convergence,on retrouveles meˆmes points stationnaires [7] I. Csisza´r and G. Tusna´dy, “Information geometry and quepour(5)et(6).Pourassurerlade´croissancedesfonctions alternatingminimizationprocedure,”StatisticsandDeci- decouˆt,nouschoisissonsµ etµ afinque m c sions,vol.supplementissue1,pp.205–237,1984. J (λ(k),λ(k+1))≤J (λ(k),λ(k))et θm 1 2 θc 1 2 [8] G.MatzandP.Duhamel,“Informationgeometricformu- Jθc(λ1(k+1),λ2(k+1))≤Jθm(λ(1k+1),λ(2k+1)). lation and interpretation of accelerated Blahut-Arimoto- Lapremie`reine´galite´este´quivalentea` Typealgorithms,”inProc.InformationTheoryWorkshop, Jθm(λ1(k),λ2(k+1))≤ 1+µmµm(DFD(pBλ(1k)+θm,pB(λ1(k)+λ2(k)))+ 2004. DFD(pB(λ(1k)+λ(2k)),pBλ(1k)+θm))carladistancedeFermi-Dirac [9] E. Zehavi, “8-PSK trellis codes for a Rayleigh fading estconvexeparrapporta`sondeuxie`meparame`tre.D’autrepart channel,” IEEE Trans. Commun., vol. 40, pp. 873–883, DFD(pBλ(2k)+θc,pB(λ(1k)+λ(2k)))≤Jθc(λ(1k),λ(2k)) [10] MX.aLyi1,A99.2C.hindapol,andJ.Ritcey,“Bitinterleavedcoded D’apre`scesdeuxrelations,nousobtenonsunebornesupe´rieure modulationwithiterativedecodingand8-PSKsignaling,” pourµ : m IEEEtransCommun.,vol.50,pp.1250–1257,Aug2002. µ ≤ DFD(pBλ(2k)+θc,pB(λ(1k)+λ(2k))) [11] S. Chre´tien and A. O. Hero, “Kullback Proximal Algo- m DFD−DFD(pBλ(2k)+θc,pB(λ(1k)+λ(2k))) rithmsforMaximumLikelihoodEstimation,”INRIA,RR- ou` D estunedistancesyme´trique: 3756,Tech.Rep.,Aug1999. FD DFD =DFD(pBλ(1k)+θm,pB(λ(1k)+λ(2k))) [12] R.T.Rockafellar,“Monotoneoperatorsandtheproximal +DFD(pB(λ(1k)+λ(2k)),pBλ(1k)+θm) pzaotiinotna,lvgoolr.i1th4m,p,”p.S8IA7M7–8Jo9u8r,n1a9l76o.n Control and Optimi- Labornesupe´rieurepourµ peuteˆtreobtenued’unefac¸onsi- c milaire. En ite´rant (7) et (8) avec µ et µ choisis correcte- [13] J.M.Walsh,P.Regalia,andC.R.Johnson,“Turbodeco- c m mentnousobtenonsunalgorithmequiconvergeverslesmeˆme ding as Iterative Constrained Maximum-Likelihood Se- pointsquelede´codageite´ratifclassique(etquiadonclesmeˆmes quenceDetection,”IEEETrans.Inf.Theory,vol.52,pp. performancesentermedetauxd’erreurbinaire)touten dimi- 5426–5437,Dec.2006. nuantaufildesite´rationsuncrite`rede´sire´.