ebook img

Méthode du point proximal: principe et applications aux algorithmes itératifs PDF

0.14 MB·French
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Méthode du point proximal: principe et applications aux algorithmes itératifs

Me´thode du point proximal: principe et applications aux algorithmes ite´ratifs ZiadNAJA1,FlorenceALBERGE1,PierreDUHAMEL2 1UnivParis-Sud11 2CNRS Laboratoiredessignauxetsyste`mes(L2S) Supelec,3rueJoliot-Curie91192Gif-sur-Yvettecedex(France) 0 [email protected], [email protected], 1 0 [email protected] 2 n a Re´sume´ – Cetarticleestbase´ surl’algorithmedupointproximal.Nouse´tudionsdeuxalgorithmesite´ratifs:l’algorithmedeBlahut-Arimoto J commune´ment utilise´ pour lecalcul delacapacite´ descanaux discretssansme´moirepuislede´codage ite´ratifpour lesmodulations code´es a` 2 bitsentrelace´s.Danslesdeuxcas,ils’agitd’algorithmesite´ratifspourlesquelslesme´thodesdetypepointproximalconduisenta` unenouvelle 1 interpre´tationetouvrentlavoiea`desame´liorationsentermedevitessedeconvergencenotamment. ] T Abstract – Thispaper recallstheproximal point method. Westudy twoiterativealgorithms: theBlahut-Arimotoalgorithmfor computing I thecapacityofarbitrarydiscretememorylesschannels,asanexampleofaniterativealgorithmworkingwithprobabilitydensityestimatesand . s theiterativedecodingoftheBitInterleavedCodedModulation(BICM-ID).Fortheseiterativealgorithms,weapplytheproximalpointmethod c whichallowsnewinterpretationswithimprovedconvergencerate. [ 1 v 2 1 Introduction rithme classique de Blahut-Arimoto ainsi qu’a` celle de l’ap- 1 prochedans[8]. 9 D’autrepart,lesmodulationscode´esa` bitsentrelace´s(BICM) 1 Cetarticles’inte´ressea`deuxalgorithmesite´ratifsclassiques: . onte´te´ d’abordpropose´sparZehavi[9]pourame´liorerlaper- 1 l’algorithmede Blahut-Arimoto[1, 2]pourle calculdela ca- formancedesmodulationscode´esentreillisdanslecasdesca- 0 pacite´ d’uncanal discret sans me´moire et le de´codageite´ratif 0 desmodulationscode´esa` bitsentrelace´s(BICM-ID)[3].Bien nauxdeRayleigha` e´vanouissement.Lede´codageite´ratif[10] 1 utilise´ pour les BICM a une structure similaire a` celle d’un quecesme´thodessoientradicalementdiffe´rentesa` la foispar : turbo de´codeur se´rie. Bien que tre`s performant, le de´codage v l’applicationvise´eetaussiparleprocessusite´ratifmisenjeu, i ellesontpourpointcommundepre´senterdesconnectionsavec ite´ratif n’a pas e´te´ a` l’origine introduit comme solution d’un X proble`me d’optimisation, ce qui rend difficile l’analyse de sa uneme´thoded’optimisationbienconnue,lame´thodedupoint r convergence. a proximal[4]. Cetarticlevadoncmettreene´videncelelienexistantentreces En 1972,R. Blahut et S. Arimoto [1, 2] ontmontre´ comment deux algorithmes ite´ratifs et montrer commentcela conduit a` calculernume´riquementla capacite´ descanauxsansme´moire desame´liorationssubstantiellestoutenre´ve´lantlelienexistant avec des entre´es et des sorties a` alphabets finis. Depuis, plu- entrelede´codageite´ratifetlestechniquesclassiquesd’optimi- sieursextensionsonte´te´ propose´escitonsnotemment[5]quia sation. e´tendul’algorithmedeBlahut-Arimotoauxcanauxavecme´moire et entre´es a` alphabets finis et [6] qui a conside´re´ des canaux 2 Algorithme du point proximal sansme´moireavecdesentre´eset/oudessortiescontinues. Enparalle`le,d’autrestravauxsesontconcentre´ssurl’interpre´tation L’algorithme du point proximal, dans sa version d’origine, ge´ome´triquedel’algorithmedeBlahut-Arimoto[7].Enseba- estcaracte´rise´parleprocessusite´ratif[11]: santsurcettedernie`reapproche,Matz[8]apropose´uneversion modifie´e de cet algorithme qui convergeplus vite que l’algo- θ(k+1) =argmax{ξ(θ)−β kθ−θ(k)k2} (1) k rithmestandard. θ L’algorithmepropose´parMatzestbase´suruneapproximation dans lequel ξ(θ) est la fonction de couˆt qui croˆıt au fil des d’unalgorithmedepointproximal.Nousproposonsdoncdans ite´rationsetkθ−θ(k)k2estuntermedepe´nalite´quiassureque cequisuitunevraireformulationpointproximalavecunevi- lanouvellevaleurduparame`trerestedanslevoisinagedelava- tesse de convergenceplus grande compare´e a` celle de l’algo- leurobtenuea`l’ite´rationpre´ce´dente.{β } estunese´quence k k≥0 de parame`tres positifs. lorsque la se´quence β converge vers M N p Q logQi|j = M p D(Q ||q) et la capa- k j=0 i=0 j i|j qi j=0 j j ze´roa`l’infini,alorslame´thodepre´senteuneconvergencesuper- Pcite´ duPcanalpar: P line´aire[12].L’algorithmedupointproximalpeuteˆtrege´ne´ralise´ C =maxI(p,Q) selon: p En re´solvant ce proble`me de maximisation et en prenant en θ(k+1) =argmax{ξ(θ)−β f(θ,θ(k))} k compte la condition de normalisation, nous obtenons le pro- θ cessusite´ratif: ou` f(θ,θ(k)) est toujoursnonne´gativeet f(θ,θ(k)) = 0 si et p(k)(x)exp(Dk) seulementsiθ =θ(k).Danslasuite,nousutiliseronscettefor- p(k+1)(x)= x (2) Mp(k)(x)exp(Dk) mulationenconside´rantpourf soitladivergencedeKullback x x soitladivergencedeFermi-Dirac.Nousrappelonsmaintenant avecDk = D(p(Y = y|XP= x)||p(Y = y(k))).C’estl’algo- x leursde´finitions. rithmedeBlahut-Arimoto.Onpeutmontrersansdifficulte´que La distance de Kullback-Leibler(KLD) est de´finie pour deux cetalgorithmeeste´quivalenta` : distributionsdeprobabilite´p={p(x),x∈X}etq={q(x),x∈ p(k+1)(x)=argmax{I(k)(p(x))−D(p(x)||p(k)(x))} (3) X} d’une variable ale´atoire discre`te X prenant ses valeurs x p dansunensemblediscretXpar: ou` I(k)(p(x))=E {Dk}.Cetalgorithmen’estpasunalgo- p(x) x p(x) rithmedupointproximalpuisquelafonctiondecouˆtI(k)(p(x)) D(p||q)= p(x)log q(x) de´penddesite´rations.Ilesttoutefoispossibled’exprimerl’in- Xx∈X formationmutuellecommesuit: LadistancedeKullback(appele´eaussientropierelative)adeux I(p(x))=I(k)(p(x))−D(q(y)||q(k)(y)) (4) proprie´te´simportantes : D(p||q) est toujoursnon-ne´gative,et D(p||q)estnullesietseulementsip = q.Cependant,cen’est Enintroduisant(4)dans(3),nousobtenons: pasune”vraie”distancepuisqu’ellen’estpassyme´trique p(k+1)(x)=argmax{I(p(x))−(D(p(x)||p(k)(x))−D(q(y)||q(k)(y)))} (D(p||q) 6= D(q||p)) et ne satisfait pas en ge´ne´ral l’ine´galite´ p triangulaire. D’apre`s l’ine´galite´ de Jensen, nous pouvons montrer que le La divergencede Fermi-Dirac est la divergence de Kullback- termedepe´nalite´ Leiblerapplique´ea`desprobabilite´ssurdese´ve`nementsn’ayant D(p(x)||p(k)(x))−D(q(y)||q(k)(y)) = quedeuxissues,elleestde´finiepourdeuxdistributionsdepro- babilite´ ri = PR(xi = 1) et si = PS(xi = 1) de´finiesdans E [logp(x) x˜p(y|x˜)p(k)(x˜)] l’ensembleX = (x ,...,x )avec x ∈ {0,1}de la manie`re p(x,y) p(k)(Px) p(y|x˜)p(x˜) 1 n i x˜ suivante: esttoujourspositifetqu’ilestPnulsietseulementsi DFD(r,s)= ni=1rilog(cid:16)srii(cid:17)+ ni=1(1−ri)log(cid:16)11−−rsii(cid:17) p(x)=p(k)(x)etq(y)=q(k)(y). La divergencePde Fermi-Dirac pre´Psente les deux meˆmes pro- Leprocessusite´ratifdevientalors: prie´te´s que la distance de Kullback : D (r,s) est toujours FD p(k+1)(x)=argmax{I(p(x))−β {D(p(x)||p(k)(x))−D(q(y)||q(k)(y))}} non ne´gative et DFD(r,s) = 0 si et seulement si r = s. La p(x) k divergencedeFermi-Diracn’estpassyme´trique. Achaqueite´ration,l’expressiondep(k+1)(x)estlameˆmeque dans(2).L’algorithmedeBlahut-Arimotos’interpre`tedonccomme 3 Me´thode de point proximal pour les un algorithme du point proximaldans lequel le parame`tre β k algorithmes ite´ratifs estconstantete´gala` 1. L’approcheintuitivedeMatz[8]consistea` remplacerladistri- 3.1 AlgorithmedeBlahut-Arimoto [1]et butiondeprobabilite´q(y)dansletermededroitedel’e´quation interpre´tation point proximal pre´ce´denteparlameˆmedistributionq(k)(y)calcule´ea`l’ite´ration pre´ce´dente. Nousallonsmaintenantutiliserledegre´deliberte´supple´mentaire amene´parβ pouraugmenterlavitessedeconvergence.Nous k choisissonsβ commesuit: k FIGURE1–Canal. maxβ (D(p(k+1)(x)||p(k)(x))−D(q(k+1)(y)||q(k)(y))) k Conside´ronsuncanaldiscretsansme´moireavecpourentre´e βk Xprenantsesvaleursdansl’ensemble{x ,...,x }etensor- danslequelp(k+1)(x)etq(k+1)(y)de´pendentdeβ .Celagua- 0 M k tieYprenantsesvaleursdansl’ensemble{y ,...,y }.Ceca- rantie que I(p(k+1)(x))−I(p(k)(x)) est maximale a` chaque 0 N nal est de´fini par sa matrice de transition Q telle que [Q] = ite´ration. Pour re´soudre ce proble`me de maximisation, nous ij Q =Pr(Y =y |X =x ). avonsutilise´ lame´thodedegradientconjugue´quidonnelava- i|j i j Nous de´finissons aussi p = Pr(X = x ) et q = Pr(Y = leurdeβ laplusconvenableencomparaisonavecl’approche j j i k y ).L’informationmutuelleestdonne´epar:I(X,Y)=I(p,Q)= propose´eparMatz. i B = (B ,B ,...,B )T dedimension2N ×N estlama- 0 1 2N−1 trice delarepre´sentationbinairedetouslesmotsdelongueur N.Soitη lafonctiondensite´ deprobabilite´ delavariableχ = B .Onadonc i T η =(Pr[χ=B0],Pr[χ=B1],...,Pr[χ=B2N−1]) Etant donne´ une fonction densite´ de probabilite´ η, ses coor- donne´eslogarithmiquessontlevecteurθ dontleieme e´le´ment est donne´ par θi = ln(Pr[χ = Bi]) − ln(Pr[χ = B0]). Nous de´finissons aussi λ le vecteur des ratio dont l’e´le´ment FIGURE2– Canaldiscretbinairesyme´trique. j est de´fini par λ = log(Pr[χj=1]) ou` χ est le jeme bit du j Pr[χj=0] j motbinaireχetλ∈RN.Pourdesdensite´sse´parables,c’esta` direquisonte´galesauproduitdesmarginales,lescoordonne´es logarithmiquesprennentlaformeθ =Bλ[13]. 3.2.1 De´codageite´ratifdes modulationscode´es a` bitsen- trelace´s[3] FIGURE4–Codeurdesmodulationscode´esa`bitsentrelace´s. FIGURE 3– CanalGaussianBernouilli-Gaussianayantcommepa- rame`tres(p=0.3,σb=0.01,σg =1). 3.1.1 Simulation Noustestons les3 algorithmesite´ratifssur uncanaldiscret binairesyme´triquede´finiparsamatricedetransition: FIGURE5–De´codeurite´ratifdesmodulationscode´esa`bitsentrelace´s. Le de´codageite´ratif pourles modulationscode´esa` bits en- 0.7 0.2 0.1 Q= trelace´es est constitue´ de deux blocs chacun ayantpour taˆche (cid:26) 0.1 0.2 0.7 (cid:27) d’e´valuer des probabilite´s a posteriori. Le premier bloc (de- Les re´sultats (fig.2) montrent que la capacite´ du canal est at- mapping)contientlesinformationsconcernantlemappingetle teinteapre`s20ite´rationsdanslecasclassique,7ite´rationsdans canalautraversdelaloideprobabilite´p(y|s)ou` yestlevec- l’approche de Matz et 4 ite´rations dans notre cas (avec une teurrec¸uetsunvecteurdesymbole.Ceblocrec¸oitunapriori pre´cisionde10−11). (aussiappele´ extrinse`que)quiluiestfourniparl’autrebloc.Il Nous comparonsensuite notre algorithme et celui de Matz estdoncenmesuredefournirdesprobabilite´sa` posterorique dbuantsdelefocramsedr’uunnecmanaatlriGceauQssaivanecBdeerngoraunildlie-sGdaiumsseinasniodnasn.sUlne nousnoteronspBλ1+θm ou` (λ1)km+i =ln(cid:16)pp((ddkkmm++ii==01;;II))(cid:17)est levecteurcontenantleslog-ratiodelaprobabilite´apriori[13]. telcanalestde´finipar:y =x +b +γ ou` k k k k Le vecteur θ est le vecteur de coordonne´es logarithmiques – b∼N(0,σ2) m b obtenua` partirdep(y|s).Lesecondbloccontientlesinforma- – γ =e g avec e:se´quencedeBernouilli(p) k k k tionscorrespondantaucodeurautraversdelafonctionindica- – g ∼N(0,σ2) avec σ2 ≪σ2 g b g trice du code.Ce secondbloc fournitles probabilite´sa poste- d’ou` yk =xk+nk riorisurlesbitspBλ2+θc ou` λ2 de´penddel’aprioria` l’entre´e dublocetθ estlevecteurdecoordonne´eslogarithmiquesob- avec c p(nk)=(1−p)N(0,σb2)+pN(0,σb2+σg2) tenua`partirdelafonctionindicatriceducode[13].Parailleurs, Lasortiey ae´te´ discre´tise´esur40valeurs,etl’entre´ex sur l’a prioridu bloc suivantest calcule´ en divisantla probabilite´ k k 10valeurs.Lesre´sultatssontreporte´ssurlafigure3.Nousob- a posterioridu bloc pre´ce´dentpar l’a prioriqu’il a rec¸u (pro- servonsencoreungainconse´quentgraˆcea` notreapproche. pagation d’extrinse`ques).Ce principe peut eˆtre re´sume´ par le processusite´ratif: 3.2 Outilsde base Nousintroduisonstoutd’abordquelquesnotations.SoitB ∈ Trouverλ2(k+1) telleque pB(λ1(k)+λ2(k+1)) =pBλ(1k)+θm (5) i {0,1}N larepre´sentationbinaired’unentieri,0≤ i ≤ 2N−1. Trouverλ1(k+1) telleque pB(λ1(k+1)+λ2(k+1)) =pBλ2(k+1)+θc (6) 4 Conclusion Ceprocessusite´ratifcorresponda`lare´solutionduproble`mede minimisationsuivant: Auniveaududemapping Danscetarticle,nousavonsd’abordmisene´videncel’algo- rithmeite´ratifdupointproximal.Nousavonsensuitepre´sente´ mλi2nDFD(pBλ1+θm,pB(λ1+λ2)) deux algorithmesite´ratifsdiffe´rentsa` la foispar l’application Auniveaudude´codeur vise´eetleprocessusite´ratifmisenjeu:l’algorithmeite´ratifde Blahut-Arimotoetl’algorithmedede´codageite´ratifdesmodu- mλi1nDFD(pBλ2+θc,pB(λ1+λ2)) lationscode´esa` bitsentrelace´s.Uneinterpre´tationdecesdeux Une solution est satisfaisante si elle re´pond aux deux crite`res algorithmesbase´esurlame´thodedepointproximaladonce´te´ simultane´ment. propose´eappuye´epardesre´sultatsdesimulation. Cependant la minimisation de l’un de ces crite`res n’entraine Re´fe´rences pasforce´mentladiminutiondel’autrecrite`rea` l’ite´rationsui- vante.Onpeutdonccraindreuncomportementdel’algorithme. Lame´thodedupointproximalpermetdefairelelienentreles [1] S.Arimoto,“Analgorithmforcomputingthecapacityof deux crite`res via le terme de pe´nalite´ qu’elle introduit. Nous arbitrarydiscretememorylesschannels,”IEEETrans.Inf. obtenonsalorsunnouveauprocessusdeminimisation: Theory,vol.18,pp.14–20,1972. λ2(k+1) =mλi2nJθm(λ1,λ2)=mλi2nDFD(pBλ1+θm,pB(λ1+λ2)) [2] dRi.sEto.rBtiolanhfuutn,c“tCioonms,p”uItEaEtioEnTorafncsh.aInnnf.eTlhcaepoaryc,itvyoal.n1d8r,aptep-. +µmDFD(pB(λ(1k)+λ(2k)),pB(λ1+λ2)) 460–473,1972. λ1(k+1) =mλi1nJθc(λ1,λ2)=mλi1nDFD(pBλ2+θc,pB(λ1+λ2)) [3] dGe.dCmairoed,uGla.tTiaorni,c”coIE,aEnEdTEr.aBnisg.liIenrfi.,“TBheito-irnyt,ervloela.ve4d, cpop-. +µcDFD(pB(λ(1k)+λ2(k+1)),pB(λ1+λ2)) [4] 9G2.7V–i9g4e6,,“MPraoyxi1m99al8-.pointalgorithmforminimizingqua- Celarevienta` trouverλ(2k+1)telleque draticfunctions,”INRIA,RR-2610,Tech.Rep.,1995. pB(λ(1k)+λ2(k+1)) = pBλ(1k)+θm +1+µmµpmB(λ(1k)+λ(2k)) (7) [5] rFi.thDmuspufoisr,cWom.Ypuu,tianngdcFh.aWnnielllecmaps,a“cAityrimanodtora-Btel-adhiusttoarltgioon- etλ(k+1) telleque withside-information,”inISIT,2004. 1 [6] J. Dauwels, “On graphical models for communications pB(λ1(k+1)+λ2(k+1)) = pBλ2(k+1)+θc +1+µcµpcB(λ(1k)+λ2(k+1)) (8) aimndplmemacehnitnateiolnea,”rnPihn.gD:.dAislgseorrtiathtimons,,Mboauyn2d0s,06an.d analog A la convergence,on retrouveles meˆmes points stationnaires [7] I. Csisza´r and G. Tusna´dy, “Information geometry and quepour(5)et(6).Pourassurerlade´croissancedesfonctions alternatingminimizationprocedure,”StatisticsandDeci- decouˆt,nouschoisissonsµ etµ afinque m c sions,vol.supplementissue1,pp.205–237,1984. J (λ(k),λ(k+1))≤J (λ(k),λ(k))et θm 1 2 θc 1 2 [8] G.MatzandP.Duhamel,“Informationgeometricformu- Jθc(λ1(k+1),λ2(k+1))≤Jθm(λ(1k+1),λ(2k+1)). lation and interpretation of accelerated Blahut-Arimoto- Lapremie`reine´galite´este´quivalentea` Typealgorithms,”inProc.InformationTheoryWorkshop, Jθm(λ1(k),λ2(k+1))≤ 1+µmµm(DFD(pBλ(1k)+θm,pB(λ1(k)+λ2(k)))+ 2004. DFD(pB(λ(1k)+λ(2k)),pBλ(1k)+θm))carladistancedeFermi-Dirac [9] E. Zehavi, “8-PSK trellis codes for a Rayleigh fading estconvexeparrapporta`sondeuxie`meparame`tre.D’autrepart channel,” IEEE Trans. Commun., vol. 40, pp. 873–883, DFD(pBλ(2k)+θc,pB(λ(1k)+λ(2k)))≤Jθc(λ(1k),λ(2k)) [10] MX.aLyi1,A99.2C.hindapol,andJ.Ritcey,“Bitinterleavedcoded D’apre`scesdeuxrelations,nousobtenonsunebornesupe´rieure modulationwithiterativedecodingand8-PSKsignaling,” pourµ : m IEEEtransCommun.,vol.50,pp.1250–1257,Aug2002. µ ≤ DFD(pBλ(2k)+θc,pB(λ(1k)+λ(2k))) [11] S. Chre´tien and A. O. Hero, “Kullback Proximal Algo- m DFD−DFD(pBλ(2k)+θc,pB(λ(1k)+λ(2k))) rithmsforMaximumLikelihoodEstimation,”INRIA,RR- ou` D estunedistancesyme´trique: 3756,Tech.Rep.,Aug1999. FD DFD =DFD(pBλ(1k)+θm,pB(λ(1k)+λ(2k))) [12] R.T.Rockafellar,“Monotoneoperatorsandtheproximal +DFD(pB(λ(1k)+λ(2k)),pBλ(1k)+θm) pzaotiinotna,lvgoolr.i1th4m,p,”p.S8IA7M7–8Jo9u8r,n1a9l76o.n Control and Optimi- Labornesupe´rieurepourµ peuteˆtreobtenued’unefac¸onsi- c milaire. En ite´rant (7) et (8) avec µ et µ choisis correcte- [13] J.M.Walsh,P.Regalia,andC.R.Johnson,“Turbodeco- c m mentnousobtenonsunalgorithmequiconvergeverslesmeˆme ding as Iterative Constrained Maximum-Likelihood Se- pointsquelede´codageite´ratifclassique(etquiadonclesmeˆmes quenceDetection,”IEEETrans.Inf.Theory,vol.52,pp. performancesentermedetauxd’erreurbinaire)touten dimi- 5426–5437,Dec.2006. nuantaufildesite´rationsuncrite`rede´sire´.

See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.