ebook img

Mohamed Amine BERGACH Adaptation du calcul de la Transformée de Fourier Rapide sur une ... PDF

113 Pages·2015·4.21 MB·French
by  
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Mohamed Amine BERGACH Adaptation du calcul de la Transformée de Fourier Rapide sur une ...

UNIVERSITENICE-SOPHIAANTIPOLIS ECOLEDOCTORALESTIC SCIENCESETTECHNOLOGIESDEL’INFORMATIONETDELACOMMUNICATION THESE pourl’obtentiondugradede DocteurenSciences del’UniversitéNice-SophiaAntipolis Mention: Informatique présentéeetsoutenuepar Mohamed Amine BERGACH Adaptation du calcul de la Transformée de Fourier Rapide sur une architecture mixte CPU/GPU intégrée ThèsedirigéeparRobertDESIMONE soutenuele2Octobre2015 Jury: M.OlivierSENTIEYS Examinateur M.Jean-FrançoisMÉHAUT Rapporteur M.AlbertCOHEN Rapporteur M.RobertDE SIMONE Directeurdethèse M.SergeTISSOT Encadrantdethèseentreprise M.MichelSYSKA co-Encadrantdethèse Àmesparents: Monpèrequim’aapprisladiscipline Mamèrequim’aapprislapatience "TheFreeLunchIsOver" HerbSutter Remerciements JetiensàremercierenpremierlieuRobertdeSimoned’avoiracceptéd’êtreledirec- teurdecettethèse. MesremerciementsvontconjointementettoutparticulièrementàSergeTissotet MichelSyskapourleurencadrement,leursoutienetleurconfiancequim’ontpermis demeneràbienceprojet. JeremercieégalementlesrapporteursdecettethèseAlbertCohenetJean-François Méhaut de s’être portés volontaires à la lecture de mon mémoire. Merci également auxautresmembresdujury. Je tiens à remercier une dernière fois Robert de Simone, Michel Syska et Serge Tissotpourleurrelecturedemestravauxetdem’avoirsoumisleurscorrectionstant surlaformequesurmonfrançaisparfoisapproximatif. Enfin, je tiens à montrer ma gratitude à tout le soutien apporté par mes proches, mafamille,plusparticulièrementmesparentspourleursencouragements;sansou- bliermesamisquiontsumemotiverens’informantrégulièrementdel’avancement demontravail. Cette thèse n’aurait sûrement pas abouti sans cet entourage qui a su apporter, chacunàleurmanière,uneaideréconfortanteetprécieuse. Merci. 7 Résumé Lesarchitecturesmulti-cœursIntelCore (IvyBridge,Haswell,...)contiennentàlafois des cœurs CPU généralistes (4), mais aussi des cœurs dédiés GPU embarqués sur cette même puce (16 et 40 respectivement). Dans le cadre de l’activité de la société Kontron (qui participe à ce financement de nature CIFRE) un objectif important est de calculer efficacement sur cette architecture des tableaux et séquences de trans- forméesdeFourierrapides(FFT),commeparexempleonentrouvedansdesappli- cations radar. Alors que des bibliothèques natives (mais propriétaires) existent chez IntelpourlesCPU,riendeteln’estactuellementdisponiblepourlapartieGPU. L’objectifdelathèseétaitdoncdedéfinirleplacementefficacedemodulesFFT,en étudiant au niveau théorique la forme optimale permettant de regrouper des étages decalculd’unetelleFFTenfonctiondelalocalitédesdonnéessuruncœurdecalcul unique.Cechoixaprioripermetd’espéreruneefficacitédestraitements,enajustant latailledelamémoiredisponibleàcellesdesdonnéesnécessaires. Ensuite la multiplicité des cœurs reste exploitable pour disposer plusieurs FFT calculéesenparallèle,sansinterférence(saufcontentiondubusentreCPUetGPU). Nousavonsobtenudesrésultatssignificatifs,tantauniveaudel’implantationd’une FFT(1024points)suruncœurCPUSIMD,expriméeenlangageC,quepourl’implan- tationd’uneFFTdemêmetaillesuruncœurGPUSIMT,expriméealorsenOpenCL. Deplusnosrésultatspermettentdedéfinirdesrèglespoursynthétiserautomatique- ment de telles solutions, en fonction uniquement de la taille de la FFT son nombre d’étagesplusprécisément),etdelatailledelamémoirelocalepouruncœurdecalcul donné. Les performances obtenues sont supérieures à celles de la bibliothèque na- tive Intel pour CPU), et démontrent un gain important de consommation sur GPU. Touscespointssontdétaillésdansledocumentdethèse.Cesrésultatsdevraientdon- nerlieuàexploitationauseindelasociétéKontron. i Abstract Multicore architectures Intel Core (IvyBridge, Haswell...) contain both general pur- poseCPUcores(4)anddedicatedGPUcoresembeddedonthesamechip(16and40 respectively). As part of the activity of Kontron (the company partially funding this CIFRE scholarship), an important objective is to efficiently compute arrays and se- quences of fast Fourier transforms (FFT) such as one finds in radar applications, on thisarchitecture.Whilenative(butproprietary)librariesexistforIntelCPU,nothing iscurrentlyavailablefortheGPUpart. The aim of the thesis was to define the efficient placement of FFT modules, and to study theoretically the optimal form for grouping computing stages of such FFT according to data locality on a single computing core. This choice should allow pro- cessingefficiency,byadjustingthememorysizeavailabletotherequiredapplication data size. Then the multiplicity of cores is exploitable to compute several FFT in pa- rallel,withoutinterference(exceptforpossiblebuscontentionbetweentheCPUand the GPU). We have achieved significant results, both in the implementation of an FFT(1024points)onaSIMDCPUcore,expressedinC,andintheimplementationof aFFTofthesamesizeonaGPUSIMTcore,thenexpressedinOpenCL. Inaddition,ourresultsallowtodefinerulestoautomaticallysynthesizesuchsolu- tions,basedsolelyonthesizeoftheFFT(morespecificallyitsnumberofstages),and thesizeofthelocalmemoryforagivencomputingcore.Theperformancesobtained are better than the native Intel library for CPU, and demonstrate a significant gain inconsumptiononGPU.Allthesepointsaredetailedinthethesisdocument.These resultsshouldleadtoexploitationofthecodeaslibrarybytheKontroncompany. ii Table des matières Résumé i Abstract ii Abréviations x 1 Introduction 1 1.1 Contexteetobjectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3 Organisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2 Applicationsviséesetmodélisation 4 Motivations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.1 TransforméedeFourierdiscrèteetalgorithmeFFTdebase . . . . . . . 4 2.1.1 TransforméedeFourierdiscrète . . . . . . . . . . . . . . . . . . 4 2.1.2 VersiondebaseFFTdeCooley-Tukey . . . . . . . . . . . . . . . 6 2.1.3 Calculoptimisédublocdebase«papillon» . . . . . . . . . . . . 8 2.1.4 Opérationbitreverse . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.2 VariantesalgorithmiquesdelaFFT . . . . . . . . . . . . . . . . . . . . . 13 2.2.1 Cooley-Tukey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.2.2 Radix-2DIF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.2.3 Mixedradix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.2.4 Split-RadixFFT . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.2.5 Stockham . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.2.6 Autresversions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.2.7 Analyseetcomparaisonentrelesversions . . . . . . . . . . . . . 18 2.3 ApplicationsbaséessurlaFFT:exemplededétectionRadar . . . . . . 18 Bilanetdiscussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3 Lesarchitecturesdecalculintensif 22 Motivations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.1 Parallélisme"on-chip"(généralités) . . . . . . . . . . . . . . . . . . . . 22 3.1.1 Parallélismed’instructions . . . . . . . . . . . . . . . . . . . . . . 22 3.1.1.1 FMAfusedmultiply-add . . . . . . . . . . . . . . . . . . 23 3.1.1.2 SMTsimultaneousmultithreading . . . . . . . . . . . . 23 3.1.2 Lemulticœur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3.2 ModèleSIMDpourCPU . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 iii

Description:
Intel pour les CPU, rien de tel n'est actuellement disponible pour la partie GPU. As part of the activity of Kontron (the company partially funding this quences of fast Fourier transforms (FFT) such as one finds in radar Si r = 2 alors N = 2m . De même ωr et ωi les parties réelles et imagina
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.