THÈSE / ENS RENNES présentée par sous le sceau de l’Université européenne de Bretagne Radu Marius Tudoran pour obtenir le titre de Préparée à l’unité mixte de recherche 6074 DOCTEUR DE L’ÉCOLE NORMALE SUPÉRIEURE DE RENNES Institut de recherche en informatique Mention : Informatique École doctorale MATISSE et systèmes aléatoires High-Performance Big Data Thèse soutenue le 10 décembre 2014 devant le jury composé de : Management Across Cloud Frédéric Desprez / rapporteur Directeur de recherche, Inria Rhône-Alpes, France Data Centers Michael Schöttner / rapporteur et examinateur Professor, Institute of Informatics, Duesseldorf University, Germany Pierre Sens / examinateur Professeur, Université Paris 6, France Olivier Nano / examinateur Principal Development Manager at Microsoft Research, ATLE, Germany Patrick Valduriez / examinateur Directeur de recherche, Inria Sophia Antipolis-Méditerranée, France Gabriel Antoniu / directeur de thèse Directeur de recherche, Inria Rennes - Bretagne Atlantique, France Luc Bougé / directeur de thèse Professeur, ENS Rennes, France DubistaufgehobenfüreinengroßenMontag! Wohlgesprochen,aberderSonntagendetnie YouaredestinedforagreatMonday! Wellsaid,buttheSundayneverends Reisetagebücher,1921,FranzKafka Acknowledgements This PhD work was made possible thanks to the patience, guidance and helpful ad- vicesofmyexcellentsupervisorsGabrielandLuc,andmyclosecollaboratorandcolleague Alexandru. Iammostgratefulforyoursupportandforofferingmethisgreatandenriching experience. Thankyouforeverything! Iwouldliketothankalsomybelovedfamily: Anca, RaduandIleana, fortheircontinu- ousencouragement,supportandhelpineverystepthatImake. Youprovidemethestrength thatIneedtogoforward. Iwouldalsoliketothankthemembersofthejury: OlivierNano, PatrickValduriezand Pierre Sens and my evaluators Michael Schöttner and Frédéric Desprez for taking the time toevaluatemyworkandgivemevaluablefeedback. Kind regards go to my internship supervisors and collaborators: Götz Brasche, Olivier Nano,IvoSantos,HakanSoncu,RaminRezaiRadandKateKeahey. Iamgratefulforgiving methechancetoworkwithyouandforallyourmentoringadvices. Youhaveallhelpedme toimprovemyworkandmyself. Many thanks go to the different contributors and collaborators. To Benoit Da Mota, Bertrand Thirion, Götz Brasche, Hakan Soncu and Pierre-Louis Xech for the great collab- oration that we had in the A-Brain project. To Patrick Valduriez, Esther Pacitti, Ji Liu, Luis PinedaMoralesandOlivierNanofortheshorttimethatIhadthechancetoworkwithyou intheZ-CloudFlowproject. IwouldalsoliketothankDennisGannon,TonyHeyandKenji Takeda for their valuable support and help in these projects and for all our interactions. I wouldalsoliketothankKateKeahey,PierreRiteauandSergeyPanitkinforourworkwithin theframeworkoftheData@Exascalejointteam. Thanks go also to all the current and former members of the KerData team: Shadi, Houssem, Matthieu, Orçun, Tien Dat, Alvaro, Lokman, Pierre, Diana, Alexandra, Andreea, Stefan, Elena, Viet-Trung, Bogdan, Ciprian, Florin and Catalin. I happily recall our quality timetogether. I would also like to thank a number of friends that were particularly supportive along this path. All my gratitude to Octavian, to whom I owe my first steps in research. Many thanks to Costin with whom I closely shared many enlightening experiences during these years. Many thanks also to my old and close friends Sebi, Marius, Nicu and Florin with whomImadetogethermanyofthestepsthathavetakenmehere. Finally,Iwouldliketothankalltheotherpeoplethathadadirectorindirectcontribution tothisworkandwerenotmentionedabove. Yourhelpandsupportisappreciated. i Contents 1 Introduction 1 1.1 Context . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3 Publications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.4 Software . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.5 OrganizationoftheManuscript . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Part I — Context: TheLandscapeofBigDataManagementonClouds 11 2 Background: TheEraofBigData 13 2.1 TheDataDeluge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.2 DataScience: TheEmergenceofaNewScientificParadigm . . . . . . . . . . . 16 2.3 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3 Background: CloudComputing 19 3.1 Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.2 TheCloudComputingParadigm . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.3 TheCloudStorageParadigm . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 4 Objective: ProcessingBigDataonClouds 27 4.1 OverviewofBigDataApplications . . . . . . . . . . . . . . . . . . . . . . . . . 27 4.2 ChallengesandIssues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 4.3 BigDataProcessingModels: MapReduceandBeyond . . . . . . . . . . . . . . 31 4.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 5 State-of-the-Art: BigDataManagementSystemsforClouds 33 5.1 DataStorage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 5.1.1 UnstructuredData: Object-BasedStorageSystems . . . . . . . . . . . . 33 5.1.2 StructuredData: DistributedFileSystems . . . . . . . . . . . . . . . . . 34 5.1.3 StructuredData: Key-ValueStores . . . . . . . . . . . . . . . . . . . . . 35 5.2 DataProcessing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 5.2.1 MapReduce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 5.2.2 Workflows . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 ii Contents 5.2.3 ComplexEventProcessingPlatforms . . . . . . . . . . . . . . . . . . . 40 5.3 Transfer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 5.3.1 StaticData . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 5.3.2 Real-TimeData . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 5.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 Part II — High-PerformanceBigDataManagementonaSingleDataCenter 45 6 MapReduceforBio-Informatics: TheA-BrainCaseStudyApplication 47 6.1 JoiningGeneticandNeuro-imagingAnalysis . . . . . . . . . . . . . . . . . . . 47 6.1.1 InitialMotivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 6.1.2 A-Brain: ApplicationDescription . . . . . . . . . . . . . . . . . . . . . . 48 6.1.3 Challenges . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 6.2 TowardsaMapReduceArchitecturalSolution. . . . . . . . . . . . . . . . . . . 51 6.3 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 7 TomusBlobs: LeveragingLocalityforMapReduceApplicationsonAzureCloud 53 7.1 TomusBlobs: FederatingVirtualDisksforaCommunicationEfficientStorage 56 7.2 LeveragingVirtualDisksforEfficientMapReduceProcessing . . . . . . . . . 58 7.3 ValidationandExperimentalEvaluation . . . . . . . . . . . . . . . . . . . . . . 61 7.3.1 Cloud Storage Evaluation: TomusBlobs vs. Cloud-Provided Storage ServiceinSyntheticSettings . . . . . . . . . . . . . . . . . . . . . . . . . 61 7.3.2 InitialExperimentationwiththeA-BrainApplication . . . . . . . . . . 63 7.3.3 ACostAnalysisforExecutingScientificApplicationsontheCloud . . 64 7.4 ExtendingTomusBlobsforEfficientWorkflowFileManagement . . . . . . . . 65 7.5 ValidationandExperimentalEvaluationforWorkflows . . . . . . . . . . . . . 71 7.5.1 TomusBlobsintheContextofSyntheticWorkflows . . . . . . . . . . . 71 7.5.2 UsingTomusBlobstoExecuteaBiologicalWorkflowApplication . . . 72 7.6 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 8 GoingFurther: ScalingMapReduceacrossMultipleDataCenters 75 8.1 Map-IterativeReduce: HandlingReduce-IntensiveWorkloads . . . . . . . . . 77 8.2 GeographicallyDistributedMapReduce . . . . . . . . . . . . . . . . . . . . . . 81 8.3 ValidationandExperimentalEvaluation . . . . . . . . . . . . . . . . . . . . . . 83 8.3.1 SelectingtheVMType: ImpactofMulti-TenancyonPerformance . . . 83 8.3.2 PerformanceGainswithMap-IterativeReduce . . . . . . . . . . . . . . 85 8.3.3 HierarchicalMulti-SiteMapReduce . . . . . . . . . . . . . . . . . . . . 87 8.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 9 LessonsLearned: Large-ScaleBigDataExperimentsontheCloud 91 9.1 ALarge-ScaleExperimentforFittingGenotypeswithSubcorticalBrainRegions 92 9.2 FocusingonLong-RunningScientificExperiments . . . . . . . . . . . . . . . . 94 9.3 AddressingDataManagementIssuesacrossDataCenters . . . . . . . . . . . 97 9.3.1 Azure-SpecificObservations . . . . . . . . . . . . . . . . . . . . . . . . 98 9.3.2 BeyondAzure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 9.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 Contents iii Part III — High-PerformanceBigDataManagementacrossDataCenters 103 10 DataSteward: UsingDedicatedNodesforScalableDataManagement 105 10.1 AStorageServiceonDedicatedComputeNodes . . . . . . . . . . . . . . . . . 107 10.2 ZoomontheDedicatedNodeSelection . . . . . . . . . . . . . . . . . . . . . . 110 10.3 ExperimentalEvaluationandFunctionality-Perspectives . . . . . . . . . . . . 113 10.3.1 ClusteringAlgorithmEvaluation . . . . . . . . . . . . . . . . . . . . . . 113 10.3.2 DataStorageEvaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 10.3.3 DataProcessingServicesforaScientificApplication . . . . . . . . . . . 117 10.3.4 GoingFurther . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 10.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 11 BridgingDataintheClouds 121 11.1 AnEnvironment-AwareApproachforInter-SiteTransfers . . . . . . . . . . . 123 11.2 TheCostofPerformanceacrossDataCenters . . . . . . . . . . . . . . . . . . . 127 11.2.1 CloudDataTransferModel . . . . . . . . . . . . . . . . . . . . . . . . . 127 11.2.2 EfficiencyintheContextofDataManagement . . . . . . . . . . . . . . 129 11.2.3 MultipleDataCenterPathsTransferStrategy . . . . . . . . . . . . . . . 130 11.3 ValidationandExperimentalEvaluation . . . . . . . . . . . . . . . . . . . . . . 132 11.3.1 EvaluationofthePerformanceModel . . . . . . . . . . . . . . . . . . . 132 11.3.2 DataTransferServiceEvaluation . . . . . . . . . . . . . . . . . . . . . . 134 11.3.3 TheCost–ExecutionTimeEfficiencyofDataTransfers . . . . . . . . . . 137 11.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 12 Real-TimeDataManagementacrossDataCenters 141 12.1 EvaluatingStrategiesforCloudStreamProcessing . . . . . . . . . . . . . . . . 143 12.2 ModelingtheStreamingofDataintheContextofClouds . . . . . . . . . . . . 147 12.2.1 ZoomontheEventDeliveryLatency . . . . . . . . . . . . . . . . . . . 148 12.2.2 Multi-RouteStreaming . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 12.3 JetStream: EnablingHigh-PerformanceStreamingbetweenDataCenters . . . 151 12.3.1 AdaptiveCloudBatching . . . . . . . . . . . . . . . . . . . . . . . . . . 151 12.3.2 SystemArchitectureOverview . . . . . . . . . . . . . . . . . . . . . . . 153 12.4 ValidationandExperimentalEvaluation . . . . . . . . . . . . . . . . . . . . . . 154 12.4.1 AccuracyoftheCloudStreamingLatencyModel . . . . . . . . . . . . 155 12.4.2 Individualvs. Batch-BasedEventTransfers . . . . . . . . . . . . . . . . 156 12.4.3 AdaptingtoContextChanges . . . . . . . . . . . . . . . . . . . . . . . . 157 12.4.4 BenefitsofMulti-RouteStreaming . . . . . . . . . . . . . . . . . . . . . 158 12.4.5 ExperimentinginaReal-LifeScientificScenario . . . . . . . . . . . . . 158 12.5 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 13 TransferasaService: TowardsCostEffectiveMulti-SiteDataManagement 161 13.1 TransferasaService . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 13.2 ValidationandExperimentalEvaluation . . . . . . . . . . . . . . . . . . . . . . 165 13.2.1 EvaluatingtheInter-SiteTransferOptions . . . . . . . . . . . . . . . . . 166 13.2.2 DealingwithConcurrency . . . . . . . . . . . . . . . . . . . . . . . . . . 167 13.2.3 Inter-SiteTransfersforBigData . . . . . . . . . . . . . . . . . . . . . . . 168 13.3 Towardsa“DataTransferMarket”forGreenerDataCenters . . . . . . . . . . 170 iv Contents 13.3.1 AFlexiblePriceSchemeforaTransferMarket . . . . . . . . . . . . . . 170 13.3.2 TheDataTransferMarket . . . . . . . . . . . . . . . . . . . . . . . . . . 171 13.3.3 TheEnergyEfficiencyofDataTransfers . . . . . . . . . . . . . . . . . . 173 13.3.4 Reliability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174 13.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174 Part IV — ConclusionsandPerspectives 177 14 Conclusions 179 14.1 Achievements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179 14.2 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182 Part V — Appendix 201 15 Resumé 203 16 Abstract 209
Description: