ebook img

Energy-efficient Straggler Mitigation for Big Data Applications on the Clouds PDF

152 Pages·2017·1.9 MB·English
by  
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Energy-efficient Straggler Mitigation for Big Data Applications on the Clouds

Energy-efficient Straggler Mitigation for Big Data Applications on the Clouds Tien-Dat Phan To cite this version: Tien-Dat Phan. Energy-efficient Straggler Mitigation for Big Data Applications on the Clouds. Per- formance [cs.PF]. École normale supérieure de Rennes, 2017. English. ￿NNT: 2017ENSR0008￿. ￿tel- 01669469v5￿ HAL Id: tel-01669469 https://theses.hal.science/tel-01669469v5 Submitted on 5 Mar 2018 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. THÈSE / ENS RENNES présentée par Université Bretagne Loire Tien-Dat Phan pour obtenir le titre de Préparée à l’unité mixte de recherche 6074 DOCTEUR DE L’ÉCOLE NORMALE SUPÉRIEURE DE RENNES Institut de recherche en informatique Mention : Informatique École doctorale MathSTIC et systèmes aléatoires i Energy-e cient Thèse soutenue le 30 novembre 2017 devant le jury composé de : Straggler Mitigation Mme PEREZ Maria / rapportrice for Big Data Applications Professeur des universités, Universidad Politécnica de Madrid, Spain M. LEGRAND Arnaud / rapporteur Chargé de Recherche, Laboratoire Informatique de Grenoble, France on the Clouds M. PIERSON Jean-Marc / examinateur Professeur des universités, Université Paul Sabatier de Toulouse, France M. BOUGÉ Luc / directeur de thèse Professeur des universités, ENS Rennes, France M. IBRAHIM Shadi / co-directeur de thèse Chargé de Recherche, INRIA Rennes - Bretagne Atlantique, France M. ANTONIU Gabriel /co-encadrant de thèse Directeur de Recherche, INRIA Rennes - Bretagne Atlantique, France i Contents 1 Introduction 1 1.1 Context . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.3 Publications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.4 Implementations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.5 OrganizationoftheManuscript . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2 Background: StragglerMitigationforBigDataApplicationsontheClouds 9 2.1 TheEraofBigData . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.2 BigDataProcessingontheClouds . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.2.1 CloudComputing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.2.2 MapReduceProgrammingModel . . . . . . . . . . . . . . . . . . . . . 12 2.3 EnergyEfficiencyinBigDataProcessingSystems . . . . . . . . . . . . . . . . 15 2.3.1 Energy-awareData-layoutTechniques . . . . . . . . . . . . . . . . . . . 15 2.3.2 Energy-efficientBigDataProcessingUsingDVFS . . . . . . . . . . . . 16 2.3.3 Energy-efficientResourceManagement . . . . . . . . . . . . . . . . . . 16 2.3.4 Energy-efficientJobs/TasksScheduling . . . . . . . . . . . . . . . . . . 17 2.3.5 ExploitingRenewableEnergy . . . . . . . . . . . . . . . . . . . . . . . . 17 2.4 PerformanceVariabilityandStragglers . . . . . . . . . . . . . . . . . . . . . . . 18 2.4.1 TheCausesofPerformanceVariability . . . . . . . . . . . . . . . . . . . 18 2.4.2 TheEffectofPerformanceVariability: Stragglers . . . . . . . . . . . . . 19 2.5 State-of-the-artTechniquestoMitigateStragglers . . . . . . . . . . . . . . . . . 20 2.5.1 StragglerDetection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.5.2 StragglerHandling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.6 Discussion: PavingtheWaytoEnergy-efficientStragglerMitigation . . . . . . 25 3 ImpactofStragglerMitigationonPerformanceandEnergyConsumption 27 3.1 Performancevs. EnergyTrade-offofSpeculativeExecution . . . . . . . . . . . 28 3.2 UnderstandingtheImpactonPerformanceandEnergyConsumptionofSpec- ulativeExecution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 3.3 MethodologyOverview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3.3.1 Platform . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3.3.2 Benchmarks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3.3.3 Hadoopdeployment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 ii Contents 3.4 PerformanceandEnergyFootprintsofSpeculativeExecution . . . . . . . . . 34 3.5 EffectivenessofSpeculativeExecution . . . . . . . . . . . . . . . . . . . . . . . 35 3.5.1 OnthePerformancePenaltyofSpeculativeExecution . . . . . . . . . . 35 3.5.2 OnthePowerCostofSpeculativeExecution . . . . . . . . . . . . . . . 38 3.5.3 ZoominontheEnergyImpactofSpeculativeExecution . . . . . . . . 40 3.6 Impact of Speculative Copy Scheduling on Performance and Energy Con- sumption . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 3.6.1 SpeculativeCopiesAreDelayedduetoResourceUnavailability . . . . 42 3.6.2 Impact of Speculative Copy Allocation on Performance and Energy Consumption . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 3.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 4 MeasuringandEnablingtheEnergyEfficiencyofStragglerDetection 47 4.1 EnergyInefficiencyofExistingStragglerDetectionMechanisms . . . . . . . . 48 4.2 AFrameworktoEvaluateStragglerDetectionMechanisms . . . . . . . . . . . 49 4.2.1 MetricsforCharacterizingStragglerDetectionMechanisms . . . . . . 50 4.2.1.1 Lackofevaluationmetricsforstragglerdetection . . . . . . . 51 4.2.1.2 Precision,Recall,DetectionLatencyandUndetectedTime . . 52 4.2.2 LinkingStragglerDetectionMetricstoPerformance . . . . . . . . . . . 53 4.2.2.1 ArchitecturalModelsforPerformanceandEnergyConsump- tion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 4.2.2.2 On the Impact of Precision and Recall on Energy Consump- tionandExecutionTime . . . . . . . . . . . . . . . . . . . . . 54 4.2.3 CharacterizingStragglerDetectionMechanismsviatheProposedMet- rics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 4.2.3.1 ExperimentSetup . . . . . . . . . . . . . . . . . . . . . . . . . 57 4.2.3.2 EvaluationofStragglerDetectionMechanisms . . . . . . . . 58 4.3 HierarchicalStragglerDetection: AGreenStragglerDetectionMechanism . . 62 4.3.1 DesignPrinciples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 4.3.2 Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 4.3.3 CharacterizingtheHierarchicalStragglerDetectionMechanism . . . . 64 4.3.4 EvaluatingtheEffectivenessofStragglerDetectionMechanisms . . . . 65 4.3.4.1 Methodology . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 4.3.4.2 ImpactofStragglerDetectionMechanismswithDifferentRe- sourceReservationPolicies . . . . . . . . . . . . . . . . . . . . 66 4.3.4.3 Evaluation of Straggler Detection Mechanism Using Pro- posedMetrics . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 4.3.5 Evaluating Hierarchical with Different Applications and Slow-node Thresholds . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 4.3.5.1 ExperimentalSetup . . . . . . . . . . . . . . . . . . . . . . . . 70 4.3.5.2 ExperimentalResults . . . . . . . . . . . . . . . . . . . . . . . 70 4.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 5 Energy-awareStragglerHandlingforBigDataProcessingSystems 75 5.1 Energy-awareSpeculativeExecutionControllerArchitecture . . . . . . . . . . 76 5.1.1 AllocationProblemDescription. . . . . . . . . . . . . . . . . . . . . . . 76 5.1.2 CopyAllocationHeuristic . . . . . . . . . . . . . . . . . . . . . . . . . . 77 Contents iii 5.2 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 5.2.1 ExperimentalMethodology . . . . . . . . . . . . . . . . . . . . . . . . . 78 5.2.2 ResultswiththeWordCountApplication . . . . . . . . . . . . . . . . . . 81 5.2.3 ResultswiththeKmeansApplication . . . . . . . . . . . . . . . . . . . . 86 5.2.4 ResultswiththeSortApplication . . . . . . . . . . . . . . . . . . . . . . 87 5.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 6 Energy-efficientResourceReservationMechanismforStragglerHandling 91 6.1 WHENandWHEREQuestions: ImpactsoftheAnswers . . . . . . . . . . . . 92 6.1.1 WhentoLaunch: AFixedSolutionisNotAlwaysGood . . . . . . . . 92 6.1.2 WheretoLaunch: HeterogeneityHastobeConsidered . . . . . . . . . 93 6.1.3 AMotivatingExample . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 6.2 DesignOverview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 6.3 ProposedTechniques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 6.3.1 Window-basedResourceReservation . . . . . . . . . . . . . . . . . . . 97 6.3.2 Heterogeneity-AwareCopyAllocation . . . . . . . . . . . . . . . . . . 99 6.4 Methodology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 6.5 ExperimentalEvaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 6.5.1 ComparisonofDifferentSpeculativeExecutionMechanisms . . . . . . 104 6.5.2 SensitivityStudy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 6.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 7 Conclusion 115 7.1 Achievements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 7.1.1 CharacterizingtheImpactofStragglerMitigationonPerformanceand EnergyConsumption . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 7.1.2 MeasuringandEnablingEnergyEfficiencyofStragglerDetection . . . 117 7.1.3 BringingEnergy-awarenesstoStragglerHandling . . . . . . . . . . . . 118 7.1.4 Energy-efficientStragglerHandlingMechanism . . . . . . . . . . . . . 118 7.2 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 7.2.1 ProspectsRelatedtotheHierarchicalStragglerDetectionMechanism . 119 7.2.2 ProspectsRelatedtoOurStragglerHandlingMechanisms . . . . . . . 120 Bibliography 123 Résuméenfrançais 133 iv Contents v List of Figures 2.1 MapReduceprocessingoverview . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.2 Energy-efficienttechniquesforprocessingBigData . . . . . . . . . . . . . . . 18 2.3 Thepresenceofstragglersinaproductioncluster . . . . . . . . . . . . . . . . 20 3.1 Potentialenergycostofspeculativecopies . . . . . . . . . . . . . . . . . . . . . 29 3.2 Theratioofsuccessfulspeculativecopiesinproductionclusters . . . . . . . . 30 3.3 Stragglermitigationinhomogeneousenvironment . . . . . . . . . . . . . . . . 34 3.4 Stragglermitigationinheterogeneousenvironment . . . . . . . . . . . . . . . 34 3.5 Numberofsuccessfulandunsuccessfulspeculativecopies. . . . . . . . . . . . 36 3.6 DataskewoftheCloudBurstapplication . . . . . . . . . . . . . . . . . . . . . . 36 3.7 Thelongesttaskexecutiontimeinhomogeneousenvironment . . . . . . . . . 37 3.8 AveragepowerconsumptionindifferentHadoopclusters. . . . . . . . . . . . 38 3.9 Extraslotoccupationinhomogeneousenvironment . . . . . . . . . . . . . . . 39 3.10 Totalidletimewhenspeculationisenabled. . . . . . . . . . . . . . . . . . . . . 39 3.11 Thelongesttaskexecutiontimesinheterogeneousenvironment . . . . . . . . 41 3.12 Latespeculativecopiesduetoresourceunavailability . . . . . . . . . . . . . . 42 3.13 Averagetaskexecutiontimeandpowerconsumption . . . . . . . . . . . . . . 43 3.14 Distributionofrunningtasksonanodewhenlaunchingcopies . . . . . . . . 45 4.1 Energyinefficiencyofexistingstragglermitigationtechniques . . . . . . . . . 49 4.2 DistributionofjobsizesinCMU’sHadoopproductionclusters. . . . . . . . . 58 4.3 DistributionoftaskexecutiontimesofWordCount . . . . . . . . . . . . . . . . 59 4.4 Impactofspeculativelagonstragglerdetection . . . . . . . . . . . . . . . . . 61 4.5 Hierarchicalstragglerdetectionarchitecture. . . . . . . . . . . . . . . . . . . . 64 4.6 Executiontimewithdifferentstragglerdetectionmechanisms . . . . . . . . . 67 4.7 Energyconsumptionwithdifferentstragglerdetectionmechanisms . . . . . . 67 4.8 Numberofspeculativecopieswithdifferentdetectionmechanisms . . . . . . 68 4.9 TheWordCountapplicationwithdifferentstragglerdetectionmechanisms. . . 71 4.10 TheSortapplicationwithdifferentstragglerdetectionmechanisms . . . . . . 72 5.1 StragglerratioinHadoopproductionclusters . . . . . . . . . . . . . . . . . . . 79 5.2 Speculativeexecutionwithdifferentcopyallocationmethods . . . . . . . . . 81 5.3 Performancewithdifferentcopyallocationmethods . . . . . . . . . . . . . . . 82 5.4 Energyconsumptionofdifferentcopyallocationmethods . . . . . . . . . . . 83 vi ListofFigures 5.5 Energyefficiencyofdifferentcopyallocationmethods . . . . . . . . . . . . . . 84 5.6 Copyallocationwithdifferentcopyallocationmethods . . . . . . . . . . . . . 85 5.7 Executiontimesofsuccessfulspeculativecopies . . . . . . . . . . . . . . . . . 86 5.8 SpeculativeexecutionwiththeKmeansapplication . . . . . . . . . . . . . . . . 87 5.9 PerformanceandenergywhenrunningKmeans . . . . . . . . . . . . . . . . . . 88 5.10 SpeculativeexecutionwiththeSortapplication . . . . . . . . . . . . . . . . . . 89 5.11 PerformanceandenergywhenrunningSort . . . . . . . . . . . . . . . . . . . . 89 6.1 Earlyspeculativecopiesdonotguaranteebetterstragglermitigation . . . . . 93 6.2 PerformancevariabilityofspeculativecopiesinHadoopproductioncluster . 94 6.3 Anexamplewithdifferentspeculativeexecutionmechanisms. . . . . . . . . . 96 6.4 Designoverviewofthereservation-basedspeculativeexecutionmechansim. 97 6.5 Reservation-basedstragglerhandlingmechansimworkflow . . . . . . . . . . 98 6.6 Normalizedexecutiontimeswithdifferentspeculationmechanisms . . . . . . 104 6.7 Energyconsumptionbreakdown . . . . . . . . . . . . . . . . . . . . . . . . . . 105 6.8 CDFofexecutiontimeimprovement . . . . . . . . . . . . . . . . . . . . . . . . 106 6.9 CDFofenergyconsumptionimprovement . . . . . . . . . . . . . . . . . . . . 107 6.10 Energyefficiencywithdifferentspeculativeexecutionmechanisms. . . . . . 108 6.11 Sensitivitystudyonresourcecontentiondegree. . . . . . . . . . . . . . . . . . 109 6.12 Sensitivitystudyonthehardwareheterogeneitydegree. . . . . . . . . . . . . 110 6.13 Sensitivitystudyonthestragglerratio: Performanceandenergyconsumption 112 6.14 Sensitivitystudyonthestragglerratio: Energyefficiency . . . . . . . . . . . . 113 6.15 Sensitivitystudyonthewindowsizeparameter. . . . . . . . . . . . . . . . . . 113 6.16 Stragglerdetectionandstragglerhandlinglatency . . . . . . . . . . . . . . . . 114 vii List of Tables 2.1 State-of-the-artstragglermitigationtechniques . . . . . . . . . . . . . . . . . . 21 3.1 Workloadcharacteristicsandconfigurations. . . . . . . . . . . . . . . . . . . . 32 4.1 Technicaltermsanddefinitionsrelatedtospeculativeexecution. . . . . . . . . 50 4.2 Existingmetricsforevaluatingstragglerdetectionmechanisms. . . . . . . . . 51 4.3 Misleadinginformationfromexistingmetrics . . . . . . . . . . . . . . . . . . . 52 4.4 Applicationcharacteristicsandconfigurations. . . . . . . . . . . . . . . . . . . 58 4.5 Stragglerratioonhomogeneousenvironment . . . . . . . . . . . . . . . . . . . 60 4.6 ThecharacteristicsofDefaultandLATE . . . . . . . . . . . . . . . . . . . . . . 62 4.7 CharacteristicsoftheHierarchicalstragglerdetectionmechanism . . . . . . . . 65 4.8 Stragglerdetectionwithdiverseresourcereservationratios . . . . . . . . . . . 69

Description:
Papers in International Conferences. • Tien-Dat Phan, Shadi Ibrahim, Gabriel Antoniu, Luc Bougé. On Understanding the. Energy Impact of Speculative Execution in Hadoop. In Proceeding of the 2015 IEEE Inter- national Conference on Data Science and Data Intensive Systems (DSDIS '15),
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.