SUDAN UNIVERSITY OF SCIENCE AND TECHNOLOGY FACULTY OF COMPUTER SCIENCE AND INFORMATION TECHNOLOGY COMPUTER SCIENCE AND INFORMATION SYSTEM DEPARTMENT COMPARING THE PERFORMANCE OF APACHE SPARK AND APACHE HADOOP MAPREDUCE ON BIG DATA PROCESSING THESIS SUMITTED AS A PARTIAL FULFILLMENT OF B.Sc. (HONOR) DEGREE IN COMPUTER SECINCE AND INFORMATION SYSTEM OCTOBER 2017 i ميحرلا نمحرلا الله مسب SUDAN UNIVERSITY OF SCIENCE AND TECHNOLOGY FACULTY OF COMPUTER SCIENCE AND INFORMATION TECHNOLOGY COMPUTER SCIENCE AND INFORMATION SYSTEM DEPARTMENT COMPARING THE PERFORMANCE OF APACHE SPARK AND APACHE HADOOP MAPREDUCE ON BIG DATA PROCESSING PREPARED BY: ALAA ISMAIEL IBRAHIM SHUMO. ESRA ADIL GALAL SALIH. SAJDA LOTFY AHMED KHALED. SARA HASSABO ABDALLAH ALBASHEER. SUPERVISOR: AHMED HAMZA ABDL-MONIEM HAMZA SIGNATURE OF SUPERVISOR: DATE: …………………………………………… ………………. ii ةيلآا :ىلاعتو كرابت لاق نَ م مهُ اَنق زَ رَ وَ ر حَ بل اوَ ر َبل ا يف م هُ َانل مَ حَ وَ مَ دَ آ ينَب َانم رَّ كَ د َقلوَ ۞ ۞ ا ليض ف َ ت اَنق َلخَ ن مَّ م رٍ ي ثكَ ىٰ َلعَ م هُ اَنل ضَّ فوَ ت َاب يطَّ لا )70 – ءارسلإا( iii لله دمحلا وهو ءاملا تارطق يصحْ مُ ،رهقلاو زعلاب ةربابجلا مصاقو ،رهجلاو رسلا ملاع لله دمحلا داجيإب درفتملا وهف ،رهدلا تاقوأ ىتح ضعب ىلع تاقولخملا ضعب لضَّ ف ،رهنلا يف يرجي .هقزر راردإب دحوتملا ،هقلْخَ هملعردقمو ،هقطن عُ ماسو دبعلارسب مٌ لاع ،هقحب قٌ ولخمَ ماق امف ميركلا ،هقبسل قبْ سَّ لاف ميدقلا لُّ كلاف را هَّ قلا كلاملا ،هقدصو هبذكو هبنذو هبيع ىلع هيزاجمو ،هقلخو هلعفو هرمعو هلمعو عمطُ يو هقعاوص فاخُ ت باحسلا لسرأ ،هق فْ ر ل ظ يف قلخلاف راتسلا ميلحلا ،هقر رسْ أ يف نَ يْ ب ارً ون رمقلاو اجً ارس سمشلا لعج ،هقرْ بَ انس داكيو ،هدعاور بولقلا جعزي ،هَقدوَ يف . هق رْ شو هبرْ غ ،ه قْ َ تفو هقترَ يف هل كيرش لا هدحو الله لاإ هلإ لا نأ دهشأو ،هقرط ليهستو ىدهلا ىلع هدمحْ ن هلآ ىلعو ملسو هيلع الله ىلص ،هق حْ مَ ب هاحمف مٌّ اع للاضلاو هلسرأ ،ُهلوسرو ُهدبع ًادمحمُ نَّ أو نامثع ىلعو ،هقذْ ح و هريبدتب ىرَ سْ كرساك رمع ىلعو ،هقدْ ص ب قباسلا ركب يبأ هباحصو سابعلا همع ىلعو ،هق شْ ع يف انورذعاو ٍّي لع ىلعو ،هقرَ يف هديدبت دعب نآرقلا عماج .هقرْ ع و هلصأ يف ًةكراشم iv ءادهلإا رهدلا ملاظ يف اهتزرطو ربصلا قاروأ نم اهتعنص ةلاسر ءادأ يف اهرمع ترذن نم ىلإ كيلإ ءافولا نوكي فيك ءافولا ملعتو ءاطعلا نوكي فيك ءاطعلا ملعت ةلاسر "يمأ" تاحلاصلاب كرمع يف دمأو ..ًاريخ الله كازج ةلاسرو ةلاسر نيب ناتشو ةلاسرلا هذه يدهأ .اهرونو ةايحلا ةرهز تنأف ىلإ ةداعس ةظحل انل مدقيل هلمانأ تلك نم ىلإ بح ةرطق ينيقسيل ًاغراف سأكلا عرج نم ىلإ .ريبكلا بلقلا ىلإ ملعلا قيرط يل دهميل يبرد نع كاوشلأا دصح نم "يبأ" يف شيعلاو يئاضرلإ مهقوقح نع نولزانتيو ينودناسيو قيرطلا يل نوئيضي اوناك نم ىلإ .ةبحملا عيباني اهنم ترجفتل ةلحاق ضرأ ىلع رم ول ابح مكبحأ ،ءانه "هايحلا يف يتاقيفرو يتاقيدص" .ديعبلا وا بيرق نم لعفلا وا ملاكلاب اندناس نم لك ىلإ 2013 ةعفد تاكبشلاو تامولعملا مظن صصخت ةعبارلا ةنسلا ةبلط لك ىلإ اوهس يملق نم طقس نم لك ىلإ لمعلا اذه يدهأ v نافرع و ركش الله ىلص دمحم انيبن نيلسرملاو قلخلا فرشأ ىلع ملاسلاو ةلاصلاو ،نيملاعلا بر لله ُدمحلا .نيرهاطلا نيبيطلا هلآ ىلعو ملسو هيلع انطاحأ يذلا ،ىلاعتو هناحبس )الله( لجو زَّ ع يرابلا معنملا ىلإ هب مدقتن هرخآو ركشلا لوأ وحن انقيرط قش يف ةوقلاو ربصلا انمهلأو ،ريسع لك انل رسيو ،ةميظعلا ةيهللإا هتياعرب نملريدقتلاو مارتحلااو ليمجلاب نافرعلاو ليزجلا ركشلا صلاخب مدقتن .يملعلا ثحبلا يف ءايضلا سبق ناك دقف ، هزمح دمحأ/فرشملا ذاتسلأل حصنلاب انصتخاو لضفلاب انرمغ قَ حلا ودعن لا انلعلو مطلاتملا ةساردلا جوه يف ملعلا بكرم ناطبق ناك امك ،ثحبلا ةمتع انيلع ضافأ ميلحلا خلأا معنو روقولا بلأا معنو نيملأا حصانلا معن انل ناك هنأ لوقن ذإ رخدي ملو ةميزعلا ةوق انسوفن يف سرغو ةقثلا انحنم ، هتحامسو هلضفب انلمشو هملعب امب هاضرأو هتانسح نازيم يف كلذ لعجو ملعلا ةبلطل ًارخذ الله هاقبأ انيلع لخبي ملو ،ًادهج ةليط انهيجوتب ماق يذلا ميحرلادبع دمحم/سدنهمللركشلا ليزجب مدقتن نأ يسنن لاو .هل مسق .ةساردلا هذه مل نيذلا نيصلخملا هذتاسلاا لكل ركشلا ليزجب مدقتن ليمجلاب انم ً افارتعإو ً اريدقتو ً ءافو انهيجوت يف لضفلا مهل ناك نيذلاو ، يملعلا ثحبلا لاجم يف انتدعاسم يف ًادهج اولأي ، رداقلا دبع ىلع هديوه .د : نافرعلا و ركشلاب صُ خُ ن و ،ةيثحبلا ةداملا عيمجت يف انتدعاسمو .ريخ لك الله مهازجف ،ومش ىلع هداغ.أ و هسيفن.أ ، لصيف ءافو.أ ، ماشه .أ هذه جارخإ يف ةدعاسملاو نوعلا دي انل اودم نم لك يلإ انركش ليزجب مدقتن ، ًاريخأو .هجو لمكأ يلع ةساردلا هوقو نظلا نسحب ىوس اهاطختت مل يتلاو ، تقلا ام تابوعصلا نم تقلا يتلا انسفنا ىلإ .هدحو الله ىلع لكوتلا vi Abstract Imagine the massive volume of data in the world, and the rapid growth of it every moment and every second, these data that carry many useful values, which help companies to succeed and increase a competitive advantage, is called 'Big Data', due to its sheer Volume, Variety, Velocity and Veracity. Most of this data is unstructured, structured or semi structured. The large amounts of data created a need for new frameworks for processing. The “Apache Hadoop MapReduce" model is a framework for processing large-scale datasets with parallel and distributed algorithms. The “Apache Hadoop MapReduce“allows for the distributed processing of large data sets across clusters of computers using simple programming models. Recently a framework called Apache Spark has emerged, focused on micro-batch data processing. In addition the main feature of Spark is the in-memory computation. In this research, we perform a comparative study on the performance of these two frameworks. Additionally we use bigdatabench (tool) to load dataset up to 420 million records. Experimental results show that Spark has better performance and overall lower runtimes than Apache Hadoop MapReduce. vii صلختسملا هذه نأو ،ةيناث لكو ةظحل لك يف عيرسلا ومنلاو ،ملاعلا يف تانايبلا نم لئاهلا مجحلا كلذ ليخت هذه ،ةيسفانتلا اهتزيم ةدايزو حاجنلا ىلع تاكرشلا دعاست يتلاو ،ةديفملا ميقلا نم ديدعلا لمحت تانايبلا اهتحص ىدمو اهتعرسو اهعونتو ،لئاهلا اهمجحل ارظن ،"ةريبكلا تانايبلا" حلطصم اهيلع قلطن تانايبلا .هلكيهم ريغ وا هلكيهم هبش وأ هلكيهم تانايبلا هذه مظعمو، Hadoopراطإ اهنم ،هريبكلا تانايبلا كلت ةجلاعمل ةديدج لمع رطُ أ روهظ ىلإ ةساملا ةجاحلا تدجو كلذل ىدملا ىلع ةريبكلا تانايبلا ةجلاعمل هيزاوتملاو هعزوملا تايمزراوخلا مدختسيراطإ وهو MapReduce مادختساب )clusters(رتويبمكلا ةزهجأ نم هعومجمل تانايبلا ىلع ةجلاعملا عيزوتب حمسي أضياو ،عساولا .ةطيسب ةجمرب جذامن micro-batch data ىلع زكر ، Apache Spark ىمسي راطإ ز رَ ب ةريخلأا ةنولآا يف .ةركاذلا يف ةجلاعملا يه Apache Spark ل ةيسيئرلا هزيملا نا ىلإ هفاضلإاب .processing انمدختسا كلذ ىلإ ةفاضلإاب .نيراطلإا نيذه ءادأ نع ةنراقم ءارجإب انمق ،ثحبلا اذه يف Apache نأ ةيبيرجتلا جئاتنلا ترهظأو .لجس نويلم 420 ىلإ لصت تانايب ليمحتل BigDataBench .Hadoop MapReduce نم لقأ هذيفنت نمز و ،لضفأ هءادأ ناك Spark viii Table of Contents CHAPTER ONE: INTRODUCTION 1 1.1 INTRODUCTION 2 1.2 PROBLEM STATEMENT 3 1.3 OBJECTIVES 3 1.4 RESEARCH SIGNIFICANCE 4 1.5 PROPOSED SOLUTION 4 1.8 THESIS STRUCTURE 5 CHAPTER TWO: THEORETICAL BACKGROUND 7 2.1 INTRODUCTION 8 2.2 DETAILS ABOUT BIG DATA SCIENCE 8 2.3 HISTORICAL BACKGROUND 9 2.4 BIG DATA PROCESSING TYPES 10 2.4.1 BATCH PROCESSING 10 2.4.2 REAL-TIME DATA PROCESSING 12 2.4.2.1 IN-MEMOREY COMPUTING 12 2.4.2.2 REAL-TIME QUERIES OVER BIG DATA 13 2.4.3 STREAMING BIG DATA 13 2.5 OTHER BIG DATA FRAMEWORKS 15 2.5.1 APACHE STORM 15 2.5.2 APACHE FLINK 15 2.6 SUMMARY 16 ix CHAPTER THREE: LITERATURE REVIEW 17 3.1 INTRODUCTION 18 3.2 PREVIOUS STUDIES 18 3.2.1 COMPARISON BETWEEN FRAMEWORKS IN 18 PERFORMANCE 3.2.2 PRPCESSING 20 3.2.3 BENCHMARKING 21 3.3 SUMMARY 24 CHAPTER FOUR: TOOLS, TECHNIQUES AND RECEARCH 25 METHODOLOGY 4.1 INTRODUCTION 26 4.2 TOOLS 26 AND TECHNIQUES 4.2.1 APACHE HADOOP 2 6 4.2.2 APACHE SPARK 28 4.2.3 APACHE HIVE 29 4.2.4 BIG DATABENCH 30 4.3 RESEARCH METHODOLOGY 31 4.3.1 SURVEY 31 4.3.1.1 SURVEY PURPOSES 31 4.3.1.2 SAMPLE DISTRIBUTION AND FILLING UP 3 1 4.3.1.3 SURVEY QUESTIONS 32 4.3.1.4 SURVEY RESULTS 3 2 4.3.2 PREPARE THE ENVIROMENT 39 4.3.3 CONFIGURES CONNECTION BETWEEN MACHINES 4 0 x
Description: