ebook img

MONOGRAFIA_ Avaliação do framework mapreduce para paralelização do algoritmo apriori PDF

70 Pages·2013·2.24 MB·Portuguese
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview MONOGRAFIA_ Avaliação do framework mapreduce para paralelização do algoritmo apriori

ANDRÉ CAMILO BOLINA AVALIAÇÃO DO FRAMEWORK MAPREDUCE PARA PARALELIZAÇÃO DO ALGORITMO APRIORI LAVRAS – MG 2013 ANDRÉCAMILOBOLINA AVALIAÇÃODOFRAMEWORKMAPREDUCEPARA PARALELIZAÇÃODOALGORITMOAPRIORI Monografia de Graduação apresentada ao Departamento de Ciência da Computação da Universidade Federal de Lavras como parte das exigências do curso para a obtenção do título de BacharelemCiênciadaComputação. Orientador Profa. Dra. MarlucePereiraRodrigues Co-Orientador Prof. Dr. AhmedAliAbdallaEsmin LAVRAS–MG 2013 DedicoestetrabalhoeaconclusãodemeucursoaosmeuspaisNélioeCibele. AGRADECIMENTOS AgradeçoaosmeuspaisNélioeCibeleportantadedicaçãoepreocu- pação. Obrigadopormecolocaremafrentedevocêsmesmos! AosmeusirmãosCésareLucas,minhacunhadaKarinaemeussobri- nhosTiagoeHenriquepelainspiraçãoeexemplos. AminhanamoradaHeloísa,pelapaciência,amoreforçadurantetoda realizaçãodestetrabalho. Aos amigos de Lavras: Francisco, Luiz, Igor, Pig, Ronan, Pablo, Bruno,Matheus,Luara,Flávia,Taísa,DonaNenaeSeuMarco. Aquemtorceuoumeajudoudealgumaformaarealizarestetrabalho, muitoobrigadoatodosvocês! UmpoucodeciêncianosafastadeDeus. Muito,nosaproxima. (LouisPasteur) RESUMO Amineraçãodepadrõesfrequenteséumaáreadacomputaçãodeamplautilização. Seuobjetivoéencontrarpadrõesdeinformaçõesrelevantesemgrandesquantida- desdedados. Porém,osprincipaisalgoritmosparamineraçãodepadrõesfrequen- tes possuem alto tempo de execução, visto o grande volume de dados com que trabalham. Sendoassim,aprogramaçãoparalelaedistribuídaeosframeworksde paralelização de algoritmos são uma boa alternativa para reduzir o tempo de exe- cução necessário para processar as aplicações. Este trabalho propõe a implemen- tação paralela e distribuída do algoritmo Apriori, bastante conhecido na área da mineração de padrões frequentes, utilizando para isso o Framework MapReduce. Os resultados são comparados com o algoritmo DMTA (Distributed Multithread Apriori),quetambémexecutaoalgoritmoApriorideformaparalelaedistribuída, mas utilizando as bibliotecas MPI e OpenMP para criar e gerenciar processos e threads. Palavras-Chave: Processamento Paralelo e Distribuido; Mineração de Dados; Apriori;MapReduce;. ABSTRACT The frequent-patterns mining is an area of extensive use in computing, its your objective is to find information about relevant patterns in large amounts of data. Butthemainalgorithmsforfrequent-patternsmininghaveahighexecutiontime, duetothelargevolumeofdatatheyworkwith. Therefore, parallelprogramming andframeworksthatusethisconceptseemagoodsolutiontoreducetheexecution time and level of computing required by these algorithms. This work proposes the parallel and distributed implementation of the Apriori algorithm, well known in the research area of frequent-patterns mining, using MapReduce Framework. The results were compared with the DMTA algorithm (Distributed Multithread Apriori),whichalsoimplementstheApriorialgorithmindistributedandparallel, butusingMPIandOpenMPlibrariestocreateandmanageprocessesandthreads. Keywords: ParallelPrograming;DataMining;Apriori;MapReduce;. SUMÁRIO 1 Introdução 13 1.1 ContextualizaçãoeMotivação . . . . . . . . . . . . . . . . . . . . . 13 1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.3 Justificativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.4 Organização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2 ReferencialTeórico 18 2.1 MineraçãodeDados . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.2 PadrõesFrequenteseRegrasdeAssociação . . . . . . . . . . . . . . 19 2.3 Apriori. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.4 ProcessamentoParaleloeDistribuído . . . . . . . . . . . . . . . . . 23 2.5 FrameworkMapReduce . . . . . . . . . . . . . . . . . . . . . . . . . 24 2.6 HDFSeHBase . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.7 TrabalhosRelacionados . . . . . . . . . . . . . . . . . . . . . . . . . 28 3 DMTA 30 3.1 OalgoritmoDMTA . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3.2 ExemplodeExecução . . . . . . . . . . . . . . . . . . . . . . . . . . 32 4 Metodologia 36 5 MRA(MapReduceApriori) 38 6 ExperimentoseResultados 49 6.1 Basesdedados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 6.2 Ambientedeexecução . . . . . . . . . . . . . . . . . . . . . . . . . 50 6.3 Basesiniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 6.4 Basesintética . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 6.5 Basereal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 6.6 Comparaçãoentretemposdeexecução . . . . . . . . . . . . . . . . . 57 6.7 Balanceamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 6.8 FrameworkversusBibliotecas . . . . . . . . . . . . . . . . . . . . . 60 7 ConclusãoeTrabalhosFuturos 63

Description:
O Hadoop Distributed File System (HDFS) (APACHE, 2012) é um sistema de ar- quivos distribuído UERN e INPE, 2000. SONG, Q.; NI, J.; WANG,
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.