ebook img

COPPE/UFRJ AGRUPAMENTO DE DADOS UTILIZANDO ALGORITMO DE COLÔNIA DE PDF

84 Pages·2008·0.7 MB·Portuguese
by  
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview COPPE/UFRJ AGRUPAMENTO DE DADOS UTILIZANDO ALGORITMO DE COLÔNIA DE

CCOOPPPPEE//UUFFRRJJ AGRUPAMENTO DE DADOS UTILIZANDO ALGORITMO DE COLÔNIA DE FORMIGAS André Luís Lauro Dissertação de Mestrado apresentada ao Programa de Pós-graduação em Engenharia Civil, COPPE, da Universidade Federal do Rio de Janeiro, como parte dos requisitos necessários à obtenção do título de Mestre em Engenharia Civil. Orientadora: Beatriz de Souza Leite Pires de Lima Rio de Janeiro Setembro de 2008 AGRUPAMENTO DE DADOS UTILIZANDO ALGORITMO DE COLÔNIA DE FORMIGAS André Luís Lauro DISSERTAÇÃO SUBMETIDA AO CORPO DOCENTE DO INSTITUTO ALBERTO LUIZ COIMBRA DE PÓS-GRADUAÇÃO E PESQUISA DE ENGENHARIA (COPPE) DA UNIVERSIDADE FEDERAL DO RIO DE JANEIRO COMO PARTE DOS REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE MESTRE EM CIÊNCIAS EM ENGENHARIA QUÍMICA. Aprovada por: ________________________________________________ Profª. Beatriz de Souza Leite Pires de Lima D.Sc. ________________________________________________ Prof. Nelson Francisco Favilla Ebecken, D.Sc. ________________________________________________ Profª. Valeria Menezes Bastos, D.Sc. RIO DE JANEIRO, RJ - BRASIL SETEMBRO DE 2008 i i Lauro, André Luís Agrupamento de Dados Utilizando Algoritmo de Colônia de Formigas/ André Luís Lauro. – Rio de Janeiro: UFRJ/COPPE, 2008. IX, 75 p.: il.; 29,7 cm. Orientadora: Beatriz de Souza Leite Pires de Lima Dissertação (mestrado) – UFRJ/ COPPE/ Programa de Engenharia Civil, 2007. Referencias Bibliográficas: p. 69-72. 1. Agrupamento de Dados. 2. Colônia de Formigas. I. Lima, Beatriz de Souza L. P. de. II. Universidade Federal do Rio de Janeiro, COPPE, Programa de Engenharia Civil. III. Titulo. ii i AGRADECIMENTOS Aos Professores Beatriz Lima e Nelson Ebeken, pela orientação e apoio ao longo deste trabalho. Ao Diretor do HNMD, Alte Montenegro, e demais companheiros de trabalho, pela compreensão durante minha última e crucial etapa da elaboração da dissertação. Aos funcionários do Programa de Engenharia Civil da COPPE, em especial à Elizabeth, por seu apoio na minha vida acadêmica. Aos amigos e irmãos que, direta ou indiretamente contribuíram durante a elaboração deste trabalho, Paulo, Urias, Adriano, Rodrigo e Assis. Aos meus pais, Tarcísio e Cléa, a quem devo tudo o que já conquistei. E a Deus, acima de tudo. iv Resumo da Dissertação apresentada à COPPE/UFRJ como parte dos requisitos necessários para a obtenção do grau de Mestre em Ciências (M.Sc.). AGRUPAMENTO DE DADOS UTILIZANDO ALGORITMO DE COLÔNIA DE FORMIGAS André Luís Lauro Setembro /2008 Orientadora: Beatriz de Souza Leite Pires de Lima Programa: Engenharia Civil O objetivo deste trabalho é fazer um estudo sobre o Algoritmo Simples de Agrupamento por Colônia de Formigas. O Algoritmo de Agrupamento por Colônia de Formiga é uma ferramenta da linha de computação baseada em modelos encontrados na natureza, que busca solução para o problema de agrupamento de dados. O estudo apresenta uma revisão bibliográfica referente ao surgimento e modificações propostas no Algoritmo, analisando sua dinâmica e seus parâmetros, e apresenta experimentos de aplicação do algoritmo em algumas bases de dados. Para a realização dos experimentos, o algoritmo foi implementado no software MATLAB, de forma que se pudesse avaliar seu comportamento no que diz respeito aos seus parâmetros e convergência ao longo das iterações. v Abstract of Dissertation presented to COPPE/UFRJ as partial fulfillment of the requirements for the degree of Master of Science (M.Sc.) DATA CLUSTERING APPLYING STANDART ANT CLUSTERING ALGORITHM André Luís Lauro September/2008 Advisor: Beatriz de Souza Leite Pires de Lima Department: Civil Engineering The purpose of this work is to study and analyze the Standard Ant Clustering Algorithm (SACA) and other variations of this algorithm. The Standard Ant Clustering Algorithm is a computational intelligence paradigm inspired by the behavior of natural ants which seeks solutions for data clustering problems. This study presents a literature review concerning the appearance and proposed changes in the algorithm SACA, analyzing its dynamics and its parameters, and present experiments of applying this algorithm on some databases. The algorithm was implemented using MATLAB software, so that it is possible to evaluate a number of well-known benchmark data sets. The results were analyzed and commented in detail. v i SUMÁRIO 1 - INTRODUÇÃO.................................................................................................................1 1.1 - MOTIVAÇÃO.....................................................................................................................1 1.2 - OBJETIVO..........................................................................................................................1 1.3 - ORGANIZAÇÃO DO TRABALHO..........................................................................................2 2 - ANÁLISE DE AGRUPAMENTO.....................................................................................3 2.1 - O AGRUPAMENTO NO COTIDIANO......................................................................................3 2.2 - PRINCIPAIS CONCEITOS ABORDADOS NOS ALGORITMOS DE AGRUPAMENTO......................4 2.2.1 - OBJETO E ATRIBUTO......................................................................................................4 2.2.2 - DISTÂNCIA E SIMILARIDADE..........................................................................................4 2.2.3 - MATRIZ DE DADOS E DE SIMILARIDADE.........................................................................5 2.2.4 - GRUPO OU “CLUSTER”...................................................................................................6 2.3 - CARACTERÍSTICAS RECOMENDÁVEIS PARA UM MÉTODO DE AGRUPAMENTO....................6 2.4 - MÉTODOS DE AGRUPAMENTO...........................................................................................8 2.4.1 - MÉTODOS FUNDAMENTADOS EM PARTICIONAMENTO....................................................9 2.4.2 - MÉTODOS HIERÁRQUICOS..............................................................................................9 2.4.3 - MÉTODOS BASEADO EM DENSIDADE..............................................................................10 2.4.4 - MÉTODOS BASEADOS EM ESTRUTURAS DE GRADE.........................................................10 2.4.5 - MÉTODOS BASEADOS EM MODELOS...............................................................................10 3 - ALGORITMO SIMPLES DE CLUSTERIZAÇÃO POR COLÔNIA DE FORMIGA.....11 3.1 - INTRODUÇÃO....................................................................................................................11 3.2 - DESCRIÇÃO DO ALGORITMO DE AGRUPAMENTO INSPIRADO EM COLÔNIA DE FORMIGAS...13 3.2.1 - PRINCÍPIOS BÁSICOS......................................................................................................13 3.2.2 - DINÂMICA DO ALGORITMO:...........................................................................................14 3.2.3 - “PSEUDOCÓDIGO” DO SACA.........................................................................................16 3.2.4 - FUNÇÕES E PARÂMETROS ENVOLVIDOS NO ALGORITMO................................................16 4 - PRINCIPAIS ALTERAÇÕES PROPOSTAS NO ALGORITMO BÁSICO DE CLUSTERIZAÇÃO – SACA..................................................................................................20 4.1 - MÉTODO “ANT-CLASS” - APLICAÇÃO DO ALGORITOM “K-MEANS”...................................20 4.2 - APERFEIÇOAMENTOS NO ALGORITMO ORIGINAL...............................................................22 4.2.1 - ADAPTAÇÃO DA FUNÇÃO VIZINHANÇA..........................................................................22 vi i 4.2.2 - MEMÓRIA CURTA COM “LOOK-AHEAD” DOS AGENTES...................................................22 4.2.3 - RAIO DE PERCEPÇÃO CRESCENTE...................................................................................23 4.2.4 - SEPARAÇÃO ESPACIAL...................................................................................................23 4.2.5 - VIZINHANÇA PONDERADA.............................................................................................24 4.2.6 - MODIFICAÇÃO DAS FUNÇÕES PROBABILIDADES ORIGINAIS............................................25 4.2.7 - AJUSTE DOS PARÂMETROS INDEPENDENTES DOS DADOS................................................26 4.2.8 - PARÂMETROS DEPENDENTES DAS CARACTERÍSTICAS DA BASE DE DADOS......................27 4.3 - APLICAÇÃO DE REDE-NEURAL E ALGORITMO GENÉTICO NO SACA..................................28 4.3.1 - – REDE NEURAL............................................................................................................29 4.3.2 - ALGORITMO GENÉTICO..................................................................................................30 4.3.3 - EXPERIMENTOS..............................................................................................................30 4.4 - UTILIZAÇÃO DE ALGORITMO GENÉTICO PARA A DEFINIÇÃO DOS PARÂMETROS DO SACA 31 4.4.1 - ALTERAÇÕES NO SACA................................................................................................31 4.4.2 - UTILIZAÇÃO DO ALGORITMO GENÉTICO.........................................................................32 4.5 - “ADAPTATIVE ANT CLUSTERING ALGORITHM: A2CA”....................................................34 4.5.1 - PROBABILIDADE DE DEIXAR O OBJETO...........................................................................34 4.5.2 - ROTINA DE ADAPTAÇÃO DE K .......................................................................................35 P 4.5.3 - VISÃO PROGRESSIVA DO AGENTE...................................................................................36 4.5.4 - HEURÍSTICA FEROMÔNIO...............................................................................................37 4.6 - SEGMENTAÇÃO DE DADOS EM UM NÚMERO DESCONHECIDO DE GRUPOS..........................39 5 - IMPLEMENTAÇÃO.........................................................................................................41 5.1 - FLUXOGRAMA..................................................................................................................41 5.2 - DESCRIÇÃO DA IMPLEMENTAÇÃO.....................................................................................42 5.3 - PARÂMETROS A SEREM ESTABELECIDOS...........................................................................43 5.4 - ALTERAÇÕES IMPLEMENTADAS........................................................................................44 6 - EXPERIMENTOS E RESULTADOS...............................................................................47 6.1 - BASE DE DADOS “RUSPINI”...............................................................................................47 6.1.1 - EXPERIMENTO I.............................................................................................................48 6.1.2 - EXPERIMENTO II............................................................................................................51 6.1.3 - EXPERIMENTO III...........................................................................................................54 6.1.4 - EXPERIMENTO IV..........................................................................................................56 6.2 - BASE DE DADOS IRIS.........................................................................................................59 vi ii 6.2.1 - EXPERIMENTO I.............................................................................................................59 6.2.2 - EXPERIMENTO II............................................................................................................62 6.3 - BASE DE DADOS HEART.....................................................................................................65 6.3.1 - EXPERIMENTO I.............................................................................................................65 7 - CONCLUSÕES E TRABALHOS FUTUROS..................................................................69 REFERÊNCIAS BIBLIOGRÁFICAS.....................................................................................72 ix 1 - INTRODUÇÃO 1.1 - MOTIVAÇÃO A Análise de Agrupamento é uma importante atividade humana. Desde criança, nós aprendemos a distinguir diferenças entre grupos de objetos. Aprendemos as diferenças entre cachorros e gatos, entre animais e plantas, assim como muitos outros casos. Inconscientemente nós vamos continuamente melhorando nossa capacidade de distinguir grupos em tudo que observamos. Em “data-mining”, esta atividade é formalizada, estudada e largamente utilizada. Considerando o amplo espectro das ferramentas disponíveis nesta área de conhecimento humano, a Análise de Agrupamento é uma ferramenta fundamental. Ela permite extrair as primeiras informações, após seu pré-processamento, de uma base de dados que nunca tenha sido trabalhada. E obviamente extrai aquelas informações ocultas, que poderão ser trabalhadas, estudadas e utilizadas exaustivamente. Já existem muitas ferramentas para realizar esta atividade. Infelizmente, ainda não existe a ferramenta perfeita. Todas elas necessitam de muitos parâmetros de entrada, muitas vezes são parâmetros difíceis de serem definidos. E a maioria das ferramentas disponíveis necessita da informação de quantidade de grupos existentes na base de dados. Esta informação nem sempre é disponível. No primeiro contato que se tem com o algoritmo de agrupamento inspirado na natureza denominado “Standart Ant Clustering Algorithm, “SACA”, pode-se observar que o mesmo possui uma vantagem com relação a maioria dos outros algoritmos de agrupamento. Ele não necessita da informação inicial do número de grupos da base de dados a ser trabalhada. 1.2 - OBJETIVO O algoritmo de agrupamento por colônia de formigas é um algoritmo que foi proposto recentemente, e cujos recursos ainda não estão totalmente explorados. Ele teve sua primeira abordagem para aplicação como uma ferramenta de agrupamento de dados em 1994 (LUMER e FAIETA). Este trabalho tem o objetivo de esmiuçar o algoritmo e apresentá-lo de uma forma bem clara, de forma a possibilitar a avaliação de sua evolução, dinâmica e desempenho. 1

Description:
Colônia de Formigas/ André Luís Lauro. – Rio de Janeiro: de aplicação do algoritmo em algumas bases de dados. Para a realização dos
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.