JEAN PAUL BARDDAL AGRUPAMENTO ONLINE: UMA ABORDAGEM BASEADA NA TEORIA DE REDES SOCIAIS Dissertação apresentada ao Programa de Pós-Graduação em Informática da Pontifícia UniversidadeCatólicadoParanácomorequi- sito parcial para obtenção do título de Mes- tre em Informática. Curitiba 2015 JEAN PAUL BARDDAL AGRUPAMENTO ONLINE: UMA ABORDAGEM BASEADA NA TEORIA DE REDES SOCIAIS Dissertação apresentada ao Programa de Pós-Graduação em Informática da Pontifícia UniversidadeCatólicadoParanácomorequi- sito parcial para obtenção do título de Mes- tre em Informática. Área de Concentração: Ciência da Compu- tação Orientador: Fabrício Enembreck Curitiba 2015 Barddal, Jean Paul AGRUPAMENTO ONLINE: UMA ABORDAGEM BASEADA NA TEO- RIA DE REDES SOCIAIS. Curitiba, 2015. Dissertação - Pontifícia Universidade Católica do Paraná. Programa de Pós-Graduação em Informática. 1. Mineração de Fluxos de Dados 2. Agrupamento Online 3. Mudança de Conceito I.Pontifícia Universidade Católica do Paraná. Escola Politécnica. Programa de Pós-Graduação em Informática II - t Dissertação preparada com o formatador de textos LATEX. A bibliografia é gerada automaticamente utilizando B TEX e estilo abnTEX2. Todas as figuras e gráficos desta IB Dissertação foram desenvolvidas com os pacotes TikZ, PGFPlots e GNUPlot, sendo ge- rados durante compilação. Favor respeitar a licença requisitada pelo autor e citar seus trabalhos de maneira adequada. Jean Paul Barddal - 2015 (cid:13)CC (cid:13)BY: (cid:13)\$ (cid:13)= Success is the result of perfection, hard work, learning from failure, loyalty and persistence. – Colin Powell i Agradecimentos Primeiramente, ao meu orientador Prof. Fabrício Enembreck, aquele que me apre- sentou a pesquisa. O Prof. Fabrício proveu imensuráveis idéias, comentários e críticas sempre que necessário. Além de tantos atributos técnicos-científicos relevantes, devo res- saltar atributos como seriedade, objetividade, presteza e disponibilidade; todos essenciais para que este e outros trabalhos evoluíssem de tal maneira. Espero herdar tantas destas qualidades para minha futura carreira acadêmica. A sua participação neste e em outros projetos foi fundamental e impactou diretamente meu crescimento pessoal, intelectual e acadêmico. Muito obrigado pela confiança depositada em mim nestes anos de trabalho. Agradeço ainda os colegas de laboratório André Pinz Borges e Osmar Betazzi Dordal pela companhia diária, amizade e troca de experiências. Desejo enorme sucesso aos dois em suas respectivas carreiras. Em especial, agradeço ao Heitor Murilo Gomes, pela amizade, colaboração e inú- meras discussões sobre incontáveis temas. Espero ter a possibilidade de ajudá-lo tanto quanto me ajudou neste meu início de trabalhos de pesquisa. Aos professores Alceu Britto Jr., Julio Cesar Nievola e Luiz Eduardo Soares de Oliveira, um agradecimento especial pelas considerações feitas sobre este trabalho. Suas participações foram de imensa valia para a melhoria deste projeto como um todo e as levarei para futuros trabalhos. A Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) e Fun- dação Araucária, pelo apoio financeiro cedido a parte deste projeto. Finalmente, aos meus pais. Nenhuma de minhas conquistas na vida teriam sido possíveis sem eles e seus incontáveis esforços e paciência. Por vocês, busco a excelência todos os dias. ii Sumário Agradecimentos ii Sumário iii Lista de Algoritmos vii Lista de Figuras viii Lista de Tabelas xi Lista de Símbolos xiii Lista de Abreviações xvi Resumo xvii Abstract xviii Capítulo 1 Introdução 1 1.1 Motivação e Hipótese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.3 Organização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Capítulo 2 Mineração de Fluxos Contínuos de Dados 5 2.1 Mudança de Conceito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.2 Evolução de Conceito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.3 Introdução ao Agrupamento Online . . . . . . . . . . . . . . . . . . . . . . 14 2.4 Técnicas para Agrupamento Online . . . . . . . . . . . . . . . . . . . . . . 15 2.4.1 Estruturas de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.4.2 Modelos de Janelas . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.4.3 Mecanismos de Detecção de Dados Ruidosos e Outliers . . . . . . . 21 2.4.4 Etapas dos Algoritmos de Agrupamento . . . . . . . . . . . . . . . 21 2.5 Algoritmos de Agrupamento Online . . . . . . . . . . . . . . . . . . . . . . 22 iii 2.5.1 CluStream . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.5.2 ClusTree . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.5.3 DenStream . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.5.4 HAStream . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 2.6 A Avaliação de Agrupamentos Online . . . . . . . . . . . . . . . . . . . . . 30 2.6.1 Sum of Squared Distances – SSQ . . . . . . . . . . . . . . . . . . . 31 2.6.2 Homogeneidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 2.6.3 Completude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 2.6.4 V-Measure (Validity Measure) . . . . . . . . . . . . . . . . . . . . . 33 2.6.5 Pureza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 2.6.6 Precision e Recall . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 2.6.7 Coeficiente da Silhueta . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.6.8 Normalized Mutual Information – NMI . . . . . . . . . . . . . . . . 35 2.6.9 Cluster Mapping Measure (CMM) . . . . . . . . . . . . . . . . . . 36 2.7 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 Capítulo 3 Análise de Redes Sociais 40 3.1 Redes Sociais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 3.2 Teoria dos Grafos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 3.2.1 Caminhamentos em Grafos . . . . . . . . . . . . . . . . . . . . . . . 43 3.2.2 Métricas de Centralidade . . . . . . . . . . . . . . . . . . . . . . . . 44 3.2.3 Coeficiente de Agrupamento . . . . . . . . . . . . . . . . . . . . . . 46 3.3 Modelos de Rede . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 3.3.1 Regular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 3.3.2 Aleatório . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 3.3.3 Mundo Pequeno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 3.3.4 Livre de Escala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 3.4 Algoritmos para Detecção de Comunidades . . . . . . . . . . . . . . . . . . 52 3.4.1 Hierárquicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 3.4.2 Baseados em Geodésicas . . . . . . . . . . . . . . . . . . . . . . . . 53 3.4.3 Espectrais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 3.4.4 Baseados em Passeio Aleatório . . . . . . . . . . . . . . . . . . . . . 56 3.5 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 Capítulo 4 iv O Método 58 4.1 O Algoritmo CNDenStream . . . . . . . . . . . . . . . . . . . . . . . . . . 59 4.1.1 Derivação dos Primeiros Micro-clusters e Construção Inicial da Rede 60 4.1.2 Evolução da Rede . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 4.1.3 Considerações acerca do algoritmo CNDenStream . . . . . . . . . . 61 4.2 O Algoritmo SNCStream . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 4.2.1 A Construção Inicial da Rede . . . . . . . . . . . . . . . . . . . . . 64 4.2.2 A Transformação da Rede . . . . . . . . . . . . . . . . . . . . . . . 66 4.2.3 A Evolução da Rede . . . . . . . . . . . . . . . . . . . . . . . . . . 68 4.3 Melhorias nos Algoritmos CNDenStream e SNCStream . . . . . . . . . . . 71 4.3.1 Memoization de Distâncias via Hashing e Função de Pareamento de Cantor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 4.3.2 Melhoria no Procedimento de Religação . . . . . . . . . . . . . . . . 73 4.4 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 Capítulo 5 Análise e Avaliação Empírica 76 5.1 O Framework Massive Online Analysis . . . . . . . . . . . . . . . . . . . . 76 5.2 Geradores de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 5.2.1 Radial Basis Function (RBF) . . . . . . . . . . . . . . . . . . . . . 78 5.2.2 Two Moon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 5.3 Conjuntos de Dados Reais . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 5.3.1 Airlines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 5.3.2 Electricity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 5.3.3 Forest Covertype . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 5.3.4 KDD’98 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 5.3.5 KDD’99 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 5.3.6 Body Posture and Movements (BPaM) . . . . . . . . . . . . . . . . 82 5.4 Protocolo Experimental . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 5.5 Resultados Preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 5.6 Análise e Parametrização . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 5.6.1 O Impacto do Parâmetro ω . . . . . . . . . . . . . . . . . . . . . . 86 5.6.2 O Impacto do Parâmetro λ . . . . . . . . . . . . . . . . . . . . . . 88 5.6.3 O Impacto do Parâmetro N . . . . . . . . . . . . . . . . . . . . . . 89 5.6.4 O Impacto do Parâmetro T . . . . . . . . . . . . . . . . . . . . . . 90 p 5.6.5 Avaliação de Métricas de Distância . . . . . . . . . . . . . . . . . . 92 v
Description: