JUAN JOSÉ FRANKLIN RODRIGUEZ VILA C V LUSTERIZAÇÃO E ISUALIZAÇÃO E T SPAÇO- EMPORAL DE D G ADOS EORREFERENCIADOS A A M DAPTANDO O LGORITMO ARKER C U C U LUSTERER – M ASO DE SO EM C URITIBA Dissertação submetida ao Programa de Pós- Graduação em Computação Aplicada da Uni- versidade Tecnológica Federal do Paraná como requisito parcial para a obtenção do título de Mestre em Computação Aplicada. Área de concentração: Engenharia de Sistemas Computacionais Orientadora: Nádia Puchalski Kozievitch Curitiba PR 2016 Ministério da Educação Universidade Tecnológica Federal do Paraná Câmpus Curitiba Diretoria de Pesquisa e Pós-Graduação P r o g r a m a d e P ó s - G r a d u a ç ã o e m C o m p u t a ç ã o A p l ic a d a – P P G C A ATA DE DEFESA DE DISSERTAÇÃO DE MESTRADO Nº 50 Aos 16 dias do mês de dezembro de 2016 realizou-se na sala B 204 a sessão pública de Defesa da Dissertação de Mestrado intitulada “CLUSTERIZAÇÃO E VISUALIZAÇÃO ESPAÇO- TEMPORAL DE DADOS GEORREFERENCIADOS ADAPTANDO O ALGORITMO MARKER CLUSTERER – UM CASO DE USO EM CURITIBA”, apresentado pelo aluno Juan José Franklin Rodriguez Vila como requisito parcial para a obtenção do título de Mestre em Computação Aplicada, na área de concentração “Engenharia de Sistemas Computacionais”, linha de pesquisa “Sistemas de Informação”. Constituição da Banca Examinadora: Profª. Drª. Nádia Puchalski Kozievitch (Presidente) UTFPR _____________________ Profº. Drº. Leonelo Dell Anhol Almeida UTFPR _______________________ Profº. Drº. Thiago Henrique Silva UFPR ________________________ Profª Drª Carmem Hara UFPR _________________________ Em conformidade com os regulamentos do Programa de Pós-Graduação em Computação aplicada e da Universidade Tecnológica Federal do Paraná, o trabalho apresentado foi considerado __________________________ (aprovado/reprovado) pela banca examinadora. No caso de aprovação, a mesma está condicionada ao cumprimento integral das exigências da banca examinadora, registradas no verso desta ata, da entrega da versão final da dissertação em conformidade com as normas da UTFPR e da entrega da documentação necessária à elaboração do diploma, em até ____________ dias desta data. Ciente (assinatura do aluno): ______________________________________________ (para uso da coordenação) A Coordenação do PPGCA/UTFPR declara que foram cumpridos todos os requisitos exigidos pelo programa para a obtenção do título de Mestre. Curitiba PR, _____/_____/___________ ______________________________ "A Ata de Defesa original está arquivada na Secretaria do PPGCA". Av. Sete de Setembro, 3165 • Fone: +55 41 3310 4644 • 80.230-901 Curitiba PR • http://www.ppgca.ct.utfpr.edu.br Agradeço primeiramente a Deus por ter me acompanhado e guiado ao longo deste desafio. Ao Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPQ), à Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES), ao Ministério de Relações Exteriores (MRE) do Brasil e ao Programa de Estudantes-Convênio de Pós-Graduação (PEC-PG) pela bolsa de estudos, assessoria e constante apoio. Dedico este trabalho à minha esposa Kathy, minha filha Kiara, meus pais e minha família pelo carinho e apoio, eles que são o motor, força e motivo da minha luta diária. Agradeço também à minha querida orientadora Prof. Dra. Nádia Puchalski Kozievitch pelo constante apoio, paciência e conhecimentos compartilhados durante estes dois anos de atividade acadêmica, bem como, aos demais professores do Departamento Acadêmico de Informática da UTFPR e a todos que direta e indiretamente contribuíram para que o sonho de realizar um mestrado fora do meu país fosse uma realidade. i Resumo Cinquenta por cento da população mundial vive em cidades, e a expectativa para 2050 é de que essa porcentagem chegue a 70% (WHO, 2014). As cidades consomem 75% dos recursos naturais e de energia do mundo, e geram 80% dos gases-estufa responsáveis pelo efeito estufa; considerando que, ocupam apenas 2% do território mundial (Signori, 2008). As cidades são também o palco de grande parte dos problemas ambientais globais (Gomes, 2009), e é no contexto urbano onde a dimensão social, econômica e ambiental convergem mais intensamente (European Commission, 2007). Esse crescimento populacional, tem influências sociais, econômicas e ambientais que representam um grande desafio para o desenvolvimento sustentável do planejamento urbano. Os conceitos de sistemas de informação geográfica, cidades inteligentes, dados abertos, algoritmos de clusterização e visualização de dados, permitem entender diversas questões em relação a atividade urbana nas cidades. Em particular, se torna importante a variável “onde”: onde existe tráfego e quais são os horários mais frequentes; onde é necessário realizar modelagem de espera residencial, comercial e industrial de acordo com o crescimento populacional para o plano de uso da terra; quais são os tipos de negócios que mais cresceram em cada bairro e qual é a relação entre eles. Para este fim, esta dissertação apresenta um sistema web-mobile que permite entender o crescimento espaço-temporal e econômico dos alvarás de restaurantes dos bairros Centro, Batel e Tatuquara da cidade de Curitiba nas últimas três décadas (1980 até 2015), realizando clusterização e visualização de uma grande quantidade de dados abertos georreferenciados. Em termos de resultados alcançados destacam-se: 1) capacidade de resolver problemas computacionais de sobreposição de pontos sobre um mapa, 2) capacidade de entender o crescimento econômico dos alvarás e qual é a relação entre as diversas categorias e entre os bairros, 3) tempo de execução inferior a 3 segundos para 99% das consultas espaciais executadas, 4) 80,8% dos usuários em fase de avaliação consideram que a solução proposta permite uma melhor identificação e visualização de dados georreferenciados, e 5) possibilita a integração de novas fontes e tipos de dados. Palavras-chave: SIG, Cidades Inteligentes, Algoritmos de Clusterização e Visualização, Dados Abertos. ii Abstract Fifty percent of the world's population live in cities, and the expectation until 2050 is that it reaches 70% (WHO, 2014). Cities consume 75% of the world's natural resources and energy, and generate 80% of greenhouse gases responsible for the greenhouse effect, considering that they occupy only 2% of the world's territory (Signori, 2008). Cities are also the scene of most of the global environmental problems (Gomes, 2009), and it is in the urban context where the social, economic and environmental dimension converge more intensely (European Commission, 2007). This population growth has social, economic and environmental influences that represent a great challenge for the sustainable development of urban planning. The concepts of geographic information systems, smart cities, open data, clustering and data visualization algorithms allow us to understand several questions regarding urban activity in cities, especially, understand the variable "where" things happen. For example: where there is traffic and what time is the most frequent, where it is necessary to perform residential, commercial, industrial standby modeling according to population growth for the land use plan, what are the types of businesses that grew the most in each neighborhood and what is the relationship between them. For this purpose, the following thesis presents a web-mobile system that allows us to understand the spatiotemporal and economic growth of the restaurant licenses of districts Centro, Batel and Tatuquara of Curitiba for the last three decades, performing clustering and visualization of a large amount of open georeferenced data. In terms of achieved results, we can highlight: 1) ability to solve computational problems of overlapping points representing business on a map, 2) ability to understand the economic growth of restaurants licences and what is the relationship between different categories and between districts, 3) execution time less than 3 seconds for 99% of the spatial queries executed, 4) 80.8% of users in evaluation phase consider that the proposed solution allows a better identification and visualization of georeferenced data, and 5) it allows the integration of new sources and types of data. Keywords: GIS, Smart Cities, Clustering and Visualization Algorithms, Open Data. iii Sumário Resumo .............................................................................................................................. i Abstract ............................................................................................................................ ii Lista de Figuras ............................................................................................................... v Lista de Tabelas ........................................................................................................... viii Lista de Abreviações ...................................................................................................... ix Introdução ....................................................................................................................... 1 1.1 Objetivo geral ............................................................................................................. 3 1.2 Objetivos específicos .................................................................................................. 3 1.3 Estrutura da dissertação ........................................................................................... 4 Fundamentação Teórica ................................................................................................. 5 2.1 Sistemas de Informação Geográfica ......................................................................... 5 2.1.1 Definição .................................................................................................................. 5 2.1.2 Geoprocessamento ................................................................................................... 6 2.1.3 Padrões ..................................................................................................................... 6 2.1.4 Formatos ................................................................................................................... 7 2.1.5 Tipos de Dados ......................................................................................................... 9 2.1.6 Arquitetura ............................................................................................................. 11 2.1.7 Relacionamentos espaciais ..................................................................................... 13 2.1.8 Aplicações .............................................................................................................. 16 2.1.9 Desafios .................................................................................................................. 22 2.2 Cidades Inteligentes ................................................................................................. 26 2.2.1 Definição ................................................................................................................ 26 2.2.2 SIG para Cidades Inteligentes ................................................................................ 26 2.2.3 Arquiteturas ............................................................................................................ 28 2.2.4 Aplicações .............................................................................................................. 32 2.2.5 Desafios .................................................................................................................. 34 2.3 Visualização de dados .............................................................................................. 36 2.4 Clusterização de dados ............................................................................................. 38 2.4.1 Definição ................................................................................................................ 38 2.4.2 Algoritmos ............................................................................................................. 38 2.5 Dados Abertos ........................................................................................................... 44 iv 2.5.1 Definição ................................................................................................................ 44 2.5.2 Dados de Curitiba ................................................................................................... 44 2.5.3 Recategorização do banco de dados ....................................................................... 46 2.6 Discussão ................................................................................................................... 48 Materiais e Métodos ..................................................................................................... 50 3.1 Método ....................................................................................................................... 50 3.1.1 Revisões Bibliográficas .......................................................................................... 50 3.1.2 Análise ................................................................................................................... 50 3.1.3 Implementação ....................................................................................................... 51 3.1.4 Avaliação ............................................................................................................... 52 3.1.1 Conclusões ............................................................................................................. 52 Implementação .............................................................................................................. 53 4.1 Dados de Curitiba ..................................................................................................... 53 4.1.1 Atualização e Recategorização dos dados ............................................................. 53 4.1.2 Análise preliminar dos dados ............................................................................. 54 4.1.3 Qualidade de dados ............................................................................................ 58 4.2 Adaptações no Algoritmo ........................................................................................ 60 4.2.1 Criação do atributo BusinessType no processo MyMaps ....................................... 62 4.2.2 Criação da estrutura Marker Clusterer Bidimensional .......................................... 62 4.3 Interface de usuário proposta ................................................................................. 65 4.4 Software e Hardware utilizados .............................................................................. 69 4.5 Experimentos e avaliação dos usuários .................................................................. 69 Conclusões e Trabalhos Futuros ................................................................................. 72 v Lista de Figuras Figura 1: Alvarás do bairro Centro da cidade de Curitiba em duas épocas diferentes, autoria própria (2016). .............................................................................................. 2 Figura 2: A Fundação das Ciências Geoespaciais, adaptado de DiBiase et al. (2006). .... 5 Figura 3: Visualização das diferentes formas da superfície da terra, adaptado de Cruz et al. (2002). .................................................................................................................. 8 Figura 4: Projeção cartográfica: a - cilindro de posição transversa, b - sistema universal transversa de marcador, c - fusos UTM brasileiros, UFF (2015). ............................ 8 Figura 5: Dados matriciais em pontos, linhas e área. ....................................................... 9 Figura 6: Representação dos elementos primários dos modelos vetoriais: pontos, linhas e polígonos. ............................................................................................................. 10 Figura 7: Geometria de tipo ponto que apresentam os centros comerciais no Brasil, Archela et al. (2008). .............................................................................................. 10 Figura 8: Mapa das linhas de metrô de Rio de Janeiro. ................................................. 11 Figura 9: Estados e Municípios Brasileiros – IBGE . .................................................... 11 Figura 10: Arquitetura de um SIG, adaptado de Li e Torres (2014). .............................. 12 Figura 11: Exemplo de operações topográficas “disjunção”, “toca”, “sobrepõe”, "contém" e "cruza", adaptado de Câmara et al. (1996). .......................................... 13 Figura 12: Total de 20 cemitérios em Curitiba, autoria própria (2015). ......................... 14 Figura 13: Ponto de ônibus mais perto da unidade de saúde Pompéia, autoria própria (2015). ..................................................................................................................... 15 Figura 14: O Globo de Complexidade Econômica, International Development, Hardvard University (2015). .................................................................................. 16 Figura 15: SIG como ferramenta para a difusão de informação geográfica. SIG/SAM .17 Figura 16: Interface de Consulta Visual e Saída do TaxiVis, Ferreira et al. (2013). ...... 18 Figura 17: Interface de OneMap . .................................................................................. 19 Figura 18: Alvarás do bairro Centro da cidade de Curitiba, autoria própria (2016). ...... 21 Figura 19: Interfaces de Foursquare . ............................................................................. 22 Figura 20: Modelo de CI de IBM (2015). ....................................................................... 26 Figura 21: Componentes de uma arquitetura de cidades inteligentes, adaptado de Percivall (2015). ...................................................................................................... 28 vi Figura 22: Elementos do conjunto de normas e coordenadas de dados espaciais e padrões de tecnologia para o uso para Smart City Information System architects, adaptado de Rönsdorf et al. (2015). ........................................................................ 29 Figura 23: OGC Arquitetura de serviços para acesso de interoperabilidade e processamento de informação geoespacial para auxiliar na tomada de decisões, adaptado de Percivall et al. (2015). ......................................................................... 30 Figura 24: Mapa da oferta e a procura de táxi em chuvas. ............................................. 33 Figura 25: Diagrama geral do projeto Irrigestlife, Sarasua (2014). ................................ 34 Figura 26: Clusterização de dados segundo algoritmo K-means e Dbscan. ................... 39 Figura 27: Diagrama de Fluxo do Algoritmo Marker Clusterer, autoria própria (2016). ................................................................................................................................. 40 Figura 28: Visualização inicial (Esquerda), HeatMap (Centro), e Marker Clusterer (Direito), autoria própria (2016). ............................................................................ 42 Figura 29: (Esquerda) Antes de clusterizar dados, (Direita) depois de clusterizar dados, mapa das lojas em Veneza, Brunelli et al. (2010). .................................................. 42 Figura 30: Dados dos alvarás de restaurantes para os bairros Batel, Centro e Tatuquara, Kono (2016). ........................................................................................................... 45 Figura 31: Nova recategorização conforme o SEBRAE, para os bairros Batel, Centro e Tatuquara, Cunha(2016). ........................................................................................ 47 Figura 32: Consulta utilizada para resolver problemas de redundância na base de dados, Cunha (2016). ......................................................................................................... 47 Figura 33: Etapas do método proposto, autoria própria (2016). ..................................... 50 Figura 34: Nova recategorização conforme o SEBRAE, para os bairros Batel, Centro e Tatuquara, autoria própria (2016). .......................................................................... 53 Figura 35: (A) Crescimento por ano, (B) Distribuição geográfica, (C) Alta concentração - Bairro Centro, autoria própria (2016). ................................................................. 54 Figura 36: (A) Crescimento por ano, (B) Distribuição geográfica, (C) Alta concentração - Bairro Batel, autoria própria (2016). ................................................................... 55 Figura 37: (A) Crescimento por ano, (B) Distribuição geográfica, (C) Alta concentração - Bairro Tatuquara, autoria própria (2016). ........................................................... 55 Figura 38: Os cinco tipos de negócios que cresceram mais nas últimas décadas – Bairro Centro, autoria própria (2016). ............................................................................... 56 Figura 39: Os cinco tipos de negócios que mais cresceram nas últimas décadas – Bairro Batel, autoria própria (2016). .................................................................................. 57
Description: