M.G. F. dos Santos; C. Matuck; F. Adami; K. Reis; W. Barrella Análise de Agrupamento Hierárquico Aglomerativo aplicada à Ecologia – Teoria e Prática Maria das Graças F. dos Santos1; Carlos Matuck1; Fabiola Adami1; Katherine Reis1; Walter Barrella1 1 Programa de Pós-Graduação em Sustentabilidade de Ecossistemas Costeiros e Marinhos - ECOMAR - Universidade Santa Cecília. Rua Cesário Mota, 08, Boqueirão - Santos, SP, Brasil. e-mail: [email protected]; [email protected] ; [email protected]; [email protected]; [email protected] recieved: 2017-02-03 Resumo: Este artigo objetiva a compreensão da análise de agrupamento uma das técnicas multivariadas aplicadas à Ecologia, bem como a demonstração didática das suas principais características e finalidades com apoio do Software PAlleontological STatistics na versão 3.14. Por meio de uma matriz de dados é possível gerar um dendrograma pelo método de Ward e interpretar as informações contidas nele. Palavras-chave: técnicas multivariadas, análise de agrupamento, cluster. Hierarchical Cluster Analysis applied to Ecology - Theory and Practice Abstract: This article aims at understanding the grouping analysis of one of the multivariate techniques applied to Ecology, as well as didactic demonstration of it’s main characteristics and purposes with the support of PAlleontological Software STatistics in version 3.14. Through a data matrix it is possible to generate a dendrogram and interpret the information contained in it. Keywords: multivariate techniques, cluster analysis, cluster. Introdução álgebra e na geometria. Apesar das A estatística é uma grande técnicas multivariadas terem surgidas a ferramenta para análise e interpretação de partir de 1901, apenas com o avento da dados relevantes e aplicáveis que tecnologia foi possível realizar com transcendem as ciências exatas, entretanto rapidez e clareza os gráficos que percebe-se que há a falta de materiais possibilitam estudar o inter-relacionamento didáticos para as outras áreas científicas. das variáveis. Algumas técnicas têm De acordo com Vicini (2005) as caráter exploratório, multidisciplinar e são multivariadas são consideradas técnicas utilizadas para interpretar um ou mais matemáticas, pois fundamentam-se na conjuntos de dados estruturados, UNISANTA Bioscience Vol. 6 nº 1 (2017) p. 68-77 pág. 68 M.G. F. dos Santos; C. Matuck; F. Adami; K. Reis; W. Barrella possibilitando a compreensão relações complementares para facilitar a entre as variáveis em estudo, bem como a interpretação e análise das principais observação dos dados de uma outra características do agrupamento. perspectiva. Sendo assim, o objetivo deste As análises estatísticas aplicadas à trabalho é compreender a análise de Ecologia utilizam um grande número de agrupamento uma das técnicas informações. Dentre elas destacam-se as multivariadas aplicadas à Ecologia, bem informações sobre as características como demonstrar didaticamente as suas físicas, bióticas e socioeconômicas. A principais características e finalidades com interpretação entre as características apoio do Software PAlleontological ambientais e seus componentes bióticos é STatistics na versão 3.14, bem como outro tipo de análise muito comum neste discutir as suas principais dificuldades de tipo de estudo. Dentre as técnicas destaca- interpretação destes resultados. se a análise de agrupamentos, também conhecida como análise de Cluster porque 2 - Materiais e Métodos é uma das mais simples, é menos exigente Para realizar as análises de em relação às características dos dados, e agrupamentos foi necessário utilizar um por causa disso a mais utilizada em conjunto de dados ecológicos organizados pesquisas ecológicas. (VICINI, 2005; em uma planilha do Microsoft Excel BARRELLA, 1992). A análise de (versão 2016) para a tabulação dos dados e agrupamentos utiliza o valor das variáveis o software PAIleontological STatistics para montar um dendrograma que agrupa (versão 3.14) para a elaboração dos amostras e ou variáveis em classes, gráficos. A matriz de dados ecológicos é destarte, objetos semelhantes se encaixam meramente ilustrativa. O procedimento na mesma classe reduzindo, então, os metodológico consistiu em uma tradução dados. (MANLY; NAVARRO parcial das informações mais relevantes ALBERTO, 2016). disponibilizadas no software para a A principal dificuldade encontrada compreensão da análise de agrupamento foi a linguagem técnica do programa, para hierárquico aglomerativo, ou seja, Cluster compreender, gerar o dendrograma e Analysis. efetuar a análise, antes de tudo foi Segundo Manly e Navarro (2016) necessário realizar a tradução dos já foram propostos diversos algoritmos principais itens do mesmo e leituras para realizar a análise de cluster e um deles UNISANTA Bioscience Vol. 6 nº 1 (2017) p. 68-77 pág. 69 M.G. F. dos Santos; C. Matuck; F. Adami; K. Reis; W. Barrella é a técnica hierárquica, onde há produção de dados. Assim, o melhor mesmo é fazer de um dendrograma, esta ferramenta se a prova e a contraprova comparando uma baseia na distância calculada de cada estrutura de grupos semelhantes já objeto para todos os outros objetos e para conhecida e analisar se tal análise é capaz os grupos formados respectivamente, neste de reproduzir a mesma estrutura para os caso, se baseando na aglomeração. Neste dados não conhecidos. item, os objetos da análise se iniciam sozinhos e são, gradualmente unidos até 3 - Resultados e Discussão que eles estejam, finalmente, em um grupo 3.1 - Trabalhando Análise de único. Mesmo com a gama de algoritmos Agrupamento Hierárquico com o PAST para se realizar a análise de cluster, como passo a passo: mencionado anteriormente, não há um Ao copiar a planilha do Excel e consenso de qual método seria melhor colar na planilha do PAST, é preciso aceito, porém diversos algoritmos salientar que para trabalhar nas próximas produzem resultados diferentes para a etapas todos esses dados deverão ser mesma matriz de dados e cada qual com selecionados. Para selecionar a planilha no sua particularidade levando a PAST clique com o botão esquerdo do dessemelhança na leitura dos mouse na célula em branco em destaque dendrogramas, mesmo com a mesma base (figura 1); Figura 1 – Botão em branco de seleção completa. Outra opção é clicar em Selecionar tudo, em seguida pressionar o botão colar, conforme destacado pela lupa na figura 2 UNISANTA Bioscience Vol. 6 nº 1 (2017) p. 68-77 pág. 70 M.G. F. dos Santos; C. Matuck; F. Adami; K. Reis; W. Barrella Figura 2 – Botões Colar e Selecionar Tudo, respectivamente. Utilizando esses métodos de dados da planilha o Past colagem, é possível obter o conteúdo do disponibiliza duas ferramentas: “Atributos Excel e de outros softwares com de linha” e “Atributos de colunas”, que funcionalidades semelhantes. Vale podem ser observadas no canto superior ressaltar que o Past não serve apenas para esquerdo dentro da seção “Mostrar”, como copiar e colar, você pode criar planilhas mostra na figura 3; utilizando-o diretamente. Para melhor organização dos Figura 3- Os atributos da seção “Mostrar”. Essas duas funções são utilizadas (Nome). A opção “Color” altera as cores respectivamente para atribuir títulos as linhas e do“Symbol”; a adição de “Symbol” permite a as colunas. Quando a função “Atributos de integração dos símbolos ou imagens dentro das linha” é ativada obteremos a seguinte alteração coordenadas do gráfico; enquanto a adição de no layout; a adição de três colunas , sendo elas “Name” admite o nome da primeira coluna. “Color” (Cor), “Symbol” (símbolo) e “Name” Como mostra a figura 4. UNISANTA Bioscience Vol. 6 nº 1 (2017) p. 68-77 pág. 71 M.G. F. dos Santos; C. Matuck; F. Adami; K. Reis; W. Barrella Figura 4 – Atributos da linha. Se a função “Atributos de coluna” linha (grupo, ordinal, nominal ou binário); for selecionada a alteração no layout será a enquanto o “Name” como a função inserção de duas linhas “Type” (Tipo) e “Atributos da linha” admite o nome, porém “Name” (Nome), onde “Type” permite a da primeira linha ao invés de coluna em escolha do tipo de informações contidas na conformidade com a figura 5. Figura 5 – Atributos da coluna. Para gerar o dendrograma foi houver a ocorrência de grupamentos utilizado a tabela 1, cujo representa uma anormais uma investigação entre as planilha Excel, estruturada com dados relações deve ser realizada e também os ilustrativos, sendo dividida em uma matriz dados devem ser exclusivamente 11 × 40. Algumas particularidades devem numéricos (MANLY; NAVARRO ser observadas, como por exemplo, se ALBERTO, 2016). UNISANTA Bioscience Vol. 6 nº 1 (2017) p. 68-77 pág. 72 M.G. F. dos Santos; C. Matuck; F. Adami; K. Reis; W. Barrella Tabela 1 – Dados ecológicos utilizados para as análises realizadas nesse estudo. Tempo de Quant. Quantos Renda Estado Profissão Formação Outras Amostra Sexo Naturalidade Domiciliado trabalho de deles com Civil do Pai Acadêmica Rendas (anos) filhos trabalham trabalho 1 1 3 1 3 1 15 4 4 3 4500 250 2 1 1 2 3 1 40 4 6 0 600 0 3 1 2 2 3 1 21 4 0 0 300 100 4 1 2 1 3 1 2 4 0 0 500 280 5 1 1 2 3 1 50 4 8 0 600 210 6 1 2 2 3 1 7 11 0 0 500 0 7 1 2 1 3 1 12 4 0 0 0 0 8 1 2 1 3 1 31 4 1 0 0 0 9 1 1 1 3 1 50 0 2 1 0 220 10 1 3 1 3 1 32 3 2 2 350 0 11 1 1 1 3 1 15 0 4 0 150 0 12 1 1 1 3 1 20 8 3 0 1000 0 13 1 2 2 3 1 7 4 0 0 300 0 14 1 1 1 3 1 40 0 7 6 200 0 15 1 1 2 3 1 12 3 3 0 100 0 16 1 1 1 3 1 25 0 4 2 50 0 17 1 2 2 3 1 10 4 0 0 600 0 18 1 2 1 3 1 9 5 0 0 600 0 19 1 2 1 3 1 10 5 0 0 500 0 20 1 1 1 3 1 13 5 1 1 250 0 21 1 1 2 3 1 28 6 2 1 100 0 22 1 1 1 3 1 15 3 1 0 300 0 23 1 2 1 3 1 10 5 0 0 100 0 24 1 2 1 3 1 20 3 0 0 500 0 25 1 2 2 2 1 2 8 1 0 150 0 26 1 2 2 3 1 20 7 0 0 150 0 27 1 1 2 3 1 11 7 0 0 50 0 28 1 4 1 3 1 54 0 7 2 60 0 29 1 1 1 3 1 22 3 4 2 600 0 30 1 2 2 2 1 0 3 0 0 600 0 31 1 2 1 3 1 10 4 0 0 600 0 32 2 1 2 1 1 0 1 3 2 1000 0 33 1 2 2 3 1 1 5 0 0 350 0 34 1 2 2 3 1 10 3 2 0 350 1500 35 1 2 2 3 2 10 3 0 0 50 0 36 1 2 1 3 1 19 2 0 0 50 0 37 1 4 1 3 1 48 0 3 1 400 0 38 1 1 1 3 1 6 0 1 0 0 0 UNISANTA Bioscience Vol. 6 nº 1 (2017) p. 68-77 pág. 73 M.G. F. dos Santos; C. Matuck; F. Adami; K. Reis; W. Barrella 39 1 1 1 3 1 38 4 2 0 1000 0 40 1 4 2 3 2 30 3 9 1 200 650 Para qualificar os dados utilizou-se os (3ª) série do ensino médio. São códigos critérios para sexo: 0 masculino e 1 binários e semi quantitativos. Para o tempo feminino; estado civil: 1 solteiro, 2 união de trabalho, formação acadêmica, estável, 3 casado e 4 viúvo; naturalidade: 0 quantidade de filhos, renda com trabalho e mora onde nasceu e 1 veio de outra região; outras rendas temos os dados quantitativos. domiciliado: 1 (1 a 5 anos), 2 (5 a 10 anos) Com o Past aberto, e o seu texto e 3 (mais de 10 anos); profissão do pai: 0 completamente selecionado, vá até a barra pescador e 1 outra profissão; formação de navegação > Multivariada > acadêmica: 1 (1ª); 2 (2ª) [...] 8 (8ª) série do Agrupamento > Clássico. (Figura 6) ensino fundamental; 9 (1ª), 10 (2ª) e 11 Figura 6 – Aplicando a técnica multivariada. Estudiosos concordam que as técnicas amostras, indivíduos ou variáveis em grupos multivariadas simplificam a estrutura dos com características semelhantes. Assim é dados, por meio de transformações de um possível analisar a interdependência entre as conjunto de variáveis interdependentes em variáveis e formular e testar hipóteses. outro conjunto de variáveis independentes e de (BARRELLA, 1992) menor dimensão, também classificam as UNISANTA Bioscience Vol. 6 nº 1 (2017) p. 68-77 pág. 74 M.G. F. dos Santos; C. Matuck; F. Adami; K. Reis; W. Barrella A análise de agrupamento tem como objetivo a classificação de grupos de objetos semelhantes, afim de reduzir o número de O índice de similaridade euclidean objetos para um número menor de grupos. A aplicada a matriz de dados inicial apresenta o desvantagem é que os resultados dependem da coeficiente cofenético 0,8411. (Figura 6) medida escolhida e do algorítimo utilizado. Após a confirmação teremos o (JAMES; MCCULLOC, 1990) gráfico simples (dendrograma) conforme Na figura 6, o algorítimo selecionado é figura 7. A problemática é como identificar o Método Ward’s, porque é um dos métodos quais são as semelhanças entre esses de variância que gera grupos minimizando o indivíduos? É possível identificar no eixo quadrado da distância euclidiana às médias dos grupos. Um grupo é unido a outro horizontal superior os 40 indivíduos proporcionando o menor aumento de variância nomeados de 1 a 40 e no eixo vertical a intragrupo. enumeração de uma das características Assim, calcula-se então para cada comum entre eles, neste caso a renda que objeto, o quadrado médio de distância varia entre 50 a 5000. Sendo assim, os euclidiana no agrupamento; logo obtem-se a grupos são formados de acordo com o somatória de todos os objetos. Para cada etapa conjunto de particularidades similares combina-se os dois grupos que apresentam entre os indivíduos. menor variância entre si. Esse método é Ainda na figura 7 é possível recomendado, pois é altamente eficiente na observar que o indivíduo A1 possui junção de grupos. (VICINI, 2005). dessemelhança em relação aos demais, Ainda Vicini (2005), a distância euclidiana é uma das mais utilizadas à análise seguidamente de dois grandes grupos: um de agrupamentos, porque considera dados com mais indivíduos semelhantes e outro simples de uma matriz e o cálculo dar-se-a com menos. mediante o teorema de Pitágoras. No que tange Logo ao meio do dendrograma é a distância entre dois indivíduos é calculada notável a formação de dois grandes grupos, pela seguinte fórmula: de acordo com a nossa tabela de dados é possível observar que o sexo masculino predomina e o estado civil casado também é significativamente relevante entre os Enquanto a distância média euclidiana indivíduos observados. E assim segue as entre dois agrupamentos é formada pela interpretações. seguinte equação: UNISANTA Bioscience Vol. 6 nº 1 (2017) p. 68-77 pág. 75 M.G. F. dos Santos; C. Matuck; F. Adami; K. Reis; W. Barrella Figura 7 – Dendrograma: Método Ward’s – Índice de Similaridade Euclidean Constrangido. Visto o exposto, a análise de proporcionando a menor variância entre agrupamento hierárquico aglomerativo eles. (Cluster) foi desenvolvida para resolver Com o auxílio do software Past é problemas práticos de classificação de possível gerar um dendrograma simples indivíduos, amostras, locais, espécies, etc. contendo as informações individuais (Barrella, 1992). Entretanto é necessário condensadas em grupos, assim permite a conhecer o conjunto de dados utilizados análise dos dados com mais precisão e para auxiliar na interpretação dos mesmos. acurácia. Por fim, este artigo sugere novas Conclusão pesquisas complementares com o objetivo A técnica de aglomeramento de implementar e disseminar a produção hierárquico aglomerativo é utilizada na técnica e didática para facilitar a construção deste artigo e aborda o método compreensão e aplicação das técnicas ou algoritmo de Ward, uma forma dentre multivariadas meio científico ecológico. os demais métodos de reunir os grupos UNISANTA Bioscience Vol. 6 nº 1 (2017) p. 68-77 pág. 76 M.G. F. dos Santos; C. Matuck; F. Adami; K. Reis; W. Barrella Referências 7. LOPES A. P. Povos e comunidades tradicionais em áreas de proteção integral no 1. BARRELLA, W. 1992. Princípios Brasil: conflitos e direitos. USP, básicos da metodologia aplicada NUPAUB, 2011. Disponível em: < http://nupaub.fflch.usp.br/sites/nup em estudos ambientais. aub.fflch.usp.br/files/color/levanta mentoconf.pdf> Acesso em: 2. BEGOSSI, A. The ethnoecology 31/10/16; of Caiçara metapopulations (Atlantic Forest, Brazil): ecological concepts and 8. MESQUITA, F.P; BEGOSSI, A; questions. Journal of Ethnobiology CLAUZET, M. Etnoecologia: and Ethnomedicine. 2:40, 2006. percepção e resiliência sobre o uso e manejo dos recursos 3. CAMPOS, S. E. A.; GONÇALVES pesqueiros e tecnologias de pesca JUNIOR, L.; CORRÊA, D. A. Os em Paraty, RJ. Dissertação – desafios das comunidades Universidade Santa Cecília, caiçaras do município de Ilhabela Programa de frente ao turismo. In: XVII Pós Graduação em Ecossistemas C ENCONTRO NACIONAL DE osteiros e Marinhos, Santos, SP, 20 RECREAÇÃO E LAZER – ÉTICA 13. E LAZER NA SOCIEDADE CONTEMPORÂNEA, 2005, 9. NAÇÕES UNIDAS. Como Campo Grande. Construir Cidades Mais Resilientes: Construindo Cidades 4. CECHIN, A.; PACINI, H. Resilientes. Genebra: Nações Economia verde: por que o Unidas, 2012. otimismo deve ser aliado ao ceticismo da razão. Estudos 10. PAGIOLA S. et. al. Experiências avançados 26 (74), 2012. de pagamentos por serviços ambientais no Brasil. Secretaria 5. HOMMA, A. K. O. Uma tentativa do Meio Ambiente. 2013. de interpretação teórica do extrativismo amazônico. Acta 11. VICINI, L. Análise multivariada Amazônica 12(2): 251-255, 1982. da teoria à prática. Santa Maria, RS. 2005. 6. JAMES, F.C. & C.E. McCulloch. 1990. Multivariate analysis in ecology and systematics: Panacea 12. WUNDER, S. et. al. Pagamentos or Pandora,s box? Annu. Rev. Ecol. por serviços ambientais: Syst. 21: 129-166 perspectivas para a Amazônia legal. Ministério do Meio Ambiente. Brasília, 2009. UNISANTA Bioscience Vol. 6 nº 1 (2017) p. 68-77 pág. 77