Análise de Combinação de Classificadores usando uma Abordagem Multiobjetivo baseada em Acurácia e Número de Classificadores Sandro Luiz Jailson Lopes Tinôco Universidade Federal de Ouro Preto Dissertação submetida ao Instituto de Ciências Exatas e Biológicas Universidade Federal de Ouro Preto para obtenção do título de Mestre em Ciência da Computação T587a Tinôco, Sandro Luiz Jailson Lopes. Análise de combinação de classificadores usando uma abordagem multiobjetivo baseada em acurácia e número de classificadores [manuscrito] / Sandro Luiz Jailson Lopes Tinôco – 2013. 115 f.: il. color.; grafs.; tabs. Orientador: Prof. Dr. David Menotti Gomes. Dissertação (Mestrado) - Universidade Federal de Ouro Preto. Instituto de Ciências Exatas e Biológicas. Departamento de Computação. Programa de Pós-graduação em Ciência da Computação. Área de concentração: Recuperação e Tratamento da Informação. 1. Sensoriamento remoto - Teses. 2. Programação linear - Teses. 3. Sistemas de recuperação da informação – Códigos numéricos - Teses. I. Gomes, David Menotti. II. Universidade Federal de Ouro Preto. III. Título. Catalogação: [email protected] Análise de Combinação de Classificadores usando uma Abordagem Multiobjetivo baseada em Acurácia e Número de Classificadores Resumo O Sensoriamento Remoto é uma forma de obter informações sobre a Terra a partir do espaço, com a finalidade de melhorar a gestão dos recursos naturais, o uso da terra e a proteção do meio ambiente. Esse campo do conhecimento tem se beneficiado dos diversos avanços tecnológicos dentre os quais pode ser citada a imagem hiperespectral. Este tipo de imagem pode ser composto por centenas de bandas, cada uma delas cor- respondendo a uma determinada faixa do espectro eletromagnético. Pode-se perceber a riqueza de informação que tal imagem pode fornecer, conduzindo a uma análise mais precisa. No entanto, para tratar esse volume de informações, tanto em qualidade quanto em quantidade, é necessária a utilização de algoritmos e métodos que consigam tirar proveito de toda a informação fornecida. Uma tarefa comum na análise desses dados é a geração de mapas temáticos a partir da classificação da cobertura terrestre. Tradici- onalmente, procura-se desenvolver diferentes algoritmos de classificação e depois aquele que apresenta o melhor desempenho, ou seja maior acurácia, é escolhido. Este tipo de metodologia pode acarretar em perdas de importantes informações contidas nos clas- sificadores descartados. Uma forma de se evitar isso, que tem sido bastante estudada e utilizada atualmente, é a combinação de múltiplas abordagens de classificação e a consequente produção de mapas temáticos mais precisos. No presente trabalho, é feita a combinação de doze abordagens de classificação, obtidas usando três representações de dados e quatro algoritmos de aprendizagem diferentes. As representações de dados usadas são a Pixelwise, Extended Morphological Profiles (EMP) e Feature Extraction by i Genetic Algorithms (FEGA), que foram classificadas com os algoritmos de aprendiza- gem Support Vector Machines (SVM) com kernel Radial Basis Function (RBF) e kernel Linear, K-Nearest Neighbor (KNN) e Multilayer Perceptron Neural Network (MLP). O método de combinação proposto é baseado em uma combinação linear ponderada, em que um Programa Linear Inteiro (PLI) encontra os pesos para cada abordagem de classificação utilizada e é denominado Weighted Linear Combination optimized by In- teger Linear Programming (WLC-ILP). Para analisar os resultados obtidos, o método proposto foi comparado a outros métodos de combinação como o Weighted Linear Com- bination optimized by Genetic Algorithm (WLC-GA) e, os tradicionais, como Majority Vote (MV) e Average Rule. O (WLC-ILP) superou os resultados dos métodos (MV) e Average Rule e obteve resultados similares ao (WLC-GA), porém, dez vezes mais rápido que este. Uma questão ainda em aberto está relacionada a quantos e quais clas- sificadores de um conjunto utilizar, de forma a obter uma acurácia mais precisa. Não se sabe ao certo o que faz uma combinação produzir resultados, ainda que não seja sempre garantido, melhores do que um único classificador. Alguns autores apontam a diver- sidade de um conjunto como fator principal de êxito de um combinador, no entanto, não existe uma definição formal, amplamente aceita do que seja diversidade. Uma vez que é desejável produzir melhores acurácias utilizando o menor número de classificado- res possível, um Algoritmo Genético Multiobjetivo apresenta-se como meio adequado para realização desta tarefa. Assim, uma análise e seleção de abordagens de classifica- ção a serem combinadas por meio de um Algoritmo Genético Multiobjetivo é proposta neste trabalho, no domínio de imagens hiperespectrais. Ressalta-se que, até o momento, não foi encontrado na literatura, o emprego desta técnica em classificação de imagens hiperespectrais de sensoriamento remoto. ii Analysis of Classifiers Combiner using a Multiobjective Approach: based on Accuracy and Number of Classifiers. Abstract The Remote Sensing is a form’s information extraction about the Earth from space, with the aim of improving the management of natural resources, land use and envi- ronmental protection. This field of knowledge has benefited from many technological advances among which may be mentioned the hyperspectral image. This type of image can be composed of hundreds of bands, each corresponding to a particular range of the electromagnetic spectrum. One can realize the wealth of information that can provide such an image, leading to a more precise analysis. However, to handle this volume of information, both in quality and quantity, and required the use of algorithms and methods which are able to extract the information provided. A common task in data analysis is the generation of thematic maps from the classification of land cover. Tra- ditionally, we try to develop different ranking algorithms and then the one that has the best performance, i.e., higher accuracy is chosen. This type of methodology may result in loss of important information contained in discarded classifiers. One way to avoid this, which has been widely studied and used today, is the combination of multiple approaches to classification and consequent production of thematic maps more accu- rate. In this study, the combination is done twelve classification approaches, obtained by using three data representations and four different learning algorithms. Data re- presentations used are Pixelwise, Extended Morphological Profiles (EMP) and Feature Extraction by Genetic Algorithms (FEGA), who were classified with the learning al- gorithms Support Vector Machines (SVM) with kernel Radial Basis Function (RBF) e kernel Linear, K-Nearest Neighbor (KNN) and Multilayer Perceptron Neural Network iii (MLP). The method of combination proposed is based on a weighted linear combina- tion, where Linear Programming is the weight for each classification approach is used and referred Weighted Linear Combination optimized by Linear Programming (WLC- ILP). To analyze the results obtained, the proposed method was compared to other methods such as the combination Weighted Linear Combination optimized by Genetic Algorithm (WLC-GA), and the traditional, as Majority Vote (MV) and Average Rule. The Weighted Linear Combination optimized by Integer Linear Programming (WLC- ILP) surpassed the results of the methods (MV) and Average Rule and obtained similar results (WLC-GA), however, ten times faster than this. A still open issue is related to how many and which use a set of classifiers in order to obtain a more precise accuracy. No one knows for sure what causes a combination produce results, though not always guaranteed, better than a single classifier. Some authors indicate the diversity of a set as the main factor of success of a combiner, however, there is no formal definition, it is widely accepted that the diversity. Since it is desirable to produce better accuracies using the minimum number of classifiers as possible, an multiobjective genetic algorithm is presented as a means suitable for this task. Thus, an analysis and selection classifica- tion approaches to be combined by using a multiobjective genetic algorithm is proposed in this work in the field of spectral images. It is noteworthy that, to date, not found in the literature, the use of this technique in the classification of hyperspectral remote sensing images. iv Declara¸c˜ao Esta dissertação é resultado de meu próprio trabalho, exceto onde referência explícita é feita ao trabalho de outros, e não foi submetida para outra qualificação nesta nem em outra universidade. Sandro Luiz Jailson Lopes Tinôco v Agradecimentos Agradeço a todos que me ajudam direta ou indiretamente neste trabalho. Agradeço a minha família, pelo aconchego. Agradeço aos professores, pela preocupação. Agradeço aos amigos, pelos conselhos. Agradeço ao David, meu orientador. Agradeço à UFOP e Ouro Preto, pelos ensinamentos. Agradeço aos esquecidos não mencionados explicitamente aqui. Agradeço ao Coordenadoria de Aperfeiçoamento de Pessoal de Ensino Superior (CA- PES). Muito Obrigado. vii Pref´acio A representação visual da informação desempenha um papel fundamental na vida do ser humano. No dia-a-dia, as imagens assumem as mais diversas funções como, por exemplo, representações gráficas em placas de sinalização, o registro fotográfico para recordação posterior ou, ainda, na manifestação do sentimento em obras de arte. À medida que se desenvolvem novas tecnologias, surgem novas formas de utilização de imagens, aumentando sua área de abrangência aos mais diversos campos científicos. O Sensoriamento Remoto é uma importante área do conhecimento que se utiliza da representação visual, com a finalidade de obter informações sobre o planeta Terra. A importância de tais informações reside no fato de que elas auxiliam o homem na gestão dos recursos naturais, no uso da terra e na proteção do meio ambiente. Pode-se perceber que a quantidade de dados gerada nesse processo, devido â extensão das áreas imageadas, também é extensa, tornando a análise manual, uma tarefa quase impossível. Além disso, a tecnologia desenvolvida para obter essas imagens pode gerar dados que devem ser processados com a utilização de algoritmos que sejam capazes de aproveitar o máximo da informação presente neles. Uma forma de transformar essa informação em conhecimento útil é gerar mapas temáticos, que são a representação de elementos específicos como, por exemplo, caracte- rísticas do solo, vegetação entre outros. Diferentes mapas temáticos podem auxiliar em uma tomada de decisão específica na gestão dos recursos disponíveis. Assim, no presente projeto, imagensdesensoriamentoremotosãoclassificadasporalgoritmosepormétodos que combinam esses algoritmos visando produzir mapas temáticos mais precisos. ix
Description: