ILONEIDE CARLOS DE OLIVEIRA RAMOS Metodologia Estatística na Solução do Problema do Caixeiro Viajante e na Avaliação de Algoritmos: um estudo aplicado à Transgenética Computacional Tese apresentada ao Programa de Pós-graduação em Engenharia Elétrica da Universidade Federal do Rio Grande do Norte, como requisito parcial à obtenção do grau de Doutor em Engenharia Elétrica. Orientador: Marco César Goldbarg Co-orientador: AdriãoDuarteDóriaNeto Natal - RN 2005 Divisão de Serviços Técnicos Catalogação da publicação na Fonte. UFRN / Biblioteca Central Zila Mamede Ramos, Iloneide Carlos de Oliveira Metodologia estatística na solução do problema do caixeiro viajante e na avaliação de algoritmos: um estudo aplicado à transgenética computacional / Iloneide Carlos de Oliveira Ramos. Natal (RN), 2005. 131 f. : il. Orientador: Marco César Goldbarg. Co-orientador: Adrião Duarte Dória Neto. Tese (Doutorado) – Universidade Federal do Rio Grande do Norte. Centro de Tecnologia. Programa de Pós-graduação em Engenharia Elétrica. 1. Problema do caixeiro viajante – Tese. 2. Transgenética computacional – Tese. 3. Análise de agrupamentos – Tese. 4. Análise de componentes principais – Tese. 5. Estatística aplicada – Tese. I. Goldbarg, Marco César. II. Dória Neto, Adrião Duarte. III. RN/UF/BCZM 510(043.2) ILONEIDE CARLOS DE OLIVEIRA RAMOS METODOLOGIA ESTATÍSTICA NA SOLUÇÃO DO PROBLEMA DO CAIXEIRO VIAJANTE E NA AVALIAÇÃO DE ALGORITMOS: UM ESTUDO APLICADO À TRANSGENÉTICA COMPUTACIONAL Aprovada em: 03/03/2005 BANCA EXAMINADORA: _______________________________________ Prof. D. Sc. Marco César Goldbarg Orientador - UFRN ________________________________________ Prof. Dr. Adrião Duarte Dória Neto Co-orientador - UFRN ________________________________________ Profa. D. Sc. Elizabeth Ferreira Gouvêa Goldbarg Examinadora - UFRN ________________________________________ Prof. Dr. Jorge Dantas de Melo Examinador - UFRN ________________________________________ Prof. Dr. d’État Henrique Pacca Loureiro Luna Examinador - UFAL ________________________________________ Prof. D. Sc. Ruy Eduardo Campello Examinador – FURNAS/RJ 2 “Reparaste-me os erros, no entanto, peço que me mostre o caminho para que eu venha a trilhá-lo.” Chico Xavier 3 4 AGRADECIMENTOS A Deus, por mais esta conquista na minha vida. Ao Prof. Goldbarg, pela amizade e pela excelente orientação proporcionada pelo seu grande empenho como pesquisador. Ao Prof. Adrião, pela amizade e excelente co-orientação. A Beth, pela amizade e grande contribuição na elaboração dos artigos. A João Paulo, pela grande e paciente contribuição na programação de várias versões do algoritmo proposto neste trabalho. A Herbert, pela contribuição na programação de alguns algoritmos da literatura. A Luciana Buriol, que, gentilmente, cedeu o código-fonte do algoritmo por ela proposto. Aos colegas do Laboratório de Algoritmos Experimentais, em especial a Chico, pelo apoio na instalação e manutenção dos computadores do laboratório. Aos colegas de curso, em especial a Fernando César – colega de profissão e amigo – e Pádua, pelos conhecimentos trocados durante o curso. Aos colegas do Departamento de Estatística, em especial a Damião, Dione e Jeanete, pela amizade e apoio durante meu afastamento das atividades acadêmicas. Aos professores e funcionários do Programa de Pós-graduação em Engenharia Elétrica, pela assistência ao programa. A Betânia e Gizele pela amizade, incentivo e apoio na realização deste trabalho. A meu esposo e filhos, pelo incentivo, amor e compreensão das minhas ausências. Aos meus pais, pelo amor e pela dedicação à família. Aos meus familiares, pelo grande incentivo. A Rita, pela dedicação a minha família nas minhas ausências. A todos que contribuíram, direta ou indiretamente, para a realização deste trabalho. 5 SUMÁRIO 1. INTRODUÇÃO 16 2. A TRANSGENÉTICA COMPUTACIONAL 23 2.1. VETORES TRANSGENÉTICOS 23 2.2. REGRAS DE ADMINISTRAÇÃO 25 2.3. ALGORITMOS DA TRANSGENÉTICA COMPUTACIONAL 25 3. METODOLOGIA 28 3.1. A HEURÍSTICA OPERON 28 3.2. METODOLOGIAS UTILIZADAS PARA PROCESSAR O OPERON 31 3.2.1. ANÁLISE DE AGRUPAMENTOS: O MÉTODO DA LIGAÇÃO SIMPLES 31 3.2.2. ANÁLISE DE COMPONENTES PRINCIPAIS 36 3.3. VERSÕES DO OPERON 39 3.3.1. O OPERONBA 40 3.3.2. O OPERONBA_ACP 43 3.3.3. O OPERONAA_ACP 45 3.3.4. O OPERONC 46 3.4. ÁRVORE GERADORA MÍNIMA 49 3.4.1. ALGORITMO DE KRUSKAL 50 3.4.2. ALGORITMO DE PRIM 51 3.5. PROTOG APLICADO AO PROBLEMA DO CAIXEIRO VIAJANTE 52 3.6. AVALIAÇÃO DA PERFORMANCE DE ALGORITMOS 56 3.6.1. ANÁLISE DE DADOS CATEGORIZADOS: REGRESSÃO LOGÍSTICA 56 3.6.2. ANÁLISE DE SOBREVIVÊNCIA: O ESTIMADOR KAPLAN-MEIER E O TESTE LOG-RANK 59 3.6.3. ANÁLISE DE VARIÂNCIA: O TESTE DE KRUSKAL-WALLIS 62 4. RESULTADOS E DISCUSSÕES 65 4.1. AJUSTE DE PARÂMETROS PARA O PROTOG 65 4.1.1. TAMANHO DA POPULAÇÃO E TAMANHO MÁXIMO DA CADEIA DE PGM 66 4.1.2. USO DE AGM VERSUS OPERON E COEFICIENTE DE VARIAÇÃO NO PROTOG 74 6 4.2. AVALIAÇÃO DOS ALGORITMOS: INSTÂNCIAS PEQUENAS 85 4.3. AVALIAÇÃO DOS ALGORITMOS: INSTÂNCIAS DE PORTE MÉDIO 90 4.3.1. PROTOG VERSUS SAK E PROTOG VERSUS AMB 90 4.3.2. PROTOG VERSUS SAK 93 4.4. AVALIAÇÃO DOS ALGORITMOS: INSTÂNCIAS GRANDES 96 5. CONCLUSÕES E PERSPECTIVAS DE ESTUDOS 101 5.1. CONTRIBUIÇÕES DA PESQUISA 101 5.2. PERSPECTIVAS DE ESTUDOS NO FUTURO 106 REFERÊNCIAS 108 APÊNDICES 115 APÊNDICE A. APLICAÇÃO DA ANÁLISE DE AGRUPAMENTOS 115 APÊNDICE B. APLICAÇÕES DA ANÁLISE DE COMPONENTES PRINCIPAIS 117 APÊNDICE C. APLICAÇÕES DA REGRESSÃO LOGÍSTICA 120 APÊNDICE D. APLICAÇÕES DA ANÁLISE DE SOBREVIVÊNCIA 126 APÊNDICE E. APLICAÇÕES DA ANÁLISE DE VARIÂNCIA NÃO PARAMÉTRICA 129 7 LISTA DE ABREVIATURAS AA Análise de Agrupamentos. ACP Análise de Componentes Principais. AGM Árvore Geradora Mínima. AMB Algoritmo Memético proposto por Buriol (2004). AMKS Algoritmo Memético proposto por Krasnogor e Smith (2000). CVMF Coeficiente de Variação Mínimo da Fitness populacional utilizado como indicador de renovação da população. EPS Erro Percentual da Solução (relativo à solução ótima). KM Kaplan-Meier (método utilizado para a estimativa da Função de Sobrevivência). MLS Método da Ligação Simples. PCV Problema do Caixeiro Viajante. PGM Partícula Genética Móvel – um tipo de vetor transgenético. ProtoG Algoritmo Transgenético Proto Gene proposto por Goldbarg e Gouvêa (2000). SAK Algoritmo Simulated Annealing proposto por Karlsson (2002). TSPLIB Biblioteca de instâncias para o Problema do Caixeiro Viajante (Reinelt, 1995). 8 LISTA DE SÍMBOLOS E VARIÁVEIS G(N,A) Grafo completo ponderado com conjunto de nós N e conjunto de arestas A. S(N,A) Subgrafo completo ponderado com conjunto de nós N e conjunto de arestas A. C(N,A) Cluster definido em um subgrafo C completo ponderado com conjunto de nós N e conjunto de arestas A. L Lista para armazenar uma cadeia de PGM, ou nós de um grafo. M Conjunto de arestas de uma AGM. C Conjunto de nós de um grafo para formação de clusters. P Indicador de uma distribuição de probabilidade. m Tamanho de uma cadeia de PGM. v Tamanho da vizinhança relativa a um nó de um grafo. η Nó de um grafo. a Aresta ponderada de um grafo. c Número de clusters em uma determinada estrutura de clusters. d Número de nós selecionados nas duas extremidades de um cluster. n Tamanho de uma instância do PCV. w Custo de uma aresta. i, j, k, l Variáveis usadas como índices. X Matriz representando os nós de um grafo no ℜ2. S Matriz de variância-covariância amostral. λλλλ Vetor de autovalores (em ordem decrescente) da matriz S. Q Matriz formada pelos autovetores (em colunas) associados aos autovalores do vetor λλλλ. A Matriz com projeções de X sobre os eixos das componentes principais. Y Variável aleatória definida como o número de soluções ótimas que ocorrem em m i i execuções do algoritmo associado a i, com Y ~ B(m, π), onde π é a probabilidade de i i i i ocorrência de uma solução ótima com a execução do algoritmo associado a i. m Vetor contendo o número de execuções associadas à variável aleatória Y. i π Vetor de probabilidades associadas à variável aleatória Y. i y Vetor contendo realizações da variável aleatória Y. i ηηηη, µµµµ, z, w Vetores auxiliares usados no cálculo das estimativas dos parâmetros do modelo logístico. X Matriz de dados das variáveis explicativas. ββββ Vetor de parâmetros do modelo logístico. W Estatística de Wald. X2 Estatística de Pearson. χ2 Símbolo usado para identificar a distribuição de Qui-Quadrado. 9
Description: