ALGORITMOS EVOLUCIONARIOS MULTIOBJETIVO PARA ALINHAMENTO MÚLTIPLO DE SEQÛËNCIAS BIOLÓGICAS Margarita Ramona Ruiz Olazar DISSERTAÇÃO SUBMETIDA AO CORPO DOCENTE DA COORDENAÇÃO DOS PROGRAMAS DE PÓS-GRADUAÇÃO DE ENGENHARIA DA UNIVERSIDADE FEDERAL DO RIO DE JANEIRO COMO PARTE DOS REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE MESTRE EM CIÊNCIAS EM ENGENHARIA ELÉTRICA. Aprovada por: RIO DE JANEIRO, RJ - BRASIL ABRIL DE 2007 OLAZAR, MARGARITA RAMONA RUIZ Algoritmos Evolucionários Multiobjetivo para Alinhamento Múltiplo de Seqüências Biológicas [Rio de Janeiro] 2007 XV, 116 p. 29,7 cm (COPPE/UFRJ, M.Sc., Engenharia Elétrica, 2007) Dissertação - Universidade Federal do Rio de Janeiro, COPPE 1. Algoritmos Evolucionários Multi- objetivo. 2. Alinhamento Múltiplo de Seqüências. I. COPPE/UFRJ II. Título ( série ) ii A minha mãe e a meu pai+ por ter me concientizado da importância pelo estudo e por suas incomensuráveis ensinanças. iii AGRADECIMENTOS A Deus, por todas as oportunidades e bênçãos na minha vida. A minha família que sempre acreditou no meu potencial e me deu seu apoio incondicional em todos os momentos de minha existência. A minha mãe, meus irmãos e irmãs, meus sobrinhos e sobrinhas, por me dar sempre a força e o alento necessários nestes dois anos longe de casa. Ao professor Eugenius Kaszkurewicz, quem me acolheu como sua orientada e possibilitou que a minha experiência de viver dois anos em função do mestrado fosse a mais proveitosa possível. Agradeço-te pelo inestimável apoio e pela dedicação do seu tempo determinantes para o sucesso deste trabalho. Ao professor Benjamín Barán, quem com sua forma tão simples e humilde sempre foi o principal modelo a seguir desde os tempos da graduação e foi o motivador pelo qual tive a ousadia de tentar este mestrado. Graças por seu constante apoio e motivação e pelos ensinamentos como mestre e como amigo. Ao professor Amit Bhaya, pela ajuda e apoio nestes dois anos de pesquisa. A minha grande amiga Júnia, quem com sua incondicional amizade esteve a meu lado nos maus e bons momentos e tornou minha estada no Rio de Janeiro muito mais agradável. Amizade para toda a vida. A meus amigos, do NACAD - Núcleo de Atendimento de Computação de Alto Desempenho, do Laboratório de Controle e do Laboratório de Potência, por sua cordial acolhida, amizade e ajuda nos momentos difíceis desta pesquisa. À Universidade Federal do Rio de Janeiro, e em especial ao Programa de Engenharia Elétrica da COPPE por ter contribuído para minha formação e ter recebido e dado oportunidade a uma estudante paraguaia. À CAPES pelo fundamental apoio financeiro para o cumprimento desta pesquisa. Meus sinceros agradecimentos! iv Resumo da Dissertação apresentada à COPPE/UFRJ como parte dos requisitos necessários para a obtenção do grau de Mestre em Ciências (M. Sc.) ALGORITMOS EVOLUCIONARIOS MULTIOBJETIVO PARA ALINHAMENTO MÚLTIPLO DE SEQÜÊNCIAS BIOLÓGICAS Margarita Ramona Ruiz Olazar Abril/2007 Orientadores: Eugenius Kaszcurewicz Benjamín Barán Cegla Programa: Engenharia Elétrica Estudamos uma metodologia para Alinhamento Múltiplo de Seqüências biológicas (MSA) usando Algoritmos Evolucionários Multi-objetivo (MOEAs). Este método evolui uma dada população de alinhamentos gradualmente, melhorando o “fitness” da população medida por dois critérios; a qualidade do alinhamento calculada com a função “Soma de pares” utilizando a matriz de substituição de resíduos BLOSUM62 e a qualidade do alinhamento calculada com a função “Soma de pares” utilizando a matriz de substituição de resíduos PAM250. Este problema, em geral, demanda tempo elevado de processamento, e a implementação proposta pretende tirar proveito da computação de alto desempenho uma vez que o programa é executado em paralelo por vários processadores. As vantagens da metodologia proposta é que ela pode ser usada tanto para seqüências de proteínas como de DNA, além de apresentar a possibilidade de otimizar diferentes funções objetivo, qualquer sejam estas. Os resultados obtidos demostram que os MOEAs são métodos efetivos e eficientes de otimização e podem ser utilizados em problemas de MSA, quando o domínio do problema é determinado. v Abstract of Dissertation presented to COPPE/UFRJ as a partial fulfillment of the requirements for the degree of Master of Science (M.Sc.) MULTIOBJECTIVE EVOLUCIONARY ALGORITHMS FOR BIOLOGICAL MULTIPLE SEQUENCES ALIGNMENT Margarita Ruiz Abril/2007 Advisors: Eugenius Kaszcurewicz Benjamín Barán Cegla Department: Electrical Engineering We studied a methodology for the Biological Multiple Sequences Alignment (MSA) using Multi-Objective Evolutionary Algorithms (MOEAs). This method evolves gradually a given population of alignments, improving the “fitness” of the population measured by two criteria; the quality of the alignment calculated with the “SP score” function using the matrix of substitution BLOSUM62 and the quality of the alignment calculated with “SP score” function using the matrix of substitution PAM250. In general, this problem demands a huge processing time; therefore, the proposed implementation tries to benefit from high performance computation using several processors to run a parallel program. The main advantage of the proposed methodology is that it can be used for protein and DNA sequences as well. In addition, it gives the possibility of optimizing different objective functions at a time. Experimental results show that MOEAs are efficient methods of optimization and can be used in MSA problems, when the problem domain is determined. vi SUMÁRIO Resumo...................................................................................................................v Abstract.................................................................................................................vi Lista de Figuras.....................................................................................................x Lista de Tabelas...................................................................................................xii Lista de Símbolos ou Nomenclaturas...............................................................xiii 1. Introdução 1.1 Contexto................................................................................................1 1.2 Motivação..............................................................................................2 1.3 Revisão Bibliográfica............................................................................3 1.4 Objetivo.................................................................................................5 1.5 Estrutura do Trabalho............................................................................6 2. Alinhamento de Seqüências de Biomoléculas 2.1 O Problema da Comparação de Seqüências..........................................7 2.1.1 Alinhamento de Seqüências....................................................7 2.1.2 Tipos de Alinhamentos...........................................................8 2.2 Descrição da Representação Utilizada neste Trabalho..........................8 2.3 Esquema de Valoração para um Alinhamento de duas Seqüências ..10 2.4 Esquema de Valoração para MSA.......................................................12 2.5 Matrizes de Substituição.....................................................................13 2.5.1 Matrizes PAM.......................................................................14 2.5.2 Matrizes BLOSUM...............................................................14 2.5.3 Diferencias entre PAM e BLOSUM.....................................15 2.6 Penalidade dos Gaps............................................................................17 2.7 Função Soma Ponderada de pares de Seqüências...............................19 2.8 Função COFFEE.................................................................................21 2.9 Heurísticas mais utilizadas em MSA..................................................24 2.9.1 Programação Dinâmica.........................................................24 2.9.2 Alinhamento Progressivo.....................................................26 2.9.3 Métodos Iterativos................................................................28 2.10 Métricas de Performance: Balibase...................................................30 vii 2.11 Considerações Gerais........................................................................32 3. Introdução à Otimização Multi-objetivo 3.1 Otimização Multi-objetivo e Otimização Simples..............................34 3.2 Problema de Otimização Multi-objetivo.............................................37 3.3 Conceitos Básicos de Otimização Multi-objetivo...............................38 3.3.1 MOP Convexo e não Convexo.............................................38 3.3.2 Dominância e Ótimalidade de Pareto...................................40 3.3.3 Condições de Ótimalidade....................................................43 3.4 Metas em Otimização Multi-objetivo..................................................45 3.5 Diferencias com a Otimização de Objetivo Simples...........................46 3.6 Convergência e Diversidade das Soluções de um MOP.....................46 3.7 Classificação das Técnicas para Resolução de MOP..........................48 3.7.1 Técnicas não baseadas em Pareto.........................................48 3.7.2 Técnicas baseadas em Pareto................................................49 3.8 Algoritmos Evolutivos Multi-objetivo................................................50 3.8.1 Soma Ponderada (Weighted Sum)........................................51 3.8.2 SPEA (Strength Pareto Evolutionary Algorithm)................54 3.8.3 NSGA II (Non Sorting Genetic Algorithm).........................57 4. Método de Solução Proposto para o Problema de Alinhamento de Seqüências de Proteínas. 4.1 Justificativa do Método Proposto para Resolução de MSA................62 4.2 Processo de Avaliação da Qualidade do MSA de Proteínas...............63 4.3 Função de Aptidão para os MOEAs SPEA e NSGAII........................64 4.4 Função de Aptidão para o Algoritmo Soma Ponderada......................65 4.5 Codificação do Alinhamento Múltiplo de proteínas...........................65 4.6 Processo de obtenção do Alinhamento Inicial....................................66 4.7 Processo de obtenção da População Inicial.........................................67 4.8 Operador de Cruzamento....................................................................67 4.9 Operadores de Mutação.......................................................................69 4.10 Modelo Paralelo aplicado aos MOEAs SPEA e NSGAII.................71 4.11 Modelo Paralelo aplicado ao Algoritmo Soma Ponderada...............73 4.12 Considerações Gerais........................................................................74 viii 5. Experimentos e Resultados 5.1 Conjunto de Teste utilizado................................................................75 5.2 Plataforma de Testes utilizada............................................................76 5.3 Método de Avaliação dos Resultados.................................................76 5.4 Resultados obtidos..............................................................................77 5.5 Análise dos Resultados.......................................................................79 5.6 Conclusão do Trabalho........................................................................85 5.7 Perspectiva Futura...............................................................................86 Apêndice A: Introdução à Biologia Molecular................................................88 Apêndice B: Computação Evolutiva..................................................................96 Apêndice C: Paralelização................................................................................101 Referência Bibliográfica...................................................................................109 ix LISTA DE FIGURAS Figura 2.1: Alinhamento de duas seqüências...............................................................8 Figura 2.2: Alinhamento de duas seqüências.............................................................17 Figura 2.3: (a) Parte de uma árvore guia ilustrando como pesos de seqüências são calculados. O circulo em linha de pontos ilustra a subárvore com raiz n. (b) Os pesos j de cada uma das folhas de uma arvore exemplo, calculada desde as etiquetas sobre os lados............................................................................................................................20 Figura 2.4: Biblioteca par a par do alinhamento A....................................................22 Figura 2.5: Função COFFEE.....................................................................................23 Figura 2.6 : Programação Dinâmica..........................................................................24 Figura 2.7: Cálculo da cela H .................................................................................25 2,0 Figura 2.8: Caminho que indica um alinhamento ótimo............................................25 Figura 2.9: Alinhamento par a par.............................................................................27 Figura 2.10: Árvore guia............................................................................................27 Figura 2.11: Alinhamento progressivo propriamente dito.........................................28 Figura 2.12: Fluxo de um Algoritmo Genético..........................................................30 Figura 3.1: Soluções hipotéticas. Problema de tomada de decisão de compra de um carro............................................................................................................................34 Figura 3.2: Esquema do procedimento de otimização multi-objetivo ideal..............36 Figura 3.3: Esquema de um procedimento de otimização multi-objetivo baseado em preferência...................................................................................................................36 Figura 3.4 : Uma função convexa..............................................................................39 Figura 3.5 : Conjunto convexo e não convexo...........................................................39 Figura 3.6 : Gráfica das opções de compra................................................................42 Figura 3.7: Gráfica do problema 1.............................................................................44 Figura 3.8: Frente Pareto das funções objetivo f e f do problema 1........................44 1 2 Figura 3.9: Distribuição de soluções na Fronteira Pareto..........................................45 x
Description: