SERVIC¸ODEPO´S-GRADUAC¸A˜ODOICMC-USP Data de Dep´osito: Assinatura : Aplica¸c˜ao de Algoritmos Gen´eticos Multi-Objetivo para Alinhamento de Sequ¨ˆencias Biol´ogicas Waldo Gonzalo Cancino Ticona Orientador: Prof. Dr. Zhao Liang Disserta¸c˜ao apresentada ao Instituto de Ciˆencias Matem´aticas e de Computa¸c˜ao - ICMC-USP, como parte dos requisitos para obten¸c˜ao do t´ıtulo de Mestre em Ciˆencias, na ´area de Ciˆencias de Computa¸c˜ao e Matem´atica Computacional. USP-S˜ao Carlos Fevereiro de 2003 Aplica¸c˜ao de Algoritmos Gen´eticos Multi-Objetivo para Alinhamento de Sequ¨ˆencias Biol´ogicas Waldo Gonzalo Cancino Ticona Agradecimentos A meu orientador Prof. Dr. Zhao Liang, por tudo o que com ele aprendi, em ambiente prop´ıcio para a pesquisa de excelˆencia. Ao professor Andr´e Ponce de Leon Ferreira de Carvalho por sua amizade e por ter acompanhado com muito interesse minha pesquisa. A todos os meus amigos do mestrado do ICMC-USP pela acolhida, abertura, e disponibilidade em me ajudar Ao CNPQ, pelo fundamental suporte financeiro dispensado `a execu¸c˜ao desta pes- quisa. ` A minha fam´ılia e aos meus amigos. Resumo O alinhamento de sequ¨ˆencias biol´ogicas ´e uma opera¸c˜ao b´asica em Bioinform´atica, j´a que serve como base para outros processos como, por exemplo, a determina¸c˜ao da estrutura tridimensional das prote´ınas. Dada a grande quantidade de dados presentes nas sequ¨encias, s˜ao usadas t´ecnicas matem´aticas e de computa¸c˜ao para realizar esta tarefa. Tradicionalmente, o Problema de Alinhamento de Sequ¨ˆencias Biol´ogicas ´e formulado como um problema de otimiza¸c˜ao de objetivo simples, onde alinhamento de maior semelhan¸ca, conforme um esquema de pontua¸c˜ao, ´e procurado. A Otimiza¸c˜ao Multi-Objetivo aborda os problemas de otimiza¸c˜ao que possuem v´arios crit´erios a serem atingidos. Para este tipo de problema, existe um conjunto de solu¸c˜oes que representam um “compromiso”entre os objetivos. Uma t´ecnica que se aplica com sucesso neste contexto s˜ao os Algoritmos Evolutivos, inspirados na Teoria da Evolu¸c˜ao de Darwin, que trabalham com uma popula¸c˜ao de solu¸c˜oes que v˜ao evoluindo at´e atingirem um crit´erio de convergˆencia ou de parada. Este trabalho formula o Problema de Alinhamento de Sequ¨ˆencias Biol´ogicas como um Problema de Otimiza¸c˜ao Multi-Objetivo, para encontrar um conjunto de solu¸c˜oes querepresentemumcompromissoentreaextens˜aoeaqualidadedassolu¸c˜oes. Aplicou- se v´arios modelos de Algoritmos Evolutivos para Otimiza¸c˜ao Multi-Objetivo. O de- sempenho de cada modelo foi avaliado por m´etricas de performance encontradas na literatura. Abstract The Biological Sequence Alignment is a basic operation in Bioinformatics since it ser- ves as a basis for other processes, i.e. determination of the protein’s three-dimensional structure. Duetothelargeamountofdatainvolved, mathematicalandcomputational methodshavebeenusedtosolvethisproblem. Traditionally,theBiologicalAlignment Sequence Problem is formulated as a single optimization problem. Each solution has a score that reflects the similarity between sequences. Then, the optimization process looks for the best score solution. The Multi-Objective Optimization solves problems with multiple objectives that mustbereached. Frequently, thereisasolutionsetthatrepresentsatrade-offbetween the objectives. Evolutionary Algorithms, which are inspired by Darwin’s Evolution Theory, have been applied with success in solving this kind of problems. This work formulates the Biological Sequence Alignment as a Multi-Objective Optimization Problem in order to find a set of solutions that represent a trade-off betweentheextensionandthequalityofthesolutions. SeveralmodelsofEvolutionary Algorithms for Multi-Objetive Optimization have been applied and were evaluated using several performance metrics found on the literature.
Description: