REDES NEURAIS SEM-PESO APLICADAS NA CATEGORIZAÇÃO DE SUBTIPOS DO HIV-1. Caio Ribeiro de Souza Dissertação de Mestrado apresentada ao Programa de Pós-Graduação em Engenharia de Sistemas e Computação, COPPE, da Universidade Federal do Rio de Janeiro, como parte dos requisitos necessários à obtenção do título de Mestre em Engenharia de Sistemas e Computação. Orientadores: Felipe Maia Galvão França Robson Mariano da Silva Rio de Janeiro Junho de 2011 i REDES NEURAIS SEM-PESO APLICADAS NA CATEGORIZAÇÃO DE SUBTIPOS DO HIV-1. Caio Ribeiro de Souza DISSERTAÇÃO SUBMETIDA AO CORPO DOCENTE DO INSTITUTO ALBERTO LUIZ COIMBRA DE PÓS-GRADUAÇÃO E PESQUISA DE ENGENHARIA (COPPE) DA UNIVERSIDADE FEDERAL DO RIO DE JANEIRO COMO PARTE DOS REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE MESTRE CIENCIAS EM ENGENHARIA DE SISTEMAS E COMPUTAÇÃO. Examinada por: __________________________________________ Prof. Felipe Maia Galvão França, Ph.D. __________________________________________ Prof. Robson Mariano da Silva, D.Sc. __________________________________________ Prof. Flávio Fonseca Nobre, Ph.D. __________________________________________ Prof. Ricardo Costa Farias, Ph.D. __________________________________________ Prof. Paulo Costa Carvalho, D.Sc. RIO DE JANEIRO, RJ – BRASIL JUNHO DE 2011 ii Souza, Caio Ribeiro de Redes Neurais Sem-Peso Aplicadas Na Categorização De Subtipos Do Hiv-1./ Caio Ribeiro de Souza – Rio de Janeiro: UFRJ/COPPE, 2011. X, 91 p.: il.; 29,7 cm. Orientadores: Felipe Maia Galvão França Robson Mariano da Silva Dissertação (mestrado) – UFRJ/ COPPE/ Programa de Engenharia de Sistemas e Computação, 2011. Referências Bibliográficas: p. 80-87. 1. Resistência HIV-1. 2. Redes Neurais Sem Peso. 3. Bleaching. I. França, Felipe Maia Galvão, et al. II. Universidade Federal do Rio de Janeiro, COPPE, Programa de Engenharia de Sistemas e Computação. III. Titulo. iii ―Aos meus pais, Antônio Carlos e Adélia. Suas vidas sempre me serviram de exemplo para buscar meus objetivos e me deram força e determinação.‖ iv Agradecimentos Aos meus pais por me fornecerem todas as condições necessárias para a minha formação acadêmica e principalmente por tudo que representam na minha vida. Às minhas irmãs por todo incentivo e motivação dado ao longo desse processo. Ao professor Felipe Maia Galvão França por seu apoio e orientação segura, tranquila e sempre paciente. Ao professor Robson Mariano da Silva por sua orientação segura e por sua pesquisa ter sido a fonte de inspiração para a realização deste trabalho. A professora Priscila Machado Vieira Lima por seu apoio incondicional sempre que necessário. Ao professor Flávio Fonseca Nobre pelo auxílio prestado em importantes momentos desta pesquisa. Às amigas Teresa Costa Barros, Vanessa Carla Felipe Gonçalves, Janaina Marques e Miriam Rodrigues por toda a ajuda prestada. Aos amigos da UFRJ com quem tive o prazer de conviver desde a graduação e que me incentivaram durante todo esse período. À Fundação COPPETEC e a DAbM (Diretoria de Abastecimento da Marinha do Brasil) por terem possibilitado meu afastamento nos momentos necessários, permitindo meu aprimoramento acadêmico. Ao professor Rodrigo Brindeiro, chefe do Laboratório de Virologia Molecular (Instituto de Biologia - UFRJ, Brasil) por ter cedido a base de dados utilizada e fundamental para o desenvolvimento deste trabalho. v Resumo da Dissertação apresentada à COPPE/UFRJ como parte dos requisitos necessários para a obtenção do grau de Mestre em Ciências (M.Sc.) REDES NEURAIS SEM-PESO APLICADAS NA CATEGORIZAÇÃO DE SUBTIPOS DO HIV-1. Caio Ribeiro de Souza Junho/2011 Orientadores: Felipe Maia Galvão França Robson Mariano da Silva Programa: Engenharia de Sistemas e Computação Atualmente, uma das causas mais importantes da ocorrência de falha terapêutica em pacientes infectados com o HIV-1 e sob tratamento é o acúmulo de mutações genéticas de resistência aos antiretrovirais disponíveis. Estudos recentes mostram que a realização de testes genotípicos de resistência a esses medicamentos são muito importantes para o tratamento do HIV-1. Estes testes podem auxiliar na redução das falhas terapêuticas. Porém, a dificuldade na interpretação genética das mutações ainda é um fator limitante. O objetivo desta dissertação é desenvolver uma rede neural sem peso capaz de categorizar os diferentes subtipos do HIV-1 e também de identificar a existência de mutações de resistência a este tipo de droga. O conjunto de dados utilizado consiste de 1205 amostras da sequência genética da Protease do HIV-1, provenientes de pacientes de subtipos B, C e F sob falha terapêutica. Tais dados foram obtidos junto ao Laboratório de Virologia Molecular (UFRJ, Brasil). Diversos experimentos com diferentes configurações foram realizados, e os resultados encontrados mostraram que as redes sem peso possuem excelente desempenho para o reconhecimento dos subtipos. vi Abstract of Dissertation presented to COPPE/UFRJ as a partial fulfillment of the requirements for the degree of Master of Science (M.Sc.) WEIGHTLESS ARTIFICIAL NEURAL NETWORKS (WANN) APPLIED TO CATEGORIZATION OF SUBTYPES OF HIV-1. Caio Ribeiro de Souza June/2011 Advisors: Felipe Maia Galvão França Robson Mariano da Silva Department: Computer and Systems Engineering Nowadays, one of the most important causes of ARV therapy failure, in patients with HIV-1 and under treatment is the accumulation of resistance mutations to antiretroviral available drugs. Recent researches show that genotypic resistances testing of these drugs are very important to treatment of HIV-1. These tests can reduce the therapy failure. However the difficulty in interpreting genetic mutations is still a limiting factor. The aim of this dissertation is develop a WANN (Weightless Artificial Neural Network) that should be capable to categorize the different subtypes of HIV-1 and also to identify the existence of antiretroviral drugs resistance mutations. The data set used consists of 1205 gene sequence of the HIV-1 protease from patients with subtypes B, C and F under treatment failure. This data were obtained from the Laboratory of Molecular Virology (UFRJ/BRAZIL). Various experiments, with different configurations, have been done. The results showed WANN was culpable of properly recognizing subtypes. vii Sumário 1 Introdução .............................................................................................................. 1 1.1 Motivação ....................................................................................................... 1 1.2 Estudos Correlatos ......................................................................................... 3 1.3 Objetivos ........................................................................................................ 4 2 Conceitos Básicos .................................................................................................. 5 2.1 Fundamentos Biológicos................................................................................. 5 2.1.1 DNA ......................................................................................................... 5 2.1.2 Gene ....................................................................................................... 5 2.1.3 RNA ......................................................................................................... 6 2.1.4 Códon ...................................................................................................... 6 2.1.5 Síntese de Proteínas ............................................................................... 7 2.1.6 Mutações ................................................................................................. 9 2.2 O HIV-1 ........................................................................................................ 10 2.2.1 Origem................................................................................................... 10 2.2.2 Características ....................................................................................... 11 2.2.3 Ciclo de Replicação e Terapia Antiretroviral .......................................... 12 2.2.4 Resistência aos Antiretrovirais ............................................................... 14 2.3 Redes Neurais .............................................................................................. 16 2.3.1 Redes Neurais Com Peso ..................................................................... 17 2.3.2 Redes Neurais Sem Peso...................................................................... 19 2.3.3 WiSARD – (Wilkes, Stonham, Aleksander Recognition Device) ............. 19 2.3.4 VG-RAM – (Virtual Generalizing RAM) .................................................. 22 2.3.5 Bleaching ............................................................................................... 23 3 Metodologia .......................................................................................................... 25 3.1 Base Teórica Aplicada ao Problema ............................................................. 25 3.2 Representações ........................................................................................... 26 3.3 O Banco de Dados ....................................................................................... 32 3.4 Os Experimentos .......................................................................................... 33 3.4.1 Representação dos Dados .................................................................... 34 viii 3.4.2 Posições Selecionadas .......................................................................... 34 3.4.3 Configuração da WiSARD: .................................................................... 35 3.4.4 Balanceamento dos Dados: ................................................................... 36 3.4.5 Validação Cruzada: ............................................................................... 37 3.4.6 Objetivo do Reconhecimento: ................................................................ 38 3.4.7 Resumo dos Experimentos Realizados: ................................................ 39 4 Análise dos Resultados ........................................................................................ 41 4.1 Análise em Relação ao Problema (Classificação de HIV-1) .......................... 41 4.1.1 Experimentos Iniciais ............................................................................. 41 4.1.1.1 Posições de Mutação já Conhecidas.................................................. 42 4.1.1.2 Toda a Protease (99 posições) .......................................................... 42 4.1.1.3 Posições Mais Significativas (27 posições) ........................................ 43 4.1.1.4 Observações Acerca dos Experimentos Iniciais: ................................ 44 4.1.2 Experimentos Balanceados Pelo Máximo e Pelo Mínimo. ..................... 45 4.1.3 Balanceamento Por Lote ....................................................................... 48 4.1.4 Resumo das Comparações Usando os Seis Grupos ............................. 50 4.1.5 Experimentos Por Subtipo ..................................................................... 51 4.1.6 Experimento B Resistente Versus B Naive ............................................ 52 4.1.7 Comparação Entre as Codificações ....................................................... 54 4.1.8 Comparação Entre Memórias de 8 bits e 16 bits ................................... 56 4.2 Análise em Relação à Técnica do Bleaching ................................................ 58 4.2.1 Escolhas Aleatórias Sem Bleaching ...................................................... 59 4.2.2 Taxa de Acerto Com o Uso do Bleaching .............................................. 60 4.2.3 Taxa de Uso do Bleacnhig ..................................................................... 62 4.2.4 Aumento da Confiança .......................................................................... 63 4.2.5 Análise do Último Valor de Bleaching .................................................... 64 4.2.6 Resumo da Análise do Bleaching .......................................................... 65 4.3 Melhora de Tempo de Reconhecimento ....................................................... 65 4.3.1 Uso de VG-RAM nas Memórias da WiSARD ......................................... 66 ix 4.3.2 Uso de Vetor Para Armazenar os Pontos de Cada Padrão Durante o Reconhecimento .................................................................................................. 67 4.3.3 Cálculo do Bleaching Somente nos Valores que Acarretariam Mudança na Pontuação. ...................................................................................................... 68 4.4 ―Mea Culpa‖ – O Que Eu Não Fiz e Que Ficou Faltando .............................. 69 4.4.1 Reconhecimento Cognitivo .................................................................... 69 4.4.2 Reconhecimento de Resistência a Medicamentos ................................. 70 4.4.3 Usar a Integrase ou Mesmo a Transcriptase Reversa do Vírus ............. 70 5 Conclusão ............................................................................................................ 72 5.1 Resumo ........................................................................................................ 72 5.2 Trabalhos futuros .......................................................................................... 74 5.2.1 Inclusão do Raio Molecular ou Outras Informações Químicas Para a Criação de Novas Codificações ............................................................................ 74 5.2.2 Rede Neural que Possa Ser Treinada e Destreinada de Modo Automático, com Retroalimentação (Feedfoward) ................................................ 75 5.2.3 Bleaching Percentual ............................................................................. 77 6 Referências Bibliográficas .................................................................................... 80 ANEXO I ..................................................................................................................... 88 ANEXO II .................................................................................................................... 90 x
Description: