Table Of ContentPedro Miguel da Silva Ferreira
Aplicação de Algoritmos de
Aprendizagem Automática para a
Previsão de Cancro de Mama
Departamento de Ciência de Computadores
Faculdade de Ciências da Universidade do Porto
Porto, Outubro de 2010
Pedro Miguel da Silva Ferreira
Aplicação de Algoritmos de
Aprendizagem Automática para a
Previsão de Cancro de Mama
Dissertação submetida à Faculdade de Ciências da Universidade do Porto como parte dos
requisitos para a obtenção do grau de Mestre em Engenharia de Redes e Sistemas
Informáticos
Orientadora: Prof. Doutora Inês Dutra
Co-Orientador: Doutor Nuno Fonseca
Departamento de Ciência de Computadores
Faculdade de Ciências da Universidade do Porto
Porto, Outubro de 2010
Ao meu avô, à minha mãe, restante família e amigos
5
Este documento foi preparado com o processador de texto MS Word 2007. O sistema
de citações de referências bibliográficas utiliza a norma ISO 690 de acordo com a
Organização Internacional de Normalização – ISO.
Alguns termos presentes nesta dissertação não foram sujeitos a tradução da língua
inglesa para a portuguesa pelo simples facto de estarem amplamente aceites, difundidos e até
mesmo enraizados na comunidade académica que estuda o processo de mineração de dados e
as técnicas de aprendizagem automática.
Todos os endereços de Internet referenciados na bibliografia foram acedidos pela
última vez durante o mês de Outubro de 2010.
6
Agradecimentos
Gostaria de apresentar os meus agradecimentos, acima de tudo, à Prof. Doutora
Inês Dutra e ao Doutor Nuno Fonseca por todo o apoio, disponibilidade e óptimas
sugestões ao longo deste trabalho. Sem as suas orientações, o sucesso desta investigação
não teria sido possível.
Deixo também uma palavra de agradecimento à Dra. Elizabeth Burnside e ao Dr.
Ryan Woods pela assistência prestada na aplicação dos dados fornecidos.
Pretendo igualmente agradecer aos restantes professores e colaboradores da
Faculdade de Ciências da Universidade do Porto por me terem proporcionado um
ambiente de aprendizagem único ao longo do meu percurso académico.
Uma nota de agradecimento a André Rodrigues, Andress Teixeira, Bruna Pereira,
Bruno Luz, Bruno Pinho, Carlos Elói, Carlos Oliveira, Carlos Soares, César Ferreira,
Diana Almeida, Diogo Pacheco, Duarte Azevedo, Duarte Silva, Eduardo Burnay,
Engerbeth Vivas, Filipe Cunha, Filipe Sousa, Hélder Lourenço, Helena Lagoa, Hugo
Figueiredo, Hugo Vieira, Jason Araújo, João Campos, João Melhorado, João Raimundo,
José Amador, Juliana Gonçalves, Luís Correia, Miguel Silva, Nuno Vidal, Odair Tavares,
Pedro Azevedo, Pedro Borges, Pedro Freitas, Pedro Gomes, Pedro Martins, Pedro Vilaça,
Ricardo Castro, Ricardo Luís, Rui Marques, Rui Pedrosa, Tiago Bastos, Tiago Caçador e
Vânia Rodrigues pelo apoio proporcionado ao longo do curso, com especial destaque para
Alexandra Ferreira, Ana Areal, Bernardo Pina, Bruno Lopes, Bruno Silva, Cristiana
Costa, Filipe Azevedo, João Barros, Luís Valente, Margarida Franco, Miguel Barros,
Nuno Marques, Pedro Duarte, Ricardo Costa, Sílvia João e Tiago Silva pela paciência
demonstrada e conselhos sábios.
7
Finalmente, agradeço aos meus pais por me terem proporcionado todas as
condições para a minha formação académica. Em especial, um muito obrigado à minha
mãe, por todo o apoio, tolerância e afecto revelados ao longo dos anos, mas também por
ser a força motivadora deste trabalho.
Esta dissertação é dedicada à memória do meu avô e amigo Joaquim Lopes da
Silva, falecido no decorrer do presente ano.
O projecto em questão foi parcialmente suportado pelos programas HORUS
(PTDC/EIA-EIA/100897/2008) e DigiScope (PTDC/EIA-CCO/100844/2008) e também
pela Fundação para a Ciência e a Tecnologia (FCT/Portugal). Foi ainda financiado,
através de uma Bolsa de Iniciação Científica (BIC), pelo Center for Research in
Advanced Computing Systems (CRACS), grupo autónomo do Instituto de Engenharia de
Sistemas e Computadores do Porto (INESC Porto LA).
8
Resumo
O rastreio de cancro de mama consiste na examinação periódica da mama de uma
mulher com o principal objectivo de detectar indícios de cancro numa fase inicial. O
exame mais utilizado para este fim é a mamografia que, apesar da existência de técnicas
mais avançadas, é considerado o método mais económico e eficiente para a detecção de
cancro de mama num estado precoce.
Investigamos, recorrendo a técnicas de aprendizagem automática, como os
atributos obtidos a partir de mamografias se relacionam com malignidade. Em particular,
o foco deste estudo é o modo como a densidade de massa dos nódulos poderá influenciar
esse conceito. Para este fim, aplicamos diferentes algoritmos de aprendizagem ao
conjunto de dados, fazendo uso das ferramentas do sistema WEKA, assim como
efectuamos testes de significância aos resultados. Validamos igualmente estes resultados
através da apresentação dos mesmos a especialistas na área médica em questão.
São três as conclusões a que chegamos:
a) A classificação automática de uma mamografia poderá alcançar resultados
semelhantes ou mesmo superiores aos obtidos pelos próprios especialistas,
o que permitirá aos médicos concentrarem-se mais rapidamente num
determinado exame que necessite de um estudo mais aprofundado;
b) A densidade de massa parece ser efectivamente um bom indicador de
malignidade, tal como estudos anteriores sugeriam;
9
c) Conseguimos obter classificadores capazes de preverem densidade de
massa dos nódulos com um nível qualitativo tão bom como o de um
especialista sem qualquer tipo de informação relativa a biópsias.
10
Description:Para este fim, aplicamos diferentes algoritmos de aprendizagem ao .. Tabela 1 - Síntese dos doze algoritmos aplicados ao universo de dados alvo