Aprendizaje supervisado en conjuntos de datos no balanceados con Redes Neuronales Artificiales Métodos de mejora de rendimiento para modelos de clasificación binaria en diagnóstico médico Juan Águila Martínez TRABAJO FINAL DE MÁSTER Dirigido por el Dr. Agustí Solanas Gómez MÁSTER EN INGENIERÍA COMPUTACIONAL Y MATEMÁTICAS Barcelona, Junio de 2017 Esta obra está sujeta a una licencia de Reconocimiento-NoComercial- SinObraDerivada 3.0 España de Creative Commons C) Copyright © (el autor/a) Reservados todos los derechos. Está prohibido la reproducción total o parcial de esta obra por cualquier medio o procedimiento, comprendidos la impresión, la reprografía, el microfilme, el tratamiento informático o cualquier otro sistema, así como la distribución de ejemplares mediante alquiler y préstamo, sin la autorización escrita del autor o de los límites que autorice la Ley de Propiedad Intelectual. FICHA DEL TRABAJO FINAL de MÁSTER Aprendizaje supervisado en conjuntos de datos no balanceados con Redes Neuronales Artificiales Título del trabajo: Métodos de mejora de rendimiento para modelos de clasificación binaria en diagnóstico médico Nombre del autor: Juan Águila Martínez Nombre del director: Dr. Agustí Solanas Gómez Fecha de entrega (mm/aaaa): 06/2017 Área del Trabajo Final de Análisis de datos Máster: Máster en Ingeniería Computacional y Titulación: Matemáticas Resumen del Trabajo (máximo 250 palabras): El presente trabajo aborda el problema del reconocimiento de patrones en un conjunto de datos obtenido a partir de imágenes digitalizadas de muestras de líquido de tumor mamario mediante test de aguja fina o FNA. Dicho conjunto de datos presenta un marcado desequilibrio de clases, además de otras características que degradan el rendimiento de las técnicas de clasificación supervisada habituales, como la escasez de datos o el efecto Hughes. El enfoque del trabajo es el siguiente: - En el primer bloque del trabajo se presenta un estado del arte de las técnicas para trabajar con datos no balanceados, y se realiza una reseña histórica sobre el uso de los clasificadores neuronales (Redes Neuronales Artificiales o ANN). - En el segundo bloque del trabajo se utilizan las técnicas descritas en el bloque anterior junto a un clasificador neuronal para construir un modelo de reconocimiento de patrones sobre una versión modificada del conjunto de datos Wisconsin Diagnostic Breast Cancer (WDBC). Los resultados obtenidos en el experimento demuestran que la aplicación de técnicas de preprocesamiento de datos basados en técnicas de sobremuestreo sintético adaptativo y submuestreo informado mejoran hasta en un 7,5% el rendimiento del clasificador de base cuando se trabaja en el escenario indicado. Por otro lado, la utilización de técnicas de ensamble de clasificadores y decisión por votación son capaces de proporcionar modelos más estables (reduciendo la varianza del resultado hasta en un 30%). El trabajo realiza un análisis comprensivo tanto de las técnicas como de los resultados, y proporciona una recomendación general justificada sobre el mejor marco de trabajo a utilizar cuándo deba trabajarse sobre conjuntos de datos con características similares a las del WDBC. Abstract (in English, 250 words or less): The following work addresses the problem of recognizing a set of patterns within a database obtained from scanned images through the liquid of mammary samples taken via FNA (Fine Needle Aspiration). Such data present a marked class imbalance, not to mention other features which degrade the usual supervised classification techniques in terms of performance (e.g. the lack of data or the Hughes phenomenon). The working approach is as follows: - The first work package presents the current state of techniques dealing with unbalanced data. Furthermore, an historical account is taken into consideration when it comes to neural classifiers (the ANN-based model). - In the second block of work, these techniques are applied along with a neural classifier to build a model of pattern recognition in relation to a modified version of Wisconsin Diagnostic Breast Cancer (WDBC) set of data. The results obtained in this test prove that the application of pre-processing based techniques, when carried out with synthetic and adaptive oversampling techniques, along with already informed undersampling, can improve the performance of base classifier up to 7,5%. Furthermore, the application of techniques based on classifier assembling and decision by vote can provide more stable models (reducing the result variance up to 30%). This work tries to carry out a comprehensive analysis both in terms of techniques and results. This is undertaken to put forward a general justified recommendation focused on how to improve the method applied when it comes to data presenting the above-referred characteristics. Palabras clave (entre 4 y 8): Estadística Multivariante, Redes Neuronales, Análisis de Datos, Datos No Balanceados, Modelización Estadística, Machine Learning, Data Mining Resumen El presente trabajo aborda el problema del reconocimiento de patrones en un conjunto de datos obtenidoapartirdeima´genesdigitalizadasdemuestrasdel´ıquidodetumormamariomediantetest deagujafinaoFNA1.Dichoconjuntodedatospresentaunmarcadodesequilibriodeclases,adema´s de otras caracter´ısticas que degradan el rendimiento de las t´ecnicas de clasificaci´on supervisada habituales, como la escasez de datos o el efecto Hughes. El enfoque del trabajo es el siguiente: En el primer bloque del trabajo se presenta un estado del arte de las t´ecnicas para trabajar con datos no balanceados, y se realiza una resen˜a histo´rica sobre el uso de los clasificadores neuronales (Redes Neuronales Artificiales o ANN2). En el segundo bloque del trabajo se utilizan las t´ecnicas descritas en el bloque anterior junto a un clasificador neuronal para construir un modelo de reconocimiento de patrones sobre una versio´n modificada del conjunto de datos Wisconsin Diagnostic Breast Cancer (WDBC). Los resultados obtenidos en el experimento demuestran que la aplicacio´n de t´ecnicas de prepro- cesamiento de datos basados en t´ecnicas de sobremuestreo sint´etico adaptativo y submuestreo informado mejoran hasta en un 7,5% el rendimiento del clasificador de base cuando se trabaja en el escenario indicado. Por otro lado, la utilizacio´n de t´ecnicas de ensamble de clasificadores y decisi´on por votaci´on son capaces de proporcionar modelos m´as estables (reduciendo la varianza del resultado hasta en un 30%). El trabajo realiza un an´alisis comprensivo tanto de las t´ecnicas como de los resultados, y proporciona una recomendaci´on general justificada sobre el mejor marco de trabajo a utilizar cu´ando deba trabajarse sobre conjuntos de datos con caracter´ısticas similares a las del WDBC. 1Del ingl´es Fine Needle Aspiration. 2Del ingl´es Artificial Neural Netowrk. iii iv Abstract The following work addresses the problem of recognizing a set of patterns within a database obtained from scanned images through the liquid of mammary samples taken via FNA (Fine Needle Aspiration). Such data present a marked class imbalance, not to mention other features which degrade the usual supervised classification techniques in terms of performance (e.g. the lack of data or the Hughes phenomenon). The working approach is as follows: The first work package presents the current state of techniques dealing with unbalanced data. Furthermore, an historical account is taken into consideration when it comes to neural classifiers (the ANN-based model). In the second block of work, these techniques are applied along with a neural classifier to buildamodelofpatternrecognitioninrelationtoamodifiedversionofWisconsinDiagnostic Breast Cancer (WDBC) set of data. The results obtained in this test prove that the application of pre-processing based techniques, when carried out with synthetic and adaptive oversampling techniques, along with already infor- med undersampling, can improve the performance of base classifier up to 7,5%. Furthermore, the application of techniques based on classifier assembling and decision by vote can provide more stable models (reducing the result variance up to 30%). This work tries to carry out a comprehensive analysis both in terms of techniques and results. This is undertaken to put forward a general justified recommendation focused on how to improve the method applied when it comes to data presenting the above-referred characteristics. v vi Agradecimientos Quiero agradecer su dedicacio´n al profesor Dr. Agust´ı Solanas. Su gu´ıa experta ha sido de enorme ayuda en la definicio´n de las directrices generales y el alcance de este trabajo. Tambi´enquieroagradeceratodoelpersonaldocenteyadministrativodelaUniversitatRovirai Virgili y la Universitat Oberta de Catalunya su excelente labor, que hace fa´cil algo tan complicado como la educacio´n a distancia, incluso para qui´enes tienen que compaginar los estudios con una jornada laboral completa. Por u´ltimo, quiero agradecer su apoyo incondicional a mi pareja y a mi familia. vii viii
Description: