Sistema generador de alertas que ayuden a prevenir el embarazo a temprana edad utilizando minería de datos David Mauricio Moreno Torres Universidad Nacional de Colombia Facultad de Ingeniería, Departamento de Ingeniería de Sistemas y Computación Bogotá, Colombia 2016 Sistema generador de alertas que ayuden a prevenir el embarazo a temprana edad utilizando minería de datos David Mauricio Moreno Torres Trabajo final presentado como requisito para optar al título de: Magister en Ingeniería de Sistemas y Computación Director(a): Ph.D. Luis Fernando Niño Grupo de Investigación: Laboratorio de Investigación en Sistemas Inteligentes Universidad Nacional de Colombia Facultad de Ingeniería, Departamento de Ingeniería de Sistemas y Computación Bogotá, Colombia 2016 Dedicatoria A Todas aquellas niñas y adolescentes de Bogotá que pudieran tener una mejor planificación de sus vidas, la construcción de sus sueños y las oportunidades de disfrutar sus etapas de niñez y adolescencia sin tener que madurar tan rápido a causa de un embarazo, a todas ellas les dedico este trabajo con la esperanza de que algún día los gobernantes de este país piensen en desarrollar proyectos que realmente estén dirigidos al bienestar de vida de los ciudadano por encima de sus intereses propios. Agradecimientos Agradezco a Dios quien es el artífice de mi vida y de los logros que obtengo, porque es Él quien brinda los medios para cumplir mis sueños y mis objetivos. También, agradezco a todas las personas que contribuyeron al desarrollo de este trabajo de investigación, a aquellas que me motivaron y me dieron buenos consejos. Al profesor Luis Fernando Niño, PhD, Director del grupo de Investigación, por su paciencia, disposición y tiempo dedicado para guiarme, por sus recomendaciones, por contribuir a mi formación profesional y personal. Al grupo de investigación porque en las reuniones de grupo sus recomendaciones y comentarios permitieron mejorar el trabajo realizado. En especial a Carlos Manuel Steves quien siempre fue un gran apoyo en sus contribuciones y entusiasmo mostrado en este trabajo. A la Universidad Nacional de Colombia y a los profesores que guiaron con sus recomendaciones el desarrollo de la investigación y la elaboración del documento final. A la Doctora Luz Adriana Zuluaga funcionaria de la Secretaría Distrital de Salud, por haber compartido la idea de realizar este trabajo y por haberme guiado en el marco conceptual de la problemática global. Por haberme planteado la necesidad de contar con modelos predictivos que ayuden a la construcción de una mejor sociedad basados en mitigar problemas de salud pública como el que se aborda en este trabajo investigativo. A mi familia quienes me han apoyado siempre, infinitas gracias. VIII Resumen y Abstract Resumen Durante esta investigación se llevó a cabo un proceso conocido como KDD (Knowledge Discovery in Databases), el cual involucra un trabajo extenso en minería de datos como uno de los pasos más importantes de este proceso. La investigación se realizó bajos dos objetivos principales: Encontrar patrones de comportamiento relacionados con el embarazo a temprana edad en las poblaciones más vulnerables de Bogotá y generar un modelo predictivo capaz de identificar las adolescentes con mayor riesgo de quedar en embarazo. El desarrollo de este modelo predictivo se basó en la teoría de determinantes de la salud de la OMS (Organización Mundial de la Salud), la cual indica que existen ciertos factores de riesgo asociados al embarazo adolescente determinados por factores sociales, económicos, personales y de entorno. Finalmente, con el propósito de brindar una herramienta tecnológica a los equipos médicos de promoción y prevención del distrito, se desarrolló una solución que involucra una aplicación móvil para geolocalizar a las mujeres menores de 20 años con mayor riesgo usando el modelo predictivo desarrollado. Palabras Clave— Minería de datos, Aprendizaje de Máquina, KDD, Embarazo adolescente Abstract In this work, a process known as KDD (Knowledge Discovery in Databases), which involves extensive work in data mining as one of the most important steps in this process, was carried out. The main goal was to find patterns associated with early pregnancy in the most vulnerable population in Bogotá and to develop a predictive model in order to identify the women with high risk of becoming pregnant during their girlhood, adolescence and part of their youth. The predictive model developed was based on the theory of health determinants of the WHO (World Health Organization). This theory states that teenage pregnancy risk is associated with social, economic, personal and environmental factors. Finally, a software tool (an app) to geolocate teenagers girls with most high risk detected by the predictive model was implemented. Such app could be used by medical professionals from health programs in Bogotá. Keywords Data— Mining, Knowledge Discovery in Databases, kDD, Machine Learning X Contenido Contenido Abstract ................................................................................................................................... IX Lista de figuras ...................................................................................................................... XIV 1. Marco teórico ................................................................................................................... 3 1.1 Descubrimiento de Conocimiento en Bases de Datos – KDD .................................. 3 1.2.1 Identificación del Problema y del Dominio de Trabajo .................................... 6 1.2.2 Crear el conjunto de datos. .............................................................................. 7 1.2.3 Preprocesamiento de los Datos ....................................................................... 7 Algunos métodos para el preprocesamiento ............................................................... 8 ML_T2LA............................................................................................................... 8 1.2.4 Reducción de datos .......................................................................................... 9 1.2.5 Formulación de los objetivos. .......................................................................... 9 1.2.6 Exploración de análisis, modelo y selección de la hipótesis. ........................... 9 1.2.7 Minería de Datos .............................................................................................. 9 Objetivos de la minería de datos ................................................................................. 9 Consultas .................................................................................................................... 10 Modelos de regresión ................................................................................................ 10 Modelos basados en Clustering, Segmentación o Agrupación .................................. 11 Modelos de asociación (Summarization) .................................................................. 12 Modelos basados en Clasificación ............................................................................. 12 1.2.8 Interpretación de los patrones encontrados ................................................. 14 1.2.9 Evaluación de los modelos predictivos elaborados con clasificadores .......... 14 Métricas de rendimiento ........................................................................................... 14 Curvas ROC ................................................................................................................. 16
Description: