UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja ÁREA TÉCNICA TITULACIÓN DE INGENIERO EN SISTEMAS INFORMÁTICOS Y COMPUTACIÓN Aplicación de técnicas de minería de datos para predecir la deserción de los estudiantes de primer ciclo de la Modalidad Abierta y a Distancia de la UTPL. TRABAJO DE FIN DE TITULACIÓN. AUTOR: Ordoñez Briceño, Karla Fernanda DIRECTOR: Valdiviezo Díaz, Priscila Marisela, Mgs LOJA - ECUADOR 2013 CERTIFICACIÓN Magister. Priscila Marisela Valdiviezo Díaz DIRECTORA DEL TRABAJO DE FIN DE TITULACIÓN C E R T I F I C A: Que el presente proyecto de fin de carrera, denominado “Aplicación de Técnicas de minería de datos para predecir la deserción de los estudiantes de primer ciclo de la MAD-UTPL”, realizado por la estudiante Karla Fernanda Ordoñez Briceño, ha cumplido con los requisitos estipulados en el Reglamento General de la Universidad Técnica Particular de Loja, el mis- mo que ha sido coordinado y revisado durante todo el proceso de desarrollo, desde su inicio hasta la culminación, por lo cual autorizo su presentación. Loja, Septiembre 18 del 2013 f) ii DECLARACIÓN DE AUTORÍA Y CESIÓN DE DERECHOS “Yo, Karla Fernanda Ordoñez Briceño declaro ser autor (a) del presente trabajo y eximo ex- presamente a la Universidad Técnica Particular de Loja y a sus representantes legales de posibles reclamos o acciones legales. Adicionalmente declaro conocer y aceptar la disposición del Art. 67 del Estatuto Orgánico de la Universidad Técnica Particular de Loja que en su parte pertinente textualmente dice: “Forman parte del patrimonio de la Universidad la propiedad intelectual de investigaciones, trabajos científicos o técnicos y tesis de grado que se real+icen a través, o con el apoyo fi- nanciero, académico o institucional (operativo) de la Universidad” f. Autor: Karla Fernanda Ordoñez Briceño Cédula: 0705031003 iii DEDICATORIA Dedico la presente tesis principalmente a mi abuelita Margarita Riofrío a quien quiero como una madre, es la persona a quien debo muchos de mis logros, ella es y será siempre mi ejemplo de lucha y esfuerzo. A mis padres por ser mi pilar fundamental en todo lo que he conseguido hasta estas instan- cias de mi vida, por su apoyo incondicional, por demostrarme siempre que el que persevera alcanza. Me han dado todo lo que soy como persona, mis valores, mis principios, mi carác- ter, mi empeño, mi coraje para conseguir mis sueños y no desmayar en el intento. A mi pequeña hija Melany, que aun sin conocerla, ha sido desde 6 meses atrás mi motiva- ción principal para conseguir este logro tan anhelado, para con ello poder ser su ejemplo a seguir. A mi amado Diego Ronald, por estar dispuesto a escucharme en los buenos y malos mo- mentos, dándome siempre las fuerzas necesarias para no decaer en los problemas que se me presentaban durante mi formación profesional. iv AGRADECIMIENTO La presente tesis es el resultado del esfuerzo y dedicación constante, que sin la participa- ción de algunas personas no hubiese sido posible llevarla a feliz término. Por ello, es para mí un verdadero placer utilizar este espacio para ser justo y consecuente con ellas, expre- sándoles mis respectivos agradecimientos. En primera instancia agradezco a Dios, por haberme brindado, la salud, fortaleza y la sabi- duría necesaria, para llevar a cabo este deseo tan anhelado, que hoy en día se vuelve una realidad. A mi familia les agradezco de manera especial, quienes nunca dudaron que alcanzaría este logro; gracias abuelitos, papi, mami, por brindarme en todo instante su apoyo incondicional y motivación para seguir adelante con mis estudios, siempre estuvieron presentes, dándome su palabra de aliento en los momentos más difíciles de mi formación profesional. Quiero expresar además mis más sinceros agradecimientos a mi directora de tesis la Mgs. Priscila Valdiviezo, quien me ha brindado su orientación continua en el desarrollo del pre- sente proyecto; gracias por su participación activa, por su disponibilidad de tiempo, y por haberme facilitado siempre los medios necesarios para llevar a cabo todas las actividades propuestas durante la realización de la presente tesis. Son muchas las personas que han formado parte de mi vida profesional, por ello les agra- dezco infinitamente por haberme brindarme su amistad, consejos, apoyo, y ánimo en todos estos años de estudio. v ÍNDICE DE CONTENIDOS CERTIFICACIÓN ................................................................................................................... ii DEDICATORIA ..................................................................................................................... iv AGRADECIMIENTO .............................................................................................................. v RESUMEN ............................................................................................................................. 1 KEYWORDS: ........................................................................................................................ 2 CAPÍTULO 1: ESTADO DEL ARTE ...................................................................................... 5 1.1. Minería de datos. ............................................................................................................................................ 6 1.2. Análisis del aprendizaje ............................................................................................................................... 7 1.3. Tareas de minería de datos ........................................................................................................................ 8 1.3.1. Tareas predictivas............................................................................................................ 8 1.3.1.2. Regresión ..................................................................................................................... 8 1.3.2. Tareas descriptivas. ......................................................................................................... 8 1.4. Técnicas de minería de datos. ................................................................................................................... 9 1.4.1. Modelización estadística paramétrica. ........................................................................... 9 1.4.2. Modelización estadística no paramétrica. .................................................................... 10 1.4.3. Reglas de Asociación y Dependencia. ........................................................................... 10 1.4.4. Métodos Bayesianos. .................................................................................................... 11 1.4.5. Árboles de decisión y sistemas de reglas. ..................................................................... 11 1.4.6. Métodos relacionales y estructurales. .......................................................................... 13 1.4.7. Redes neuronales artificiales. ....................................................................................... 13 1.4.8. Máquinas de vectores soporte. ..................................................................................... 14 1.4.9. Extracción de conocimiento con algoritmos evolutivos y reglas difusas. ..................... 15 1.4.10. Métodos basados en casos y en vecindad .................................................................... 16 1.4.11. Algoritmos de minería de datos .................................................................................... 16 1.4.12. Algoritmos de clusteing o agrupamiento ...................................................................... 17 1.4.13. Algoritmos de clasificación ............................................................................................ 18 1.4.14. Algoritmos de Asociación .............................................................................................. 21 1.4.15. Algoritmo para la Selección de atributos. ..................................................................... 21 1.5. Correspondencia entre tareas, técnicas y algoritmos. ................................................................. 23 1.6. Herramientas de minerías de datos ..................................................................................................... 24 1.6.1. Spss clementine. ............................................................................................................ 24 1.6.2. Weka (Waikato environment for knowledge analysis). ................................................ 24 1.6.3. Kepler. ........................................................................................................................... 24 vi 1.6.4. Odms (oracle data mining suite). .................................................................................. 25 1.6.5. Dbminer. ........................................................................................................................ 25 1.6.6. Rapid miner (yale). ........................................................................................................ 25 1.6.7. Db2 intelligent miner. ................................................................................................... 26 1.6.8. Sas enterprise miner. .................................................................................................... 26 1.6.9. Statistica data miner. .................................................................................................... 26 1.6.10. Cart. ............................................................................................................................... 27 1.7. Áreas de aplicación de la minería de datos. ...................................................................................... 27 1.7.1. Educación. ..................................................................................................................... 27 1.7.2. Negocio.......................................................................................................................... 27 1.7.3. Hábitos de compra en supermercado. .......................................................................... 27 1.7.4. Patrones de fuga. .......................................................................................................... 28 1.7.5. Fraudes. ......................................................................................................................... 28 1.7.6. Seguros. ......................................................................................................................... 28 1.7.7. Medicina. ....................................................................................................................... 28 1.8. Metodología para proyectos de minería de datos (crisp-dm). ................................................. 28 1.9. Descripción de fases de CRISP–DM, Chapman et al. (2000). .................................................... 30 1.9.1. Comprensión del negocio. ............................................................................................. 30 1.9.2. Comprensión de los datos. ............................................................................................ 30 1.9.3. Preparación de los datos. .............................................................................................. 30 1.9.4. Modelado. ..................................................................................................................... 30 1.9.5. Evaluación. .................................................................................................................... 31 1.10. Proyectos relacionados. ............................................................................................................................ 31 1.10.1. Proyecto: Aplicando minería de datos al marketing educativo (Pinzón, 2011). ........... 31 1.10.2. Proyecto: Aplicación de técnicas de minería de datos para la evaluación del rendimiento académico y la deserción estudiantil (Spositto, 2008). ............................................ 32 1.10.3. Proyecto: Minería de Datos aplicada al análisis de la deserción en la Carrera de Analista en Sistemas de Computación (Pautsch, 2008). ............................................................... 33 1.10.4. Proyecto: Minería de datos y lógica difusa como método para la predicción del abandono escolar de alumnos de institutos de nivel superior privado (Domínguez, 2008) ........ 33 CAPíTULO 2: ANÁLISIS DE LA PROBLEMÁTICA Y DISEÑO DE LA SOLUCIÒN ........... 35 2.1. Análisis de la problemática. .................................................................................................................... 36 2.2. Diseño de la solución. ................................................................................................................................ 38 2.2.1. Variables para la predicción. ......................................................................................... 39 2.2.2. Herramienta de minería de datos a utilizar. ................................................................. 40 vii 2.2.3. Técnicas de minería de datos a utilizar. ........................................................................ 41 CAPÍTULO 3: DESARROLLO DEL PROYECTO ................................................................ 44 3.1. Fase I. Comprensión del negocio ........................................................................................................... 45 3.1.1. Objetivos del negocio. ................................................................................................... 45 La Modalidad Abierta y a Distancia de la Universidad Técnica Particular de Loja tiene actualmente los siguientes objetivos: ........................................................................................... 45 3.1.2. Evaluación de la situación. ............................................................................................ 45 3.1.3. Requerimientos. ............................................................................................................ 47 3.1.4. Suposiciones .................................................................................................................. 47 3.1.5. Restricciones. ................................................................................................................ 48 3.1.6. Terminología. ................................................................................................................ 49 3.1.7. Terminología de Minería de Datos. ............................................................................... 49 3.1.8. Objetivos de la Minería. ................................................................................................ 50 3.1.9. Plan de Trabajo. ............................................................................................................. 51 3.2. FASE II: Comprensión de los Datos. ..................................................................................................... 52 3.2.1. Recolección de Datos. ................................................................................................... 54 3.2.2. FASE III: Preparación de Datos. .................................................................................. 75 3.2.3. FASE IV: Modelado ........................................................................................................ 79 3.2.4. FASE V: Evaluación. ..................................................................................................... 209 BIBLIOGRAFÍA ................................................................................................................. 215 ANEXOS ........................................................................................................................... 220 ANEXO 1: SENTENCIAS SQL. .......................................................................................................................221 ANEXO 1 – A: Código sql utilizado para consultar las tareas propuestas en el curso. ................ 221 ANEXO 1 – B: Código SQL utilizado para consultar los foros propuestos en el curso. ................ 221 ANEXO 1 – C: Código SQL utilizado para consultar los anuncios presentados en el curso. ......... 221 ANEXO 1 – D: Código SQL utilizado para consultar el número de mensajes enviados del profesor al estudiante de un determinado curso. ...................................................................................... 221 ANEXO 1 – E: Código SQL utilizado para consultar el número de mensajes enviados del estudiante al profesor de un determinado curso. ....................................................................... 222 ANEXO 2: OBTENCIÓN DE LA VARIABLE „NIVEL DE INTERACCIÓN DEL PROFESOR EN EL CURSO‟, Y ATRIBUTOS RELACIONADOS. ............................................................................223 ANEXO 2 – A: Obtención del Campo: Porcentaje de Respuesta del Profesor al Estudiante. ...... 223 ANEXO 2 – B: Promedio de las variables relacionadas con la Interacción del Profesor en caso de que existan varios paralelos en un curso..................................................................................... 224 ANEXO 2 – C: Discretización de los valores relacionados con la Interacción del Profesor en el curso. ........................................................................................................................................... 224 viii ANEXO 2 – D: Discretización para obtener el campo de Nivel de Interacción del Profesor. ....... 226 ANEXO 3: MODELOS FÍSICOS DE LAS BASES DE DATOS UTILIZADAS. .......................227 ANEXO 3 – A: Modelo Físico del Entorno Virtual de Aprendizaje. ............................................... 227 ANEXO 3 – B: Modelo Físico del Sistema Académico. ................................................................. 228 ANEXO 4: TABLAS DEL ENTORNO VIRTUAL DE APRENDIZAJE (EVA). ...........................228 ANEXO 4 – A: Tabla: mdl_user_utpl. ........................................................................................... 228 ANEXO 4– B: Tabla: mdl_enrol_utpl. ........................................................................................... 229 ANEXO 4 – C: Tabla: mdl_course_utpl. ....................................................................................... 230 ANEXO 4 – D: Tabla: mdl_course_sections. ................................................................................ 230 ANEXO 4 – E: Tabla: mdl_assignment. ........................................................................................ 231 ANEXO 4 – F: Tabla: mdl_forum. ................................................................................................. 232 ANEXO 4 – G: Tabla: mdl_message. ............................................................................................ 232 ANEXO 4 – H: Tabla: mdl_message_read. .................................................................................. 233 ANEXO 4 – I: Tabla: mdl_message_answered ............................................................................. 233 ANEXO 4 – J: Tabla: mdl_periodo_utpl........................................................................................ 234 ANEXO 5: TABLAS DEL SISTEMA ACADÉMICO (SYLLABUS). .................................................235 ANEXO 5 – B: Tabla: Identificaciones Abril2012 – Agosto2012. ................................................. 236 ANEXO 5 – C: Tabla: categorías_cursos. ..................................................................................... 236 ANEXO 6: PAPER. ................................................................................................................................................237 ix ÍNDICE DE FIGURAS FIGURAS CAPíTULO 1 FIGURA 1. 2. Matriz de confusión ................................................................................................................... 12 FIGURA 1. 3. Ejemplo de árbol de decisión en Weka con la Variable Promedio .................................... 12 FIGURA 1. 4. Ejemplo de árbol de decisión en weka con la variable estado civil. .................................. 13 FIGURA 1. 5. Error cuadrático k-means, [gutiérrez. (2008)]. ...................................................................... 17 FIGURA 1. 6. Estructura de un árbol de decisión en weka.......................................................................... 19 FIGURA 1. 7. Los 4 niveles del crisp–dm [chapman et al. (2000)]. ......................................................... 29 FIGURA 1. 8. Ciclo de vida de crisp–dm [chapman et al. (2000)]. .......................................................... 29 FIGURA 1. 9. Fases de crisp–dm [chapman et al. (2000)]. ....................................................................... 30 FIGURAS CAPíTULO 2 FIGURA 2. 1. Elementos para la generación del modelo predictivo .......................................................... 39 FIGURA 2. 2. Variables para la predicción ..................................................................................................... 40 FIGURAS CAPITULO 3 FIGURA 3. 1. Frecuencias del género ............................................................................................................ 65 FIGURA 3. 2. Distribución por el género ........................................................................................................ 66 FIGURA 3. 3. Distribución por el estado civil ................................................................................................. 66 FIGURA 3. 4. Distribución del tipo de pago .................................................................................................... 67 FIGURA 3. 5. Distribución del estado ............................................................................................................. 67 FIGURA 3. 6. Distribución de deserción por carreras ................................................................................... 70 FIGURA 3. 7. Distribución rendimiento académico por áreas ..................................................................... 71 FIGURA 3. 8. Distribución de la interacción del profesor ............................................................................. 72 FIGURA 3. 9. Distribución de la interacción del profesor – respuestas ..................................................... 73 FIGURA 3. 10. Resultados – Simple k-means – Derecho constitucional – Jurisprudencia. ................... 83 FIGURA 3. 11. Resultados – Simple K-Means- – Introducción Al Derecho - Jurisprudencia ................. 87 FIGURA 3. 12. Resultados – Simple K-Means – Metodología De Estudio - Jurisprudencia .................. 91 FIGURA 3.13. Resultados – Simple K-Means – Realidad Nacional - Jurisprudencia ............................. 95 FIGURA 3. 14. Resultados – Simple K-Means – Expresión Oral - Jurisprudencia .................................. 98 FIGURA 3. 15. Resultados – Simple K-Means- Administración De Empresas – Administración I ...... 103 FIGURA 3. 16. Resultados – Simple K-Means – Contabilidad General - Administración De Empresas. .................................................................................................................................................................... 106 FIGURA 3. 17. Resultados – Simple K-Means – Metodología De Estudio - Administración De Empresas .................................................................................................................................................. 109 FIGURA 3. 18. Resultados – Simple K-Means – Realidad Nacional - Administración De Empresas. 112 FIGURA 3. 19. Resultados – Simple K-Means – Expresión Oral - Administración De Empresas ....... 115 FIGURA 3. 20. Resultados – Simple K-Means- Introducción a las Ciencias Ambientales– Gestión Ambiental. ................................................................................................................................................. 120 FIGURA 3. 21. Resultados Simple K-Means- Biología General – Gestión Ambiental........................... 124 FIGURA 3. 22. Resultados – Simple K-Means- Metodología De Estudio– Gestión Ambiental. .......... 127 FIGURA 3. 23. Resultados – simple k-means- realidad nacional– gestión ambiental. ......................... 130 FIGURA 3. 24. Resultados – Simple K-Means- Expresión Oral – Gestión Ambiental........................... 133 x
Description: