Table Of ContentUNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
La Universidad Católica de Loja
ÁREA TÉCNICA
TITULACIÓN DE INGENIERO EN SISTEMAS INFORMÁTICOS Y
COMPUTACIÓN
Aplicación de técnicas de minería de datos para predecir la deserción de los
estudiantes de primer ciclo de la Modalidad Abierta y a Distancia de la
UTPL.
TRABAJO DE FIN DE TITULACIÓN.
AUTOR: Ordoñez Briceño, Karla Fernanda
DIRECTOR: Valdiviezo Díaz, Priscila Marisela, Mgs
LOJA - ECUADOR
2013
CERTIFICACIÓN
Magister.
Priscila Marisela Valdiviezo Díaz
DIRECTORA DEL TRABAJO DE FIN DE TITULACIÓN
C E R T I F I C A:
Que el presente proyecto de fin de carrera, denominado “Aplicación de Técnicas de minería
de datos para predecir la deserción de los estudiantes de primer ciclo de la MAD-UTPL”,
realizado por la estudiante Karla Fernanda Ordoñez Briceño, ha cumplido con los requisitos
estipulados en el Reglamento General de la Universidad Técnica Particular de Loja, el mis-
mo que ha sido coordinado y revisado durante todo el proceso de desarrollo, desde su inicio
hasta la culminación, por lo cual autorizo su presentación.
Loja, Septiembre 18 del 2013
f)
ii
DECLARACIÓN DE AUTORÍA Y CESIÓN DE DERECHOS
“Yo, Karla Fernanda Ordoñez Briceño declaro ser autor (a) del presente trabajo y eximo ex-
presamente a la Universidad Técnica Particular de Loja y a sus representantes legales de
posibles reclamos o acciones legales.
Adicionalmente declaro conocer y aceptar la disposición del Art. 67 del Estatuto Orgánico de
la Universidad Técnica Particular de Loja que en su parte pertinente textualmente dice:
“Forman parte del patrimonio de la Universidad la propiedad intelectual de investigaciones,
trabajos científicos o técnicos y tesis de grado que se real+icen a través, o con el apoyo fi-
nanciero, académico o institucional (operativo) de la Universidad”
f.
Autor: Karla Fernanda Ordoñez Briceño
Cédula: 0705031003
iii
DEDICATORIA
Dedico la presente tesis principalmente a mi abuelita Margarita Riofrío a quien quiero como
una madre, es la persona a quien debo muchos de mis logros, ella es y será siempre mi
ejemplo de lucha y esfuerzo.
A mis padres por ser mi pilar fundamental en todo lo que he conseguido hasta estas instan-
cias de mi vida, por su apoyo incondicional, por demostrarme siempre que el que persevera
alcanza. Me han dado todo lo que soy como persona, mis valores, mis principios, mi carác-
ter, mi empeño, mi coraje para conseguir mis sueños y no desmayar en el intento.
A mi pequeña hija Melany, que aun sin conocerla, ha sido desde 6 meses atrás mi motiva-
ción principal para conseguir este logro tan anhelado, para con ello poder ser su ejemplo a
seguir.
A mi amado Diego Ronald, por estar dispuesto a escucharme en los buenos y malos mo-
mentos, dándome siempre las fuerzas necesarias para no decaer en los problemas que se
me presentaban durante mi formación profesional.
iv
AGRADECIMIENTO
La presente tesis es el resultado del esfuerzo y dedicación constante, que sin la participa-
ción de algunas personas no hubiese sido posible llevarla a feliz término. Por ello, es para
mí un verdadero placer utilizar este espacio para ser justo y consecuente con ellas, expre-
sándoles mis respectivos agradecimientos.
En primera instancia agradezco a Dios, por haberme brindado, la salud, fortaleza y la sabi-
duría necesaria, para llevar a cabo este deseo tan anhelado, que hoy en día se vuelve una
realidad.
A mi familia les agradezco de manera especial, quienes nunca dudaron que alcanzaría este
logro; gracias abuelitos, papi, mami, por brindarme en todo instante su apoyo incondicional y
motivación para seguir adelante con mis estudios, siempre estuvieron presentes, dándome
su palabra de aliento en los momentos más difíciles de mi formación profesional.
Quiero expresar además mis más sinceros agradecimientos a mi directora de tesis la Mgs.
Priscila Valdiviezo, quien me ha brindado su orientación continua en el desarrollo del pre-
sente proyecto; gracias por su participación activa, por su disponibilidad de tiempo, y por
haberme facilitado siempre los medios necesarios para llevar a cabo todas las actividades
propuestas durante la realización de la presente tesis.
Son muchas las personas que han formado parte de mi vida profesional, por ello les agra-
dezco infinitamente por haberme brindarme su amistad, consejos, apoyo, y ánimo en todos
estos años de estudio.
v
ÍNDICE DE CONTENIDOS
CERTIFICACIÓN ................................................................................................................... ii
DEDICATORIA ..................................................................................................................... iv
AGRADECIMIENTO .............................................................................................................. v
RESUMEN ............................................................................................................................. 1
KEYWORDS: ........................................................................................................................ 2
CAPÍTULO 1: ESTADO DEL ARTE ...................................................................................... 5
1.1. Minería de datos. ............................................................................................................................................ 6
1.2. Análisis del aprendizaje ............................................................................................................................... 7
1.3. Tareas de minería de datos ........................................................................................................................ 8
1.3.1. Tareas predictivas............................................................................................................ 8
1.3.1.2. Regresión ..................................................................................................................... 8
1.3.2. Tareas descriptivas. ......................................................................................................... 8
1.4. Técnicas de minería de datos. ................................................................................................................... 9
1.4.1. Modelización estadística paramétrica. ........................................................................... 9
1.4.2. Modelización estadística no paramétrica. .................................................................... 10
1.4.3. Reglas de Asociación y Dependencia. ........................................................................... 10
1.4.4. Métodos Bayesianos. .................................................................................................... 11
1.4.5. Árboles de decisión y sistemas de reglas. ..................................................................... 11
1.4.6. Métodos relacionales y estructurales. .......................................................................... 13
1.4.7. Redes neuronales artificiales. ....................................................................................... 13
1.4.8. Máquinas de vectores soporte. ..................................................................................... 14
1.4.9. Extracción de conocimiento con algoritmos evolutivos y reglas difusas. ..................... 15
1.4.10. Métodos basados en casos y en vecindad .................................................................... 16
1.4.11. Algoritmos de minería de datos .................................................................................... 16
1.4.12. Algoritmos de clusteing o agrupamiento ...................................................................... 17
1.4.13. Algoritmos de clasificación ............................................................................................ 18
1.4.14. Algoritmos de Asociación .............................................................................................. 21
1.4.15. Algoritmo para la Selección de atributos. ..................................................................... 21
1.5. Correspondencia entre tareas, técnicas y algoritmos. ................................................................. 23
1.6. Herramientas de minerías de datos ..................................................................................................... 24
1.6.1. Spss clementine. ............................................................................................................ 24
1.6.2. Weka (Waikato environment for knowledge analysis). ................................................ 24
1.6.3. Kepler. ........................................................................................................................... 24
vi
1.6.4. Odms (oracle data mining suite). .................................................................................. 25
1.6.5. Dbminer. ........................................................................................................................ 25
1.6.6. Rapid miner (yale). ........................................................................................................ 25
1.6.7. Db2 intelligent miner. ................................................................................................... 26
1.6.8. Sas enterprise miner. .................................................................................................... 26
1.6.9. Statistica data miner. .................................................................................................... 26
1.6.10. Cart. ............................................................................................................................... 27
1.7. Áreas de aplicación de la minería de datos. ...................................................................................... 27
1.7.1. Educación. ..................................................................................................................... 27
1.7.2. Negocio.......................................................................................................................... 27
1.7.3. Hábitos de compra en supermercado. .......................................................................... 27
1.7.4. Patrones de fuga. .......................................................................................................... 28
1.7.5. Fraudes. ......................................................................................................................... 28
1.7.6. Seguros. ......................................................................................................................... 28
1.7.7. Medicina. ....................................................................................................................... 28
1.8. Metodología para proyectos de minería de datos (crisp-dm). ................................................. 28
1.9. Descripción de fases de CRISP–DM, Chapman et al. (2000). .................................................... 30
1.9.1. Comprensión del negocio. ............................................................................................. 30
1.9.2. Comprensión de los datos. ............................................................................................ 30
1.9.3. Preparación de los datos. .............................................................................................. 30
1.9.4. Modelado. ..................................................................................................................... 30
1.9.5. Evaluación. .................................................................................................................... 31
1.10. Proyectos relacionados. ............................................................................................................................ 31
1.10.1. Proyecto: Aplicando minería de datos al marketing educativo (Pinzón, 2011). ........... 31
1.10.2. Proyecto: Aplicación de técnicas de minería de datos para la evaluación del
rendimiento académico y la deserción estudiantil (Spositto, 2008). ............................................ 32
1.10.3. Proyecto: Minería de Datos aplicada al análisis de la deserción en la Carrera de
Analista en Sistemas de Computación (Pautsch, 2008). ............................................................... 33
1.10.4. Proyecto: Minería de datos y lógica difusa como método para la predicción del
abandono escolar de alumnos de institutos de nivel superior privado (Domínguez, 2008) ........ 33
CAPíTULO 2: ANÁLISIS DE LA PROBLEMÁTICA Y DISEÑO DE LA SOLUCIÒN ........... 35
2.1. Análisis de la problemática. .................................................................................................................... 36
2.2. Diseño de la solución. ................................................................................................................................ 38
2.2.1. Variables para la predicción. ......................................................................................... 39
2.2.2. Herramienta de minería de datos a utilizar. ................................................................. 40
vii
2.2.3. Técnicas de minería de datos a utilizar. ........................................................................ 41
CAPÍTULO 3: DESARROLLO DEL PROYECTO ................................................................ 44
3.1. Fase I. Comprensión del negocio ........................................................................................................... 45
3.1.1. Objetivos del negocio. ................................................................................................... 45
La Modalidad Abierta y a Distancia de la Universidad Técnica Particular de Loja tiene
actualmente los siguientes objetivos: ........................................................................................... 45
3.1.2. Evaluación de la situación. ............................................................................................ 45
3.1.3. Requerimientos. ............................................................................................................ 47
3.1.4. Suposiciones .................................................................................................................. 47
3.1.5. Restricciones. ................................................................................................................ 48
3.1.6. Terminología. ................................................................................................................ 49
3.1.7. Terminología de Minería de Datos. ............................................................................... 49
3.1.8. Objetivos de la Minería. ................................................................................................ 50
3.1.9. Plan de Trabajo. ............................................................................................................. 51
3.2. FASE II: Comprensión de los Datos. ..................................................................................................... 52
3.2.1. Recolección de Datos. ................................................................................................... 54
3.2.2. FASE III: Preparación de Datos. .................................................................................. 75
3.2.3. FASE IV: Modelado ........................................................................................................ 79
3.2.4. FASE V: Evaluación. ..................................................................................................... 209
BIBLIOGRAFÍA ................................................................................................................. 215
ANEXOS ........................................................................................................................... 220
ANEXO 1: SENTENCIAS SQL. .......................................................................................................................221
ANEXO 1 – A: Código sql utilizado para consultar las tareas propuestas en el curso. ................ 221
ANEXO 1 – B: Código SQL utilizado para consultar los foros propuestos en el curso. ................ 221
ANEXO 1 – C: Código SQL utilizado para consultar los anuncios presentados en el curso. ......... 221
ANEXO 1 – D: Código SQL utilizado para consultar el número de mensajes enviados del profesor
al estudiante de un determinado curso. ...................................................................................... 221
ANEXO 1 – E: Código SQL utilizado para consultar el número de mensajes enviados del
estudiante al profesor de un determinado curso. ....................................................................... 222
ANEXO 2: OBTENCIÓN DE LA VARIABLE „NIVEL DE INTERACCIÓN DEL PROFESOR
EN EL CURSO‟, Y ATRIBUTOS RELACIONADOS. ............................................................................223
ANEXO 2 – A: Obtención del Campo: Porcentaje de Respuesta del Profesor al Estudiante. ...... 223
ANEXO 2 – B: Promedio de las variables relacionadas con la Interacción del Profesor en caso de
que existan varios paralelos en un curso..................................................................................... 224
ANEXO 2 – C: Discretización de los valores relacionados con la Interacción del Profesor en el
curso. ........................................................................................................................................... 224
viii
ANEXO 2 – D: Discretización para obtener el campo de Nivel de Interacción del Profesor. ....... 226
ANEXO 3: MODELOS FÍSICOS DE LAS BASES DE DATOS UTILIZADAS. .......................227
ANEXO 3 – A: Modelo Físico del Entorno Virtual de Aprendizaje. ............................................... 227
ANEXO 3 – B: Modelo Físico del Sistema Académico. ................................................................. 228
ANEXO 4: TABLAS DEL ENTORNO VIRTUAL DE APRENDIZAJE (EVA). ...........................228
ANEXO 4 – A: Tabla: mdl_user_utpl. ........................................................................................... 228
ANEXO 4– B: Tabla: mdl_enrol_utpl. ........................................................................................... 229
ANEXO 4 – C: Tabla: mdl_course_utpl. ....................................................................................... 230
ANEXO 4 – D: Tabla: mdl_course_sections. ................................................................................ 230
ANEXO 4 – E: Tabla: mdl_assignment. ........................................................................................ 231
ANEXO 4 – F: Tabla: mdl_forum. ................................................................................................. 232
ANEXO 4 – G: Tabla: mdl_message. ............................................................................................ 232
ANEXO 4 – H: Tabla: mdl_message_read. .................................................................................. 233
ANEXO 4 – I: Tabla: mdl_message_answered ............................................................................. 233
ANEXO 4 – J: Tabla: mdl_periodo_utpl........................................................................................ 234
ANEXO 5: TABLAS DEL SISTEMA ACADÉMICO (SYLLABUS). .................................................235
ANEXO 5 – B: Tabla: Identificaciones Abril2012 – Agosto2012. ................................................. 236
ANEXO 5 – C: Tabla: categorías_cursos. ..................................................................................... 236
ANEXO 6: PAPER. ................................................................................................................................................237
ix
ÍNDICE DE FIGURAS
FIGURAS CAPíTULO 1
FIGURA 1. 2. Matriz de confusión ................................................................................................................... 12
FIGURA 1. 3. Ejemplo de árbol de decisión en Weka con la Variable Promedio .................................... 12
FIGURA 1. 4. Ejemplo de árbol de decisión en weka con la variable estado civil. .................................. 13
FIGURA 1. 5. Error cuadrático k-means, [gutiérrez. (2008)]. ...................................................................... 17
FIGURA 1. 6. Estructura de un árbol de decisión en weka.......................................................................... 19
FIGURA 1. 7. Los 4 niveles del crisp–dm [chapman et al. (2000)]. ......................................................... 29
FIGURA 1. 8. Ciclo de vida de crisp–dm [chapman et al. (2000)]. .......................................................... 29
FIGURA 1. 9. Fases de crisp–dm [chapman et al. (2000)]. ....................................................................... 30
FIGURAS CAPíTULO 2
FIGURA 2. 1. Elementos para la generación del modelo predictivo .......................................................... 39
FIGURA 2. 2. Variables para la predicción ..................................................................................................... 40
FIGURAS CAPITULO 3
FIGURA 3. 1. Frecuencias del género ............................................................................................................ 65
FIGURA 3. 2. Distribución por el género ........................................................................................................ 66
FIGURA 3. 3. Distribución por el estado civil ................................................................................................. 66
FIGURA 3. 4. Distribución del tipo de pago .................................................................................................... 67
FIGURA 3. 5. Distribución del estado ............................................................................................................. 67
FIGURA 3. 6. Distribución de deserción por carreras ................................................................................... 70
FIGURA 3. 7. Distribución rendimiento académico por áreas ..................................................................... 71
FIGURA 3. 8. Distribución de la interacción del profesor ............................................................................. 72
FIGURA 3. 9. Distribución de la interacción del profesor – respuestas ..................................................... 73
FIGURA 3. 10. Resultados – Simple k-means – Derecho constitucional – Jurisprudencia. ................... 83
FIGURA 3. 11. Resultados – Simple K-Means- – Introducción Al Derecho - Jurisprudencia ................. 87
FIGURA 3. 12. Resultados – Simple K-Means – Metodología De Estudio - Jurisprudencia .................. 91
FIGURA 3.13. Resultados – Simple K-Means – Realidad Nacional - Jurisprudencia ............................. 95
FIGURA 3. 14. Resultados – Simple K-Means – Expresión Oral - Jurisprudencia .................................. 98
FIGURA 3. 15. Resultados – Simple K-Means- Administración De Empresas – Administración I ...... 103
FIGURA 3. 16. Resultados – Simple K-Means – Contabilidad General - Administración De Empresas.
.................................................................................................................................................................... 106
FIGURA 3. 17. Resultados – Simple K-Means – Metodología De Estudio - Administración De
Empresas .................................................................................................................................................. 109
FIGURA 3. 18. Resultados – Simple K-Means – Realidad Nacional - Administración De Empresas. 112
FIGURA 3. 19. Resultados – Simple K-Means – Expresión Oral - Administración De Empresas ....... 115
FIGURA 3. 20. Resultados – Simple K-Means- Introducción a las Ciencias Ambientales– Gestión
Ambiental. ................................................................................................................................................. 120
FIGURA 3. 21. Resultados Simple K-Means- Biología General – Gestión Ambiental........................... 124
FIGURA 3. 22. Resultados – Simple K-Means- Metodología De Estudio– Gestión Ambiental. .......... 127
FIGURA 3. 23. Resultados – simple k-means- realidad nacional– gestión ambiental. ......................... 130
FIGURA 3. 24. Resultados – Simple K-Means- Expresión Oral – Gestión Ambiental........................... 133
x
Description:TITULACIÓN DE INGENIERO EN SISTEMAS INFORMÁTICOS Y Para contribuir con la solución al problema de la deserción estudiantil se plantea la . datos procedentes de contextos educativos (Dyckhoff, Dennis, Bültmann, utilizadas: El sistema de inferencia difuso fue construido en Matlab.