Desarrollo de software dirigido por modelos para facilitar a usuarios inexpertos la aplicación de técnicas de minería de datos Roberto Espinosa Oliva Universidad de Alicante Instituto Universitario de Investigación Informática Tesis Doctoral Desarrollo de software dirigido por modelos para facilitar a usuarios inexpertos la aplicación de técnicas de minería de datos Autor: Roberto Espinosa Oliva Directores: Jose Norberto Mazón López, José Jacobo Zubcoff Vallejo Tesis presentada para optar al grado de Doctor en Informática Grupo de Investigación WaKe (Web and Knowledge) Departamento de Lenguajes y Sistemas Informáticos Universidad de Alicante noviembre 2014 Resumen La sociedad en la que vivimos nos ha convertido en entes inseparables de la tecno- logía. Usamos a diario multitud de dispositivos como teléfonos móviles inteligentes y ordenadores portátiles, así como infinidad de aplicaciones como redes sociales, buscadores, sistemas de comercio electrónico, etc. Esta interacción con la tecno- logía hace que, en nuestra vida diaria, produzcamos y consumamos cantidades ingentes de datos (por cierto, no sólo en nuestras tareas profesionales sino también cotidianas). Valga expresar un ejemplo concreto: Un ciudadano desea tomar disminuir el consumo eléctrico en su hogar. Si tuviera una aplicación que utilizara los datos de consumo energético, equipos funcionando, costo de kilo watts por día, humedad relativa, temperatura, en toda una pobla- ción, o a nivel de país, pudiera llegar a saber que la lavadora-secadora genera un costo significativo, siempre que se utiliza durante el período de carga máxima. Por lo que debería encenderla al final de la noche 1. Desafortunadamente, esta cantidad de datos no se aprovecha para realizar una toma de decisiones informada en nuestra vida diaria (es decir, fundamentadas en conocimiento extraído de los datos disponibles). El problema está precisamente en que la explotación de los datos para conseguir extraer conocimiento de los mismos no es una tarea tan sencilla para cualquier persona, más bien resulta una tarea bastante complicada, y ya que se requiere tener experiencia en conceptos estadísticos y en algoritmos de minería de datos, lo que está reservado a personas expertas (los llamados científicos de datos o, en inglés, “data scientists”). Este hecho que establece la causa de la brecha entre los datos y las acciones a tomar por los usuarios inexpertos, es lo que se conoce como “Big Data Divide”. 1http://es.slideshare.net/apsheth/smart-data-how-you-and-i-will-exploit-big-data-for- personalized-digital-health-and-many-other-activities iii En el marco de esta tesis doctoral, se plantea desarrollar una propuesta para lograr facilitarelusodetécnicasdemineríadedatos(oanálisisdedatos),específicamente técnicas de clasificación, a usuarios inexpertos. El objetivo es posibilitar a estos usuarioslaexplotacióndelosdatosquetengandisponiblesparaquepuedanextraer conocimiento de ellas de forma fácil y rápida, sin la presencia de un experto. Esta propuesta usa técnicas de desarrollo de software dirigido por modelos con el fin de homogeneizar y automatizar el proceso de aplicación de técnicas de minería de datos por parte de usuarios inexpertos. Las contribuciones de nuestra propuesta se muestran a continuación: Se ha diseñado una base de conocimiento que permite almacenar toda la información que se genera en el proceso de extracción de conocimiento por usuarios expertos. El modelo de minería que se obtiene como respuesta al usuario inexperto es obtenido teniendo en cuenta la calidad de sus datos, al ser demostrado su incidencia en los resultados cuando se aplican técnicas de minería. Este resultado es obtenido al aplicar el recomendador construido con vistas a obtener el mejor algoritmo a aplicar sobre las fuentes de datos de entrada del usuario inexperto. El recomendador construido utiliza los datos almacenados en la base de conocimiento. Como elemento importante se ha tenido en cuenta los requerimientos de los usuarios inexpertos para brindarle la solución que mejor satisfaga sus expectativas. Un conjunto de experimentos han sido realizados para validar la viabilidad de nuestra propuesta. Endefinitiva,enunmundo“Big Data” esnecesariocontarconmecanismosquenos permitan sacar provecho de la cantidad de datos disponibles. Nuestra propuesta pretende ser uno de estos mecanismos, orientada a la democratización en el uso de lamineríadedatos,facilitandolaobtencióndeconocimientoy,porende,unatoma de decisiones más informada a todas las personas por igual, independientemente de su nivel de experiencia. iv Agradecimientos Luego de tantos años de esfuerzo y perseverancia son muchas las personas que me han apoyado para poder alcanzar esta codiciada meta. Pretenderé agradecer me- diante estas líneas a todas ellas, aunque el espacio no me permita mencionar todos sus nombres. En primer lugar agradecer a mi familia, su apoyo incodicional bajo cualquier circunstancia me ha dado las fuerzas necesarias para seguir adelante. Durante todo el proceso de mi formación fueron muchos los profesores que aporta- ron su grano de arena para convertirme en la persona que actualmente soy, debo agradecer especialmente a dos personas importantes: Josefina Rabaza e Ismael Castillo. En el plano personal, me siento satisfecho de contar con los amigos que tengo, su apoyo desinteresado ha contribuido a la obtención de estos resultados. Esta investigación nunca hubiera sido lograda sin la ayuda y la orientación que desde el inicio me brindaron mis dos tutores, incluso sin conocerme, a ellos mi agradecimiento infinito por ser tan comprensibles y pacientes en todo momento. Finalmente, agradecer a mis compañeros de trabajo del Departamento de Informá- tica de la Universidad de Matanzas, al personal del Departamento de Lenguajes y Sistemas Informáticos de la Universidad de Alicante, y a los miembros del Grupo de Investigación Wake. Esta tesis esta dedicada a Yuniesky Zamora Galbán, un doctor en potencia a quien la vida lo privó de cumplir sus sueños.... v Índice general Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iii Agradecimientos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v Lista de Figuras xi Lista de Tablas xiii 1. Introducción 1 1.1. Situación problemática . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.2. Proceso de descubrimiento de conocimiento . . . . . . . . . . . . . . 5 1.2.1. Integración y preprocesado de los datos . . . . . . . . . . . . 6 1.2.2. Minería de datos . . . . . . . . . . . . . . . . . . . . . . . . 6 1.2.3. Evaluación de los patrones resultantes . . . . . . . . . . . . 10 1.3. Influencia de las meta-características en los procesos de minería de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.4. Flujos de trabajos científicos . . . . . . . . . . . . . . . . . . . . . . 12 1.4.1. Taverna Workbench . . . . . . . . . . . . . . . . . . . . . . . 13 1.4.2. Servicios Web RESTful . . . . . . . . . . . . . . . . . . . . . 13 1.5. Desarrollo de software dirigido por modelos . . . . . . . . . . . . . . 14 1.6. Hipótesis de partida . . . . . . . . . . . . . . . . . . . . . . . . . . 19 1.7. Objetivos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 1.8. Estructura del documento. . . . . . . . . . . . . . . . . . . . . . . . 21 2. Estado de la cuestión 23 2.1. Calidad de datos en tareas de minería . . . . . . . . . . . . . . . . . 23 2.2. Minería de datos amigable . . . . . . . . . . . . . . . . . . . . . . . 25 2.3. Ontologías para minería de datos . . . . . . . . . . . . . . . . . . . 26 2.4. Meta-aprendizaje . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 2.5. Propuestas basadas en ingeniería de software relacionadas con la minería de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.5.1. Propuestas desarrolladas para las distintas etapas del KDD. 30 2.5.2. Aproximaciones existentes relacionadas con el modelado de técnicas de minería . . . . . . . . . . . . . . . . . . . . . . . 31 2.5.3. Otras propuestas . . . . . . . . . . . . . . . . . . . . . . . . 31 vii 3. Base de conocimiento para almacenar resultados de minería 33 3.1. Calidad de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 3.1.1. Determinación de criterios de calidad de datos . . . . . . . . 34 3.1.2. Dimensiones de calidad propuestas por el éstandar ISO/IEC 25012 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 3.1.3. Criterios de calidad para minería de datos . . . . . . . . . . 39 3.1.4. Formalización de los criterios encontrados usando CWM . . 43 3.1.4.1. Descripción de los pasos a realizar . . . . . . . . . 44 3.1.4.2. Implementación . . . . . . . . . . . . . . . . . . . . 46 3.1.5. Experimentos para mostrar la adecuación de los criterios de calidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 3.1.5.1. Descripción del caso de estudio de baloncesto . . . 49 3.1.5.2. Descripción de los experimentos . . . . . . . . . . 50 3.1.5.3. Correlación de datos . . . . . . . . . . . . . . . . . 51 3.1.5.4. Completitud . . . . . . . . . . . . . . . . . . . . . 53 3.1.5.5. Datos Balanceados . . . . . . . . . . . . . . . . . . 55 3.1.5.6. Experimentos aplicando diferentes algoritmos de clasificación . . . . . . . . . . . . . . . . . . . . . . 55 3.1.5.7. Resultados Obtenidos . . . . . . . . . . . . . . . . 58 3.2. Meta-características a utilizar . . . . . . . . . . . . . . . . . . . . . 61 3.3. Diseño de la base de conocimiento de minería de datos . . . . . . . 62 3.3.1. Metamodelado para la creación de la base de conocimiento . 63 4. Propuesta para la obtención de conocimiento por parte de usua- rios inexpertos 67 4.1. Uso de la base de conocimiento . . . . . . . . . . . . . . . . . . . . 69 4.2. Flujo de trabajo para la creación de la base de conocimiento por usuarios expertos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 4.2.1. Configuración del flujo de trabajo . . . . . . . . . . . . . . . 71 4.2.2. Subflujo para la aplicación de algoritmos de minería . . . . . 71 4.2.3. Subflujo para la medición de criterios de calidad . . . . . . . 72 4.2.4. Creación de los modelos que forman la base de conocimientos 73 4.3. Construcción del recomendador . . . . . . . . . . . . . . . . . . . . 74 4.3.1. Flujo de trabajo para la construcción del recomendador . . . 76 4.4. Uso del recomendador por usuarios inexpertos . . . . . . . . . . . . 78 4.4.1. Flujo de trabajo para el uso por usuarios inexpertos . . . . . 78 4.4.2. Transformaciones modelo a texto . . . . . . . . . . . . . . . 80 5. Aplicación de la propuesta a un caso de estudio de e-learning 85 5.1. Descripción de las fuentes de datos utilizadas para la experimentación 86 5.2. Proceso de experimentación . . . . . . . . . . . . . . . . . . . . . . 87 5.3. Recomendador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 5.4. Discusión de los resultados obtenidos . . . . . . . . . . . . . . . . . 89 6. Aplicación de la propuesta de minería a otros casos de estudio 97 viii 6.1. Caso de estudio con datos urbanísticos . . . . . . . . . . . . . . . . 97 6.1.1. Necesidad del análisis de los datos por nuestra propuesta . . 98 6.1.2. Descripción y preparación de las fuentes de datos utilizadas para la experimentación . . . . . . . . . . . . . . . . . . . . 99 6.1.3. Resultados obtenidos . . . . . . . . . . . . . . . . . . . . . . 101 6.2. Casos de estudio con datos de UCI . . . . . . . . . . . . . . . . . . 105 7. Trabajos futuros 111 7.1. Reutilización del conocimiento obtenido a partir de explotar fuentes de datos abiertas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 7.1.1. Habilitando a usuarios inexpertos para aplicar técnicas de minería de datos . . . . . . . . . . . . . . . . . . . . . . . . 113 7.1.2. Formatos de datos abiertos . . . . . . . . . . . . . . . . . . . 115 7.1.2.1. Descripción del metamodelo de datos . . . . . . . . 116 7.1.2.2. Obteniendo el modelo de datos . . . . . . . . . . . 116 7.1.3. Obteniendo conocimiento abierto . . . . . . . . . . . . . . . 118 7.1.3.1. Descripción del modelo RDF . . . . . . . . . . . . 119 7.1.3.2. Mapeo del modelo DMKB a RDF . . . . . . . . . . 119 7.2. Taxonomíaderequisitosparalamineríadedatosporpartedeusua- rios inexpertos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 7.3. Otros trabajos futuros . . . . . . . . . . . . . . . . . . . . . . . . . 126 8. Conclusiones 129 8.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 8.2. Resultados de investigación . . . . . . . . . . . . . . . . . . . . . . 131 8.2.1. Producción científica . . . . . . . . . . . . . . . . . . . . . . 131 8.2.2. Proyectos relacionados con la tesis doctoral . . . . . . . . . . 133 A. Fichero resultado del recomendador caso estudio e-learning. 135 B. Transformación del modelo DMKB a modelo RDF. 137 Bibliografía 141 ix
Description: