ebook img

Diseño de un algoritmo de minería de datos basado en grafos para la tarea de aprendizaje de PDF

132 Pages·2012·2.53 MB·Spanish
by  
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Diseño de un algoritmo de minería de datos basado en grafos para la tarea de aprendizaje de

Diseño de un algoritmo de minería de datos basado en grafos para la tarea de aprendizaje de conceptos Por Rigoberto Salomón Fonseca Delgado Tesis sometida como requisito parcial para obtener el grado de MAESTRO EN CIENCIAS EN LA ESPECIALIDAD DE CIENCIAS COMPUTACIONALES en el Instituto Nacional de Astrofísica, Óptica y Electrónica Tonantzintla, Puebla Febrero 2012 Supervisada por: Dr. Jesús A. González Bernal Investigador del INAOE Dra. María del Pilar Gómez Gil Investigadora del INAOE Dr. Iván Olmos Pineda Profesor Investigador Facultad de Ciencias de la Computación Benemérita Universidad Autónoma de Puebla ©INAOE 2012 Derechos Reservados El autor otorga al INAOE el permiso de reproducir y distribuir copias de esta tesis en su totalidad o en partes A mi familia I II Agradecimientos Primero quiero agradecer al pueblo de México por pagar sus impuestos y brindarme la oportunidad de realizar la Maestría en Ciencias de la Computación. Le agradezco al CONACyT el apoyo otorgado a través de la Beca para estudios de Maestría # 40281. Este trabajo fue parcialmente apoyado por el Proyecto CONACYT 88990-B. Un agradecimiento muy especial a las personas que dirigen y conforman al CRECTEALC y al INAOE. Agradezco directamente a mis asesores: el Dr. Jesús González, la Dra. Pilar Gómez y el Dr. Iván Olmos. Aprovecho para agradecerles con mucho cariño a mi familia, a Liliana, y a mis amigos por estar siempre a mi lado. III IV Resumen En muchos dominios se está volviendo cada vez más común almacenar datos que poseen inherentemente una estructura o características relacionales. Este tipo de datos se representan mejor con grafos, los cuales pueden, de forma natural, representar entidades, sus atributos, y su relación con otras entidades. En este trabajo de tesis se presenta un algoritmo de minería de datos con una primera fase no supervisada para dividir los datos, y otra fase supervisada que realiza la minería generando solo candidatos posibles para obtener patrones útiles en la tarea de clasificación sobre datos estructurados. La primera parte que se diseñó fue un novedoso espectro para grafos etiquetados. Este espectro se implementó en un algoritmo de agrupamiento de grafos denominado Spectral_SOM. Los grafos etiquetados de entrada se transforman a su representación espectral y se le dan como entrada a una red SOM capaz de agrupar estos grafos en tiempo polinomial, lo que se muestra con el análisis de complejidad realizado. La segunda parte que se desarrolló es un algoritmo de minería de datos basado en grafos para buscar conceptos, CL_COBRA. Este algoritmo utiliza códigos DFC y requirió modificar el algoritmo SICOBRA para aprovechar en mejor manera la búsqueda de subgrafos isomorfos. Finalmente, se integró Spectral_SOM con CL_COBRA para obtener el algoritmo KODISSOM_COBRA, resultado de esta tesis. El algoritmo fue evaluado con conjuntos de datos sintéticos y datos reales. Los resultados muestran que los patrones encontrados son competitivos en la tarea de clasificación con los encontrados por el algoritmo de aprendizaje de conceptos basado en grafos SubdueCL. El algoritmo desarrollado puede mejorar su tiempo de ejecución aumentando el soporte mínimo requerido, sin embargo existe un compromiso entre tiempo de ejecución y calidad de patrones encontrados. Un resultado adicional es la implementación de un marco de trabajo inicial para manejar grafos, con utilidades de agrupamiento, extracción de características, isomorfismo, dibujado de grafos y minería de datos. V VI Abstract In many domains, it is becoming more common to store data that inherently possess a structure or relational features. Such data are better represented with graphs, which can quite naturally, represent entities, its attributes, and their relationship with other entities. In this thesis, we present a data mining algorithm firstly with an unsupervised phase to divide the data, and another supervised phase that performs data mining generating only possible candidates to find useful patterns in the classification task for structured data. The first task was to design a new spectrum for labeled graphs. This spectrum was implemented in the graph clustering algorithm called Spectral_SOM. The input labeled graphs are transformed in their spectral representation, which are given as input to an SOM network; this network can group these graphs in polynomial time, which is shown through the complexity analysis performed. The second task developed was a data mining graph based algorithm for searching concepts, CL_COBRA. This algorithm uses DFC codes and it was necessary to modify the SICOBRA algorithm to better use the isomorphic subgraphs searching. Finally, the CL_COBRA algorithm was integrated with Spectral_SOM to develop the algorithm KODISSOM_COBRA, result of this thesis. The algorithm was tested with sets of synthetic data and real data. The results show that the patterns found are competitive in the classification task with those found by the concept learning graph based algorithm SubdueCL. The algorithm developed can improve the runtime increasing the minimum support required, but there exists a compromise between runtime and quality of patterns found. An additional outcome is the implementation of an initial framework for working with graphs, with profits of clustering, feature extraction, isomorphism, graphs’ drawing and data mining. VII VIII

Description:
En muchos dominios se está volviendo cada vez más común almacenar datos que poseen inherentemente una estructura o características
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.