Algoritmos de Agrupamiento Global para Datos Mezclados por Sau´l Lo´pez Escobar Tesis sometida como requisito parcial para obtener el grado de Maestro en Ciencias en la especialidad de Ciencias Computacionales en el ´ Instituto Nacional de Astrof´ısica, Optica y Electro´nica Supervisada por: Dr. Jesu´s Ariel Carrasco Ochoa Dr. Jose´ Francisco Mart´ınez Trinidad Sta. Ma. Tonantzintla, Puebla Febrero 2007 (cid:176)c INAOE 2007 El autor otorga al INAOE el permiso de reproducir y distribuir copias en su totalidad o en partes de esta tesis Resumen El agrupamiento es un problema que se presenta en una gran cantidad de aplicaciones pr´acticas en varios campos tales como Reconocimiento de Patrones, Aprendizaje Au- tom´atico, Miner´ıa de Datos, Procesamiento Digital de Im´agenes, etc. El algoritmo k- Means es uno de los algoritmos m´as frecuentemente usados para resolver el problema de agrupamiento, debido principalmente a su simplicidad, pero tiene varias desventa- jas entre las que se tienen: i) s´olo permite trabajar con datos exclusivamente num´eri- cos y ii) depende fuertemente de las condiciones iniciales con las que sea ejecutado. Por otro lado, se tiene que en ciencias denominadas “suaves” (soft sciences) tales como Medicina, Geolog´ıa, Sociolog´ıa, Mercadotecnia, etc. es comu´n que los datos se encuentren descritos por medio de atributos num´ericos y no num´ericos (datos mez- clados) simult´aneamente. Dentro de este contexto, en este trabajo se proponen dos algoritmos de agrupamien- to restringido basados en el algoritmo k-Means. Ambos algoritmos permiten trabajar con datos mezclados y no dependen de las condiciones iniciales con las que sean ejecu- tados. Los algoritmos propuestos son evaluados usando conjuntos de datos obtenidos de un repositorio pu´blico y son comparados contra otros algoritmos de agrupamiento restringido. [i] ii Resumen Coordinacio´n de Ciencias Computacionales Instituto Nacional de Astrof´ısica, O´ptica y Electro´nica Abstract Clustering problem arises in many practical applications in several areas such as Pat- tern Recognition, Machine Learning, Data Mining, Digital Image Processing, etc. The k-means algorithm is one of the most frequently algorithms used to solve the clustering problem, this is due its simplicity but, it has many drawbacks such as: i) it only allows working with numeric data and ii) it heavily depends on the initial conditions. On the other hand, in soft sciences such as Medicine, Geology, Sociology, Market- ing, etc, it is common that objects are described in terms of numeric and no numeric features (mixed data). In this context, we propose two clustering algorithms based in the k-Means algo- rithm. Both algorithms allow working with mixed data and they don’t depend on the initial conditions. The proposed algorithms are tested with data sets obtained from one public repository and they are compared against other clustering algorithms. [iii] iv Abstract Coordinacio´n de Ciencias Computacionales Instituto Nacional de Astrof´ısica, O´ptica y Electro´nica Agradecimientos Deseo expresar mi m´as sincero agradecimiento a mis asesores de tesis los Drs. Jesu´s Ariel Carraso Ochoa y Jos´e Francisco Mart´ınez Trinidad por su apoyo y orientacio´n constante durante mi estancia en el INAOE, pero sobre todo, por su amistad invaluable. Al Consejo Nacional de Ciencia y Tecnolog´ıa CONACYT por su apoyo financiero mediante la Beca No. 189901. ´ Al Instituto Nacional de Astrof´ısica, Optica y Electr´onica INAOE por las facilidades prestadas tanto en aspectos de investigaci´on como en administrativos, en especial a la Coordinaci´on de Ciencias Computacionales, cuyos investigadores siempre mostraron su apoyo. A todos los miembros de mi familia, ya que sin su apoyo y carin˜o no habr´ıa sido posible llevar a f´eliz t´ermino la elaboraci´on del presente trabajo. Tambi´en agradezco a mis compan˜eros de generaci´on por la amistad y apoyo que me otorgaron durante mi estancia en el Instituto. [v] vi Agradecimientos Coordinacio´n de Ciencias Computacionales Instituto Nacional de Astrof´ısica, O´ptica y Electro´nica Dedicatoria A mis padres quienes me dieron la vida, por sus sacrificios, buenas ensen˜anzas, orientaci´on y ejemplo que junto con su amor me han brindado ya ... toda una vida. A mis hermanos, por el apoyo que siempre me han brindado con su impulso, carin˜o y alegr´ıa. A todos mis amigos, en especial a Isabel por su inmenso carin˜o. A mis abuelitos, por sus bendiciones y ser un buen ejemplo para mi. [vii] viii Dedicatoria Coordinacio´n de Ciencias Computacionales Instituto Nacional de Astrof´ısica, O´ptica y Electro´nica
Description: