Universidad Te¶cnica Federico Santa Mar¶‡a Departamento de Informa¶tica Valpara¶‡so { Chile ALGORITMO ROBUSTO DE APRENDIZAJE PARA EL MODELO MEZCLA DE EXPERTOS Tesis entregada como requerimiento parcial para optar al grado acad¶emico de ¶ MAGISTER EN CIENCIAS DE LA INGENIERIA ¶ INFORMATICA y al t¶‡tulo profesional de ¶ INGENIERO CIVIL EN INFORMATICA por Romina D¶ebora Torres Torres Comisio¶n Evaluadora: Dr. H¶ector Allende Olivares (Gu¶‡a, UTFSM) Dr. Horst von Brand (UTFSM) Dr. Max Chaco¶n Pacheco (USACH) 14 DE NOVIEMBRE 2003 Universidad Te¶cnica Federico Santa Mar¶‡a Departamento de Informa¶tica Valpara¶‡so { Chile TITULO DE LA TESIS: ALGORITMO ROBUSTO DE APRENDIZAJE PARA EL MODELO MEZCLA DE EXPERTOS AUTOR: ROMINA DE¶BORA TORRES TORRES Tesis presentada como requerimiento parcial para optar al grado acad¶emico deMagister en Ciencias de la Ingenier¶‡a Inform¶aticayalt¶‡tuloprofesional de Ingeniero Civil en Inform¶atica de la Universidad T¶ecnica Federico Santa Mar¶‡a. Dr. H¶ector Allende Olivares Profesor Gu¶‡a Dr. Horst von Brand Profesor Correferente Dr. Max Chaco¶n Pacheco Profesor Externo 14 de Noviembre 2003, Valpara¶‡so, Chile. ii Para mi Madre, Rodrigo, Jan y Kevin iii Agradecimientos La culminacio¶n de esta tesis es gracias al esfuerzo de muchas personas, es un trabajo dedicado a todo aquel que ha son~ado alguna vez entender una millon¶esima parte de la complejidad del cerebro para aplicarla a la resolucio¶n de problemas que no poseen soluciones deterministas, con tiempos no polinomiales, y que en deflnitiva nos indican cua¶les son los obsta¶culos para nuestra propia evolucio¶n. No siento que el terminar mi tesis signiflca que he cerrado mi etapa como estudiante pues no existe tiempo suflcientemente extenso para satisfacer la bu¶squeda de respuestas del ser humano. Quisiera agradecer a mi familia por darme la posibilidad de estudiar, y en especial a mi madre, Gloria Torres D¶‡az, por todo esfuerzo que realizo¶ por hacer mis suen~os realidades, por su amor incondicional y por hacer de m¶‡ una persona con deseo de superacio¶n constante y en este momento una profesional exitosa. Su soporte y apoyo en los buenos y malos momentos fueron factores claves en mi desarrollo. Quisiera agradecer a mi t¶‡a Margarita Torres D¶‡az, por su credibilidad incluso en aquellos momentos que dude de mi capacidad y en especial por su carin~o y conflanza. Quisiera dar gracias a Rodrigo Salas Fuentes, por todo su apoyo durante mi carrera y culminacio¶n de ¶esta, y su paciencia durante el t¶ermino de mi tesis. A mi amiga Caroll Meyer, quien siempre ha estado a mi lado cuando ma¶s lo he necesitado. QuisieraagradeceralDr.H¶ectorAllende,miprofesorgu¶‡a,porsuamistad,sabiosconsejos entregadosyporsuarduotrabajoenlacreacio¶ndeestetrabajo,alDr.ClaudioMoraga,quien siempre estuvo presente y disponible, y quien gracias a su experiencia y amabilidad, hizo grandes aportes a esta tesis. Gracias a mi profesor Dr. Horst von Brand por su amistad, y sus conocimientos entregados durante mi formacio¶n. Y en general a todos aquellos que hicieron posible el desarrollo de mi amor a la Investigacio¶n. Quisieraagradeceramiscompan~erosdetrabajodeMotorolaValpara¶‡soporsugranamis- tad y compan~erismo. En especial quisiera agradecer la motivacio¶n que me entrego¶ Gabriel Far¶‡as, sus valorables consejos y por dar visibilidad a mis metas. Mis mas grandes agradecimientos al Departamento de Informa¶tica de la Universidad T¶ecnica Federico Santa Mar¶‡a, a mis profesores, funcionarios y amigos, Hubert Hofimann, Mar¶‡a Cristina Rifi, Horst von Brand, H¶ector Allende, Carlos Castro, Cecilia Reyes, Luis iv Hevia, Sra. Lidia Ya¶n~ez, Sra. Pabla Valdebenito, Ignacio y tantos ma¶s. Quisiera dar gracias en general, a todos mis compan~eros de generacio¶n, independiente de su continuacio¶n en la carrera, por los recuerdos que quedara¶n para siempre en mi corazo¶n, por la amistad y por aquellas flestas de primer an~o inolvidables. Misma¶ssincerosagradecimientosatodosaquellosquieneshicieronposiblelaculminacio¶n de mi trabajo de tesis y a todo aquel que de una u otra manera creyo¶ en m¶‡. Valpara¶‡so, Chile Romina Torres v Resumen El Modelo de Mezcla de Expertos (ME) pertenece a la clase Redes Neuronales Artifl- ciales Modulares (MANN) frecuentemente utilizadas en problemas donde se conoce que el espacio de entrada esta¶ estratiflcado y aplicado en diversos campos como: reconocimiento y clasiflcacio¶n de patrones, procesamiento de ima¶genes, reconocimiento de voz, prediccio¶n de series de tiempo, entre otras. El modelo ME es caracterizado como un modelo de probabil- idad conocido como Modelos Mixtos, en que se tiene informacio¶n a priori de que los datos no obedecen una u¶nica distribucio¶n sino a dos o ma¶s distribuciones mezcladas en diferentes proporciones. El modelo ME consiste en dos tipos de redes: redes expertas que compiten por aprenden diferentes aspectos de un problema y una red de agregacio¶n que arbitra la com- petencia y aprende a asignar diferentes regiones del espacio de datos a diferentes expertos locales cuya topolog¶‡a parece ser la ma¶s apropiada. La regla de aprendizaje combina aspec- tos competitivos y asociativos y esta¶ disen~ada para favorecer la competencia entre expertos locales, que permiten dividir el espacio ’automa¶ticamente’ en subregiones manejadas en lo posible por un u¶nico experto local. El aprendizaje del modelo ME puede ser visto como un problema de estimacio¶n de para¶metros, que consiste en maximizar la funcio¶n de verosimilitud mediante t¶ecnicas de optimizacio¶n como el gradiente descendente. Debido a que ¶este es incapaz de aprovechar la estructura modular de la arquitectura, se utiliza el algoritmo de Ma¶xima Expectacio¶n (EM) que es un m¶etodo iterativo para aproximar num¶ericamente los estimadores ma¶ximo veros¶‡mil (ML). Sin embargo, el aprendizaje es sensible a la presencia de datos estad¶‡sticos at¶‡picos degradando el rendimiento de los algoritmos. En esta tesis se propone robustiflcar el al- goritmo EM para el modelo ME, obteniendo un algoritmo elegante, eflciente, de ra¶pida vi convergencia debido a que aprovecha la modularidad del modelo (baja interferencia destruc- tiva), y a la vez insensible a los datos at¶‡picos (acotando el impacto de ellos en la obtencio¶n de los estimadores pero sin eliminarlos). Para¶esto se utiliza una generalizacio¶n del estimador ma¶ximo veros¶‡mil conocido como M-estimadores. En la fase de prueba se seleccionan problemas reales y con presencia de datos at¶‡picos pertenecientes a la serie de problemas esta¶ndares DELVE y PROBEN1, para mostrar que el algoritmo Robusto de Ma¶xima Expectacio¶n para Mezcla de Expertos (REM-ME) muestra mejoras signiflcativas con respecto a los m¶etodos cla¶sicos. Palabras Claves: Redes Neuronales Artiflciales Modulares, Modelos de Mezcla, Modelo Mezcla de Expertos, M-estimadores, Algoritmo de Ma¶xima Expectacio¶n. vii Abstract The model of Mixture of Experts (ME) belongs to the class of Modular Artiflcial Neural Network(MANN)oftenusefulinproblemswhereitisknownthattheinputspaceisstratifled and broadly applied in several flelds such as Pattern Recognition, Pattern Classiflcation, Image Processing, Speech Recognition, Time Series Prediction, to mention a few. The ME model can be characterized as a probability model known as a conditional mixture density model, in which there is a priori information that the data do not obey just one distribution but two or more distribution mixed in difierent proportions. The model ME consists in two type of networks: experts networks that compete to learn several aspects of the problem and a gating network that mediates that competition and learns to assign difierent regions of the data space to difierent local experts whose topology is most appropriate to it. The learning rule combines aspects of competitive and associative learning and it is designed to encourage competition among local experts that allows automatic partitioning of the input space into sub-regions each of which is handled by a single local expert. The learning process of the Model ME can be seen as a parameter estimation problem, that consists in maximize the likelihood function through optimization techniques, for in- stancethedescendentgradient.Becauseitisnotcapabletotakeadvantageofthemodularity of the architecture, it is common to use the Maximization Expectation algorithm, which is an iterative algorithm that numerically approximates the maximum likelihood estimators. However the learning process is sensitive to the presence of statistic outliers ruining the performance of the algorithms. In this thesis, we propose robustify the EM algorithm for the ME model, obtaining an elegant and e–cient algorithm, which present fast convergence becauseittakesadvantageofthemodularityofthemodel,andalsoinsensitivetothestatistic outliers (bounds its impact but without flltering them out). We use a generalization of the maximum likelihood estimator known as M-estimators. viii In the testing phase we select real and highly contaminated problems from the DELVE and PROBEN1 benchmarks, to show that the Robust Expectation Maximization algorithm for Mixture of Experts (REM-ME) compared with classical training methods improve signi- flcatively the performance. Keywords: Modular Artiflcial Neural Networks, Mixture Models, Mixture of Experts model, M-estimator, Expectation Maximization Algorithm. ix Tabla de Contenidos Agradecimientos IV Resumen VI Abstract VIII Tabla de Contenidos X Lista de las Tablas XIII Lista de las Figuras XV Abreviaciones y Notacio¶n XVII 1. Introduccio¶n 1 1.1. Motivacio¶n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2. Alcance y Contribucio¶n de esta Tesis . . . . . . . . . . . . . . . . . . . . . . 9 1.3. Organizacio¶n de esta Tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2. Arquitecturas Modulares 13 2.1. Redes Neuronales Biolo¶gicas . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.2. Aprendizaje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.3. Redes Neuronales Artiflciales . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.3.1. Una neurona artiflcial . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.3.2. Redes Neuronales multicapas . . . . . . . . . . . . . . . . . . . . . . 20 2.4. Modularidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.4.1. Modularidad en el cerebro . . . . . . . . . . . . . . . . . . . . . . . . 26 2.4.2. Redes Neuronales Mu¶ltiples y Modulares . . . . . . . . . . . . . . . . 28 3. Modelos de Mezcla Finita 30 3.1. Introduccio¶n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 3.2. Especiflcacio¶n de los Modelos de Mezcla . . . . . . . . . . . . . . . . . . . . 31 x
Description: