Modelos probabil(cid:237)sticos de t(cid:243)picos para aplicaciones en Miner(cid:237)a de Datos Wilberth Ricardo Garc(cid:237)a Alfaro Departamento de Ciencias de la Computaci(cid:243)n Centro de Investigaci(cid:243)n en MatemÆticas, A.C. Asesor: Dr. Salvador Ruiz Correa Para la obtenci(cid:243)n del Grado de Maestro en Ciencias de la Computaci(cid:243)n 18 de Noviembre de 2010 Dedicatoria Quiero dedicar esta tesis a mis padres, los cuales siempre me han apo- yadoincondicionalmente,entodomomentoybajotodacircunstancia. A ustedes que han sabido ser los mejores padres, les debo todo lo que sØ y lo que soy. A ti madre, que siempre me impulsas a seguir adelante, me compren- des y apoyas en mis decisiones, que no me juzgas a pesar de lo imper- fecto que soy, pero siempre me has corregido y enseæando a aprender de mis errores. A ti padre que me has enseæado, inculcÆndome valores, a terminar bien todo lo que se empieza, con tu ejemplo me has mostrado el valor del trabajo honrado y me has educado toda la vida. TambiØn quiero dedicar este documento a Anshela, por tu paciencia, comprensi(cid:243)n, pero sobre todo por tu gran amor. Esta espera ha sido larga y dif(cid:237)cil, pero a tu lado mi vida siempre es mejor, me haces sentir feliz y ser una mejor persona. Porque la distancia solo pudo separar- nos f(cid:237)sicamente, pero junto mÆs nuestros corazones; porque siempre supiste convertir lo adverso en algo positivo; porque compartes con- migo planes y sueæos, porque comparto la visi(cid:243)n de un futuro juntos; y porque a pesar de todo a lo largo de estos aæos los recuerdos de nosotros siempre han sido los mejores. Austedestresquesiemprehansabidoserparteimportantedemivida, quehemospasadopenasjuntos,quehemosfestejadoØxitosparcialesy sufridoangustiasalolargodeesteproceso,nosololesdedicoestatesis, sino tambiØn les dedico la maestr(cid:237)a, porque parte de haber alcanzado esta meta, ha sido gracias a todo lo que me han dado, enseæado y compartido, por su sabidur(cid:237)a en forma de consejos, sus interminables buenos deseos, oraciones y el amor que han sabido transmitir, a pesar de la distancia. Nunca olvidare todo lo que hemos pasado juntos. ‰Gracias! Agradecimientos En primer lugar agradecer al Consejo Nacional de Ciencia y Tecno- log(cid:237)a (CONACYT) por el (cid:28)nanciamiento otorgado a lo largo de mis estudios de posgrado. Quisiera agradecer a mi amigo y asesor Salvador, por permitirme tra- bajar bajo su supervisi(cid:243)n, y darme la oportunidad de aprender de Øl no solo en lo acadØmico, sino tambiØn en lo personal. Ha sido una experiencia muy enriquecedora en muchos sentidos. TambiØnquisieraagradeceratodosmiscompaæerosdelamaestr(cid:237)a,ya que siempre nos hemos apoyado y ayudado cuando las circunstancias lo ameritaban y juntos compartimos todo el proceso de aprendizaje que involucr(cid:243) la maestr(cid:237)a. Resumen Losmodelosestad(cid:237)sticosestablecenlarelaci(cid:243)nentrelasvariablesalea- torias involucradas en un proceso. Mediante el uso de parÆmetros ha- cen posible estudiar la estructura de una colecci(cid:243)n de datos desde un punto de vista matemÆtico. Se auxilia con herramientas tales como el muestreo o la inferencia, y mediante un conjunto de suposiciones acerca de las distribuciones de la poblaci(cid:243)n, intenta explicar el com- portamiento de dicho conjunto. El primer paso para sugerir un modelo estad(cid:237)stico, es considerar la na- turaleza de los datos. Esto ocasiona que se hagan suposiciones acerca de la forma en la cual se generan las muestras a partir de la pobla- ci(cid:243)n. Posteriormente, se proponen mØtodos e(cid:28)cientes para encontrar los parÆmetros de los modelos. Como su nombre lo indica esta tØsis describe el uso de dos de los mo- delos estad(cid:237)sticos llamados (cid:16)modelos de t(cid:243)picos(cid:17) usados como tØcnicas de miner(cid:237)a de datos. Los modelos de t(cid:243)picos intentan representar la estructura de los datos medianteelusodedistribucionesmultinomiales,apartirdelascuales, se asigna una mayor probabilidad de aparici(cid:243)n de los valores en la colecci(cid:243)n. Estas distribuciones de probabilidad son llamadas t(cid:243)picos. Esta familia de modelos, nace inicialmente en el Ærea de miner(cid:237)a de textos,peroactualmenteesutilizadaenotroscontextos.Enestedocu- mento se presentan y desarrollan los modelos conocidos como (cid:16)LDA(cid:17) (Latent Dirichlet Allocation) y el de (cid:16)Autores y T(cid:243)picos(cid:17). La tØsis estÆ organizada de la siguiente manera: Introducci(cid:243)n. En este cap(cid:237)tulo se explicarÆ de forma breve, la motivaci(cid:243)n detrÆs del uso de los modelos de t(cid:243)picos para hacer miner(cid:237)a de datos. AdemÆs, se discutirÆ el funcionamiento bÆsico de estos modelos. Modelos de grÆ(cid:28)cas probabil(cid:237)sticas. Este cap(cid:237)tulo forma parte de los conceptos bÆsicos para desarrollar la teor(cid:237)a detrÆs de los modelos LDA y de Autores y T(cid:243)picos. Ambos casos, son intro- ducidos en forma de modelos de grÆ(cid:28)cas probabil(cid:237)sticas. Markov chain Monte Carlo (MCMC). Como se menciono con an- terioridad, los modelos de t(cid:243)picos aqu(cid:237) discutidos, son resueltos a travØs de simulaciones Monte Carlo. Por esta raz(cid:243)n, en este cap(cid:237)- tulo se expone una breve explicaci(cid:243)n de esta familia de mØtodos, as(cid:237) como la forma en que funciona. Latent Dirichlet Allocation (LDA). En este cap(cid:237)tulo se presen- ta la forma en la que se obtuvieron las ecuaciones que permiten resolver el modelo. TambiØn se ejempli(cid:28)can sus aplicaciones me- diante el uso de diversas bases de datos. Modelo de Autores y T(cid:243)picos. De nueva cuenta se introduce y desarrolla estemodelo, elcual resultaser unaextensi(cid:243)n delLDA. Se muestran aplicaciones y ejemplos relevantes y los resultados obtenidos de los experimentos realizados. Discuci(cid:243)n. Se desarrollan algunos comentarios acerca de las ven- tajas y desventajas del uso de los modelos LDA y de Autores y T(cid:243)picos. TambiØn se discute acerca de las mejoras y costes computacionales que representan las diversas implementaciones de los algormitmos, as(cid:237) como, las circunstancias en las que son recomendables. Conclusiones. Se exponen las deducciones obtenidas de los expe- rimentos para ambos modelos. Unadescripci(cid:243)nrÆpidadelosprincipiosenlosquesebasaelfunciona- mientodelosMØtodosVariacionales,comoloeselMØtodoVariacional Bayesiano, se presenta en el anexo A. En el anexo B se incorporan algunos documentos usados en los experimentos del cap(cid:237)tulo (cid:16)Latent Dirichlet Allocation(cid:17) que apoyan y con(cid:28)rman los resultados. Para un mejor datalle de los resultados relacionados con autores y documentos obtenidos con el Modelo de Autores y T(cid:243)picos consulte el anexo C. El œltimo anexo D es una descripci(cid:243)n general del software desarrollado. ˝ndice general x Nomenclature 1. Introducci(cid:243)n 1 2. Modelos de GrÆ(cid:28)cas Probabil(cid:237)sticas 4 2.1. Redes Bayesianas . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.2. Independencia Condicional . . . . . . . . . . . . . . . . . . . . . . 11 2.3. Separaci(cid:243)n D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.4. Cobija de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 3. Markov chain Monte Carlo (MCMC) 18 3.1. Cadenas de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.2. Integraci(cid:243)n Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . 22 3.3. Muestreo de Gibbs . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.4. Di(cid:28)cultades para hacer inferencia usando el MCMC . . . . . . . . 24 3.4.1. Monitoreo de convergencia y problemas ocasionados por la convergencia lenta . . . . . . . . . . . . . . . . . . . . . . 25 3.4.2. Estudio de la autocorrelaci(cid:243)n . . . . . . . . . . . . . . . . 27 3.4.3. GrÆ(cid:28)cas de Kernel . . . . . . . . . . . . . . . . . . . . . . 28 3.4.4. Prueba Z de Geweke . . . . . . . . . . . . . . . . . . . . . 30 3.4.5. MØtodo de Gelman-Rubin . . . . . . . . . . . . . . . . . . 31 4. Latent Dirichlet Allocation (LDA) 33 4.1. Modelo de grÆ(cid:28)cas probabil(cid:237)sticas y proceso generativo del LDA . 34 4.2. LDA suavizado . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 4.3. Muestreo de Gibbs colapsado para LDA suavizado . . . . . . . . . 42 4.3.1. Valores esperados de los parÆmetros . . . . . . . . . . . . . 45 4.4. SemÆntica y LDA . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 4.5. Aplicaciones del LDA . . . . . . . . . . . . . . . . . . . . . . . . . 47 4.5.1. Similitud entre documentos y entre palabras . . . . . . . . 47 4.5.1.1. AnÆlisis de similitud entre documentos . . . . . . 47 v ˝NDICEGENERAL ˝NDICEGENERAL 4.5.1.2. Similitud entre palabras . . . . . . . . . . . . . . 48 4.5.2. Aplicaciones en recuperaci(cid:243)n de informaci(cid:243)n . . . . . . . . 49 4.5.3. Agrupamiento de Documentos . . . . . . . . . . . . . . . . 49 4.5.4. AnÆlisis de la tendencia entre los t(cid:243)picos . . . . . . . . . . 50 4.5.4.1. T(cid:243)picos de moda . . . . . . . . . . . . . . . . . . 50 4.5.4.2. Progresi(cid:243)n de t(cid:243)picos de interØs por per(cid:237)odos de tiempo . . . . . . . . . . . . . . . . . . . . . . . . 50 4.6. Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 4.6.1. Experimento sintØtico 1 . . . . . . . . . . . . . . . . . . . 51 4.6.2. Experimento sintØtico 2 . . . . . . . . . . . . . . . . . . . 55 4.6.2.1. Selecci(cid:243)n de modelo . . . . . . . . . . . . . . . . 58 4.6.3. Experimento de texto con datos reales . . . . . . . . . . . 61 4.6.3.1. Base de datos de NIPS . . . . . . . . . . . . . . . 61 4.6.4. Base de datos de WormsBase . . . . . . . . . . . . . . . . 64 5. Modelo de Autores y T(cid:243)picos 86 5.1. Modelo de GrÆ(cid:28)cas y Proceso Generativo . . . . . . . . . . . . . . 87 5.2. Muestreo de Gibbs para el Modelo de Autores y T(cid:243)picos . . . . . 88 5.3. Aplicaciones del Modelo de Autores y T(cid:243)picos . . . . . . . . . . . 97 5.3.1. AnÆlisis de Tendencia de los Autores por Aæo . . . . . . . 98 5.3.2. Detecci(cid:243)n de Documentos poco Comunes . . . . . . . . . . 98 5.3.3. Comparaci(cid:243)n de T(cid:243)picos entre Autores . . . . . . . . . . . 99 5.3.4. Etiquetado AutomÆtico de Nuevos Documentos para Au- tores en la Colecci(cid:243)n . . . . . . . . . . . . . . . . . . . . . 99 5.4. Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 5.4.1. Experimento con sintØtico . . . . . . . . . . . . . . . . . . 100 5.4.2. Base de datos de NIPS . . . . . . . . . . . . . . . . . . . . 106 5.4.3. Base de datos de WormBase . . . . . . . . . . . . . . . . . 112 6. Discuci(cid:243)n 123 6.1. Bene(cid:28)cios del Uso del Muestreo de Gibbs . . . . . . . . . . . . . . 124 6.2. Bene(cid:28)cios de Usar un Modelo . . . . . . . . . . . . . . . . . . . . 125 7. Conclusiones 129 7.1. Trabajo a futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 A. MØtodos Variacionales 131 B. Recopilaci(cid:243)n de resœmenes para clasi(cid:28)caci(cid:243)n y agrupamiento 135 B.1. Agrupamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 B.1.1. Grupo 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 B.1.2. Grupo 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 vi ˝NDICEGENERAL ˝NDICEGENERAL B.1.3. Grupo 11 . . . . . . . . . . . . . . . . . . . . . . . . . . . 144 B.1.4. Grupo 29 . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 B.2. Recuperaci(cid:243)n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 C. Recopilaci(cid:243)n de datos para el Modelo de Autores y T(cid:243)picos 158 C.1. T(cid:237)tulos por autor para NIPS . . . . . . . . . . . . . . . . . . . . . 158 C.1.1. T(cid:243)pico 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 C.1.2. T(cid:243)pico 16 . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 C.1.3. T(cid:243)pico 31 . . . . . . . . . . . . . . . . . . . . . . . . . . . 168 C.1.4. T(cid:243)pico 44 . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 C.1.5. T(cid:243)pico 50 . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 C.2. T(cid:237)tulos por autor para wormbase . . . . . . . . . . . . . . . . . . 175 C.2.1. T(cid:243)pico 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175 C.2.2. T(cid:243)pico 18 . . . . . . . . . . . . . . . . . . . . . . . . . . . 178 C.2.3. T(cid:243)pico 29 . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 C.2.4. T(cid:243)pico 32 . . . . . . . . . . . . . . . . . . . . . . . . . . . 184 C.2.5. T(cid:243)pico 48 . . . . . . . . . . . . . . . . . . . . . . . . . . . 187 C.2.6. T(cid:243)pico 50 . . . . . . . . . . . . . . . . . . . . . . . . . . . 190 D. Descripci(cid:243)n del Software 193 Referencias 196 vii ˝ndice de (cid:28)guras 2.1. Modelo de grÆ(cid:28)cas probabil(cid:237)sticas de la ecuaci(cid:243)n 2.3. . . . . . . . 7 2.2. Modelo de grÆ(cid:28)cas probabil(cid:237)sticas con mœltiples variables. . . . . . 8 2.3. Modelo de grÆ(cid:28)cas probabil(cid:237)sticas en Plate Notation equivalente al de la (cid:28)gura 2.2. . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.4. Modelo de grÆ(cid:28)cas probabil(cid:237)sticas de la regresi(cid:243)n polinomial con- siderando parÆmetros. . . . . . . . . . . . . . . . . . . . . . . . . 9 2.5. Modelo de grÆ(cid:28)cas probabil(cid:237)sticas de la regresi(cid:243)n polinomial con- siderando parÆmetros y con variables observadas. . . . . . . . . . 10 2.6. Modelo de grÆ(cid:28)cas conocido como (cid:16)divergente(cid:17). . . . . . . . . . . 12 2.7. Modelo de grÆ(cid:28)cas conocido como (cid:16)serial(cid:17). . . . . . . . . . . . . . 13 2.8. Modelo de grÆ(cid:28)cas conocido como (cid:16)convergente(cid:17). . . . . . . . . . . 14 2.9. Modelo de grÆ(cid:28)cas de una muestra i.i.d. para el caso de una gaus- siana univariada. . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.10.Un ejemplo de la Cobija de Markov para la variable x . . . . . . . 17 i 3.1. Evoluci(cid:243)n de dos medias en el proceso de muestreo de la cadena de Markov. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.2. Evoluci(cid:243)n de los parÆmetros θ y θ inicializados con diferentes 1 2 valores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 3.3. Una aparente convergencia del parÆmetro. . . . . . . . . . . . . . 27 3.4. GrÆ(cid:28)ca de la autocorrelaci(cid:243)n para los parÆmetros θ y θ con una 1 2 correlaci(cid:243)n aœn elevada. . . . . . . . . . . . . . . . . . . . . . . . 28 3.5. GrÆ(cid:28)ca de la autocorrelaci(cid:243)n para los parÆmetros θ y θ con una 1 2 correlaci(cid:243)n moderada. . . . . . . . . . . . . . . . . . . . . . . . . 28 3.6. Estimaci(cid:243)n de kernels que aœn no demuestran convergencia. . . . 29 3.7. Estimaci(cid:243)n de kernels que demuestran convergencia. . . . . . . . . 30 4.1. Modelo generativo probabil(cid:237)stico LDA. . . . . . . . . . . . . . . . 34 4.2. Modelo generativo probabil(cid:237)stico LDA suavizado. . . . . . . . . . 36 4.3. Ejemplo de la palabra (cid:16)banco(cid:17) manejada en diferentes contextos. . 46 4.4. T(cid:243)picos desde los cuales fueron generadas los patrones de franjas. 55 viii ˝NDICEDEFIGURAS ˝NDICEDEFIGURAS 4.5. Un subconjunto de datos de entrenamiento usados para aprender los parÆmetros del modelo. . . . . . . . . . . . . . . . . . . . . . . 56 4.6. Evoluci(cid:243)n de los t(cid:243)picos en diferentes iteraciones. . . . . . . . . . 57 4.7. Evoluci(cid:243)n de la estimaci(cid:243)n con respecto al nœmero de iteraciones. 57 4.8. Diversos valores de β y α = 1 para la grÆ(cid:28)ca de la selecci(cid:243)n de modelo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 4.9. Abstract del art(cid:237)culo titulado (cid:16)Two Iterative Algorithms for Com- putingtheSingularValueDecompositionfromInput/OutputSam- ples(cid:17) escrito por Terence D. Sanger y obtenido de la base de datos de NIPS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 4.10.Proporci(cid:243)n de aparici(cid:243)n de los t(cid:243)picos en una muestra aleatoria de 100 documentos de la colecci(cid:243)n. . . . . . . . . . . . . . . . . . . . 66 4.11.Mezcla de t(cid:243)picos para el documento titulado (cid:16)Regulation of cell polarity and asymmetric cell division by lin-44wnt and wrm-1- catenin(cid:17). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 4.12.Extracto del resumen del art(cid:237)culo titulado (cid:16)Regulation of cell pola- rity and asymmetric cell division by lin-44wnt and wrm-1-catenin(cid:17) etiquetados de forma automÆtica. . . . . . . . . . . . . . . . . . . 67 4.13.Proporci(cid:243)n de aparici(cid:243)n de la primera palabra de cada t(cid:243)pico. . . 68 4.14.Distribuci(cid:243)n de los t(cid:243)picos para los documentos consulta, el mÆs parecido y el menos parecido. . . . . . . . . . . . . . . . . . . . . 70 4.15.Parte del resumen perteneciente al documento 55. . . . . . . . . . 71 4.16.Parte del abstrac perteneciente al documento 31. . . . . . . . . . 71 4.17.Dendograma de la muestra de 100 documentos presentados en la (cid:28)gura 4.10. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 4.18.Distribuci(cid:243)n de los t(cid:243)picos para los documentos del grupo 1. . . . 75 4.19.Distribuci(cid:243)n de los t(cid:243)picos para los documentos del grupo 6. . . . 78 4.20.Distribuci(cid:243)n de los t(cid:243)picos para los documentos del grupo 11. . . 80 4.21.Distribuci(cid:243)n de los t(cid:243)picos para los documentos del grupo 29. . . 83 4.22.GrÆ(cid:28)ca de p(q|d ) para la recuperaci(cid:243)n de documentos. . . . . . . 84 i 5.1. Modelo de grÆ(cid:28)cas probabil(cid:237)sticas del Modelo de Autores y T(cid:243)pi- cos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 5.2. Modelo de Autores y T(cid:243)picos extendido. . . . . . . . . . . . . . . 96 5.3. T(cid:243)picos desde los cuales fueron generadas las imÆgenes. . . . . . . 100 5.4. T(cid:243)picosobtenidosalcorrerelalgoritmoparaelmodelosdeAutores y T(cid:243)picos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 5.5. GrÆ(cid:28)ca de la perplejidad aplicada a los resultados obtenidos me- diante el muestro de Gibbs para LDA, Variational Bayes y mues- treo de Gibbs para el Modelo de Autores y T(cid:243)picos. . . . . . . . . 102 5.6. Distribuci(cid:243)n de los autores y los t(cid:243)picos. . . . . . . . . . . . . . . 103 ix
Description: