ebook img

Modelos probabilísticos de tópicos para aplicaciones en minería de datos PDF

209 Pages·2010·4.22 MB·Spanish
by  
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Modelos probabilísticos de tópicos para aplicaciones en minería de datos

Modelos probabil(cid:237)sticos de t(cid:243)picos para aplicaciones en Miner(cid:237)a de Datos Wilberth Ricardo Garc(cid:237)a Alfaro Departamento de Ciencias de la Computaci(cid:243)n Centro de Investigaci(cid:243)n en MatemÆticas, A.C. Asesor: Dr. Salvador Ruiz Correa Para la obtenci(cid:243)n del Grado de Maestro en Ciencias de la Computaci(cid:243)n 18 de Noviembre de 2010 Dedicatoria Quiero dedicar esta tesis a mis padres, los cuales siempre me han apo- yadoincondicionalmente,entodomomentoybajotodacircunstancia. A ustedes que han sabido ser los mejores padres, les debo todo lo que sØ y lo que soy. A ti madre, que siempre me impulsas a seguir adelante, me compren- des y apoyas en mis decisiones, que no me juzgas a pesar de lo imper- fecto que soy, pero siempre me has corregido y enseæando a aprender de mis errores. A ti padre que me has enseæado, inculcÆndome valores, a terminar bien todo lo que se empieza, con tu ejemplo me has mostrado el valor del trabajo honrado y me has educado toda la vida. TambiØn quiero dedicar este documento a Anshela, por tu paciencia, comprensi(cid:243)n, pero sobre todo por tu gran amor. Esta espera ha sido larga y dif(cid:237)cil, pero a tu lado mi vida siempre es mejor, me haces sentir feliz y ser una mejor persona. Porque la distancia solo pudo separar- nos f(cid:237)sicamente, pero junto mÆs nuestros corazones; porque siempre supiste convertir lo adverso en algo positivo; porque compartes con- migo planes y sueæos, porque comparto la visi(cid:243)n de un futuro juntos; y porque a pesar de todo a lo largo de estos aæos los recuerdos de nosotros siempre han sido los mejores. Austedestresquesiemprehansabidoserparteimportantedemivida, quehemospasadopenasjuntos,quehemosfestejadoØxitosparcialesy sufridoangustiasalolargodeesteproceso,nosololesdedicoestatesis, sino tambiØn les dedico la maestr(cid:237)a, porque parte de haber alcanzado esta meta, ha sido gracias a todo lo que me han dado, enseæado y compartido, por su sabidur(cid:237)a en forma de consejos, sus interminables buenos deseos, oraciones y el amor que han sabido transmitir, a pesar de la distancia. Nunca olvidare todo lo que hemos pasado juntos. ‰Gracias! Agradecimientos En primer lugar agradecer al Consejo Nacional de Ciencia y Tecno- log(cid:237)a (CONACYT) por el (cid:28)nanciamiento otorgado a lo largo de mis estudios de posgrado. Quisiera agradecer a mi amigo y asesor Salvador, por permitirme tra- bajar bajo su supervisi(cid:243)n, y darme la oportunidad de aprender de Øl no solo en lo acadØmico, sino tambiØn en lo personal. Ha sido una experiencia muy enriquecedora en muchos sentidos. TambiØnquisieraagradeceratodosmiscompaæerosdelamaestr(cid:237)a,ya que siempre nos hemos apoyado y ayudado cuando las circunstancias lo ameritaban y juntos compartimos todo el proceso de aprendizaje que involucr(cid:243) la maestr(cid:237)a. Resumen Losmodelosestad(cid:237)sticosestablecenlarelaci(cid:243)nentrelasvariablesalea- torias involucradas en un proceso. Mediante el uso de parÆmetros ha- cen posible estudiar la estructura de una colecci(cid:243)n de datos desde un punto de vista matemÆtico. Se auxilia con herramientas tales como el muestreo o la inferencia, y mediante un conjunto de suposiciones acerca de las distribuciones de la poblaci(cid:243)n, intenta explicar el com- portamiento de dicho conjunto. El primer paso para sugerir un modelo estad(cid:237)stico, es considerar la na- turaleza de los datos. Esto ocasiona que se hagan suposiciones acerca de la forma en la cual se generan las muestras a partir de la pobla- ci(cid:243)n. Posteriormente, se proponen mØtodos e(cid:28)cientes para encontrar los parÆmetros de los modelos. Como su nombre lo indica esta tØsis describe el uso de dos de los mo- delos estad(cid:237)sticos llamados (cid:16)modelos de t(cid:243)picos(cid:17) usados como tØcnicas de miner(cid:237)a de datos. Los modelos de t(cid:243)picos intentan representar la estructura de los datos medianteelusodedistribucionesmultinomiales,apartirdelascuales, se asigna una mayor probabilidad de aparici(cid:243)n de los valores en la colecci(cid:243)n. Estas distribuciones de probabilidad son llamadas t(cid:243)picos. Esta familia de modelos, nace inicialmente en el Ærea de miner(cid:237)a de textos,peroactualmenteesutilizadaenotroscontextos.Enestedocu- mento se presentan y desarrollan los modelos conocidos como (cid:16)LDA(cid:17) (Latent Dirichlet Allocation) y el de (cid:16)Autores y T(cid:243)picos(cid:17). La tØsis estÆ organizada de la siguiente manera: Introducci(cid:243)n. En este cap(cid:237)tulo se explicarÆ de forma breve, la motivaci(cid:243)n detrÆs del uso de los modelos de t(cid:243)picos para hacer miner(cid:237)a de datos. AdemÆs, se discutirÆ el funcionamiento bÆsico de estos modelos. Modelos de grÆ(cid:28)cas probabil(cid:237)sticas. Este cap(cid:237)tulo forma parte de los conceptos bÆsicos para desarrollar la teor(cid:237)a detrÆs de los modelos LDA y de Autores y T(cid:243)picos. Ambos casos, son intro- ducidos en forma de modelos de grÆ(cid:28)cas probabil(cid:237)sticas. Markov chain Monte Carlo (MCMC). Como se menciono con an- terioridad, los modelos de t(cid:243)picos aqu(cid:237) discutidos, son resueltos a travØs de simulaciones Monte Carlo. Por esta raz(cid:243)n, en este cap(cid:237)- tulo se expone una breve explicaci(cid:243)n de esta familia de mØtodos, as(cid:237) como la forma en que funciona. Latent Dirichlet Allocation (LDA). En este cap(cid:237)tulo se presen- ta la forma en la que se obtuvieron las ecuaciones que permiten resolver el modelo. TambiØn se ejempli(cid:28)can sus aplicaciones me- diante el uso de diversas bases de datos. Modelo de Autores y T(cid:243)picos. De nueva cuenta se introduce y desarrolla estemodelo, elcual resultaser unaextensi(cid:243)n delLDA. Se muestran aplicaciones y ejemplos relevantes y los resultados obtenidos de los experimentos realizados. Discuci(cid:243)n. Se desarrollan algunos comentarios acerca de las ven- tajas y desventajas del uso de los modelos LDA y de Autores y T(cid:243)picos. TambiØn se discute acerca de las mejoras y costes computacionales que representan las diversas implementaciones de los algormitmos, as(cid:237) como, las circunstancias en las que son recomendables. Conclusiones. Se exponen las deducciones obtenidas de los expe- rimentos para ambos modelos. Unadescripci(cid:243)nrÆpidadelosprincipiosenlosquesebasaelfunciona- mientodelosMØtodosVariacionales,comoloeselMØtodoVariacional Bayesiano, se presenta en el anexo A. En el anexo B se incorporan algunos documentos usados en los experimentos del cap(cid:237)tulo (cid:16)Latent Dirichlet Allocation(cid:17) que apoyan y con(cid:28)rman los resultados. Para un mejor datalle de los resultados relacionados con autores y documentos obtenidos con el Modelo de Autores y T(cid:243)picos consulte el anexo C. El œltimo anexo D es una descripci(cid:243)n general del software desarrollado. ˝ndice general x Nomenclature 1. Introducci(cid:243)n 1 2. Modelos de GrÆ(cid:28)cas Probabil(cid:237)sticas 4 2.1. Redes Bayesianas . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.2. Independencia Condicional . . . . . . . . . . . . . . . . . . . . . . 11 2.3. Separaci(cid:243)n D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.4. Cobija de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 3. Markov chain Monte Carlo (MCMC) 18 3.1. Cadenas de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.2. Integraci(cid:243)n Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . 22 3.3. Muestreo de Gibbs . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.4. Di(cid:28)cultades para hacer inferencia usando el MCMC . . . . . . . . 24 3.4.1. Monitoreo de convergencia y problemas ocasionados por la convergencia lenta . . . . . . . . . . . . . . . . . . . . . . 25 3.4.2. Estudio de la autocorrelaci(cid:243)n . . . . . . . . . . . . . . . . 27 3.4.3. GrÆ(cid:28)cas de Kernel . . . . . . . . . . . . . . . . . . . . . . 28 3.4.4. Prueba Z de Geweke . . . . . . . . . . . . . . . . . . . . . 30 3.4.5. MØtodo de Gelman-Rubin . . . . . . . . . . . . . . . . . . 31 4. Latent Dirichlet Allocation (LDA) 33 4.1. Modelo de grÆ(cid:28)cas probabil(cid:237)sticas y proceso generativo del LDA . 34 4.2. LDA suavizado . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 4.3. Muestreo de Gibbs colapsado para LDA suavizado . . . . . . . . . 42 4.3.1. Valores esperados de los parÆmetros . . . . . . . . . . . . . 45 4.4. SemÆntica y LDA . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 4.5. Aplicaciones del LDA . . . . . . . . . . . . . . . . . . . . . . . . . 47 4.5.1. Similitud entre documentos y entre palabras . . . . . . . . 47 4.5.1.1. AnÆlisis de similitud entre documentos . . . . . . 47 v ˝NDICEGENERAL ˝NDICEGENERAL 4.5.1.2. Similitud entre palabras . . . . . . . . . . . . . . 48 4.5.2. Aplicaciones en recuperaci(cid:243)n de informaci(cid:243)n . . . . . . . . 49 4.5.3. Agrupamiento de Documentos . . . . . . . . . . . . . . . . 49 4.5.4. AnÆlisis de la tendencia entre los t(cid:243)picos . . . . . . . . . . 50 4.5.4.1. T(cid:243)picos de moda . . . . . . . . . . . . . . . . . . 50 4.5.4.2. Progresi(cid:243)n de t(cid:243)picos de interØs por per(cid:237)odos de tiempo . . . . . . . . . . . . . . . . . . . . . . . . 50 4.6. Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 4.6.1. Experimento sintØtico 1 . . . . . . . . . . . . . . . . . . . 51 4.6.2. Experimento sintØtico 2 . . . . . . . . . . . . . . . . . . . 55 4.6.2.1. Selecci(cid:243)n de modelo . . . . . . . . . . . . . . . . 58 4.6.3. Experimento de texto con datos reales . . . . . . . . . . . 61 4.6.3.1. Base de datos de NIPS . . . . . . . . . . . . . . . 61 4.6.4. Base de datos de WormsBase . . . . . . . . . . . . . . . . 64 5. Modelo de Autores y T(cid:243)picos 86 5.1. Modelo de GrÆ(cid:28)cas y Proceso Generativo . . . . . . . . . . . . . . 87 5.2. Muestreo de Gibbs para el Modelo de Autores y T(cid:243)picos . . . . . 88 5.3. Aplicaciones del Modelo de Autores y T(cid:243)picos . . . . . . . . . . . 97 5.3.1. AnÆlisis de Tendencia de los Autores por Aæo . . . . . . . 98 5.3.2. Detecci(cid:243)n de Documentos poco Comunes . . . . . . . . . . 98 5.3.3. Comparaci(cid:243)n de T(cid:243)picos entre Autores . . . . . . . . . . . 99 5.3.4. Etiquetado AutomÆtico de Nuevos Documentos para Au- tores en la Colecci(cid:243)n . . . . . . . . . . . . . . . . . . . . . 99 5.4. Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 5.4.1. Experimento con sintØtico . . . . . . . . . . . . . . . . . . 100 5.4.2. Base de datos de NIPS . . . . . . . . . . . . . . . . . . . . 106 5.4.3. Base de datos de WormBase . . . . . . . . . . . . . . . . . 112 6. Discuci(cid:243)n 123 6.1. Bene(cid:28)cios del Uso del Muestreo de Gibbs . . . . . . . . . . . . . . 124 6.2. Bene(cid:28)cios de Usar un Modelo . . . . . . . . . . . . . . . . . . . . 125 7. Conclusiones 129 7.1. Trabajo a futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 A. MØtodos Variacionales 131 B. Recopilaci(cid:243)n de resœmenes para clasi(cid:28)caci(cid:243)n y agrupamiento 135 B.1. Agrupamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 B.1.1. Grupo 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 B.1.2. Grupo 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 vi ˝NDICEGENERAL ˝NDICEGENERAL B.1.3. Grupo 11 . . . . . . . . . . . . . . . . . . . . . . . . . . . 144 B.1.4. Grupo 29 . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 B.2. Recuperaci(cid:243)n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 C. Recopilaci(cid:243)n de datos para el Modelo de Autores y T(cid:243)picos 158 C.1. T(cid:237)tulos por autor para NIPS . . . . . . . . . . . . . . . . . . . . . 158 C.1.1. T(cid:243)pico 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 C.1.2. T(cid:243)pico 16 . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 C.1.3. T(cid:243)pico 31 . . . . . . . . . . . . . . . . . . . . . . . . . . . 168 C.1.4. T(cid:243)pico 44 . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 C.1.5. T(cid:243)pico 50 . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 C.2. T(cid:237)tulos por autor para wormbase . . . . . . . . . . . . . . . . . . 175 C.2.1. T(cid:243)pico 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175 C.2.2. T(cid:243)pico 18 . . . . . . . . . . . . . . . . . . . . . . . . . . . 178 C.2.3. T(cid:243)pico 29 . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 C.2.4. T(cid:243)pico 32 . . . . . . . . . . . . . . . . . . . . . . . . . . . 184 C.2.5. T(cid:243)pico 48 . . . . . . . . . . . . . . . . . . . . . . . . . . . 187 C.2.6. T(cid:243)pico 50 . . . . . . . . . . . . . . . . . . . . . . . . . . . 190 D. Descripci(cid:243)n del Software 193 Referencias 196 vii ˝ndice de (cid:28)guras 2.1. Modelo de grÆ(cid:28)cas probabil(cid:237)sticas de la ecuaci(cid:243)n 2.3. . . . . . . . 7 2.2. Modelo de grÆ(cid:28)cas probabil(cid:237)sticas con mœltiples variables. . . . . . 8 2.3. Modelo de grÆ(cid:28)cas probabil(cid:237)sticas en Plate Notation equivalente al de la (cid:28)gura 2.2. . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.4. Modelo de grÆ(cid:28)cas probabil(cid:237)sticas de la regresi(cid:243)n polinomial con- siderando parÆmetros. . . . . . . . . . . . . . . . . . . . . . . . . 9 2.5. Modelo de grÆ(cid:28)cas probabil(cid:237)sticas de la regresi(cid:243)n polinomial con- siderando parÆmetros y con variables observadas. . . . . . . . . . 10 2.6. Modelo de grÆ(cid:28)cas conocido como (cid:16)divergente(cid:17). . . . . . . . . . . 12 2.7. Modelo de grÆ(cid:28)cas conocido como (cid:16)serial(cid:17). . . . . . . . . . . . . . 13 2.8. Modelo de grÆ(cid:28)cas conocido como (cid:16)convergente(cid:17). . . . . . . . . . . 14 2.9. Modelo de grÆ(cid:28)cas de una muestra i.i.d. para el caso de una gaus- siana univariada. . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.10.Un ejemplo de la Cobija de Markov para la variable x . . . . . . . 17 i 3.1. Evoluci(cid:243)n de dos medias en el proceso de muestreo de la cadena de Markov. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.2. Evoluci(cid:243)n de los parÆmetros θ y θ inicializados con diferentes 1 2 valores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 3.3. Una aparente convergencia del parÆmetro. . . . . . . . . . . . . . 27 3.4. GrÆ(cid:28)ca de la autocorrelaci(cid:243)n para los parÆmetros θ y θ con una 1 2 correlaci(cid:243)n aœn elevada. . . . . . . . . . . . . . . . . . . . . . . . 28 3.5. GrÆ(cid:28)ca de la autocorrelaci(cid:243)n para los parÆmetros θ y θ con una 1 2 correlaci(cid:243)n moderada. . . . . . . . . . . . . . . . . . . . . . . . . 28 3.6. Estimaci(cid:243)n de kernels que aœn no demuestran convergencia. . . . 29 3.7. Estimaci(cid:243)n de kernels que demuestran convergencia. . . . . . . . . 30 4.1. Modelo generativo probabil(cid:237)stico LDA. . . . . . . . . . . . . . . . 34 4.2. Modelo generativo probabil(cid:237)stico LDA suavizado. . . . . . . . . . 36 4.3. Ejemplo de la palabra (cid:16)banco(cid:17) manejada en diferentes contextos. . 46 4.4. T(cid:243)picos desde los cuales fueron generadas los patrones de franjas. 55 viii ˝NDICEDEFIGURAS ˝NDICEDEFIGURAS 4.5. Un subconjunto de datos de entrenamiento usados para aprender los parÆmetros del modelo. . . . . . . . . . . . . . . . . . . . . . . 56 4.6. Evoluci(cid:243)n de los t(cid:243)picos en diferentes iteraciones. . . . . . . . . . 57 4.7. Evoluci(cid:243)n de la estimaci(cid:243)n con respecto al nœmero de iteraciones. 57 4.8. Diversos valores de β y α = 1 para la grÆ(cid:28)ca de la selecci(cid:243)n de modelo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 4.9. Abstract del art(cid:237)culo titulado (cid:16)Two Iterative Algorithms for Com- putingtheSingularValueDecompositionfromInput/OutputSam- ples(cid:17) escrito por Terence D. Sanger y obtenido de la base de datos de NIPS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 4.10.Proporci(cid:243)n de aparici(cid:243)n de los t(cid:243)picos en una muestra aleatoria de 100 documentos de la colecci(cid:243)n. . . . . . . . . . . . . . . . . . . . 66 4.11.Mezcla de t(cid:243)picos para el documento titulado (cid:16)Regulation of cell polarity and asymmetric cell division by lin-44wnt and wrm-1- catenin(cid:17). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 4.12.Extracto del resumen del art(cid:237)culo titulado (cid:16)Regulation of cell pola- rity and asymmetric cell division by lin-44wnt and wrm-1-catenin(cid:17) etiquetados de forma automÆtica. . . . . . . . . . . . . . . . . . . 67 4.13.Proporci(cid:243)n de aparici(cid:243)n de la primera palabra de cada t(cid:243)pico. . . 68 4.14.Distribuci(cid:243)n de los t(cid:243)picos para los documentos consulta, el mÆs parecido y el menos parecido. . . . . . . . . . . . . . . . . . . . . 70 4.15.Parte del resumen perteneciente al documento 55. . . . . . . . . . 71 4.16.Parte del abstrac perteneciente al documento 31. . . . . . . . . . 71 4.17.Dendograma de la muestra de 100 documentos presentados en la (cid:28)gura 4.10. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 4.18.Distribuci(cid:243)n de los t(cid:243)picos para los documentos del grupo 1. . . . 75 4.19.Distribuci(cid:243)n de los t(cid:243)picos para los documentos del grupo 6. . . . 78 4.20.Distribuci(cid:243)n de los t(cid:243)picos para los documentos del grupo 11. . . 80 4.21.Distribuci(cid:243)n de los t(cid:243)picos para los documentos del grupo 29. . . 83 4.22.GrÆ(cid:28)ca de p(q|d ) para la recuperaci(cid:243)n de documentos. . . . . . . 84 i 5.1. Modelo de grÆ(cid:28)cas probabil(cid:237)sticas del Modelo de Autores y T(cid:243)pi- cos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 5.2. Modelo de Autores y T(cid:243)picos extendido. . . . . . . . . . . . . . . 96 5.3. T(cid:243)picos desde los cuales fueron generadas las imÆgenes. . . . . . . 100 5.4. T(cid:243)picosobtenidosalcorrerelalgoritmoparaelmodelosdeAutores y T(cid:243)picos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 5.5. GrÆ(cid:28)ca de la perplejidad aplicada a los resultados obtenidos me- diante el muestro de Gibbs para LDA, Variational Bayes y mues- treo de Gibbs para el Modelo de Autores y T(cid:243)picos. . . . . . . . . 102 5.6. Distribuci(cid:243)n de los autores y los t(cid:243)picos. . . . . . . . . . . . . . . 103 ix

Description:
Notation en la cual basta sustituir los ciclos por submodelos de gráficas que representan el an algorithm36 named49 " ltering36 step"16 which reduces36 .. Combinatorial control of touch receptor neuron expression.
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.