Tesis de Maestría DDeessccuubbrriimmiieennttoo ddee ppaattrroonneess tteemmppoorraalleess eenn uunn ccoorrppuuss ddee lleettrraass ddee mmúússiiccaa ffoollkkllóórriiccaa yy ddeell rroocckk rriiooppllaatteennssee Bach, Ana Josefina 2016-10-07 Este documento forma parte de la colección de tesis doctorales y de maestría de la Biblioteca Central Dr. Luis Federico Leloir, disponible en digital.bl.fcen.uba.ar. Su utilización debe ser acompañada por la cita bibliográfica con reconocimiento de la fuente. This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico Leloir, available in digital.bl.fcen.uba.ar. It should be used accompanied by the corresponding citation acknowledging the source. Cita tipo APA: Bach, Ana Josefina. (2016-10-07). Descubrimiento de patrones temporales en un corpus de letras de música folklórica y del rock rioplatense. Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. Cita tipo Chicago: Bach, Ana Josefina. "Descubrimiento de patrones temporales en un corpus de letras de música folklórica y del rock rioplatense". Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. 2016-10-07. DDiirreecccciióónn:: Biblioteca Central Dr. Luis F. Leloir, Facultad de Ciencias Exactas y Naturales, Universidad de Buenos Aires. CCoonnttaaccttoo:: [email protected] Intendente Güiraldes 2160 - C1428EGA - Tel. (++54 +11) 4789-9293 UNIVERSIDAD DE BUENOS AIRES Facultad de Ciencias Exactas y Naturales Departamento de Computacio´n Descubrimiento de patrones temporales en un corpus de letras de mu´sica folklo´rica y del rock rioplatense Tesis presentada para optar al t´ıtulo de Mag´ıster en Explotacio´n de Datos y Descubrimiento de Conocimiento Ana Josefina Bach Director de tesis: Jose Castan˜o Buenos Aires, 2016 Resumen Culturomics es la aplicacio´n de recopilacio´n y an´alisis de datos para el estudio de la cultura humana. La miner´ıa de textos temporal se presenta como una herramienta para alcanzar los objetivos de Culturomics, mediante el procesamiento automa´tico y el establecimiento de patrones para explicar la historia. El objetivo de este trabajo fue utilizar t´ecnicas de explotaci´on de datos y aprendizaje automa´tico para detectar la existencia patrones temporales en las letras del rock y del folklore argentino. Para ello se armo´ un corpus de letras de rock y folklore comprendidas entre 1960 y 2014. A este corpus se le aplicaron t´ecnicas de agrupamiento de to´picos y de clasificacio´n para determinar la existencia de una relaci´on entre los t´opicos y los hitos hist´oricos. Palabras claves: Culturomics, Miner´ıa de textos temporal, LDA, Factorizacio´n ma- tricial no negativa din´amica, VowpalWabbit, Word2Vec. iii iv Abstract Culturomics is the application of high-throughput data collection and analysis to the studyofhumanculture.Textminingispresentedasausefulmethodologytoachievethe goals of Culturomics, performing automatic processing, and setting patterns to explain history. The aim of this study is to use data mining techniques and machine learning to detect any patterns in Argentine rock and folklore songs throughout history. For this purpose, a corpus of rock and folk song lyrics was built considering the periods between theyear1960and2014.Thiscorpuswassubjecttoclusteringandclassificationoftopics techniques to determine the presence of a relationship between topics and milestones. Keywords: Culturomics, Temporal Text Mining, LDA, Dynamic Non-negative Matrix Factorization, VowpalWabbit, Word2Vec. v ´ Indice general 1. Introduccio´n 1 1.1. Culturomics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2. Miner´ıa de textos temporal . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3. Trabajo anterior . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.4. Objetivo de la tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.5. Organizacio´n de la tesis . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2. T´ecnicas utilizadas para el an´alisis y agrupamiento de textos 6 2.1. Latent Dirichlet Allocation (LDA) . . . . . . . . . . . . . . . . . . . . . 6 2.2. Modelado din´amico de t´opicos (Dynamic Topic Modeling) . . . . . . . 9 2.3. Factorizacio´n matricial no negativa (Non- negative Matrix Factorization) . . . . . . . . . . . . . . . . . . . . . . . 11 2.4. Word2vec . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.5. Topicos a trav´es del tiempo (Topics over the time) . . . . . . . . . . . . 17 3. Materiales y m´etodos 20 3.1. Materiales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.2. M´etodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 3.2.1. An´alisis exploratorio . . . . . . . . . . . . . . . . . . . . . . . . 27 3.2.2. Clasificaci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 4. Resultados 56 4.1. Experimentos Exploratorios . . . . . . . . . . . . . . . . . . . . . . . . 56 4.1.1. Ventanas de tiempo . . . . . . . . . . . . . . . . . . . . . . . . . 56 4.1.2. Corpus sin separar ventanas . . . . . . . . . . . . . . . . . . . . 67 4.2. Clasificacio´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 vi 4.2.1. M´etricas de evaluacio´n . . . . . . . . . . . . . . . . . . . . . . . 75 5. Conclusio´n 81 5.1. Conclusio´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 5.2. Trabajos a futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 A. Lista de Stopwords 83 B. Gr´aficos de uso de las palabras a trav´es del tiempo 85 vii viii ´ 1 CAPITULO Introducci´on En este cap´ıtulo se introduce el concepto de Culturomics para la interpretacio´n de las tendencias culturales y la relacio´n de Culturomics con Miner´ıa de texto. Se presenta un trabajo anterior realizado sobre un corpus de letras de rock argentino, en el cual se aplicaron t´ecnicas de miner´ıa de texto para detectar patrones de comportamiento temporales. Finalmente se define el objetivo de esta tesis. 1.1. Culturomics Culturomics es un neologismo creado por investigadores de Harvard para refe- rirse a una forma de lexicolog´ıa computacional que estudia el comportamiento hu- mano y las tendencias culturales reflejadas en el lenguaje y en el uso de palabras [Michel et al., 2011]. Inicialmente se utilizaron libros para su estudio, pero tambi´en se planea incorporar peri´odicos, manuscritos, mapas, obras de arte, y otras creaciones humanas.Laclavedeesteenfoqueeselprocesamientoautoma´ticodemillonesdetextos. Los resultados de Culturomics son un nuevo tipo de evidencia en las humanidades. Al igual que con los f´osiles de criaturas antiguas, el reto de Culturomics reside en la interpretacio´n de esta evidencia. Las caracter´ısticas de una sociedad se pueden determinar a trav´es de fuentes no tradicionales, como la mu´sica. Las obras musicales, como objeto susceptible de estudio en el campo de Culturomics, poseen informaci´on temporal y proveen un archivo de la evolucio´n de la cultura. “El an´alisis estil´ıstico no tiene por qu´e considerar para´metros externos a la mu´sica tales como la ideolog´ıa, las circunstancias pol´ıticas y sociales. Sin embargo, la historia 1
Description: