UNIVERSIDAD COMPLUTENSE DE MADRID FACULTAD DE INFORMÁTICA Departamento de Ingeniería del Software e Inteligencia Artificial IDENTIFICACIÓN AUTOMÁTICA DEL CONTENIDO AFECTIVO DE UN TEXTO Y SU PAPEL EN LA PRESENTACIÓN DE INFORMACIÓN MEMORIA PARA OPTAR AL GRADO DE DOCTOR PRESENTADA POR Virginia Francisco Gilmartín Bajo la dirección del doctor Pablo Gervás Gómez-Navarro Madrid, 2008 • ISBN: 978-84-692-1006-2 Identificacio´n Autom´atica del Contenido Afectivo de un Texto y su Papel en la Presentaci´on de Informacio´n Tesis doctoral Presentada por Virginia Francisco Gilmart´ın para optar al grado de Doctor en Inform´atica Dirigida por el Prof. Dr. D. Pablo Gerv´as G´omez-Navarro Departamento de Ingenier´ıa del Software e Inteligencia Artificial Facultad de Inform´atica Universidad Complutense de Madrid Madrid, septiembre de 2008 Identificacio´n Autom´atica del Contenido Afectivo de un Texto y su Papel en la Presentaci´on de Informacio´n Tesis doctoral Presentada por Virginia Francisco Gilmart´ın para optar al grado de Doctor en Inform´atica Dirigida por el Prof. Dr. D. Pablo Gerv´as G´omez-Navarro Departamento de Ingenier´ıa del Software e Inteligencia Artificial Facultad de Inform´atica Universidad Complutense de Madrid Madrid, septiembre de 2008 Agradecimientos Aqu´ıestalapartem´asdif´ıcildemitesis,lapartequem´asmehacostado escribir y que m´as veces he reescrito. Todo esto por dos motivos fundamen- tales, primero porque ser´a la parte m´as le´ıda y, en muchos casos, la u´nica parte que la mayor´ıa de la gente lee. Todos esperan ver como se distribuye los agradecimientos, qu´e se debe a cada persona y qu´e se dice a cada uno. Y en segundo lugar porque seguro que me olvidar´e de alguien y lo lamen- tar´e eternamente. Pero bueno, vamos a empezar y espero no defraudar a nadie. Esta tesis doctoral, ha requerido de esfuerzo y mucha dedicaci´on por mi parte, pero su finalizaci´on no hubiese sido posible sin la cooperaci´on desinteresadadetodasycadaunadelaspersonasqueacontinuaci´oncitar´ey muchas de las cuales han sido un soporte muy fuerte en los momentos m´as dif´ıciles. En primer lugar, mi m´as sincero agradecimiento a mi director de tesis, el Dr. Pablo Gerv´as a quien debo el haber llegado a la Universidad y haber podido realizado esta tesis. Gracias a la Universidad La Salle, por poner a mi disposici´on la herra- mienta de evaluaci´on empleada en este trabajo, en especial a David Garc´ıa Solorzano que pele´o conmigo para que la evaluaci´on saliera adelante. Un agradecimiento muy especial para todos los evaluadores sin los que este trabajo no habr´ıa sido posible y que quiero nombrar uno a uno en este espacio para que quede constancia de su esfuerzo: Raquel Herv´as, Federico Peinado, M´onica G´onzalez, Laura Plaza, Pablo Moreno, Susana Bautista, Carlos Le´on, Alaukik, Alberto D´ıaz, Angela Francisco, Juan, Jorge, Javier Arroyo,FranciscoGuzman,Jos´eRam´onPer´ez,Jesu´sHerrera,HectorG´omez, Gonzalo Mendez, Patricio Galera, Nuria, Patricia Sanz, Ton˜i Torren˜o, Susi, Ana Casas, Miguel Vazquez, Cristina Sobrados, Juanma Mart´ın, Cristina Arquiaga, Pilar Garc´ıa, Mar´ıa del Blanco, Borja Foncillas, Pilar Bravo, Alvaro Mart´ın, Alberto D´ıaz, Guillermo Jimenez, David, Miguel, Susana, Beatriz, Silvia, Celia, Lucia y Jesu´s. Gracias a mis amigos y compan˜eros de departamento por su inestimable apoyo y por la paciencia de los que han actuado como revisores y evalua- dores de mi trabajo. Sobre todo gracias a Raquel Herv´as que siempre esta ah´ı cuando la necesitas y te presta su ayuda de manera incondicional. Tambi´en me gustar´ıa agradecer la colaboraci´on prestada por M´onica G´onzalez Jenal, que como becaria del grupo me ha ayudo en las mejoras del sintetizador de voz. Un especial agradecimiento a toda la gente del Department of Informat- ics Engineering de la Universidad de Coimbra, que me acogi´o durante una temporada en su Universidad. Esa estancia me ayudo a poner mis ideas en orden y a “dar un gran empuj´on” a esta tesis. Siendo especial este agrade- cimiento a Francisco Cˆamara Pereira y Am´ılcar Cardoso. vi Deunamaneram´asformal,aunquenomenosimportante,quieroagrade- cer el apoyo moral y econ´omico que me han ofrecido las siguientes institu- ciones: Grupo de investigaci´on NIL, financiado por la CAM - UCM (CCG07- UCM/TIC-2803). Departamento de Ingenier´ıa del Software e Inteligencia Artificial y Facultad de Inform´atica de la Universidad Complutense de Madrid. Proyectos “Galante: Generaci´on de lenguaje natural para textos con emociones” del Ministerio de Educaci´on y Ciencia (TIN2006-14433- C02-01) y proyecto “Javy Forest: Application of Metaphor and Blend- ing in game environments” del Ministerio de Ciencia y Tecnolog´ıa, en Acci´on Integrada Hispano-Portuguesa (HP2003-0068) entre la Univer- sidad Complutense de Madrid y la Universidad de Coimbra. En un a´mbito m´as privado quer´ıa dar las gracias a Juanma por ser la persona que ha compartido el mayor tiempo a mi lado, porque en su compan˜´ıa las cosas malas se convierten en buenas, la tristeza se transforma en alegr´ıa y la soledad no existe. Agradecer hoy y siempre a mi familia el ´animo, apoyo y alegr´ıa que me brindan y me da la fortaleza necesaria para seguir adelante. Esta claro que si no fuese por el esfuerzo realizado por ellos hoy no estar´ıas leyendo esta tesis. En general quisiera agradecerles su apoyo a todas y cada una de las per- sonasquehanestadoconmigodurantelarealizaci´ondeestetrabajo,consus altos y bajos y que no necesito nombrar porque tanto ellas como yo sabemos que desde lo m´as profundo de mi coraz´on les agradezco el haberme brindado todo el apoyo y colaboraci´on pero sobre todo su carin˜o y su amistad. Resumen “Cogito ergo sum” Descartes (1596-1650) A medida que la generaci´on autom´atica de textos y de di´alogos va avan- zando, y que las aplicaciones que reconocen lo que las personas tratan de decir a una m´aquina son cada vez m´as sofisticadas, comienza a ser impor- tante investigar propiedades m´as interesantes de la generaci´on de textos y di´alogos. Una de estas nuevas ´areas de investigaci´on es la generaci´on y el reconocimiento de emociones. La marcaci´on de textos con emoci´on es fundamental para cualquier in- tento de hacer que la relaci´on hombre-m´aquina responda de alguna manera a la naturaleza afectiva presente en cualquier relaci´on humana. En concre- to, la aparici´on de emociones en los textos es muy importante a la hora de generar voz sintetizada con distintos estados emocionales, pero tambi´en se puede aplicar en muchos otros contextos como las presentaciones multi- modalesdondeloscolores,latipogr´aficaolamu´sicasepuedenemplearpara transmitir emociones. La marcaci´on de textos con contenido emocional no es una tarea f´acil ya que la asignaci´on de emociones es una tarea subjetiva, e incluso a los humanosnosresultadif´ıcilponeretiquetasemocionalesauntexto.Ser´a,por lotanto,muyimportanteenestetrabajorealizarunestudiodelamarcaci´on realizada por humanos para poder acotar esta subjetividad y conseguir un m´etodo adecuado de marcaci´on de texto con contenido emocional. Actualmente se esta trabajando mucho en la asignaci´on de etiquetas a los textos que indiquen si lo que expresan es positivo, negativo o neutro y tambi´en hay mucho trabajo en el campo de la subjetividad de los textos, pero existe muy poco trabajo en el ´ambito de la marcaci´on de textos con emociones, y el trabajo que existe se limita a marcar unas pocas emociones b´asicas dejando a un lado el resto de emociones que son importantes para la comunicaci´on hombre-m´aquina. Adem´as muchos de los sistemas que existen no tienen en cuenta el papel de la negaci´on en la marcaci´on de emociones o como influyen las oraciones subordinadas en la emoci´on final. Los sistemas existentes tratan las emociones como unidades aisladas que no tienen rela- ciones entre s´ı y por lo tanto no se pueden combinar, unir o comparar. Nuestra metodolog´ıa trata de marcar textos con emociones, y no solo con un conjunto reducido de ellas, sino con un amplio conjunto en el que se engloban emociones b´asicas junto con emociones m´as especificas. Adem´as nuestro m´etodo trata de ir m´as all´a, empleando varios m´etodos de repre- sentaci´on de emociones para obtener un marcado m´as flexible y que pueda adaptarseacualquiersistemaquenecesiteuntextomarcadoconemociones. Nuestra marcaci´on tiene en cuenta aspectos importantes como la negaci´on o la presencia de oraciones subordinadas. Adem´as hemos creado una tax- viii onom´ıa de emociones que nos permite relacionarlas entre s´ı, unirlas y com- pararlas. Como resultado de este trabajo tenemos un corpus de cuentos marca- dos emocionalmente por varios evaluadores, una ontolog´ıa de emociones, un sistema de marcado de textos con contenido afectivo y una metodolog´ıa de evaluacio´n que podr´a ser aplicada en otros trabajos de marcaci´on de texto con contenido afectivo.
Description: