ebook img

marco metodológico para la construcción de sistemas de generación de lenguaje natural PDF

411 Pages·2006·18.1 MB·Spanish
by  
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview marco metodológico para la construcción de sistemas de generación de lenguaje natural

UNIVERSIDAD POLITÉCNICA DE MADRID FACULTAD DE INFORMÁTICA DEPARTAMENTO DE INTELIGENCIA ARTIFICIAL MARCO METODOLÓGICO PARA LA CONSTRUCCIÓN DE SISTEMAS DE GENERACIÓN DE LENGUAJE NATURAL TESIS DOCTORAL AUTORA: M^ DEL SOCORRO BERNARDOS GALINDO DIRECTORAS: Dra. GUADALUPE AGUADO DE CEA Dra. ASUNCIÓN GÓMEZ PÉREZ 2003 Resumen La Generación de Lenguaje Natural (GLN) es una subárea del Procesamiento de Lenguaje Natural (PLN) que trata de la producción automática de textos en una lengua humana a partir de una representación computacional de la información. La GLN es una disciplina relativamente reciente, que no ha sido considerada como una materia con entidad propia hasta la década de 1980. Como se sabe, una de las principales dificultades que presentan las nuevas tecnologías es la carencia de estándares o metodologías comúnmente aceptadas. En el caso de la construcción de sistemas de GLN la situación es la siguiente. Por un lado, si bien se han descrito métodos y técnicas para resolver ciertas cuestiones de la GLN, no se ha planteado un conjunto de pasos sistemáticos que abarque la elaboración completa de un sistema de GLN. Por otro lado, los sistemas ya desarrollados sólo pueden utilizarse, en el mejor de los casos, como apoyo en la realización de algunos de los módulos del nuevo sistema; primero porque se han construido específicamente para un dominio, de forma que adoptan soluciones particulares que no son generalizables, y, segundo, porque normalmente sólo se tiene acceso a información muy general sobre los mismos o sobre algún método utilizado en una tarea concreta, es decir, no se dispone de documentación que explique detalladamente la construcción de esos sistemas de principio a fin. Con el fin de tener un punto de referencia para futuros proyectos de GLN, esta tesis se propone como objetivo elaborar un marco metodológico que sirva de guía en el desarrollo de un sistema de GLN y que abarque todas las actividades implicadas en ese proceso. Así, el fin último de este trabajo es ayudar a convertir el proceso de construcción de un sistema de GLN, actualmente muy artesanal, en una disciplina propia del ámbito de la ingeniería (de manera similar a lo ocurrido con los sistemas de ingeniería del software e ingeniería del conocimiento). Es decir, que produzca sistemas de GLN sin fallos, acabados a tiempo, dentro del presupuesto y que satisfagan las necesidades del usuario, usando para ello un enfoque sistemático, disciplinado y cuantifícable que se sirva de métodos y técnicas formales. Para conseguir esto se proporciona: • Una revisión crítica de la GLN. Para ello se elaboran definiciones de los diferentes conceptos, unificando visiones complementarias y relacionando los términos empleados con los que utilizan distintos investigadores y desarroUadores en el ámbito de la GLN. • Un conjunto de actividades que hay que realizar para construir un sistema de GLN. Con esto se busca obtener una relación de todo lo que se debe hacer cuando se quiere elaborar un sistema de este tipo. Se toma como base un estándar para el desarrollo del proceso de ciclo de vida de un sistema software, en concreto, el IEEE 1074-1997, y se modifica para poder aplicarlo a la GLN. • Una indicación de cómo llevar a cabo esas actividades, centrándose en aquellas que presentan diferencias con el estándar. Siempre que la experiencia en GLN lo permite, se señalan los métodos y técnicas (previamente existentes o propuestas nuevas planteadas en esta tesis) que se pueden aplicar para llevar a cabo las actividades, y se resaltan los aspectos más importantes que hay que tener en cuenta cuando se están realizando dichas actividades. • Una estrategia de construcción. Se intenta ayudar a crear un ciclo de vida del sistema de GLN estableciendo un orden general de realización de las actividades anteriores, que luego se tendrá que refínar para cada proyecto concreto. Todas estas aportaciones se validan mediante la realización de un proyecto de GLN, que consiste en la construcción de un sistema de consulta sobre plantas medicinales que produce respuestas en español. Abstract Natural Language Generation (NLG) is a subfield of Natural Language Processing (NLP) that deals with the production of text in a human language by a machine. NLG is a relatively new discipline, which has not been considered as an individual subject until the 1980s. One of the main problems of new technologies is the lack of standards or commonly accepted methodologies. The situation in the development of NLG systems is the following: On the ene hand, although there are methods and techniques that have been described to solve some NLG matters, no set of systematic steps covering the elaboration of a NLG system as a whole has been presented. On the other hand, the existing systems can only be used, in the best case, as a support in the development of some modules of the new system; first, because they have been build for a specific domain, so they adopt particular solutions that are not generalizable; and, second, because the available Information about them is usually very general or only related to a particular task, in other words, there is not available documentation explaining the development of those systems from the beginning to the end in detail. With the aim of having a reference point in future NLG projects, this thesis' goal is to elabórate a methodological framework that can be used as a guide in the development of a NLG system and that covers all the activities involved in that process. Thus, the ultímate purpose of this work is to help tum the process of building a NLG system, currently a very handcrafted one, into a discipline belonging to the engineering field (similar to the transformation that has taken place in Software and Knowledge Engineering). In other words, a process that produces NLG systems that have no errors, are finished within the scheduled time and budget, and satisfy the user needs. This process will follow a systematic and quantifíable approach, which uses formal methods and techniques. In order to achieve these objectives, the thesis provides the following contributions: • A review ofNLG. Defmitions of different concepts are given, by unifying complementary points of view and relating terms employed by different researchers and developers within the NLG community. • A coUection of activities that have to be done to build a NLG system. The aim of this is to get a list of everything that must be done when developing such a system. A standard to develop a software Ufe cycle process, IEEE Std. 1074-1997, is taken as a basis, and this standard is modified and adapted for NLG. • A set of Instructions on how to carry on each activity, focusing on those that present differences firom the standard. If experience permits it, some methods and techniques (previously existing ones or new proposals given in this thesis) that can be applied to do each activity are pointed out, and the most important aspects when realizing the activity are remarked. • A development strategy, that will help to créate a software process life cycle by setting up a general order among the afore-mentioned activities. This strategy will have to be refined for each particular project. All these contributions are validated by the development of a NLG system that generates answers in Spanish to questions about medicinal plants. índice índice 1 Introducción 1 1.1 Motivación y objetivos / 1.2 Hipótesis de trabajo 5 1.3 Estructura de la tesis 8 2 lutroducción a la GLN 11 2.1 La GLN dentro del PLN. 12 2.2 Otros campos relacionados con la GLN. 15 2.3 Breve recorrido histórico de la GLN. 16 2.4 Aplicación de la tecnología de GLN. 19 2.5 Resumen y conclusiones 24 3 Teorías principales en la GLN 25 3.1 La teoría sobre la estructura retórica 25 3.1.1 La teoría de representación del discurso 27 3.2 La teoría de Groszy Sidner. 28 3.2.1 La RST y la GST 29 3.3 La teoría del centramiento 31 3.4 La teoría sentido-texto 32 3.5 La gramática sistémico-funcional 33 3.6 La gramática de unificación funcional 35 3.7 Resumen y conclusiones 35 4 La GLN paso a paso 37 4.1 Las tareas de un sistema de GLN. 37 4.1.1 Resumen y conclusiones 41 4.2 Enfoques generales utilizados en la GLN 41 4.2.1 Resumen y conclusiones 45 4.3 Determinación del contenido del texto 45 4.3.1 Enfoques, métodos y técnicas para la determinación del contenido...46 4.3.2 Resumen y conclusiones 50 4.4 Estructuración retórica del texto 50 4.4.1 Enfoques, métodos y técnicas para la estructuración retórica 51 4.4.1.1 Enfoques de arriba abajo 52 4.4.1.1.1 Esquemas 52 4.4.1.1.2 Planificación 55 4.4.1.2 Enfoques de abajo a arriba 61 4.4.1.3 Búsqueda 65 4.4.1.4 Ordenamiento 66 4.4.2 Resumen y conclusiones 69 4.5 Lexicalización del texto 70 Marco metodológico para la construcción de sistemas de GLN i índice 4.5.1 Enfoques, métodos y técnicas para la lexicalización 71 4.5.2 Resumen y conclusiones 75 4.6 Agregación del texto 75 4.6.1 Enfoques, métodos y técnicas para la agregación 77 4.6.1.1 Combinación de elementos informativos 77 4.6.1.2 Ordenamiento 84 4.6.2 Resumen y conclusiones 85 4.7 Generación de las expresiones de referencia del texto 86 4.1.1 Enfoques, métodos y técnicas para la generación de expresiones de referencia 87 4.7.1.1 Algoritmos para la generación de expresiones de referencia 93 4.7.2 Resumen y conclusiones 96 4.8 Realización gramatical del texto 97 4.8.1 Enfoques, métodos y técnicas para la realización gramatical 98 4.8.1.1 Realización con ima gramática bidireccional 101 4.8.1.2 Realización con \ma SFG 105 4.8.1.3 Realización con una gramática de la MTT 105 4.8.1.4 Realización con métodos estadísticos 106 4.8.1.5 Realización con aprendizaje automático 107 4.8.1.6 Realización con una gramática de atributos 110 4.8.1.7 Realización con ima TAG 111 4.8.1.8 Realización con una HPSG 113 4.8.1.9 Realización con una ATN 114 4.8.2 Componentes de realización disponibles 116 4.8.2.1 Tipos de especificaciones que entran a un realizador 116 4.8.2.2 KPML 119 4.8.2.3 FUF/SURGE 121 4.8.2.4 RealPro 123 4.8.3 Resumen y conclusiones 125 4.9 Realización de la presentación del texto 127 4.9.1 Enfoques, métodos y técnicas para la realización de la presentación 127 4.9.2 Resumen y conclusiones 128 4.10 Resumen y conclusiones 129 Arquitectura de los sistemas de GLN 131 5.1 Paradigmas arquitectónicos 131 5.1.1 Arquitectura integrada 133 5.1.2 Arquitectura modular 134 5.1.2.1 Arquitectura secuencial 135 5.1.2.2 Arquitecturas con retroalimentación 138 5.1.2.3 Arquitecturas con revisión 140 5.2 Arquitecturas de referencia 143 5.2.1 Arquitectura del proyecto RAGS 144 5.2.2 Arquitectura de Reiter y Dale 149 5.3 Resumen y conclusiones 152 Marco metodológico para la construcción de sistemas de GLN índice 6 Revisión de algunos sistemas de GLN 155 6.1 Descripción de los sistemas de GLN. 155 6.1.1 ERMA 155 6.1.2 BABEL 156 6.1.3 ANA 157 6.1.4 GOSSIP 158 6.1.5 FoG 160 6.1.6 LFS ; 161 6.1.7 STREAK 163 6.1.8 AlethGen 165 6.1.9 GIST 166 6.1.10PostGrapheySeltex 168 6.1.11 ModelExplainer 170 6.1.12 STOP 172 6.2 Características de comparación 174 6.3 Resumen y conclusiones 181 7 Estándares para el desarrollo del proceso de ciclo de vida de un sistema software 183 7.1 El grupo de estándares ISO 12207 184 7.1.1 El estándar ISO 12207 185 7.1.2 El estándar lEEE/EIA 12207 186 7.2 El estándar IEEE 1074 186 7.3 Resumen y conclusiones 192 8 Presentación de la guía para desarrollar el proceso de ciclo de vida de un sistema de GLN 193 9 Actividades de iniciación del proyecto (A.1.1) 207 9.1 Crear un proceso de ciclo de vida del software (A.1.1.1) 207 9.1.1 Seleccionar un modelo de ciclo de vida 208 9.1.1.1 Modelo de ciclo de vida en cascada 208 9.1.1.1.1 Modelo de ciclo de vida de refinamiento sucesivo 210 9.1.1.1.2 Normas militares y prácticas industriales 210 9.1.1.2 Modelo de ciclo de vida incremental 211 9.1.1.2.1 Modelo de ciclo de vida con emisión gradual 211 9.1.1.2.2 Modelo de ciclo de vida basado en prototipos 211 9.1.1.3 Modelos de ciclo de vida alternativos 212 9.1.1.4 Recomendaciones 213 9.2 Realizar estimaciones (A.1.1.2) 214 10 Actividades de exploración del concepto (A.2.1) 219 10.1 Formular enfoques potenciales (A. 2.1.1) 219 10.2 Realizar estudios de viabilidad (A.2.1.3) 222 Marco metodológico para la construcción de sistemas de GLN iii índice 11 Actividades de acceso a la información del dominio (A.2.4) 225 11.1 Identificar los requisitos de la información del dominio (A.2.4.1) 227 11.2 Evaluar las fuentes de información del dominio disponibles (siprocede) (A.2.4.2) 228 11.2.1 La fuente de información existe y está bien estructurada 229 11.2.2 La fuente de información existe, pero no está bien estructurada 230 11.2.3 No existe una fiíente de información adecuada 230 11.2.4 Las ontologías como fuentes de información del dominio 231 11.3 Seleccionar la fuente de información del dominio (A.2.4.3) 233 11.4 Importar la fuente de información del dominio (A.2.4.4) 234 12 Actividades de requisitos (A.3.1) 235 12.1 Definir los objetivos generales (A.3.1.1') 235 12.2 Definir los requisitos funcionales específicos (A. 3.1.2') 236 12.2.1 Método para la elaboración de un corpus 237 12.2.1.1 Recopilación de textos 238 12.2.1.2 Determinación de las posibles entradas 239 12.2.1.3 Análisis deles textos y délas entradas 240 12.2.1.4 Construcción de un corpus 241 12.2.1.5 Extracción de patrones 243 12.3 Definir los requisitos de las interfaces (A.3.1.3') 244 13 Actividades de educción de conocimientos (A.3.4) 247 13.1 Realizar la educción de conocimientos (A.3.4.1) 247 13.1.1 Método de análisis de corpus 252 14 Actividades de diseño (A.3.2) 255 14.1 Realizar el diseño arquitectónico (A.3.2.1) 255 14.1.1 Aspectos que debe reunir una arquitectura de referencia 256 14.1.2 Interacción entre las tareas de GLN 259 14.1.3 Entradas y recursos utilizados en un sistema de GLN 264 14.1.3.1 Relación entre las entradas y los recursos con las tareas de GLN 273 14.2 Realizar el diseño detallado de los recursos (A.3.2.2') 274 14.2.1 Método para elaborar una gramática (sistémico-fiíncional) 275 14.2.1.1 Decisión sobre la gramática modelo 276 14.2.1.2 Construcción de la gramática 277 14.2.1.2.1 Escritura de especificaciones de oración 277 14.2.1.2.2 Adaptaciones en la gramática 278 14.2.1.2.3 Validación 279 14.2.1.3 Modificación del Corpus 280 14.2.1.4 Documento de cambios en la gramática 280 14.3 Realizar el diseño detallado de los módulos (A.3.2.3').... .283 14.4 Realizar el diseño detallado de las interfaces (A.3.2.4') 284 iv Marco metodológico para la constmcción de sistemas de GLN índice 15 Actividades de evaluación (A.5.1) 287 15.1 Desarrollar procedimientos de prueba (A.5.1.4) 287 15.1.1 Enfoques, métodos y técnicas de evaluación 289 15.1.2 Criterios para evaluar un sistema de GLN 293 16 Actividades de reutilización (A.5.5) 299 16.1 Identificación de posibles elementos reutilizables {A.5.5.1) 300 16.2 Evaluación de los elementos reutilizables (si procede) (A.5.5.2) 301 16.3 Selección de un elemento reutilizable (si procede) (A. 5.5.3) 301 16.4 Importación del elemento seleccionado (siprocede) (A.5.5.4) ..303 17 Dependencias entre las actividades del marco metodológico 305 18 Estrategia para la construcción de sistemas de GLN 335 19 Validación del marco metodológico 341 19.1 Análisis de los resultados 344 20 Conclusiones 349 21 Líneas de trabajo futuro 357 22 Bibliografía y referencias 361 Anexo I: Glosario 395 Marco metodológico para la construcción de sistemas de GLN

Description:
with the production of text in a human language by a machine. NLG is a relatively new tecnología de mezcla de correo [Coch, 1996], y se podría aplicar para la GLN, usando quizá algunas Bouayad-Agha [2000] añade a estos niveles el de "estructura visual", relacionada con cómo el receptor del
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.