ebook img

el valenciano en tareas mono y translingües PDF

164 Pages·2007·0.84 MB·Spanish
by  
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview el valenciano en tareas mono y translingües

BÚSQUEDA DE RESPUESTAS EN LA WEB: EL VALENCIANO EN TAREAS MONO Y TRANSLINGÜES Para optar a la titulación de Ingen iería Informática Presentado por José Luis Peñarrubia Carrión Dirigido/tutorizado por Paolo Rosso, Dpto. Sistemas Informáticos y Computación, Universidad Politécnica de Valencia, España Manuel Montes, Laboratorio de Tecnologías del Lenguaje, Instituto Nacional de Astrofísica, Óptica y Electrónica, Puebla, México Agradecimientos Agradezco al profesor Paolo Rosso, la ayuda prestada en todo momento durante la supervisión del presente trabajo, al igual que a Manuel Montes, ya que a partir de sus investigaciones y posteriores explicaciones pudimos empezar a avanzar en la consecución de este trabajo final de carrera. También quiero agradecer a José Manuel Gómez (Investigador del Departamento de Sistemas Informáticos y de Computación de la UPV) por ayudarme con el sistema de recuperación de pasajes JIRS. INDICE DE CONTENIDOS Introducción........................................................................................................4 Capítulo 1.Sistemas de recuperación de información........................................8 1.1 Introducción.................................................................................................8 1.2 La recuperación de información..................................................................9 1.2.1 Evolución de los sistemas RI...................................................................11 1.2.2 Modelos para la recuperación de información.........................................11 1.3 La extracción de información.....................................................................13 1.4 La búsqueda de respuestas......................................................................13 1.5 Motores de búsqueda.................................................................................14 1.5.1 Funcionamiento de un motor de búsqueda.............................................15 1.5.2 Arquitectura de un motor de búsqueda...................................................16 1.5.3 Los índices de los motores......................................................................17 1.5.4 Tipos de robots........................................................................................19 1.5.5 Funcionamiento de los robots.................................................................19 1.5.6 Indización de las páginas........................................................................20 1.5.7 Alineado de los documentos (ranking)....................................................21 1.6 Evaluación de los sistemas de recuperación de información.....................22 1.7 Foros de experimentación..........................................................................24 Capítulo 2. Sistemas de búsqueda de respuestas...........................................29 2.1 Introducción................................................................................................29 2.2 Componentes principales de un sistema de BR.........................................37 2.3 Situación actual..........................................................................................39 2.4 Clasificación de los sistemas de BR...........................................................40 2.4.1 Sistemas que no utilizan técnicas de PLN...............................................40 2.4.2 Sistemas que usan información léxico-sintáctica....................................41 2.4.3 Sistemas que usan información semántica.............................................44 2.4.4 Sistemas que usan información contextual.............................................45 2.5 Conceptos generales .................................................................................46 2.5.1 Palabras de parada y palabras clave......................................................47 2.5.2 Pesos de términos...................................................................................47 2.5.3 Obtención de raíces (stemming) .............................................................48 2.5.4 Expansión de preguntas..........................................................................48 2.5.5 Realimentación........................................................................................49 Capitulo 3. BR monolingüe: El sistema INAOE................................................51 3.1 Introducción................................................................................................51 3.2 Arquitectura del sistema BR INAOE basado en la Web.............................52 3.2.1 Reformulaciones .....................................................................................56 3.2.1.1 Reformulación: “Bolsa de palabras”.....................................................57 3.2.1.2 Reformulación: “Manipulación del verbo”.............................................58 3.2.1.3 Reformulación: “Componentes”............................................................60 3.2.1.4 Reformulación: “Componentes excluyendo la primera palabra”...........61 3.2.1.5 Reformulación: “Componentes excluyendo las dos primeras palabras” ......................................................................................................................62 3.2.2 Recolección de Snippets.........................................................................62 1 3.2.3 Cálculo de la respuesta...........................................................................64 3.2.3.1 Método de frecuencias relativas...........................................................66 3.2.3.2 Método de expresiones regulares........................................................67 3.2.3.3 Método de frecuencia compensada con expresiones regulares...........68 3.3 Adaptación del sistema INAOE BR a otros idiomas..................................69 Capítulo 4. Búsqueda de respuestas multilingüe: El problema de la traducción ......................................................................................................................72 4.1 Introducción................................................................................................73 4.2 RI multilingüe..............................................................................................77 4.2.1 Aspectos monolingües............................................................................79 4.2.1.1 Stemming.............................................................................................79 4.2.1.2 Segmentación de compuestos.............................................................80 4.2.1.3 Segmentación de palabras...................................................................81 4.2.2 Enfoques basados en la traducción de la consulta .................................82 4.2.2.1 Diccionarios..........................................................................................83 4.2.2.2 Programas de traducción automática...................................................87 4.2.2.3 Tesauros..............................................................................................87 4.2.3 Otros enfoques: Traducción bidireccional...............................................89 4.3 Arquitectura del sistema INAOE multilingüe...............................................90 4.4 Tareas translingües....................................................................................91 Capitulo 5. Experimentos Multilingües .............................................................94 5.1 Introducción................................................................................................94 5.2 Corpus del CLEF 2003...............................................................................95 5.2.1 Tarea monolingüe Castellano-Castellano................................................96 5.2.1.1 Discusión sobre los resultados.............................................................96 5.2.2 Tarea translingüe Castellano-Valenciano................................................97 5.2.2.1 Discusión sobre los resultados.............................................................98 5.2.3 Tarea monolingüe Valenciano-Valenciano..............................................98 5.2.3.1 Discusión sobre los resultados.............................................................99 5.2.4 Tarea translingüe Valenciano-Castellano..............................................100 5.2.4.1 Discusión sobre los resultados...........................................................100 5.3 Clasificación de resultados atendiendo a la tipología de la pregunta.......101 5.4 El corpus del CLEF 2005..........................................................................103 5.4.1 Comparativa con los resultados obtenidos del sistema UPV en CLEF 2005............................................................................................................104 Capítulo 6. El componente de búsqueda de pasajes.....................................107 6.1 Introducción..............................................................................................107 6.2 El sistema de búsqueda de pasajes JIRS................................................108 6.2.1 Definición de JIRS.................................................................................108 6.2.2 Arquitectura del sistema JIRS...............................................................110 6.3 El sistema de búsqueda de respuestas QUASAR....................................115 6.3.1 Introducción...........................................................................................116 6.3.2 Arquitectura del sistema........................................................................116 6.4 Casos de estudio con el idioma valenciano..............................................117 6.4.1 Discusión sobre los resultados..............................................................121 Capítulo 7. Conclusiones ...............................................................................124 2 Bibliografía.....................................................................................................126 Anexo I. Artículo "Cross-language Question Answering: The Key Role of Translation".................................................................................................135 Anexo II. Artículo "Arabic-English Question Answering" ................................140 Anexo III Preguntas CLEF 2003.....................................................................144 Anexo IV Preguntas CLEF 2005....................................................................150 3 INDICE DE FIGURAS 1.1 Arquitectura simple de un motor de búsqueda a partir de un filtrado de documentos..................................................................................................17 1.2 Ejemplo de la estructura de un fichero inverso..........................................18 2.1 Niveles de usuarios según complejidad de la pregunta .............................34 2.2 Módulos de ejecución de la BR a partir de documentos y pasajes relevantes ......................................................................................................................38 3.1 Módulos del Sstema de Búsqueda de Respuestas....................................55 3.2 Ejemplo de sninpets devueltos por el Google............................................64 4.1 Esquema de un sistema de BR translingüe................................................91 6.1 Arquitectura JIRS.....................................................................................111 6.2 Arquitectura del sistema QUASAR...........................................................117 INDICE DE TABLAS 1.1 Clasificación de los Modelos de Recuperación de Información según Dominich.......................................................................................................12 1.2 Clasificación de los Modelos de Recuperación de Información según Baeza-Yates.................................................................................................12 1.3 Técnicas empleadas para reducir el tamaño de los índices de un motor de búsqueda......................................................................................................18 1.4 Resumen de las características de la indización y motores que las implementan.................................................................................................21 1.5 Resumen de las medidas basadas en la Relevancia de los documentos recuperados, empleadas en la evaluación convencional de la recuperación de la información. .........................................................................................23 1.6 Resumen de las medidas, basadas en la evaluación de los procesos, empleadas en la evaluación convencional de la recuperación de la información...................................................................................................23 1.7 Resumen de las medidas, basadas en el resultado obtenido, empleadas en la evaluación convencional de la recuperación de la información................24 3.1 Algoritmo Reformulación Bolsa de palabras...............................................58 3.2 Algoritmo Reformulación Movimiento del verbo.........................................59 3.3 Algoritmo Reformulación componentes......................................................60 3.4 Algoritmo extracción frecuencias relativas.................................................66 3.5 Algoritmo extracción expresiones regulares...............................................67 3.6 Agoritmo de extracción frecuencia compensada con expresiones regulares ......................................................................................................................68 4.1 Evolución de la utilización de idiomas en Internet......................................74 4.2 Clasificación de los 10 lenguajes más utilizados en Internet año 2004......75 5.1 Resultados del sistema de BR INAOE para el caso Castellano-Castellano con preguntas del CLEF 2003......................................................................96 5.2 Resultados del sistema de BR INAOE para el caso Castellano-Valenciano con preguntas del CLEF 2003......................................................................97 5.3 Resultados del sistema de BR INAOE para el caso Valenciano-Valenciano con preguntas del CLEF 2003......................................................................99 5.4 Resultados del sistema de BR INAOE para el Valenciano-Castellano con preguntas del CLEF 2003...........................................................................100 5.5 Porcentaje de resultados según tipos de preguntas del CLEF 2003........102 5.6 Resultados del sistema de BR INAOE Castellano con preguntas del CLEF 2005............................................................................................................103 5.7 Comparación con los resultados de la UPV con la 1ª-5ª respuesta.........104 5.8 Comparación con los resultados de la UPV con la 1ª respuesta..............104 5.9 Resultados de los sistemas en tarea monolingüe en el CLEF 2005 ........105 Introducción Hoy en día, la Web se ha convertido en nuestro principal repositorio de información. Toda clase de formatos (librerías digitales, periódicos, presentaciones, foros, etc…) en más de 1500 idiomas distintos están disponibles en formato electrónico en la Web. Estos documentos quizás satisfagan las necesidades del usuario, o quizás no. Por lo tanto, son necesarias herramientas que ayuden al usuario a gestionar esta ingente cantidad de información que sin las herramientas adecuadas no es útil. En los sistemas de Recuperación de Información (RI) el usuario está interesado en encontrar los documentos más relevantes que se ajusten parcialmente a la consultan realizada. Por lo tanto, los sistemas de RI resuelven el problema asociado con la recuperación de documentos desde una colección en respuesta a una consulta de usuario, siendo su objetivo buscar en una colección (por ejemplo la Web) para devolver un subconjunto de documentos ordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda para la Web, por ejemplo Google1,Yahoo2 y MSN3. Recientemente, la combinación del crecimiento y la explosión de la demanda de mejor acceso a la información han motivado el interés en los sistemas de Búsqueda de Respuestas (BR) basados en Web. El propósito de un sistema de búsqueda de respuestas es obtener respuestas precisas a preguntas realizadas por usuarios sin experiencia, permitiendo lanzar consultas en lenguaje natural y obteniendo una respuesta concisa. Por ejemplo, a la pregunta “¿Quién descubrió América?”, el sistema debe encontrar la respuesta “Colón”. Dada la dificultad de la tarea, los últimos desarrollos de sistemas de BR están enfocados principalmente a contestar preguntas sobre hechos, lugares o personas. 1 http://www.google.com 2 http://www.yahoo.com 3 http://www.msn.com 4

Description:
PageRank© clasifica las páginas de acuerdo al número y a la autoridad de los links que hacen referencia a ellas. La estructura During what month do almond trees blossom? Arabic ؟زﻮﻠﻟا رﺎﺠﺷأ ﺮهﺰﺗ ﻰﺘﻣ translation. During any month the almonds trees bloom ? 4. CONCLUS
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.