ebook img

Universidad Nacional de San Luis Tesis de Maestría en Ingeniería de Software San Luis Argentina PDF

141 Pages·2013·3.39 MB·English
by  
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Universidad Nacional de San Luis Tesis de Maestría en Ingeniería de Software San Luis Argentina

Universidad Nacional de San Luis Tesis de Maestr(cid:237)a en Ingenier(cid:237)a de Software UN FRAMEWORK DE INGENIER˝A DEL LENGUAJE PARA EL PRE-PROCESADO SEM`NTICO DE TEXTOS Lic. Mar(cid:237)a Ver(cid:243)nica Rosas Director: Dr. Paolo Rosso, Universitat PolitŁcnica de ValŁncia. Codirector: Dr. Marcelo Errecalde, Universidad Nacional de San Luis. San Luis Argentina 2012 Prefacio Esta Tesis es presentada como parte de los requisitos para optar al grado acadØmico de Magister en Ingenier(cid:237)a de Software, de la Universidad Nacional de San Luis, y no ha sido presentada previamente para la obtenci(cid:243)n de otro t(cid:237)tulo en esta Universidad u otras. La misma contiene los resultados obtenidos en investigaciones llevadas a cabo bajo la direcci(cid:243)n del Dr. Paolo Rosso y el Dr. Marcelo Errecalde. Lic. Mar(cid:237)a Ver(cid:243)nica Rosas [email protected] Departamento de InformÆtica Universidad Nacional de San Luis San Luis. Agradecimientos (cid:16)La gratitud es una de las grandes bendiciones de la vida. Nos permite ver todo como posibles dones de Dios.(cid:17) A todas las personas que fueron y son dones que Dios ha puesto en mi camino durante mi vida...a las que me alentaron, a las que me tuvieron paciencia, a las que estuvieron a mi lado (a pesar de la distancia y del cielo que nos separa), a las que corrigieron mis errores, a las que enriquecieron mi trabajo con su experiencia y sabidur(cid:237)a, a las que fueron mi gu(cid:237)a y ejemplo, a las que compartieron horas de mate y cubrieron mi ausencia: MUCHAS GRACIAS. Dedico esta tesis con todo el amor a mi hermosa familia: Ariel, Martina y Bauti, a mi mamÆ, a JuanMa y Luci, a mis cuæados, a mi Nono Herminio y a Santiago que me acompaæ(cid:243) con su sonrisa espontÆnea y amplia estos œltimos meses. A mis amigos de toda la vida y a los que comparten y disfrutan d(cid:237)a a d(cid:237)a las horas de docencia. Agradezco a mi director y codirector, sin cuya ayuda, dedicaci(cid:243)n y constancia no hubiera podido alcanzar las metas propuestas para este trabajo y a los profesores de la carrera que brindaron su conocimiento en aspectos importantes para el desarrollo (cid:28)nal de mi proyecto. Principalmente agradezco a Dios cada d(cid:237)a que me regala y que me acompaæa incon- dicionalmente en este camino, haciØndose presente en cada una de las personas que estÆn a mi lado. ˝ndice general 1. Introducci(cid:243)n 1 1.1. Descripci(cid:243)n de la problemÆtica . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.1.1. Aspectos surgidos desde el Ærea del PLN . . . . . . . . . . . . . . . 2 1.1.2. Aspectos surgidos desde el Ærea de la IS . . . . . . . . . . . . . . . . 3 1.2. Motivaci(cid:243)n y objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.3. Contexto de la tesis en el marco de la Maestr(cid:237)a . . . . . . . . . . . . . . . 6 1.4. Principales contribuciones y publicaciones . . . . . . . . . . . . . . . . . . 7 1.5. Organizaci(cid:243)n de la tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2. Procesamiento del lenguaje natural 11 2.1. Niveles de la lingu(cid:237)stica general . . . . . . . . . . . . . . . . . . . . . . . . 12 2.2. PLN estad(cid:237)stico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.3. Aplicaciones de PLN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 3. Indexaci(cid:243)n y categorizaci(cid:243)n de textos 19 3.1. Indexaci(cid:243)n de documentos . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.1.1. Modelos de indexaci(cid:243)n . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.1.2. Modelo de espacio vectorial . . . . . . . . . . . . . . . . . . . . . . 22 3.2. Categorizaci(cid:243)n de textos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3.2.1. Aprendizaje de un clasi(cid:28)cador . . . . . . . . . . . . . . . . . . . . . 27 3.2.2. Evaluaci(cid:243)n de un clasi(cid:28)cador . . . . . . . . . . . . . . . . . . . . . 28 3.3. Reducci(cid:243)n de dimensionalidad . . . . . . . . . . . . . . . . . . . . . . . . . 30 3.4. SemÆntica en la categorizaci(cid:243)n de textos . . . . . . . . . . . . . . . . . . . 32 4. Resoluci(cid:243)n de la ambig(cid:252)edad semÆntica 35 4.1. Indexaci(cid:243)n conceptual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 4.2. Estrategias de desambiguaci(cid:243)n . . . . . . . . . . . . . . . . . . . . . . . . . 36 4.3. WordNet: una base de datos lØxica . . . . . . . . . . . . . . . . . . . . . . 38 5. WSD basado en conocimiento 47 5.1. MØtodo heur(cid:237)stico del sentido mÆs frecuente . . . . . . . . . . . . . . . . . 48 5.2. Algoritmo de Lesk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 5.2.1. Algoritmo de Lesk Mejorado . . . . . . . . . . . . . . . . . . . . . . 51 5.3. Sistema CIAOSENSO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 6. Aspectos de Ingenier(cid:237)a de Software aplicados a PLN 59 6.1. Conceptos introductorios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 6.1.1. Ingenier(cid:237)a del Lenguaje Natural . . . . . . . . . . . . . . . . . . . . 61 6.1.2. Reuso de componentes . . . . . . . . . . . . . . . . . . . . . . . . . 63 6.1.3. APIs para WordNet . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 6.2. Trabajos Relacionados en Ingenier(cid:237)a del Lenguaje . . . . . . . . . . . . . . 68 6.3. Descripci(cid:243)n del framework desarrollado . . . . . . . . . . . . . . . . . . . . 70 6.4. Experiencias en el uso del framework . . . . . . . . . . . . . . . . . . . . . 74 6.5. Plugin semÆntico para GATE . . . . . . . . . . . . . . . . . . . . . . . . . 75 6.5.1. Modelo de componentes de GATE . . . . . . . . . . . . . . . . . . . 76 6.5.2. Descripci(cid:243)n del recurso de procesamiento semÆntico . . . . . . . . . 78 7. Conjuntos de datos y detalle de los experimentos 81 7.1. Descripci(cid:243)n de los conjuntos de datos . . . . . . . . . . . . . . . . . . . . . 82 7.2. Diseæo experimental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 7.3. Resultado y anÆlisis de los experimentos . . . . . . . . . . . . . . . . . . . 86 7.3.1. Enfoque I: incorporaci(cid:243)n de informaci(cid:243)n semÆntica . . . . . . . . . 87 7.3.2. Enfoque II: reducci(cid:243)n de dimensionalidad . . . . . . . . . . . . . . . 90 7.3.3. Enfoque III: incorporaci(cid:243)n de hiper(cid:243)nimos . . . . . . . . . . . . . . 92 7.4. Clustering utilizando informaci(cid:243)n semÆntica . . . . . . . . . . . . . . . . . 93 8. Conclusiones y trabajos futuros 99 8.1. Aportes realizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 8.2. Trabajos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 A. Acr(cid:243)nimos 103 B. Documentaci(cid:243)n del Framework 105 B.1. Prop(cid:243)sito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 B.2. Utilizaci(cid:243)n y ejecuci(cid:243)n del framework . . . . . . . . . . . . . . . . . . . . . 106 C. Documentaci(cid:243)n de Pre.Se.Do 109 Bibliograf(cid:237)a 115

Description:
Aspectos de Ingeniería de Software aplicados a PLN. 59 {13941806} plane#3 (a level of existence or development) he lived on a worldly plane. 4. [109] Ian Sommerville. [127] Yiming Yang, Seán Slattery, and Rayid Ghani.
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.