ebook img

Selección y ponderación de características para la clasificación de textos y su aplicación en el ... PDF

247 Pages·2013·4.32 MB·Spanish
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Selección y ponderación de características para la clasificación de textos y su aplicación en el ...

Selección y ponderación de características para la clasificación de textos y su aplicación en el diagnóstico medico Fernando Ruiz Rico TESIS DOCTORAL Selecci´on y ponderaci´on de caracter´ısticas para la clasificaci´on de textos y su aplicaci´on en el diagn´ostico m´edico Fernando Ruiz Rico [email protected] Directores Dr. Jos´e Luis Vicedo Gonz´alez Dr. David Tom´as D´ıaz Julio 2013 Agradecimientos Gracias a Pedro Pastor, por el primer empuj´on. Gracias a Jos´e Luis Vicedo, por tanta paciencia que ha demostrado tener conmigo durante todos estos a˜nos. Gracias a David Tom´as, por aparecer siempre en el momento adecuado con esas palabras que faltaban. Gracias a mis padres, porque la ilusi´on no se aprende, se transmite. Gracias a Jose, Dani y Sandra, por recordarme que siempre hay motivos para seguir adelante. Gracias a Marcos y a David, por sus sonrisas, sus besos y sus abrazos, y por ense˜narme a verlo todo desde otro punto de vista. Y gracias especialmente a Mari Chelo, por todo ese tiempo nuestro que me he quedado yo. Julio 2013 Fernando Ruiz Rico ´ Indice general ´Indice general I ´Indice de figuras VII ´Indice de tablas XI 1. Introducci´on 1 1.1. Motivaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.1.1. El problema de la dimensionalidad . . . . . . . . . . . . . . . . . . . 5 1.1.2. Relevancia de los t´erminos . . . . . . . . . . . . . . . . . . . . . . . 6 1.1.3. La clasificaci´on de textos en el mundo real . . . . . . . . . . . . . . 6 1.2. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.3. Metodolog´ıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.4. Estructura de la tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2. La clasificaci´on de textos 13 2.1. Tipos de clasificaci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.1.1. Clasificaci´on binaria vs. clasificaci´on multiclase . . . . . . . . . . . . 14 2.1.2. Pivote en el documento vs. pivote en la categor´ıa . . . . . . . . . . 14 2.1.3. Asignaci´on directa vs. ranking de categor´ıas . . . . . . . . . . . . . . 15 2.2. Aproximaciones al dise˜no de clasificadores . . . . . . . . . . . . . . . . . . . 16 2.2.1. Sistemas basados en conocimiento . . . . . . . . . . . . . . . . . . 17 2.2.2. Sistemas basados en aprendizaje autom´atico . . . . . . . . . . . . . 18 I ´INDICE GENERAL 2.3. Componentes de un clasificador . . . . . . . . . . . . . . . . . . . . . . . . 20 2.3.1. Taxonom´ıas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.3.2. Corpus de trabajo . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.3.3. Caracter´ısticas de aprendizaje . . . . . . . . . . . . . . . . . . . . . 25 2.3.4. Algoritmos de clasificaci´on . . . . . . . . . . . . . . . . . . . . . . . 35 2.4. Aplicaciones de la categorizaci´on de textos . . . . . . . . . . . . . . . . . . 40 2.4.1. Filtrado de textos . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 2.4.2. Clasificaci´on de noticias . . . . . . . . . . . . . . . . . . . . . . . . 42 2.4.3. Categorizaci´on jer´arquica de p´aginas web . . . . . . . . . . . . . . . 43 2.4.4. Identificaci´on del idioma . . . . . . . . . . . . . . . . . . . . . . . . 43 2.4.5. Desambiguaci´on del sentido de las palabras . . . . . . . . . . . . . . 44 2.4.6. Etiquetado de entidades . . . . . . . . . . . . . . . . . . . . . . . . 44 2.4.7. Clasificaci´on de preguntas para sistemas de b´usqueda de respuestas . 44 3. Trabajos previos 47 3.1. Representaci´on de documentos . . . . . . . . . . . . . . . . . . . . . . . . 48 3.1.1. N-gramas de letras . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 3.1.2. Palabras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 3.1.3. N-gramas de palabras . . . . . . . . . . . . . . . . . . . . . . . . . 50 3.1.4. Otras caracter´ısticas . . . . . . . . . . . . . . . . . . . . . . . . . . 50 3.2. Reducci´on de la dimensionalidad . . . . . . . . . . . . . . . . . . . . . . . . 51 3.2.1. M´etodos de selecci´on de caracter´ısticas . . . . . . . . . . . . . . . . 51 3.2.2. M´etodos de extracci´on de caracter´ısticas . . . . . . . . . . . . . . . 55 3.2.3. Selecci´on estad´ıstica . . . . . . . . . . . . . . . . . . . . . . . . . . 58 3.2.4. Combinaci´on de m´etodos . . . . . . . . . . . . . . . . . . . . . . . 58 3.3. Ponderaci´on de t´erminos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 3.3.1. Factor local . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 3.3.2. Factor global . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 3.3.3. Factor de normalizaci´on . . . . . . . . . . . . . . . . . . . . . . . . 69 II ´INDICE GENERAL 3.4. Algoritmos de clasificaci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 3.4.1. Vecinos m´as cercanos (kNN) . . . . . . . . . . . . . . . . . . . . . 70 3.4.2. Rocchio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 3.4.3. M´aquinas de vectores de soporte (SVM) . . . . . . . . . . . . . . . 73 3.4.4. Naive bayes (NB) . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 3.4.5. Clasificadores unificados . . . . . . . . . . . . . . . . . . . . . . . . 77 3.4.6. Aproximaciones basadas en recuperaci´on de informaci´on . . . . . . . 78 3.5. Corpus y taxonom´ıas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 3.5.1. OHSUMED . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 3.5.2. Reuters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 3.6. Escalabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 3.6.1. Palabras vs. frases . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 3.6.2. Dimensionalidad y c´alculo de pesos . . . . . . . . . . . . . . . . . . 82 3.6.3. Vectores de soporte, vecinos y prototipos . . . . . . . . . . . . . . . 83 4. Ponderaci´on y selecci´on de caracter´ısticas 87 4.1. Caracter´ısticas de aprendizaje . . . . . . . . . . . . . . . . . . . . . . . . . 88 4.1.1. Descriptores de categor´ıas . . . . . . . . . . . . . . . . . . . . . . . 88 4.1.2. Sustantivos y adjetivos . . . . . . . . . . . . . . . . . . . . . . . . . 88 4.1.3. Selecci´on de t´erminos v´alidos . . . . . . . . . . . . . . . . . . . . . 90 4.2. Ponderaci´on de caracter´ısticas . . . . . . . . . . . . . . . . . . . . . . . . . 91 4.2.1. Localizaci´on dentro del documento . . . . . . . . . . . . . . . . . . 92 4.2.2. Particularizaci´on por categor´ıa . . . . . . . . . . . . . . . . . . . . . 92 4.2.3. Normalizaci´on de pesos . . . . . . . . . . . . . . . . . . . . . . . . 93 4.2.4. C´alculo de TF, DF y CF . . . . . . . . . . . . . . . . . . . . . . . . 93 4.2.5. C´alculo de la relevancia . . . . . . . . . . . . . . . . . . . . . . . . 95 4.3. Reducci´on de la dimensionalidad . . . . . . . . . . . . . . . . . . . . . . . . 98 4.3.1. Discriminaci´on basada en la media . . . . . . . . . . . . . . . . . . 98 4.3.2. Estrategias de reducci´on . . . . . . . . . . . . . . . . . . . . . . . . 98 III ´INDICE GENERAL 4.4. Algoritmo de clasificaci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 4.4.1. Generaci´on de vectores representativos de categor´ıas . . . . . . . . . 101 4.4.2. Clasificaci´on mediante suma de pesos . . . . . . . . . . . . . . . . . 103 4.4.3. Algoritmos no basados en prototipos . . . . . . . . . . . . . . . . . 103 5. Evaluaci´on 105 5.1. Corpus de trabajo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 5.1.1. Reuters-21578 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 5.1.2. OHSUMED . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 5.2. Medidas de evaluaci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 5.2.1. Precisi´on y cobertura . . . . . . . . . . . . . . . . . . . . . . . . . 111 5.2.2. Punto de equilibrio entre precisi´on y cobertura (BEP) . . . . . . . . 113 5.2.3. F1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 5.2.4. Precisi´on media (AvgP) . . . . . . . . . . . . . . . . . . . . . . . . 114 5.2.5. One-Error (OneErr) e Is-Error (IsErr) . . . . . . . . . . . . . . . . . 115 5.2.6. Micropromedio y macropromedio . . . . . . . . . . . . . . . . . . . 116 5.3. Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 5.3.1. Selecci´on de caracter´ısticas . . . . . . . . . . . . . . . . . . . . . . 118 5.3.2. Ranking de categor´ıas . . . . . . . . . . . . . . . . . . . . . . . . . 123 5.4. Relevancia de los par´ametros en el proceso de clasificaci´on . . . . . . . . . . 129 5.4.1. Ponderaci´on y selecci´on de caracter´ısticas . . . . . . . . . . . . . . . 130 5.4.2. Ranking de categor´ıas . . . . . . . . . . . . . . . . . . . . . . . . . 131 5.4.3. Peso ´optimo para las expresiones de los t´ıtulos . . . . . . . . . . . . 133 6. Aplicaciones 139 6.1. Diagn´ostico m´edico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 6.1.1. Corpus de trabajo . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 6.1.2. Medidas de evaluaci´on . . . . . . . . . . . . . . . . . . . . . . . . . 142 6.1.3. Funcionamiento r´apido y funcionamiento por jerarqu´ıas . . . . . . . . 143 6.1.4. Entorno multiling¨ue . . . . . . . . . . . . . . . . . . . . . . . . . . 143 IV ´INDICE GENERAL 6.1.5. Arquitectura del sistema . . . . . . . . . . . . . . . . . . . . . . . . 146 6.1.6. Ejemplos de funcionamiento . . . . . . . . . . . . . . . . . . . . . . 146 6.1.7. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 6.2. Otras aplicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 6.2.1. Prescripci´on de medicamentos . . . . . . . . . . . . . . . . . . . . . 153 6.2.2. Selecci´on de plantas medicinales . . . . . . . . . . . . . . . . . . . . 156 6.2.3. Ranking de temas relacionados en b´usquedas m´edicas . . . . . . . . 156 6.2.4. Directorio m´edico . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 7. Conclusiones y trabajo futuro 163 7.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 7.2. Trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 7.3. Publicaciones del autor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 7.3.1. Algoritmo de clasificaci´on de textos . . . . . . . . . . . . . . . . . . 166 7.3.2. Clasificaci´on de art´ıculos m´edicos . . . . . . . . . . . . . . . . . . . 167 7.3.3. Ayuda para el diagn´ostico m´edico y prescripci´on de medicamentos y plantas medicinales . . . . . . . . . . . . . . . . . . . . . . . . . . 168 7.3.4. Directorio m´edico utilizando art´ıculos de la Wikipedia . . . . . . . . 169 A. Descriptores de categor´ıas 171 A.1. Reuters-21578, 90 categor´ıas . . . . . . . . . . . . . . . . . . . . . . . . . 171 A.2. Reuters-21578, 50 categor´ıas con mayor n´umero de muestras . . . . . . . . 173 A.3. OHSUMED, sub-´arbol de enfermedades . . . . . . . . . . . . . . . . . . . . 174 A.4. OHSUMED, sub-´arbol de enfermedades del coraz´on . . . . . . . . . . . . . 175 A.5. OHSUMED, 50 categor´ıas con mayor n´umero de muestras . . . . . . . . . . 177 B. Palabras de parada 179 B.1. Reuters-21578, 90 categor´ıas . . . . . . . . . . . . . . . . . . . . . . . . . 179 B.2. Reuters-21578, 50 categor´ıas con mayor n´umero de muestras . . . . . . . . 179 B.3. OHSUMED, sub-´arbol de enfermedades . . . . . . . . . . . . . . . . . . . . 180 B.4. OHSUMED, sub-´arbol de enfermedades del coraz´on . . . . . . . . . . . . . 181 V

Description:
Clasificación de plantas medicinales y principios activos en función de s´ıntomas. Clasificación de prescripción de plantas medicinales, buscador de términos médicos, y directorio médico. editors, Proceedings of ECML-98, 10th European Conference on Machine Learning, pages. 95–100
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.