Selección y ponderación de características para la clasificación de textos y su aplicación en el diagnóstico medico Fernando Ruiz Rico TESIS DOCTORAL Selecci´on y ponderaci´on de caracter´ısticas para la clasificaci´on de textos y su aplicaci´on en el diagn´ostico m´edico Fernando Ruiz Rico [email protected] Directores Dr. Jos´e Luis Vicedo Gonz´alez Dr. David Tom´as D´ıaz Julio 2013 Agradecimientos Gracias a Pedro Pastor, por el primer empuj´on. Gracias a Jos´e Luis Vicedo, por tanta paciencia que ha demostrado tener conmigo durante todos estos a˜nos. Gracias a David Tom´as, por aparecer siempre en el momento adecuado con esas palabras que faltaban. Gracias a mis padres, porque la ilusi´on no se aprende, se transmite. Gracias a Jose, Dani y Sandra, por recordarme que siempre hay motivos para seguir adelante. Gracias a Marcos y a David, por sus sonrisas, sus besos y sus abrazos, y por ense˜narme a verlo todo desde otro punto de vista. Y gracias especialmente a Mari Chelo, por todo ese tiempo nuestro que me he quedado yo. Julio 2013 Fernando Ruiz Rico ´ Indice general ´Indice general I ´Indice de figuras VII ´Indice de tablas XI 1. Introducci´on 1 1.1. Motivaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.1.1. El problema de la dimensionalidad . . . . . . . . . . . . . . . . . . . 5 1.1.2. Relevancia de los t´erminos . . . . . . . . . . . . . . . . . . . . . . . 6 1.1.3. La clasificaci´on de textos en el mundo real . . . . . . . . . . . . . . 6 1.2. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.3. Metodolog´ıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.4. Estructura de la tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2. La clasificaci´on de textos 13 2.1. Tipos de clasificaci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.1.1. Clasificaci´on binaria vs. clasificaci´on multiclase . . . . . . . . . . . . 14 2.1.2. Pivote en el documento vs. pivote en la categor´ıa . . . . . . . . . . 14 2.1.3. Asignaci´on directa vs. ranking de categor´ıas . . . . . . . . . . . . . . 15 2.2. Aproximaciones al dise˜no de clasificadores . . . . . . . . . . . . . . . . . . . 16 2.2.1. Sistemas basados en conocimiento . . . . . . . . . . . . . . . . . . 17 2.2.2. Sistemas basados en aprendizaje autom´atico . . . . . . . . . . . . . 18 I ´INDICE GENERAL 2.3. Componentes de un clasificador . . . . . . . . . . . . . . . . . . . . . . . . 20 2.3.1. Taxonom´ıas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.3.2. Corpus de trabajo . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.3.3. Caracter´ısticas de aprendizaje . . . . . . . . . . . . . . . . . . . . . 25 2.3.4. Algoritmos de clasificaci´on . . . . . . . . . . . . . . . . . . . . . . . 35 2.4. Aplicaciones de la categorizaci´on de textos . . . . . . . . . . . . . . . . . . 40 2.4.1. Filtrado de textos . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 2.4.2. Clasificaci´on de noticias . . . . . . . . . . . . . . . . . . . . . . . . 42 2.4.3. Categorizaci´on jer´arquica de p´aginas web . . . . . . . . . . . . . . . 43 2.4.4. Identificaci´on del idioma . . . . . . . . . . . . . . . . . . . . . . . . 43 2.4.5. Desambiguaci´on del sentido de las palabras . . . . . . . . . . . . . . 44 2.4.6. Etiquetado de entidades . . . . . . . . . . . . . . . . . . . . . . . . 44 2.4.7. Clasificaci´on de preguntas para sistemas de b´usqueda de respuestas . 44 3. Trabajos previos 47 3.1. Representaci´on de documentos . . . . . . . . . . . . . . . . . . . . . . . . 48 3.1.1. N-gramas de letras . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 3.1.2. Palabras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 3.1.3. N-gramas de palabras . . . . . . . . . . . . . . . . . . . . . . . . . 50 3.1.4. Otras caracter´ısticas . . . . . . . . . . . . . . . . . . . . . . . . . . 50 3.2. Reducci´on de la dimensionalidad . . . . . . . . . . . . . . . . . . . . . . . . 51 3.2.1. M´etodos de selecci´on de caracter´ısticas . . . . . . . . . . . . . . . . 51 3.2.2. M´etodos de extracci´on de caracter´ısticas . . . . . . . . . . . . . . . 55 3.2.3. Selecci´on estad´ıstica . . . . . . . . . . . . . . . . . . . . . . . . . . 58 3.2.4. Combinaci´on de m´etodos . . . . . . . . . . . . . . . . . . . . . . . 58 3.3. Ponderaci´on de t´erminos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 3.3.1. Factor local . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 3.3.2. Factor global . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 3.3.3. Factor de normalizaci´on . . . . . . . . . . . . . . . . . . . . . . . . 69 II ´INDICE GENERAL 3.4. Algoritmos de clasificaci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 3.4.1. Vecinos m´as cercanos (kNN) . . . . . . . . . . . . . . . . . . . . . 70 3.4.2. Rocchio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 3.4.3. M´aquinas de vectores de soporte (SVM) . . . . . . . . . . . . . . . 73 3.4.4. Naive bayes (NB) . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 3.4.5. Clasificadores unificados . . . . . . . . . . . . . . . . . . . . . . . . 77 3.4.6. Aproximaciones basadas en recuperaci´on de informaci´on . . . . . . . 78 3.5. Corpus y taxonom´ıas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 3.5.1. OHSUMED . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 3.5.2. Reuters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 3.6. Escalabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 3.6.1. Palabras vs. frases . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 3.6.2. Dimensionalidad y c´alculo de pesos . . . . . . . . . . . . . . . . . . 82 3.6.3. Vectores de soporte, vecinos y prototipos . . . . . . . . . . . . . . . 83 4. Ponderaci´on y selecci´on de caracter´ısticas 87 4.1. Caracter´ısticas de aprendizaje . . . . . . . . . . . . . . . . . . . . . . . . . 88 4.1.1. Descriptores de categor´ıas . . . . . . . . . . . . . . . . . . . . . . . 88 4.1.2. Sustantivos y adjetivos . . . . . . . . . . . . . . . . . . . . . . . . . 88 4.1.3. Selecci´on de t´erminos v´alidos . . . . . . . . . . . . . . . . . . . . . 90 4.2. Ponderaci´on de caracter´ısticas . . . . . . . . . . . . . . . . . . . . . . . . . 91 4.2.1. Localizaci´on dentro del documento . . . . . . . . . . . . . . . . . . 92 4.2.2. Particularizaci´on por categor´ıa . . . . . . . . . . . . . . . . . . . . . 92 4.2.3. Normalizaci´on de pesos . . . . . . . . . . . . . . . . . . . . . . . . 93 4.2.4. C´alculo de TF, DF y CF . . . . . . . . . . . . . . . . . . . . . . . . 93 4.2.5. C´alculo de la relevancia . . . . . . . . . . . . . . . . . . . . . . . . 95 4.3. Reducci´on de la dimensionalidad . . . . . . . . . . . . . . . . . . . . . . . . 98 4.3.1. Discriminaci´on basada en la media . . . . . . . . . . . . . . . . . . 98 4.3.2. Estrategias de reducci´on . . . . . . . . . . . . . . . . . . . . . . . . 98 III ´INDICE GENERAL 4.4. Algoritmo de clasificaci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 4.4.1. Generaci´on de vectores representativos de categor´ıas . . . . . . . . . 101 4.4.2. Clasificaci´on mediante suma de pesos . . . . . . . . . . . . . . . . . 103 4.4.3. Algoritmos no basados en prototipos . . . . . . . . . . . . . . . . . 103 5. Evaluaci´on 105 5.1. Corpus de trabajo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 5.1.1. Reuters-21578 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 5.1.2. OHSUMED . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 5.2. Medidas de evaluaci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 5.2.1. Precisi´on y cobertura . . . . . . . . . . . . . . . . . . . . . . . . . 111 5.2.2. Punto de equilibrio entre precisi´on y cobertura (BEP) . . . . . . . . 113 5.2.3. F1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 5.2.4. Precisi´on media (AvgP) . . . . . . . . . . . . . . . . . . . . . . . . 114 5.2.5. One-Error (OneErr) e Is-Error (IsErr) . . . . . . . . . . . . . . . . . 115 5.2.6. Micropromedio y macropromedio . . . . . . . . . . . . . . . . . . . 116 5.3. Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 5.3.1. Selecci´on de caracter´ısticas . . . . . . . . . . . . . . . . . . . . . . 118 5.3.2. Ranking de categor´ıas . . . . . . . . . . . . . . . . . . . . . . . . . 123 5.4. Relevancia de los par´ametros en el proceso de clasificaci´on . . . . . . . . . . 129 5.4.1. Ponderaci´on y selecci´on de caracter´ısticas . . . . . . . . . . . . . . . 130 5.4.2. Ranking de categor´ıas . . . . . . . . . . . . . . . . . . . . . . . . . 131 5.4.3. Peso ´optimo para las expresiones de los t´ıtulos . . . . . . . . . . . . 133 6. Aplicaciones 139 6.1. Diagn´ostico m´edico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 6.1.1. Corpus de trabajo . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 6.1.2. Medidas de evaluaci´on . . . . . . . . . . . . . . . . . . . . . . . . . 142 6.1.3. Funcionamiento r´apido y funcionamiento por jerarqu´ıas . . . . . . . . 143 6.1.4. Entorno multiling¨ue . . . . . . . . . . . . . . . . . . . . . . . . . . 143 IV ´INDICE GENERAL 6.1.5. Arquitectura del sistema . . . . . . . . . . . . . . . . . . . . . . . . 146 6.1.6. Ejemplos de funcionamiento . . . . . . . . . . . . . . . . . . . . . . 146 6.1.7. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 6.2. Otras aplicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 6.2.1. Prescripci´on de medicamentos . . . . . . . . . . . . . . . . . . . . . 153 6.2.2. Selecci´on de plantas medicinales . . . . . . . . . . . . . . . . . . . . 156 6.2.3. Ranking de temas relacionados en b´usquedas m´edicas . . . . . . . . 156 6.2.4. Directorio m´edico . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 7. Conclusiones y trabajo futuro 163 7.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 7.2. Trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 7.3. Publicaciones del autor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 7.3.1. Algoritmo de clasificaci´on de textos . . . . . . . . . . . . . . . . . . 166 7.3.2. Clasificaci´on de art´ıculos m´edicos . . . . . . . . . . . . . . . . . . . 167 7.3.3. Ayuda para el diagn´ostico m´edico y prescripci´on de medicamentos y plantas medicinales . . . . . . . . . . . . . . . . . . . . . . . . . . 168 7.3.4. Directorio m´edico utilizando art´ıculos de la Wikipedia . . . . . . . . 169 A. Descriptores de categor´ıas 171 A.1. Reuters-21578, 90 categor´ıas . . . . . . . . . . . . . . . . . . . . . . . . . 171 A.2. Reuters-21578, 50 categor´ıas con mayor n´umero de muestras . . . . . . . . 173 A.3. OHSUMED, sub-´arbol de enfermedades . . . . . . . . . . . . . . . . . . . . 174 A.4. OHSUMED, sub-´arbol de enfermedades del coraz´on . . . . . . . . . . . . . 175 A.5. OHSUMED, 50 categor´ıas con mayor n´umero de muestras . . . . . . . . . . 177 B. Palabras de parada 179 B.1. Reuters-21578, 90 categor´ıas . . . . . . . . . . . . . . . . . . . . . . . . . 179 B.2. Reuters-21578, 50 categor´ıas con mayor n´umero de muestras . . . . . . . . 179 B.3. OHSUMED, sub-´arbol de enfermedades . . . . . . . . . . . . . . . . . . . . 180 B.4. OHSUMED, sub-´arbol de enfermedades del coraz´on . . . . . . . . . . . . . 181 V
Description: