Algoritmo de Discretizacio´n de Series de Tiempo Basado en Entrop´ıa y su Aplicacio´n en Datos Colposc´opicos Daniel Alejandro Garc´ıa L´opez Departamento de Inteligencia Artificial Universidad Veracruzana Revisores: Dr. H´ector Gabriel Acosta Mesa, Dr. Nicandro Cruz Ram´ırez, Dr. Efr´en Mezura Montes. UNIVERSIDAD VERACRUZANA Algoritmo de Discretizacio´n de Series de Tiempo Basado en Entrop´ıa y su Aplicacio´n en Datos Colposc´opicos T E S I S que para obtener el grado de Maestro en Inteligencia Artificial presenta: Daniel Alejandro Garc´ıa L´opez Director de Tesis: Dr. H´ector Gabriel Acosta Mesa Septiembre 2007 Agradecimientos A mi madre, mi padre y mis hermanos: Joan, Miguel y Gilberto, por su apoyo constante y por sus incontables ensen˜anzas y valores. A mi abuela Rosa(Q.E.P.D) por su amor y carin˜o que me brind´o para seguir adelante y que junto a mi abuelo Sau´l me ensen˜aron valores de vida. A todos mis t´ıos por todo el apoyo y carin˜o que me brindaron aun en momentos dif´ıciles. En especial a Leticia, Imelda, Sau´l que son como mis segundos mis padres. A mis primos en especial a David, Sara, Francisco y Alejandra por el apoyo moral para culminar esta carrera. A mi entran˜able amigo Marcos por su amistad sincera e incondicional. A mis compan˜eros de generacio´n y amigos: Karina, Wulfrano, Rosibelda, Carlos, Gustavo por su amistad y comprensio´n durante toda la carrera. A mi director de tesis: Dr. Acosta por su gu´ıa y aportaciones para la investigaci´on de esta tesis. A los revisores del documento:Dr. H.G. Acosta Mesa, Dr. N. Cruz Ram´ırez y Dr. E. Mezura Montes, por sus valiosos comentarios para la mejora de ´esta tesis. A Jos´e L. Llaguno por sus valiosas aportaciones para la redaccio´n de esta tesis. A todos mis maestros de la MIA que me brindaron sus conocimientos y experiencia. En especial a la M.C.C. Ang´elica Vega y Dr. Negrete por ser ma´s que mis profesores en esta etapa de mi vida. Al Consejo Nacional de Ciencia y Tecnolog´ıa (CONACyT), por la beca econ´omica para la continuacio´n en el programa de maestr´ıa con numero de registro 203282. iii Resumen La miner´ıa de datos en series de tiempo es relativamente una nueva sub-a´rea de Des- crubrimiento de Conocimiento en Bases de Datos(por sus siglas en ingl´es KDD), en la cual la dimensi´on temporal de los datos introduce nuevos retos en las tareas de clasificaci´on y agrupamiento(clustering). Las grandes cantidades de informacio´n que contienen las bases de datos temporales requieren de una eficiente representaci´on, no so´lo que reduzcan la di- mensionalidad, sino tambi´en que preserve la informacio´n relevante para una clasificacio´n eficiente. Varios enfoques han sido propuestos para representar datos temporales de forma discre- ta, sin embargo, en su mayor´ıa esta´n orientados a la compresi´on, m´as que a la maximizacio´n de la informaci´on. En esta tesis, se propone un nuevo algoritmo de discretizacio´n llamado EBLA3. La idea b´asica de EBLA3 es minimizar la entrop´ıa de los patrones temporales sobre sus etiquetas de clase, encontrando un m´ınimo nu´mero de intervalos, con el cual la base de datos completa pueda ser discretizada. Al mismo tiempo se encuentra el nu´mero de segmentos y rangos en que pueden agruparse los segmentos de tiempo, conservando la informacio´n relevante. Una gran diferencia con respecto a otros enfoques es que EBLA3 automa´ticamente encuentra el taman˜o y nu´mero de intervalos requeridos para la discreti- zacio´n. El desempen˜o de EBLA3 es evaluado en 20 bases de datos de series de tiempo y com- parado frente a un algoritmo de discretizaci´on eficiente llamado SAX. Tambi´en es utilizado en una aplicacio´n particular: en series de tiempo obtenidas de ima´genes colposc´opicas. Los resultados obtenidos de las diferentes bases de datos de series de tiempo muestran que la representacio´n EBLA3 obtiene menor tasa de error en la clasificaci´on que la representacio´n SAX utilizando los valores de para´metros encontrados por EBLA3, las pruebas fueron reali- zadas con el clasificador k-vecinos ma´s cercanos con el m´etodo de estimacio´n de la precisio´n leave-one-out cross validation. iv Una ventaja de EBLA3 sobre la representacio´n SAX es que EBLA3 no requiere de espe- cificar el taman˜o de alfabeto, ni el taman˜o de palabra ya que est´e es calculado automa´tica- mente.Paraseriesdetiempoobtenidasdeim´agenescolposco´picaslarepresentacio´nEBLA3 logro´porcentajes de precisi´on, sensibilidad y especificidad muy similares a la representacio´n continua en el espacio de color de escala de gris normalizado. Estos resultados muestran que la representaci´on EBLA3 es una buena opci´on para la clasificacio´n eficiente de series de tiempo en este dominio, con la ventaja de reducir el ca´lculo durante la clasificaci´on, la in- formacio´n relevante queda compactada, permitiendo reducir el espacio de almacenamiento para futuras instancias que requieran clasificarse, todo ello sin requerir a priori del taman˜o de alfabeto y palabra como lo es para la representacio´n SAX. v ´ Indice general P´agina Agradecimientos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iii Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iv Tabla de Contenido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi ´Indice de Tablas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ix ´Indice de Figuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xi PRIMERA PARTE: Introduccio´n y definici´on de EBLA3 1. Introduccio´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1. Propuesta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.2. Justificacio´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.3. Estructura de la tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2. Marco de Referencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.1. Bases de datos de series de tiempo . . . . . . . . . . . . . . . . . . . . . . 9 2.2. Representaciones de series de tiempo . . . . . . . . . . . . . . . . . . . . . 10 2.3. Representaciones de series de tiempo no adaptativas . . . . . . . . . . . . . 11 2.3.1. Piecewise Aggregate Approximation(PAA) . . . . . . . . . . . . . . 11 2.4. Representaciones de series de tiempo adaptativas . . . . . . . . . . . . . . 12 2.4.1. Representaciones simb´olicas de series de tiempo . . . . . . . . . . . 12 2.5. Discretizacio´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.5.1. M´etodos de discretizacio´n supervisados y no supervisados . . . . . . 17 2.5.2. M´etodos de discretizacio´n global y local . . . . . . . . . . . . . . . 17 2.5.3. Discretizaci´on en series de tiempo . . . . . . . . . . . . . . . . . . . 18 2.6. M´etodos de cla´sificaci´on supervisados en aprendizaje autom´atico . . . . . . 19 2.6.1. k-Vecinos M´as Cercanos . . . . . . . . . . . . . . . . . . . . . . . . 19 ´ 2.6.2. Arboles de Decisio´n . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 vi 2.6.3. Na¨ıve Bayes simple . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2.7. Medidas de distancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.8. M´etodos de Estimacio´n de la precisi´on . . . . . . . . . . . . . . . . . . . . 27 2.8.1. Holdout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.8.2. k-fold Cross-Validation . . . . . . . . . . . . . . . . . . . . . . . . . 28 2.8.3. Leave-one-out cross-validation . . . . . . . . . . . . . . . . . . . . . 28 2.9. Extraccio´n de caracter´ısticas . . . . . . . . . . . . . . . . . . . . . . . . . . 29 3. Definicio´n del algoritmo EBLA3 . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 3.1. Medida de Utilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3.2. Reduccio´n de la dimensionalidad . . . . . . . . . . . . . . . . . . . . . . . 35 3.3. Temple del algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 3.4. Descripcio´n del algoritmo EBLA3 . . . . . . . . . . . . . . . . . . . . . . . 40 3.5. Ca´lculo del porcentaje de compresio´n . . . . . . . . . . . . . . . . . . . . . 44 4. Resultados experimentales de EBLA3 . . . . . . . . . . . . . . . . . . . . . . . . 47 4.1. Propiedades de las bases de datos . . . . . . . . . . . . . . . . . . . . . . . 47 4.2. Clasificacio´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 4.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 4.4. Discusio´n del experimento . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 SEGUNDA PARTE : Aplicaci´on de EBLA3 datos colposc´opicos 5. Aplicacio´n particular de EBLA3 . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 5.1. Colposcop´ıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 5.1.1. Sensibilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 5.1.2. Especificidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 5.2. Funci´on dina´mica de respuesta acetoblanca . . . . . . . . . . . . . . . . . . 55 5.3. Adquisicio´n de las im´agenes colposco´picas . . . . . . . . . . . . . . . . . . 55 5.4. Espacios de color . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 5.5. Espectro electromagn´etico . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 5.6. Descripcio´n de las pruebas . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 vii 5.7. Presentacio´n de resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 5.8. Discusio´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 6. Conclusiones y trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 6.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 6.2. Trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 Ap´endice A: Supervised Discretization Algorithm for Time Series . . . . . . . . . . 89 Ap´endice B: Entropy Based Linear Approximation Algorithm for Time Series Dis- cretization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 viii ´ Indice de Tablas 4.1. Propiedades de las bases de datos . . . . . . . . . . . . . . . . . . . . . . . 48 5.1. Representaciones con ma´s altos porcentajes de sensibilidad y especificidad reportados en [30] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 5.2. Propiedades de las bases de datos de las series de tiempo de las ima´genes colposco´picas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 5.3. Alfabeto y palabra encontrado por EBLA3 para cada una de las bases de datos de las series de tiempo de im´agenes colposc´opicas . . . . . . . . . . . 62 5.4. Porcentajes de precisi´on, sensibilidad y especificidad obtenidos con EBLA3 y SAX con KNN, ID3 y Na¨ıve Bayes simple(NB) en el espacio de color: escala de gris con las series de tiempo normalizadas(FDRA ) . . . . . . 63 Normalizado 5.5. Porcentajes de precisio´n, sensibilidad y especificidad obtenidos con EBLA3 y SAX con KNN, ID3 y Na¨ıve Bayes simple(NB) en el espacio de color: escala de gris con las series de tiempo suavizado con el modelo polinomial y normalizada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 5.6. Porcentajes de precisio´n, sensibilidad y especificidad obtenidos con EBLA3 y SAX con KNN, ID3 y Na¨ıve Bayes simple(NB) en el componente R del espacio de color RGB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 5.7. Porcentajes de precisio´n, sensibilidad y especificidad obtenidos con EBLA3 y SAX con KNN, ID3 y Na¨ıve Bayes simple(NB) en el componente G del espacio de color RGB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 5.8. Porcentajes de precisio´n, sensibilidad y especificidad obtenidos con EBLA3 y SAX con KNN, ID3 y Na¨ıve Bayes simple(NB) en el componente B del espacio de color RGB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 ix 5.9. Porcentajes de precisio´n, sensibilidad y especificidad obtenidos con EBLA3 y SAX con KNN, ID3 y Na¨ıve Bayes simple(NB) en el componente Y del espacio de color YUV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 5.10.Porcentajes de precisio´n, sensibilidad y especificidad obtenidos con EBLA3 y SAX con KNN, ID3 y Na¨ıve Bayes simple(NB) en el componente U del espacio de color YUV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 5.11.Porcentajes de precisio´n, sensibilidad y especificidad obtenidos con EBLA3 y SAX con KNN, ID3 y Na¨ıve Bayes simple(NB) en el componente V del espacio de color YUV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 5.12.Porcentajes de precisio´n, sensibilidad y especificidad obtenidos con EBLA3 y SAX con KNN, ID3 y Na¨ıve Bayes simple(NB) en el componente L del espacio de color CIELab . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 5.13.Porcentajes de precisio´n, sensibilidad y especificidad obtenidos con EBLA3 y SAX con KNN, ID3 y Na¨ıve Bayes simple(NB) en el componente a del espacio de color CIELab . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 5.14.Porcentajes de precisio´n, sensibilidad y especificidad obtenidos con EBLA3 y SAX con KNN, ID3 y Na¨ıve Bayes simple(NB) en el componente b del espacio de color CIELab . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 5.15.Porcentajes de precisio´n, sensibilidad y especificidad obtenidos con EBLA3 y SAX con KNN, ID3 y Na¨ıve Bayes simple(NB) sobre FDRA obtenidas de ima´genes colposco´picas tomadas en la longitud de onda 525nm . . . . . . . 74 5.16.Tabla de comparacio´n de resultados reportados en [30] y los obtenidos por EBLA3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 5.17.Condensado del desempen˜o de EBLA3 en datos colposco´picos . . . . . . . 78 x
Description: