ebook img

Algoritmo de Discretización de Series de Tiempo Basado en Entrop´ıa y su Aplicación en Datos ... PDF

119 Pages·2007·1.36 MB·Spanish
by  
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Algoritmo de Discretización de Series de Tiempo Basado en Entrop´ıa y su Aplicación en Datos ...

Algoritmo de Discretizacio´n de Series de Tiempo Basado en Entrop´ıa y su Aplicacio´n en Datos Colposc´opicos Daniel Alejandro Garc´ıa L´opez Departamento de Inteligencia Artificial Universidad Veracruzana Revisores: Dr. H´ector Gabriel Acosta Mesa, Dr. Nicandro Cruz Ram´ırez, Dr. Efr´en Mezura Montes. UNIVERSIDAD VERACRUZANA Algoritmo de Discretizacio´n de Series de Tiempo Basado en Entrop´ıa y su Aplicacio´n en Datos Colposc´opicos T E S I S que para obtener el grado de Maestro en Inteligencia Artificial presenta: Daniel Alejandro Garc´ıa L´opez Director de Tesis: Dr. H´ector Gabriel Acosta Mesa Septiembre 2007 Agradecimientos A mi madre, mi padre y mis hermanos: Joan, Miguel y Gilberto, por su apoyo constante y por sus incontables ensen˜anzas y valores. A mi abuela Rosa(Q.E.P.D) por su amor y carin˜o que me brind´o para seguir adelante y que junto a mi abuelo Sau´l me ensen˜aron valores de vida. A todos mis t´ıos por todo el apoyo y carin˜o que me brindaron aun en momentos dif´ıciles. En especial a Leticia, Imelda, Sau´l que son como mis segundos mis padres. A mis primos en especial a David, Sara, Francisco y Alejandra por el apoyo moral para culminar esta carrera. A mi entran˜able amigo Marcos por su amistad sincera e incondicional. A mis compan˜eros de generacio´n y amigos: Karina, Wulfrano, Rosibelda, Carlos, Gustavo por su amistad y comprensio´n durante toda la carrera. A mi director de tesis: Dr. Acosta por su gu´ıa y aportaciones para la investigaci´on de esta tesis. A los revisores del documento:Dr. H.G. Acosta Mesa, Dr. N. Cruz Ram´ırez y Dr. E. Mezura Montes, por sus valiosos comentarios para la mejora de ´esta tesis. A Jos´e L. Llaguno por sus valiosas aportaciones para la redaccio´n de esta tesis. A todos mis maestros de la MIA que me brindaron sus conocimientos y experiencia. En especial a la M.C.C. Ang´elica Vega y Dr. Negrete por ser ma´s que mis profesores en esta etapa de mi vida. Al Consejo Nacional de Ciencia y Tecnolog´ıa (CONACyT), por la beca econ´omica para la continuacio´n en el programa de maestr´ıa con numero de registro 203282. iii Resumen La miner´ıa de datos en series de tiempo es relativamente una nueva sub-a´rea de Des- crubrimiento de Conocimiento en Bases de Datos(por sus siglas en ingl´es KDD), en la cual la dimensi´on temporal de los datos introduce nuevos retos en las tareas de clasificaci´on y agrupamiento(clustering). Las grandes cantidades de informacio´n que contienen las bases de datos temporales requieren de una eficiente representaci´on, no so´lo que reduzcan la di- mensionalidad, sino tambi´en que preserve la informacio´n relevante para una clasificacio´n eficiente. Varios enfoques han sido propuestos para representar datos temporales de forma discre- ta, sin embargo, en su mayor´ıa esta´n orientados a la compresi´on, m´as que a la maximizacio´n de la informaci´on. En esta tesis, se propone un nuevo algoritmo de discretizacio´n llamado EBLA3. La idea b´asica de EBLA3 es minimizar la entrop´ıa de los patrones temporales sobre sus etiquetas de clase, encontrando un m´ınimo nu´mero de intervalos, con el cual la base de datos completa pueda ser discretizada. Al mismo tiempo se encuentra el nu´mero de segmentos y rangos en que pueden agruparse los segmentos de tiempo, conservando la informacio´n relevante. Una gran diferencia con respecto a otros enfoques es que EBLA3 automa´ticamente encuentra el taman˜o y nu´mero de intervalos requeridos para la discreti- zacio´n. El desempen˜o de EBLA3 es evaluado en 20 bases de datos de series de tiempo y com- parado frente a un algoritmo de discretizaci´on eficiente llamado SAX. Tambi´en es utilizado en una aplicacio´n particular: en series de tiempo obtenidas de ima´genes colposc´opicas. Los resultados obtenidos de las diferentes bases de datos de series de tiempo muestran que la representacio´n EBLA3 obtiene menor tasa de error en la clasificaci´on que la representacio´n SAX utilizando los valores de para´metros encontrados por EBLA3, las pruebas fueron reali- zadas con el clasificador k-vecinos ma´s cercanos con el m´etodo de estimacio´n de la precisio´n leave-one-out cross validation. iv Una ventaja de EBLA3 sobre la representacio´n SAX es que EBLA3 no requiere de espe- cificar el taman˜o de alfabeto, ni el taman˜o de palabra ya que est´e es calculado automa´tica- mente.Paraseriesdetiempoobtenidasdeim´agenescolposco´picaslarepresentacio´nEBLA3 logro´porcentajes de precisi´on, sensibilidad y especificidad muy similares a la representacio´n continua en el espacio de color de escala de gris normalizado. Estos resultados muestran que la representaci´on EBLA3 es una buena opci´on para la clasificacio´n eficiente de series de tiempo en este dominio, con la ventaja de reducir el ca´lculo durante la clasificaci´on, la in- formacio´n relevante queda compactada, permitiendo reducir el espacio de almacenamiento para futuras instancias que requieran clasificarse, todo ello sin requerir a priori del taman˜o de alfabeto y palabra como lo es para la representacio´n SAX. v ´ Indice general P´agina Agradecimientos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iii Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iv Tabla de Contenido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi ´Indice de Tablas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ix ´Indice de Figuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xi PRIMERA PARTE: Introduccio´n y definici´on de EBLA3 1. Introduccio´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1. Propuesta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.2. Justificacio´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.3. Estructura de la tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2. Marco de Referencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.1. Bases de datos de series de tiempo . . . . . . . . . . . . . . . . . . . . . . 9 2.2. Representaciones de series de tiempo . . . . . . . . . . . . . . . . . . . . . 10 2.3. Representaciones de series de tiempo no adaptativas . . . . . . . . . . . . . 11 2.3.1. Piecewise Aggregate Approximation(PAA) . . . . . . . . . . . . . . 11 2.4. Representaciones de series de tiempo adaptativas . . . . . . . . . . . . . . 12 2.4.1. Representaciones simb´olicas de series de tiempo . . . . . . . . . . . 12 2.5. Discretizacio´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.5.1. M´etodos de discretizacio´n supervisados y no supervisados . . . . . . 17 2.5.2. M´etodos de discretizacio´n global y local . . . . . . . . . . . . . . . 17 2.5.3. Discretizaci´on en series de tiempo . . . . . . . . . . . . . . . . . . . 18 2.6. M´etodos de cla´sificaci´on supervisados en aprendizaje autom´atico . . . . . . 19 2.6.1. k-Vecinos M´as Cercanos . . . . . . . . . . . . . . . . . . . . . . . . 19 ´ 2.6.2. Arboles de Decisio´n . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 vi 2.6.3. Na¨ıve Bayes simple . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2.7. Medidas de distancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.8. M´etodos de Estimacio´n de la precisi´on . . . . . . . . . . . . . . . . . . . . 27 2.8.1. Holdout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.8.2. k-fold Cross-Validation . . . . . . . . . . . . . . . . . . . . . . . . . 28 2.8.3. Leave-one-out cross-validation . . . . . . . . . . . . . . . . . . . . . 28 2.9. Extraccio´n de caracter´ısticas . . . . . . . . . . . . . . . . . . . . . . . . . . 29 3. Definicio´n del algoritmo EBLA3 . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 3.1. Medida de Utilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3.2. Reduccio´n de la dimensionalidad . . . . . . . . . . . . . . . . . . . . . . . 35 3.3. Temple del algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 3.4. Descripcio´n del algoritmo EBLA3 . . . . . . . . . . . . . . . . . . . . . . . 40 3.5. Ca´lculo del porcentaje de compresio´n . . . . . . . . . . . . . . . . . . . . . 44 4. Resultados experimentales de EBLA3 . . . . . . . . . . . . . . . . . . . . . . . . 47 4.1. Propiedades de las bases de datos . . . . . . . . . . . . . . . . . . . . . . . 47 4.2. Clasificacio´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 4.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 4.4. Discusio´n del experimento . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 SEGUNDA PARTE : Aplicaci´on de EBLA3 datos colposc´opicos 5. Aplicacio´n particular de EBLA3 . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 5.1. Colposcop´ıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 5.1.1. Sensibilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 5.1.2. Especificidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 5.2. Funci´on dina´mica de respuesta acetoblanca . . . . . . . . . . . . . . . . . . 55 5.3. Adquisicio´n de las im´agenes colposco´picas . . . . . . . . . . . . . . . . . . 55 5.4. Espacios de color . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 5.5. Espectro electromagn´etico . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 5.6. Descripcio´n de las pruebas . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 vii 5.7. Presentacio´n de resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 5.8. Discusio´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 6. Conclusiones y trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 6.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 6.2. Trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 Ap´endice A: Supervised Discretization Algorithm for Time Series . . . . . . . . . . 89 Ap´endice B: Entropy Based Linear Approximation Algorithm for Time Series Dis- cretization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 viii ´ Indice de Tablas 4.1. Propiedades de las bases de datos . . . . . . . . . . . . . . . . . . . . . . . 48 5.1. Representaciones con ma´s altos porcentajes de sensibilidad y especificidad reportados en [30] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 5.2. Propiedades de las bases de datos de las series de tiempo de las ima´genes colposco´picas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 5.3. Alfabeto y palabra encontrado por EBLA3 para cada una de las bases de datos de las series de tiempo de im´agenes colposc´opicas . . . . . . . . . . . 62 5.4. Porcentajes de precisi´on, sensibilidad y especificidad obtenidos con EBLA3 y SAX con KNN, ID3 y Na¨ıve Bayes simple(NB) en el espacio de color: escala de gris con las series de tiempo normalizadas(FDRA ) . . . . . . 63 Normalizado 5.5. Porcentajes de precisio´n, sensibilidad y especificidad obtenidos con EBLA3 y SAX con KNN, ID3 y Na¨ıve Bayes simple(NB) en el espacio de color: escala de gris con las series de tiempo suavizado con el modelo polinomial y normalizada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 5.6. Porcentajes de precisio´n, sensibilidad y especificidad obtenidos con EBLA3 y SAX con KNN, ID3 y Na¨ıve Bayes simple(NB) en el componente R del espacio de color RGB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 5.7. Porcentajes de precisio´n, sensibilidad y especificidad obtenidos con EBLA3 y SAX con KNN, ID3 y Na¨ıve Bayes simple(NB) en el componente G del espacio de color RGB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 5.8. Porcentajes de precisio´n, sensibilidad y especificidad obtenidos con EBLA3 y SAX con KNN, ID3 y Na¨ıve Bayes simple(NB) en el componente B del espacio de color RGB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 ix 5.9. Porcentajes de precisio´n, sensibilidad y especificidad obtenidos con EBLA3 y SAX con KNN, ID3 y Na¨ıve Bayes simple(NB) en el componente Y del espacio de color YUV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 5.10.Porcentajes de precisio´n, sensibilidad y especificidad obtenidos con EBLA3 y SAX con KNN, ID3 y Na¨ıve Bayes simple(NB) en el componente U del espacio de color YUV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 5.11.Porcentajes de precisio´n, sensibilidad y especificidad obtenidos con EBLA3 y SAX con KNN, ID3 y Na¨ıve Bayes simple(NB) en el componente V del espacio de color YUV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 5.12.Porcentajes de precisio´n, sensibilidad y especificidad obtenidos con EBLA3 y SAX con KNN, ID3 y Na¨ıve Bayes simple(NB) en el componente L del espacio de color CIELab . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 5.13.Porcentajes de precisio´n, sensibilidad y especificidad obtenidos con EBLA3 y SAX con KNN, ID3 y Na¨ıve Bayes simple(NB) en el componente a del espacio de color CIELab . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 5.14.Porcentajes de precisio´n, sensibilidad y especificidad obtenidos con EBLA3 y SAX con KNN, ID3 y Na¨ıve Bayes simple(NB) en el componente b del espacio de color CIELab . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 5.15.Porcentajes de precisio´n, sensibilidad y especificidad obtenidos con EBLA3 y SAX con KNN, ID3 y Na¨ıve Bayes simple(NB) sobre FDRA obtenidas de ima´genes colposco´picas tomadas en la longitud de onda 525nm . . . . . . . 74 5.16.Tabla de comparacio´n de resultados reportados en [30] y los obtenidos por EBLA3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 5.17.Condensado del desempen˜o de EBLA3 en datos colposco´picos . . . . . . . 78 x

Description:
parado frente a un algoritmo de discretización eficiente llamado SAX. También es utilizado SAX utilizando los valores de parámetros encontrados por EBLA3, las pruebas fueron reali- zadas con el .. utilizando el conjunto de datos de entrenamiento(lınea continua), utilizando un conjunto de
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.