PONTIFICIA UNIVERSIDAD CATOLICA DE CHILE ESCUELA DE INGENIERIA DESARROLLO Y ANÁLISIS DE LA UTILIZACIÓN DE ALGORITMOS DE MINERÍA DE DATOS PARA LA BÚSQUEDA DE ANOMALÍAS Y PATRONES SECUENCIALES EN MINERÍA DE PROCESOS TOMÁS ENRIQUE DEL CAMPO MONSALVE Tesis para optar al grado de Magister en Ciencias de la Ingeniería Profesor Supervisor: MARCOS SEPÚLVEDA FERNÁNDEZ Santiago de Chile, Agosto, 2011 2011, Tomás del Campo Monsalve PONTIFICIA UNIVERSIDAD CATOLICA DE CHILE ESCUELA DE INGENIERIA DESARROLLO Y ANÁLISIS DE LA UTILIZACIÓN DE ALGORITMOS DE MINERÍA DE DATOS PARA LA BÚSQUEDA DE ANOMALÍAS Y PATRONES SECUENCIALES EN MINERÍA DE PROCESOS TOMÁS ENRIQUE DEL CAMPO MONSALVE Tesis presentada a la Comisión integrada por los profesores: MARCOS SEPÚLVEDA FERNÁNDEZ KARIM PICHARA BAKSAI(PROFESOR INTEGRANTE) MARCOS SINGER GONZÁLEZ RICARDO PAREDES MOLINA Para completar las exigencias del grado de Magister en Ciencias de la Ingeniería Santiago de Chile, Agosto, 2011 DEDICATORIA A Dios, mi familia y mis amigos, que me apoyaron y aconsejaron en este camino. “Los amigos son como la sangre, cuando se está herido acuden sin que se los llame.” Anónimo iii AGRADECIMIENTOS Durante el desarrollo de esta investigación hubo muchas personas que estuvieron a mi lado, sin las cuales hubiera sido muy difícil entregar el trabajo que presento hoy. Estas personas me dieron su cariño, conocimiento técnico, consejos y, por sobre todo, su apoyo: - Prof. Dr. Marcos Ernesto Sepúlveda Fernández de la Pontificia Universidad Católica de Chile. - Mi familia, especialmente mi madre Pamela Monsalve Bórquez, Ana Erika Bórquez Osorio, María Elena Parga Gana y Raúl Monsalve Bórquez. - Ing. Alejandro Fuentes de la Hoz e Ing. Guillermo Calderón Ruiz, investigadores del programa de Doctorado de la Pontificia Universidad Católica de Chile. - David Young, Joaquín Pérez Alarcón, Fabricio De Abranches Rigotto y Lilian Ramírez del equipo de Finanzas de Pampers para Latinoamérica. - Tomás Jara Kara, Felipe Marambio Abarca y Nicolás Moreno Köhler, del equipo de Sistemas Comerciales e Investigación de Operaciones de Lan Airlines. iv TABLA DE CONTENIDO DEDICATORIA .............................................................................................................. iii AGRADECIMIENTOS .................................................................................................... iv TABLA DE CONTENIDO ................................................................................................ v INDICE DE TABLAS ...................................................................................................... ix INDICE DE ILUSTRACIONES..................................................................................... xiv RESUMEN .................................................................................................................... xvii ABSTRACT ................................................................................................................. xviii 1. Introducción ............................................................................................................... 1 1.1 Motivación ........................................................................................................... 1 1.2 Hipótesis .............................................................................................................. 1 1.3 Propuesta de solución y objetivos ....................................................................... 2 2. Contexto y estado del arte .......................................................................................... 2 2.1 Minería de Datos ................................................................................................. 3 2.2 Minería de Procesos ............................................................................................ 4 2.3 Detección de anomalías ....................................................................................... 7 2.4 Búsqueda de patrones secuenciales ..................................................................... 9 3. Aporte al área de Minería de Procesos ..................................................................... 11 3.1 Selección ........................................................................................................... 13 3.2 Pre-procesamiento y codificación ..................................................................... 14 3.3 Minería de Datos ............................................................................................... 16 3.4 Interpretación ..................................................................................................... 17 4. Fuentes de datos para la investigación ..................................................................... 18 v 4.1 Log de Eventos: definición y características ..................................................... 18 4.2 Logs de ejemplo seleccionados ......................................................................... 20 4.2.1 Venta de artículos a través de página Web ................................................ 21 4.2.2 Evaluación solicitud de crédito hipotecario ............................................... 23 5. Pre-procesamiento de los datos ................................................................................ 24 5.1 Resumen del procedimiento .............................................................................. 25 5.2 Herramientas seleccionadas............................................................................... 25 5.3 Desarrollo del pre-procesamiento...................................................................... 27 5.3.1 Exportación de datos desde .mxml a .csv .................................................. 27 5.3.2 Ingresar datos de archivos .csv a planilla para pre-procesamiento de datos 27 5.3.3 Identificar tareas y ejecutores..................................................................... 28 5.3.4 Identificar secuencias de tareas y de ejecutores ......................................... 29 5.3.5 Identificar conjuntos consolidados de tareas y ejecutores ......................... 32 5.3.6 Identificar atributos de tiempo ................................................................... 34 5.3.7 Procesamiento de atributos característicos................................................. 36 5.3.8 Consolidación pre-procesamiento .............................................................. 37 6. Búsqueda de patrones secuenciales .......................................................................... 38 6.1 Resumen del procedimiento .............................................................................. 38 6.2 Herramientas seleccionadas............................................................................... 39 6.3 Desarrollo del análisis ....................................................................................... 39 6.3.1 Exportar datos desde planilla “Pre-procesador Logs” a archivo .csv ........ 40 6.3.2 Importar datos a Weka y uso de “Preprocess” ........................................... 41 6.3.3 Analizar los datos con algoritmo Apriori ................................................... 42 vi 6.3.4 Analizar relación entre patrones encontrados y los atributos del caso....... 56 7. Búsqueda de anomalías ............................................................................................ 58 7.1 Resumen del procedimiento .............................................................................. 58 7.2 Herramientas seleccionadas............................................................................... 59 7.3 Desarrollo del análisis ....................................................................................... 59 7.3.1 Exportar datos desde planilla “Pre-procesador Logs” a planilla “Busca Anomalías” ............................................................................................................... 59 7.3.2 Definir tipo de datos de cada atributo ........................................................ 60 7.3.3 Selección de parámetros ............................................................................. 61 7.3.4 Resultado búsqueda de anomalías .............................................................. 66 7.3.5 Analizar relación entre anomalías encontradas y los atributos del caso .... 68 8. Resultados ................................................................................................................ 69 8.1 Resultados búsqueda de patrones secuenciales ................................................. 69 8.1.1 Resultados pre-procesamiento ................................................................... 70 8.1.2 Resultados pre-procesamiento en Weka .................................................... 75 8.1.3 Resultado normalización en Excel ............................................................. 77 8.1.4 Resultados algoritmo Apriori ..................................................................... 79 8.1.5 Resultado análisis de atributos en grupos determinados de casos ............. 82 8.1.6 Análisis de sensibilidad algoritmo Apriori ................................................ 91 8.2 Resultados detección de anomalías ................................................................... 97 8.2.1 Resultados pre-procesamiento ................................................................... 98 8.2.2 Resultados algoritmo Interquartile Range .................................................. 99 8.2.3 Resultado análisis de atributos en grupos determinados de casos ........... 105 8.2.4 Análisis de sensibilidad del algoritmo Interquartile Range ..................... 121 vii 9. Conclusiones .......................................................................................................... 126 BIBLIOGRAFIA ........................................................................................................... 133 ANEXOS ....................................................................................................................... 135 ANEXO 1: EXTRACTOS DE LOGS DE EVENTOS .............................................. 136 ANEXO 2: PROCEDIMIENTO PARA EXPORTAR UN ARCHIVO .MXML A .CSV ........................................................................................................................... 140 ANEXO 3: CONSEJOS PARA TRABAJAR CON WEKA ..................................... 141 ANEXO 4: PRE-PROCESADOR LOGS .................................................................. 143 ANEXO 5: ANALIZA PATRONES ......................................................................... 145 ANEXO 6: BUSCA ANOMALÍAS .......................................................................... 147 ANEXO 7: RESULTADOS IDENTIFICACIÓN EQUIPOS CASO “VENTA DE ARTÍCULOS A TRAVÉS DE PÁGINA WEB” ....................................................... 149 ANEXO 8: REGLAS DE ASOCIACIÓN CASO “VENTA DE ARTÍCULOS A TRAVÉS DE PÁGINA WEB” (ANÁLISIS DE SENSIBILIDAD) ......................... 163 viii INDICE DE TABLAS Tabla 4.1 - Características comunes de las tareas registradas en un Log ........................ 20 Tabla 4.2 - Descripción de los ocho atributos que describen las tareas del proceso “Venta de artículos a través de página Web” ............................................................................... 22 Tabla 4.3 - Descripción de los cinco atributos que describen las tareas del proceso de “Evaluación de solicitud de crédito hipotecario” ............................................................. 24 Tabla 5.1 - Descripción de las etapas que componen el pre-procesamiento de los datos de cada proceso ................................................................................................................ 26 Tabla 5.2 - Extracto de la planilla final obtenida luego del pre-procesamiento, donde se muestra la información de quince casos del proceso “Venta de artículos a través de página Web” ..................................................................................................................... 38 Tabla 6.1 - Tabla con los diez registros que componen el ejemplo simplificado del proceso “Venta de artículos a través de página Web” ..................................................... 45 Tabla 6.2 - Tabla con los diez casos diseñados para el ejemplo, donde se destacan los tres valores del atributo “ID_EquipoConsolidado” que no clasificaron como itemset frecuente ........................................................................................................................... 50 Tabla 6.3 - Tabla con los diez casos diseñados para el ejemplo, donde se destacan el único valor del atributo “cantidad” que no clasificó como itemset frecuente .................. 51 Tabla 6.4 - Tabla con los seis itemsets de dos atributos, candidatos a ser identificados como itemsets frecuentes.................................................................................................. 54 Tabla 7.1 - Indicadores entregados por la planilla “Busca Anomalías” luego que el investigador ingresa los parámetros de búsqueda ............................................................ 67 Tabla 8.1 - Lista de equipos consolidados del proceso “Venta de artículos a través de página Web” (no se considera orden ni repeticiones de participación) ........................... 74 Tabla 8.2 - Comparación de la distribución de los valores del atributo “Tiempo_Desde_Comienzo”, extraída directamente de la planilla “Analiza Patrones”. Los casos filtrados corresponden a los casos exitosos ..................................................... 84 ix Tabla 8.3 - Comparación de la distribución de los valores del atributo “ID_Camino”, extraída directamente de la planilla “Analiza Patrones”. Los casos filtrados corresponden a los casos exitosos. ......................................................................................................... 86 Tabla 8.4 - Comparación de la distribución de los valores del atributo “ID_TareasConsolidadas”, extraída directamente de la planilla “Analiza Patrones”. Los casos filtrados corresponden a los casos exitosos ............................................................ 86 Tabla 8.5 - Comparación de la distribución de los valores del atributo “ID_EquipoConsolidado”, extraída directamente de la planilla “Analiza Patrones”, donde además se destacan los valores que acaparan más de la mitad de los casos. Los casos filtrados corresponden a los casos exitosos ............................................................ 88 Tabla 8.6 - Comparación de la distribución de los valores del atributo “cantidad”, extraída directamente de la planilla “Analiza Patrones”. Los casos filtrados corresponden a los casos exitosos .......................................................................................................... 89 Tabla 8.7 - Comparación de la distribución de los valores del atributo “monto”, extraída directamente de la planilla “Analiza Patrones”. Los casos filtrados corresponden a los casos exitosos ................................................................................................................... 89 Tabla 8.8 - Comparación de la distribución de los valores del atributo “patrón_prom”, extraída directamente de la planilla “Analiza Patrones”, donde además se destacan los tres valores que acaparan la mayor cantidad de casos. Los casos filtrados corresponden a los casos exitosos ............................................................................................................. 90 Tabla 8.9 - Comparación de la distribución de los valores del atributo “cantidad”, extraída directamente de la planilla “Analiza Patrones”. Los casos filtrados corresponden a los casos no exitosos ..................................................................................................... 91 Tabla 8.10 - Comparación de la distribución de los valores del atributo “monto”, extraída directamente de la planilla “Analiza Patrones”. Los casos filtrados corresponden a los casos no exitosos ..................................................................................................... 91 Tabla 8.11 - Tabla que indica la cantidad de reglas encontradas en el caso “Venta de artículos a través de página Web”, usando distintas combinaciones de los parámetros “lowerBoundMinSupport” (entre 0,1 y 0,9) y “minMetric” (entre 0,1 y 0,9) ................. 93 x
Description: