M E E EJORAS EN FICIENCIA Y FICACIA A E DE LGORITMOS VOLUTIVOS PARA A S PRENDIZAJE UPERVISADO DEPARTAMENTO DE LENGUAJES Y SISTEMAS INFORMÁTICOS Memoriadelperiododeinvestigación presentadaporD.RaúlGiráldezRojo paraoptaralDiplomadeEstudiosAvanzados Directores: Dr. D.JoséC.RiquelmeSantos Dr. D.JesúsS.AguilarRuiz Sevilla,Septiembrede2003 D. José Cristóbal Riquelme Santos, Profesor Titular de Universidad adscrito al área de LenguajesySistemasInformáticos, CERTIFICA QUE D.RaúlGiráldezRojo,IngenieroenInformáticaporlaUniversidaddeSevilla,harealizado bajomisupervisióneltrabajodeinvestigacióntitulado: MejorasenEficienciayEficaciadeAlgoritmosEvolutivos paraAprendizajeSupervisado Una vez revisado, autorizo la presentación del mismo como Memoria del Periodo de Investigaciónaltribunalquehabrádevalorarlo. Fdo. D.JoséC.RiquelmeSantos ProfesorTitulardeUniversidadadscrito ÁreadeLenguajesySistemasInformáticos Agradecimientos A mis directores de tesis, D. José C. Riquelme Santos y D. Jesus S. Aguilar Ruiz, para mí, Pepe y Jesús, por iniciarme en el que hoy es mi trabajo y por confiar en mí en todo momento. A Pepe, por ofrecerme gratuitamente su experiencia, tanto en el campo de la investigacióncomoeneldeladocencia. AJesús,porsucontinuoapoyoynodejarqueme hundieraenlospeoresmomentos. A D. Miguel Toro Bonilla, ejemplo de persona y de profesional. Sus palabras siempre mehantransmitidotranquilidad. A Paco, mi vecino más cercano en todos los sentidos, por su calidad como amigo y su ayudaeneltranscursodemicortacarreradocenteeinvestigadora. A mis compañeros de investigación, Roberto, Alicia y Daniel, por su colaboración desinteresadaenestainvestigación. AtodosmiscompañerosdelDepartamentodeLenguajesySistemasInformáticos,Joa- quín, José Luis, Toñi, Octavio, Fernando, David, Bea, y un largo etcétera, por hacerme sentircadadíamiembrodeestagranfamilia. A mis padres, Antonio y María del Carmen, por su enorme sacrificio y constante estí- muloallolargodetodamivida. Y por último, aunque no con menor importancia, a Alicia, por su paciencia y infinita generosidad. RaúlGiráldez Sevilla,Septiembrede2003 Índice General 1 Introducción 1 1.1 Planteamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3 Aportacionesoriginales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.3.1 Relacionadasconladiscretización . . . . . . . . . . . . . . . . . . 5 1.3.2 Relacionadasconlaevaluacióneficiente . . . . . . . . . . . . . . . 6 1.3.3 Relacionadasconlacodificacióngenética . . . . . . . . . . . . . . 6 1.3.4 Otraspublicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.4 Proyectosdeinvestigación . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.5 Organización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2 MineríadeDatosy 11 KDD 2.1 DescubrimientodeConocimientoenBasesdeDatos . . . . . . . . . . . . 12 2.2 MarcodetrabajoyDefiniciones . . . . . . . . . . . . . . . . . . . . . . . 15 2.3 RepresentacióndelConocimiento . . . . . . . . . . . . . . . . . . . . . . 18 2.3.1 RepresentaciónProposicional . . . . . . . . . . . . . . . . . . . . 19 2.3.2 Árbolesdedecisión . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.3.3 Reglasdedecisión . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.3.4 ReglasDifusas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.4 PreparacióndelosDatos . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.4.1 Depuración . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 2.4.2 Transformación . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 v vi ÍNDICEGENERAL 2.4.3 Reducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.4.4 Discretización . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 2.5 MétodosdeAprendizajeSupervisado . . . . . . . . . . . . . . . . . . . . 38 2.5.1 TécnicasEstadísticas . . . . . . . . . . . . . . . . . . . . . . . . . 38 2.5.2 VecinoMásCercano . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.5.3 InduccióndeÁrbolesdeDecisión . . . . . . . . . . . . . . . . . . 41 2.5.4 InduccióndeReglasdeDecisión . . . . . . . . . . . . . . . . . . . 48 2.5.5 AprendizajedeReglasMedianteAlgoritmosGenéticos . . . . . . . 50 2.6 MedidasdeRendimiento . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 2.6.1 Precisión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 2.6.2 Complejidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 2.6.3 MétodosdeValidación . . . . . . . . . . . . . . . . . . . . . . . . 52 3 AprendizajeEvolutivo 55 3.1 ConceptosdeComputaciónEvolutiva . . . . . . . . . . . . . . . . . . . . 56 3.2 ReglasmedianteAlgoritmosGenéticos . . . . . . . . . . . . . . . . . . . . 59 3.2.1 GABIL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 3.2.2 GIL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 3.2.3 GASSIST . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 3.2.4 SIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 3.3 COGITO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 3.3.1 Codificaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 3.3.2 Representacionesdelasreglas . . . . . . . . . . . . . . . . . . . . 77 3.3.3 Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 4 HIDER 85 4.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 4.2 Representacióndelconocimiento . . . . . . . . . . . . . . . . . . . . . . . 87 4.2.1 Árbolesdedecisiónvs. reglasjerárquicas . . . . . . . . . . . . . . 88 4.3 DiscretizaciónSupervisadaNoParamétrica . . . . . . . . . . . . . . . . . 90 ÍNDICEGENERAL vii 4.3.1 Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 4.3.2 ConclusionessobreUSD . . . . . . . . . . . . . . . . . . . . . . . 100 4.4 CodificaciónNatural . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 4.4.1 IndividuoNatural . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 4.4.2 Reduccióndelespaciodebúsqueda . . . . . . . . . . . . . . . . . 110 4.4.3 OperadoresGenéticosNaturales . . . . . . . . . . . . . . . . . . . 112 4.4.4 Evaluacióndeindividuosnaturales . . . . . . . . . . . . . . . . . . 127 4.5 EstructuradeEvaluaciónEficiente . . . . . . . . . . . . . . . . . . . . . . 129 4.5.1 EESHíbrida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 4.5.2 EESNatural . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 4.5.3 Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 4.6 Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 4.6.1 Inicializacióndelapoblación . . . . . . . . . . . . . . . . . . . . 148 4.6.2 FuncióndeEvaluación . . . . . . . . . . . . . . . . . . . . . . . . 148 4.6.3 Reemplazo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 4.7 Poda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 4.8 Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 5 Pruebas 153 5.1 Rendimiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 5.1.1 Eficacia: HIDERversusC4.5/C4.5Rules . . . . . . . . . . . . . . 155 5.1.2 Eficiencia: HIDERversusCOGITO . . . . . . . . . . . . . . . . . 161 5.2 AnálisisdeinfluenciadelaPoda . . . . . . . . . . . . . . . . . . . . . . . 165 5.3 Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168 6 ConclusionesyTrabajosFuturos 169 6.1 Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169 6.2 TrabajosFuturos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172 Bibliography 173 viii ÍNDICEGENERAL
Description: