UNIVERSIDAD CARLOS III DE MADRID TESIS DOCTORAL Aprendizaje por Refuerzo para la Toma de Decisiones Segura en Dominios con Espacios de Estados y Acciones Continuos Autor Francisco Javier Garc´ıa Polo Director Dr. D. Fernando Ferna´ndez Rebollo DepartamentodeInforma´tica EscuelaPolite´cnicaSuperior Legane´s,Noviembre2012 TESISDOCTORAL TESIS DOCTORAL Aprendizaje por Refuerzo para la Toma de Decisiones Segura en Dominios con Espacios de Estados y Acciones Continuos Autor: FranciscoJavierGarc´ıaPolo Director: Dr.D.FernandoFerna´ndezRebollo Departamento de Informa´tica. Escuela Polite´cnica Superior Legane´s, Noviembre 2012 TESISDOCTORAL Aprendizaje por Refuerzo para la Toma de Decisiones Segura en Dominios con Espacios de Estados y Acciones Continuos Autor:FranciscoJavierGarc´ıaPolo Director:Dr.D.FernandoFerna´ndezRebollo Firma del Tribunal Calificador: Firma Presidente: D. ................................................................ ........................... Vocal: D. ....................................................................... ........................... Secretario: D. ................................................................ ........................... Calificaci´on: ................................. Legan´es, ...... de .............. de ........... ´ Indice general Resumen XIII I Introduccio´n y Marco Teo´rico 1 1. Introducci´on 3 1.1. Contexto e Hip´otesis de la Tesis Doctoral . . . . . . . . . . . . . . . . . . . 3 1.2. Organizaci´on de la Tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2. Marco Te´orico 9 2.1. Toma de Decisiones Autom´atica . . . . . . . . . . . . . . . . . . . . . . . . 9 2.2. Aprendizaje por Refuerzo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.2.1. Procesos de decisi´on de Markov . . . . . . . . . . . . . . . . . . . . . 12 2.2.2. Funciones de valor . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.2.3. M´etodos de resoluci´on . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.2.4. Exploraci´on y explotaci´on . . . . . . . . . . . . . . . . . . . . . . . . 18 2.2.5. El par´ametro λ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.2.6. Aprendizaje por Refuerzo Multi-Agente . . . . . . . . . . . . . . . . 21 2.3. Generalizaci´on en aprendizaje por refuerzo . . . . . . . . . . . . . . . . . . . 22 2.3.1. Aproximaci´on de funciones . . . . . . . . . . . . . . . . . . . . . . . 23 2.3.2. Discretizaci´on del espacio . . . . . . . . . . . . . . . . . . . . . . . . 36 2.3.3. M´etodos de bu´squeda directa de la pol´ıtica . . . . . . . . . . . . . . 42 2.3.4. Discusi´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 2.4. Aprendizaje por Refuerzo con Riesgo . . . . . . . . . . . . . . . . . . . . . . 50 2.4.1. Aproximaciones basadas en la Varianza del Refuerzo Acumulado . . 50 2.4.2. Aproximaciones basadas en la Identificaci´on de Estados de Error . . 52 2.4.3. Aproximaciones basadas en la Utilizaci´on de Expertos . . . . . . . . 53 2.4.4. Discusi´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 II Objetivos y Evaluaci´on de la Tesis Doctoral 59 3. Objetivos de la Tesis Doctoral 61 3.1. Motivaci´on de la Tesis Doctoral . . . . . . . . . . . . . . . . . . . . . . . . . 61 3.2. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 iii 4. Evaluaci´on de la Tesis Doctoral 67 4.1. Algoritmos de Evaluaci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 4.2. Dominios de Evaluaci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 4.2.1. Automatic Car Parking Problem . . . . . . . . . . . . . . . . . . . . 68 4.2.2. Cart-Pole . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 4.2.3. Helicopter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 4.2.4. Octopus Arm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 4.2.5. SIMBA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 4.2.6. Resumen de los dominios . . . . . . . . . . . . . . . . . . . . . . . . 79 III M´etodos 81 5. Generalizaci´on de los espacios de estados y acciones 83 5.1. El algoritmo G-VQQL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 5.1.1. Primer Paso: Aprendizaje de los Cuantificadores Vectoriales . . . . . 86 5.1.2. Segundo Paso: Aprendizaje de la Pol´ıtica de Comportamiento . . . . 88 5.2. El Algoritmo CMAC-VQQL . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 5.2.1. Primer Paso: Aprendizaje del Cuantificador Vectorial asociado a las Acciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 5.2.2. Segundo Paso: Aprendizaje de la Pol´ıtica de Comportamiento. . . . 93 5.3. Experimentos y Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 5.3.1. Cart-Pole . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 5.3.2. Octopus Arm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 5.3.3. SIMBA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 5.4. Discusi´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 6. Exploraci´on Segura del Espacio de Estados y Acciones 131 6.1. Introducci´on. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 6.2. Definiciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 6.2.1. Estados de Error y de No-Error . . . . . . . . . . . . . . . . . . . . . 135 6.2.2. EstadosConocidosyDesconocidosenEspaciosdeEstadosyAcciones Continuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 6.2.3. Las Ventajas de Utilizar Conocimiento Experto . . . . . . . . . . . . 139 6.2.4. El Par´ametro de Riesgo . . . . . . . . . . . . . . . . . . . . . . . . . 141 6.3. El Algoritmo PI-SRL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 6.3.1. Primer Paso: Modelado del Comportamiento Base mediante CBR . 143 6.3.2. Segundo Paso: Mejora del Comportamiento Base Aprendido . . . . . 146 6.4. Configuraci´on de Par´ametros . . . . . . . . . . . . . . . . . . . . . . . . . . 151 6.4.1. Par´ametro θ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 6.4.2. Par´ametro σ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 6.4.3. Par´ametro Θ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 6.4.4. Par´ametro η . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 6.5. Experimentos y Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 6.5.1. Automatic Car Parking Problem . . . . . . . . . . . . . . . . . . . . 156 6.5.2. Cart-Pole . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 6.5.3. Helicopter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 6.5.4. SIMBA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172 6.6. Discusi´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174 IV Conclusiones y L´ıneas Futuras 179 7. Conclusiones 181 7.1. Resumen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 7.2. Aportaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184 8. L´ıneas Futuras 187 V Ap´endices 191 A. Resultados Adicionales en SIMBA 193 A.1. Aprendizaje de Mu´ltiples Agentes . . . . . . . . . . . . . . . . . . . . . . . . 193 A.1.1. Aprendizaje de los Agentes al Mismo Tiempo . . . . . . . . . . . . . 194 A.1.2. Transferencia de Pol´ıticas Entre Diferentes Escenarios . . . . . . . . 195 A.1.3. Aprendizaje en un Dominio Generalizado . . . . . . . . . . . . . . . 196 A.2. An´alisis Econ´omico del Comportamiento del Agente G-VQQL . . . . . . . . 196 A.3. Discusi´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198 B. Descripci´on de los Comportamientos Base 201 B.1. Automatic Car Parking Problem y Cart-Pole . . . . . . . . . . . . . . . . . 201 B.2. Octopus Arm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202 B.3. Helicopter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 B.4. SIMBA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 C. Publicaciones 205
Description: