ebook img

Aprendizaje por refuerzo para la toma de decisiones seguras en dominios con espacios de ... PDF

242 Pages·2013·4.32 MB·Spanish
by  
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Aprendizaje por refuerzo para la toma de decisiones seguras en dominios con espacios de ...

UNIVERSIDAD CARLOS III DE MADRID TESIS DOCTORAL Aprendizaje por Refuerzo para la Toma de Decisiones Segura en Dominios con Espacios de Estados y Acciones Continuos Autor Francisco Javier Garc´ıa Polo Director Dr. D. Fernando Ferna´ndez Rebollo DepartamentodeInforma´tica EscuelaPolite´cnicaSuperior Legane´s,Noviembre2012 TESISDOCTORAL TESIS DOCTORAL Aprendizaje por Refuerzo para la Toma de Decisiones Segura en Dominios con Espacios de Estados y Acciones Continuos Autor: FranciscoJavierGarc´ıaPolo Director: Dr.D.FernandoFerna´ndezRebollo Departamento de Informa´tica. Escuela Polite´cnica Superior Legane´s, Noviembre 2012 TESISDOCTORAL Aprendizaje por Refuerzo para la Toma de Decisiones Segura en Dominios con Espacios de Estados y Acciones Continuos Autor:FranciscoJavierGarc´ıaPolo Director:Dr.D.FernandoFerna´ndezRebollo Firma del Tribunal Calificador: Firma Presidente: D. ................................................................ ........................... Vocal: D. ....................................................................... ........................... Secretario: D. ................................................................ ........................... Calificaci´on: ................................. Legan´es, ...... de .............. de ........... ´ Indice general Resumen XIII I Introduccio´n y Marco Teo´rico 1 1. Introducci´on 3 1.1. Contexto e Hip´otesis de la Tesis Doctoral . . . . . . . . . . . . . . . . . . . 3 1.2. Organizaci´on de la Tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2. Marco Te´orico 9 2.1. Toma de Decisiones Autom´atica . . . . . . . . . . . . . . . . . . . . . . . . 9 2.2. Aprendizaje por Refuerzo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.2.1. Procesos de decisi´on de Markov . . . . . . . . . . . . . . . . . . . . . 12 2.2.2. Funciones de valor . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.2.3. M´etodos de resoluci´on . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.2.4. Exploraci´on y explotaci´on . . . . . . . . . . . . . . . . . . . . . . . . 18 2.2.5. El par´ametro λ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.2.6. Aprendizaje por Refuerzo Multi-Agente . . . . . . . . . . . . . . . . 21 2.3. Generalizaci´on en aprendizaje por refuerzo . . . . . . . . . . . . . . . . . . . 22 2.3.1. Aproximaci´on de funciones . . . . . . . . . . . . . . . . . . . . . . . 23 2.3.2. Discretizaci´on del espacio . . . . . . . . . . . . . . . . . . . . . . . . 36 2.3.3. M´etodos de bu´squeda directa de la pol´ıtica . . . . . . . . . . . . . . 42 2.3.4. Discusi´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 2.4. Aprendizaje por Refuerzo con Riesgo . . . . . . . . . . . . . . . . . . . . . . 50 2.4.1. Aproximaciones basadas en la Varianza del Refuerzo Acumulado . . 50 2.4.2. Aproximaciones basadas en la Identificaci´on de Estados de Error . . 52 2.4.3. Aproximaciones basadas en la Utilizaci´on de Expertos . . . . . . . . 53 2.4.4. Discusi´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 II Objetivos y Evaluaci´on de la Tesis Doctoral 59 3. Objetivos de la Tesis Doctoral 61 3.1. Motivaci´on de la Tesis Doctoral . . . . . . . . . . . . . . . . . . . . . . . . . 61 3.2. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 iii 4. Evaluaci´on de la Tesis Doctoral 67 4.1. Algoritmos de Evaluaci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 4.2. Dominios de Evaluaci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 4.2.1. Automatic Car Parking Problem . . . . . . . . . . . . . . . . . . . . 68 4.2.2. Cart-Pole . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 4.2.3. Helicopter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 4.2.4. Octopus Arm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 4.2.5. SIMBA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 4.2.6. Resumen de los dominios . . . . . . . . . . . . . . . . . . . . . . . . 79 III M´etodos 81 5. Generalizaci´on de los espacios de estados y acciones 83 5.1. El algoritmo G-VQQL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 5.1.1. Primer Paso: Aprendizaje de los Cuantificadores Vectoriales . . . . . 86 5.1.2. Segundo Paso: Aprendizaje de la Pol´ıtica de Comportamiento . . . . 88 5.2. El Algoritmo CMAC-VQQL . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 5.2.1. Primer Paso: Aprendizaje del Cuantificador Vectorial asociado a las Acciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 5.2.2. Segundo Paso: Aprendizaje de la Pol´ıtica de Comportamiento. . . . 93 5.3. Experimentos y Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 5.3.1. Cart-Pole . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 5.3.2. Octopus Arm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 5.3.3. SIMBA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 5.4. Discusi´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 6. Exploraci´on Segura del Espacio de Estados y Acciones 131 6.1. Introducci´on. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 6.2. Definiciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 6.2.1. Estados de Error y de No-Error . . . . . . . . . . . . . . . . . . . . . 135 6.2.2. EstadosConocidosyDesconocidosenEspaciosdeEstadosyAcciones Continuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 6.2.3. Las Ventajas de Utilizar Conocimiento Experto . . . . . . . . . . . . 139 6.2.4. El Par´ametro de Riesgo . . . . . . . . . . . . . . . . . . . . . . . . . 141 6.3. El Algoritmo PI-SRL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 6.3.1. Primer Paso: Modelado del Comportamiento Base mediante CBR . 143 6.3.2. Segundo Paso: Mejora del Comportamiento Base Aprendido . . . . . 146 6.4. Configuraci´on de Par´ametros . . . . . . . . . . . . . . . . . . . . . . . . . . 151 6.4.1. Par´ametro θ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 6.4.2. Par´ametro σ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 6.4.3. Par´ametro Θ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 6.4.4. Par´ametro η . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 6.5. Experimentos y Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 6.5.1. Automatic Car Parking Problem . . . . . . . . . . . . . . . . . . . . 156 6.5.2. Cart-Pole . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 6.5.3. Helicopter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 6.5.4. SIMBA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172 6.6. Discusi´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174 IV Conclusiones y L´ıneas Futuras 179 7. Conclusiones 181 7.1. Resumen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 7.2. Aportaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184 8. L´ıneas Futuras 187 V Ap´endices 191 A. Resultados Adicionales en SIMBA 193 A.1. Aprendizaje de Mu´ltiples Agentes . . . . . . . . . . . . . . . . . . . . . . . . 193 A.1.1. Aprendizaje de los Agentes al Mismo Tiempo . . . . . . . . . . . . . 194 A.1.2. Transferencia de Pol´ıticas Entre Diferentes Escenarios . . . . . . . . 195 A.1.3. Aprendizaje en un Dominio Generalizado . . . . . . . . . . . . . . . 196 A.2. An´alisis Econ´omico del Comportamiento del Agente G-VQQL . . . . . . . . 196 A.3. Discusi´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198 B. Descripci´on de los Comportamientos Base 201 B.1. Automatic Car Parking Problem y Cart-Pole . . . . . . . . . . . . . . . . . 201 B.2. Octopus Arm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202 B.3. Helicopter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 B.4. SIMBA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 C. Publicaciones 205

Description:
primer objetivo de esta Tesis es la obtención de métodos de aprendizaje por NEAT (NeuroEvolution of Augmenting Topologies) [Stanley and
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.