Introduccio´n Me´todosde Solucio´nde MDPs Lideandocon Aprendizaje por Refuerzo Espacios Grandes Otros Desarrollos Eduardo Morales, Hugo Jair Escalante Algunosde nuestros desarrollos INAOE (INAOE) 1/130 Contenido Introduccio´n Me´todosde Solucio´nde 1 Introduccio´n MDPs Lideandocon Espacios Grandes 2 Me´todos de Solucio´n de MDPs Otros Desarrollos Algunosde 3 Lideando con Espacios Grandes nuestros desarrollos 4 Otros Desarrollos 5 Algunos de nuestros desarrollos (INAOE) 2/130 Introduccio´n Aprendizaje por Refuerzo Introduccio´n Me´todosde Solucio´nde • Unode losenfoques ma´susados dentrode aprendizaje MDPs es el aprendizaje supervisado a partir de ejemplos Lideandocon Espacios (pares entradas – salida provistos por el medio Grandes ambiente), para despue´s predecir la salida de nuevas Otros Desarrollos entradas. Algunosde nuestros • Cualquier sistema de prediccio´n puede verse dentro de desarrollos este paradigma, sin embargo, ignora la estructura secuencial del mismo. • En algunos ambientes, muchas veces se puede obtener so´lo cierta retroalimentacio´n o recompensa o refuerzo (e.g., gana, pierde). (INAOE) 3/130 Introduccio´n Aprendizaje por Refuerzo Introduccio´n Me´todosde Solucio´nde MDPs • El refuerzo puede darse en un estado terminal y/o en Lideandocon estados intermedios. Espacios Grandes • Los refuerzos pueden ser componentes o sugerencias Otros de la utilidad actual a maximizar (e.g., buena movida). Desarrollos Algunosde • En aprendizaje por refuerzo (RL) el objetivo es nuestros desarrollos aprender co´mo mapear situaciones a acciones para maximizar una cierta sen˜al de recompensa. • Promesa: programar agentes mediante premio y castigo sin necesidad de especificar co´mo realizar la tarea (INAOE) 4/130 Introduccio´n Diferencias con Otro Tipo de Aprendizaje Introduccio´n Me´todosde Solucio´nde MDPs Lideandocon EGsrapnadceioss 1 No se le presentan pares entrada - salida. Otros 2 El agente tiene que obtener experiencia u´til acerca de Desarrollos los estados, acciones, transiciones y recompensas de Algunosde nuestros manera activa para poder actuar de manera o´ptima. desarrollos 3 La evaluacio´n del sistema ocurre en forma concurrente con el aprendizaje. (INAOE) 5/130 Introduccio´n Aplicaciones Introduccio´n Me´todosde Solucio´nde MDPs • La primera aplicacio´n en aprendizaje por refuerzo fue´ el Lideandocon programa para jugar damas de Samuel Espacios Grandes • Uso´ una funcio´n lineal de evaluacio´n con pesos usando Otros hasta 16 te´rminos Desarrollos Algunosde • Su programa era parecido a la ecuacio´n de nuestros desarrollos actualizacio´n de pesos, pero no usaba recompensa en los estados terminales, lo que hace que puede o no converger y puede aprender a perder. • Logro´ evitar e´sto haciendo que el peso para ganancia de material fuera siempre positivo. (INAOE) 6/130 Introduccio´n Aplicaciones Introduccio´n Me´todosde • Una de las ma´s conocidas es el control del pe´ndulo Solucio´nde invertido. Controlar la posicio´n x para que se mantenga MDPs Lideandocon aproximadamente derecho (θ ≈ π/2), manteniendose EGsrapnadceioss en los l´ımites de la pista. X,θ,X˙ y θ˙ son continuas. El Otros control es de tipo bang–bang. Desarrollos • Boxes (Michie, Chambers ’68) balanceaba el pendulo Algunosde nuestros por ma´s de una hora despue´s de 30 intentos (no desarrollos simulado) • Discretizaron el espacio en cajas. Se corr´ıa el sistema hasta que se ca´ıa el pe´ndulo o se sal´ıa de los l´ımites. Entonces se daba un refuerzo negativo a la u´ltima “caja” y se propagaba a la secuencia de “cajas” por las que paso´. (INAOE) 7/130 Introduccio´n Aplicaciones Introduccio´n • TD-gammon (Tesauro ’92) represento´ una funcio´n de Me´todosde Solucio´nde evaluacio´n con una red neuronal de una sola capa MDPs intermedia con 40 nodos, que despue´s de 200,000 Lideandocon Espacios juegos de entrenamiento mejoro´ notablemente su Grandes desempen˜o. Otros Desarrollos • An˜adiendo atributos adicionales a una red con 80 Algunosde nuestros nodos escondidos, despue´s de 300,000 juegos de desarrollos entrenamiento, juega como los 3 mejores jugadores del mundo. • Tambie´n se desarrollo´ un algoritmo de RL que actualiza las funciones de evaluacio´n en un a´rbol de bu´squeda en juegos. En ajedrez mejora el puntaje de un programa de 1,650 a 2,150 despue´s de 308 juegos en 3 d´ıas. (INAOE) 8/130 Introduccio´n Aplicaciones Introduccio´n Me´todosde Solucio´nde MDPs Algunas aplicaciones recientes incluyen: Lideandocon Espacios • Watson (IBM) - campeo´n en el juego de Jeopardy Grandes (2011). Se uso´ RL para aprender un funcio´n de valor Otros Desarrollos que se uso´ para generar “apuestas” y ganar ma´s Algunosde puntos. nuestros desarrollos • Atari 2600 - se aprendio´ como jugar 46 video juegos, superando en 29 a humanos • Go - campeo´n en el juego de Go • Mu´ltiples aplicaciones en robo´tica (INAOE) 9/130 Introduccio´n Aprendizaje por Refuerzo Introduccio´n Me´todosde • En RL un agente trata de aprender un comportamiento Solucio´nde MDPs mediante interacciones de prueba y error en un Lideandocon ambiente dina´mico e incierto Espacios Grandes • En general, al sistema no se le dice que´ accio´n debe Otros Desarrollos tomar, sino que e´l debe de descubrir que´ acciones dan Algunosde el ma´ximo beneficio nuestros desarrollos • En un RL estandar, un agente esta´ conectado a un ambiente por medio de percepcio´n y accio´n • En cada interaccio´n el agente recibe como entrada una indicacio´n de su estado actual (s ∈ S) y selecciona una accio´n (a ∈ A). La accio´n cambia el estado y el agente recibe una sen˜al de refuerzo o recompensa (r ∈ R) (INAOE) 10/130
Description: