ebook img

Aprendizaje por Refuerzo PDF

130 Pages·2017·4.41 MB·Spanish
by  
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Aprendizaje por Refuerzo

Introduccio´n Me´todosde Solucio´nde MDPs Lideandocon Aprendizaje por Refuerzo Espacios Grandes Otros Desarrollos Eduardo Morales, Hugo Jair Escalante Algunosde nuestros desarrollos INAOE (INAOE) 1/130 Contenido Introduccio´n Me´todosde Solucio´nde 1 Introduccio´n MDPs Lideandocon Espacios Grandes 2 Me´todos de Solucio´n de MDPs Otros Desarrollos Algunosde 3 Lideando con Espacios Grandes nuestros desarrollos 4 Otros Desarrollos 5 Algunos de nuestros desarrollos (INAOE) 2/130 Introduccio´n Aprendizaje por Refuerzo Introduccio´n Me´todosde Solucio´nde • Unode losenfoques ma´susados dentrode aprendizaje MDPs es el aprendizaje supervisado a partir de ejemplos Lideandocon Espacios (pares entradas – salida provistos por el medio Grandes ambiente), para despue´s predecir la salida de nuevas Otros Desarrollos entradas. Algunosde nuestros • Cualquier sistema de prediccio´n puede verse dentro de desarrollos este paradigma, sin embargo, ignora la estructura secuencial del mismo. • En algunos ambientes, muchas veces se puede obtener so´lo cierta retroalimentacio´n o recompensa o refuerzo (e.g., gana, pierde). (INAOE) 3/130 Introduccio´n Aprendizaje por Refuerzo Introduccio´n Me´todosde Solucio´nde MDPs • El refuerzo puede darse en un estado terminal y/o en Lideandocon estados intermedios. Espacios Grandes • Los refuerzos pueden ser componentes o sugerencias Otros de la utilidad actual a maximizar (e.g., buena movida). Desarrollos Algunosde • En aprendizaje por refuerzo (RL) el objetivo es nuestros desarrollos aprender co´mo mapear situaciones a acciones para maximizar una cierta sen˜al de recompensa. • Promesa: programar agentes mediante premio y castigo sin necesidad de especificar co´mo realizar la tarea (INAOE) 4/130 Introduccio´n Diferencias con Otro Tipo de Aprendizaje Introduccio´n Me´todosde Solucio´nde MDPs Lideandocon EGsrapnadceioss 1 No se le presentan pares entrada - salida. Otros 2 El agente tiene que obtener experiencia u´til acerca de Desarrollos los estados, acciones, transiciones y recompensas de Algunosde nuestros manera activa para poder actuar de manera o´ptima. desarrollos 3 La evaluacio´n del sistema ocurre en forma concurrente con el aprendizaje. (INAOE) 5/130 Introduccio´n Aplicaciones Introduccio´n Me´todosde Solucio´nde MDPs • La primera aplicacio´n en aprendizaje por refuerzo fue´ el Lideandocon programa para jugar damas de Samuel Espacios Grandes • Uso´ una funcio´n lineal de evaluacio´n con pesos usando Otros hasta 16 te´rminos Desarrollos Algunosde • Su programa era parecido a la ecuacio´n de nuestros desarrollos actualizacio´n de pesos, pero no usaba recompensa en los estados terminales, lo que hace que puede o no converger y puede aprender a perder. • Logro´ evitar e´sto haciendo que el peso para ganancia de material fuera siempre positivo. (INAOE) 6/130 Introduccio´n Aplicaciones Introduccio´n Me´todosde • Una de las ma´s conocidas es el control del pe´ndulo Solucio´nde invertido. Controlar la posicio´n x para que se mantenga MDPs Lideandocon aproximadamente derecho (θ ≈ π/2), manteniendose EGsrapnadceioss en los l´ımites de la pista. X,θ,X˙ y θ˙ son continuas. El Otros control es de tipo bang–bang. Desarrollos • Boxes (Michie, Chambers ’68) balanceaba el pendulo Algunosde nuestros por ma´s de una hora despue´s de 30 intentos (no desarrollos simulado) • Discretizaron el espacio en cajas. Se corr´ıa el sistema hasta que se ca´ıa el pe´ndulo o se sal´ıa de los l´ımites. Entonces se daba un refuerzo negativo a la u´ltima “caja” y se propagaba a la secuencia de “cajas” por las que paso´. (INAOE) 7/130 Introduccio´n Aplicaciones Introduccio´n • TD-gammon (Tesauro ’92) represento´ una funcio´n de Me´todosde Solucio´nde evaluacio´n con una red neuronal de una sola capa MDPs intermedia con 40 nodos, que despue´s de 200,000 Lideandocon Espacios juegos de entrenamiento mejoro´ notablemente su Grandes desempen˜o. Otros Desarrollos • An˜adiendo atributos adicionales a una red con 80 Algunosde nuestros nodos escondidos, despue´s de 300,000 juegos de desarrollos entrenamiento, juega como los 3 mejores jugadores del mundo. • Tambie´n se desarrollo´ un algoritmo de RL que actualiza las funciones de evaluacio´n en un a´rbol de bu´squeda en juegos. En ajedrez mejora el puntaje de un programa de 1,650 a 2,150 despue´s de 308 juegos en 3 d´ıas. (INAOE) 8/130 Introduccio´n Aplicaciones Introduccio´n Me´todosde Solucio´nde MDPs Algunas aplicaciones recientes incluyen: Lideandocon Espacios • Watson (IBM) - campeo´n en el juego de Jeopardy Grandes (2011). Se uso´ RL para aprender un funcio´n de valor Otros Desarrollos que se uso´ para generar “apuestas” y ganar ma´s Algunosde puntos. nuestros desarrollos • Atari 2600 - se aprendio´ como jugar 46 video juegos, superando en 29 a humanos • Go - campeo´n en el juego de Go • Mu´ltiples aplicaciones en robo´tica (INAOE) 9/130 Introduccio´n Aprendizaje por Refuerzo Introduccio´n Me´todosde • En RL un agente trata de aprender un comportamiento Solucio´nde MDPs mediante interacciones de prueba y error en un Lideandocon ambiente dina´mico e incierto Espacios Grandes • En general, al sistema no se le dice que´ accio´n debe Otros Desarrollos tomar, sino que e´l debe de descubrir que´ acciones dan Algunosde el ma´ximo beneficio nuestros desarrollos • En un RL estandar, un agente esta´ conectado a un ambiente por medio de percepcio´n y accio´n • En cada interaccio´n el agente recibe como entrada una indicacio´n de su estado actual (s ∈ S) y selecciona una accio´n (a ∈ A). La accio´n cambia el estado y el agente recibe una sen˜al de refuerzo o recompensa (r ∈ R) (INAOE) 10/130

Description:
Espacios. Grandes. Otros. Desarrollos. Algunos de nuestros desarrollos. Aprendizaje por Refuerzo. Eduardo Morales, Hugo Jair Escalante. INAOE.
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.