Table Of Content

Apprentissage par Renforcement Apprentissage NumØrique Pierre GØrard UniversitØdeParis13-LIPN Master MICR LATEX PierreGØrard (P13-LIPN) ApprentissageparRenforcement MasterMICR 1/169 ProblŁmed’AR Introduction Plan 1 ProblŁme d’AR Introduction Formalisation du problŁme 2 Solutions ØlØmentaires Programmation Dynamique Monte Carlo Di(cid:27)Ørence temporelle (TD) 3 Solutions uni(cid:28)Øes Traces d’ØligibilitØ Approximation de fonctions 4 Perspectives AR indirect POMDP ContinuitØ du temps PierreGØrard (P13-LIPN) ApprentissageparRenforcement MasterMICR 2/169 ProblŁmed’AR Introduction Le chien de Pavlov (conditionnement classique) PrØsenter de la nourriture (cid:224) un chien provoque sa salivation ExpØrience rØpØtØe : juste aprŁs avoir prØsentØ la nourriture, on fait sonner une cloche Le chien (cid:28)nit par saliver au simple son de la cloche PierreGØrard (P13-LIPN) ApprentissageparRenforcement MasterMICR 3/169 ProblŁmed’AR Introduction La bo(cid:238)te de Skinner Appuyer sur le levier permet de dØlivrer de la nourriture Le pigeon apprend par essais-erreurs (cid:224) appuyer sur le levier pour que de la nourriture soit dØlivrØe On peut aussi compliquer le dispositif pour conditionner la dØlivrance de nourriture par un signal sonore ou lumineux PierreGØrard (P13-LIPN) ApprentissageparRenforcement MasterMICR 4/169 ProblŁmed’AR Introduction Conditionnement opØrant Apprentissage par essais/erreurs d’une action Øventuellement conditionnØe par une situation DŁs qu’il presse le bouton, le pigeon est rØcompensØ La rØcompense renforce cette action Le pigeon apprend (cid:224) presser le bouton de plus en plus souvent Modi(cid:28)er la rØcompense conduit (cid:224) modi(cid:28)er le comportement que l’animal apprend PierreGØrard (P13-LIPN) ApprentissageparRenforcement MasterMICR 5/169 ProblŁmed’AR Introduction Apprentissage par Renforcement Reproduction arti(cid:28)cielle du conditionnement de l’animal Objectif Comment faire apprendre un comportement (cid:224) une machine en lui distribuant des rØcompenses? Adaptation du comportement du systŁme (cid:224) son environnement Apprentissage d’une politique, c(cid:224)d de rŁgles permettant de choisir une action en fonction de la situation La politique doit permettre de maximiser la rØcompense PierreGØrard (P13-LIPN) ApprentissageparRenforcement MasterMICR 6/169 ProblŁmed’AR Introduction LE Livre R. S. Sutton and A. G. Barto (1998) Reinforcement Learning : An Introduction. MIT Press, 1998. PierreGØrard (P13-LIPN) ApprentissageparRenforcement MasterMICR 7/169 ProblŁmed’AR Introduction Le bandit n’est pas manchot ProblŁme Machine (cid:224) sous (cid:224) n leviers A chaque essais, n actions possibles On est rØcompensØ par les gains aprŁs chaque essai Objectif : maximiser ses gains sur un certain nombre d’essais PierreGØrard (P13-LIPN) ApprentissageparRenforcement MasterMICR 8/169 ProblŁmed’AR Introduction vs. Exploration exploitation Chaque action a une valeur, reprØsentant l’espØrance moyenne des gains en choisissant l’action en question Connaissant la valeur de chaque action, il serait facile de rØsoudre le problŁme ProblŁme de compromis exploration/exploitation Exploitation : Exploitation des connaissances acquises jusqu’ici Exploration : Acquisition de nouvelles connaissances PierreGØrard (P13-LIPN) ApprentissageparRenforcement MasterMICR 9/169 ProblŁmed’AR Introduction Valeur d’une action On note : Q(cid:63)(a) la valeur rØelle de l’action a Q (a) la valeur de a estimØe aprŁs le tŁme essai t k le nombre de fois que a a ØtØ choisie avant le tŁme essai a r1,r2,··· ,rka les rØcompenses re(cid:231)ues aprŁs avoir choisi a Estimation de la valeur d’une action r +r +···+r Q (a) = 1 2 ka t k a On suppose Q (a) = 0 0 Lorsque k → ∞, alors Q (a) converge vers Q(cid:63)(a) a t PierreGØrard (P13-LIPN) ApprentissageparRenforcement MasterMICR 10/169

Description:

Modifier la récompense conduit à modifier le comportement que l'animal apprend. Pierre Gérard (P13 - LIPN). Apprentissage par Renforcement.

Apprentissage par Renforcement PDF

188 Pages·2007·4.6 MB·French

by Pierre Gérard

Checking for file health...

Save to my drive

Quick download

Download

Upgrade Premium

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Apprentissage par Renforcement

Description:

Modifier la récompense conduit à modifier le comportement que l'animal apprend. Pierre Gérard (P13 - LIPN). Apprentissage par Renforcement.

See more

The list of books you might like

Upgrade Premium

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.