ebook img

Markov Decision Processes in Artificial Intelligence PDF

466 Pages·2010·19.098 MB·English
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Markov Decision Processes in Artificial Intelligence

Markov Decision Processes in Artificial Intelligence Markov Decision Processes in Artificial Intelligence MDPs, Beyond MDPs and Applications Edited by Olivier Sigaud Olivier Buffet First published 2008 in France by Hermes Science/Lavoisier in two volumes entitled: Processus décisionnels de Markov en intelligence artificielle © LAVOISIER 2008 First published 2010 in Great Britain and the United States by ISTE Ltd and John Wiley & Sons, Inc. Apart from any fair dealing for the purposes of research or private study, or criticism or review, as permitted under the Copyright, Designs and Patents Act 1988, this publication may only be reproduced, stored or transmitted, in any form or by any means, with the prior permission in writing of the publishers, or in the case of reprographic reproduction in accordance with the terms and licenses issued by the CLA. Enquiries concerning reproduction outside these terms should be sent to the publishers at the undermentioned address: ISTE Ltd John Wiley & Sons, Inc. 27-37 St George’s Road 111 River Street London SW19 4EU Hoboken, NJ 07030 UK USA www.iste.co.uk www.wiley.com © ISTE Ltd 2010 The rights of Olivier Sigaud and Olivier Buffet to be identified as the authors of this work have been asserted by them in accordance with the Copyright, Designs and Patents Act 1988. Library of Congress Cataloging-in-Publication Data Markov decision processes in artificial intelligence : MDPs, beyond MDPs and applications / edited by Olivier Sigaud, Olivier Buffet. p. cm. Includes bibliographical references and index. ISBN 978-1-84821-167-4 1. Artificial intelligence--Mathematics. 2. Artificial intelligence--Statistical methods. 3. Markov processes. 4. Statistical decision. I. Sigaud, Olivier. II. Buffet, Olivier. Q335.M374 2010 006.301'509233--dc22 2009048651 British Library Cataloguing-in-Publication Data A CIP record for this book is available from the British Library ISBN 978-1-84821-167-4 Printed and bound in Great Britain by CPI Antony Rowe, Chippenham and Eastbourne Table of Contents Preface . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xvii ListofAuthors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xix PART1.MDPS: MODELS AND METHODS . . . . . . . . . . . . . . . . . . . 1 Chapter1.MarkovDecisionProcesses . . . . . . . . . . . . . . . . . . . . . . 3 FrédérickGARCIAandEmmanuelRACHELSON 1.1.Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.2.Markovdecisionproblems. . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.2.1.Markovdecisionprocesses . . . . . . . . . . . . . . . . . . . . . . 4 1.2.2.Actionpolicies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.2.3.Performancecriterion . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.3.Valuefunctions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.3.1.Thefinitecriterion . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.3.2.Theγ-discountedcriterion . . . . . . . . . . . . . . . . . . . . . . 10 1.3.3.Thetotalrewardcriterion . . . . . . . . . . . . . . . . . . . . . . . 11 1.3.4.Theaveragerewardcriterion . . . . . . . . . . . . . . . . . . . . . 11 1.4.Markovpolicies. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.4.1.Equivalenceofhistory-dependentandMarkovpolicies . . . . . . 12 1.4.2.MarkovpoliciesandvaluedMarkovchains . . . . . . . . . . . . . 13 1.5.Characterizationofoptimalpolicies . . . . . . . . . . . . . . . . . . . . 14 1.5.1.Thefinitecriterion . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.5.1.1.Optimalityequations. . . . . . . . . . . . . . . . . . . . . . . 14 1.5.1.2.EvaluationofadeterministicMarkovpolicy . . . . . . . . . 15 1.5.2.Thediscountedcriterion . . . . . . . . . . . . . . . . . . . . . . . . 16 1.5.2.1.EvaluationofastationaryMarkovpolicy . . . . . . . . . . . 16 1.5.2.2.Optimalityequations. . . . . . . . . . . . . . . . . . . . . . . 17 1.5.3.Thetotalrewardcriterion . . . . . . . . . . . . . . . . . . . . . . . 22 v vi MarkovDecisionProcessesinAI 1.5.4.Theaveragerewardcriterion . . . . . . . . . . . . . . . . . . . . . 24 1.5.4.1.EvaluationofastationaryMarkovpolicy . . . . . . . . . . . 24 1.5.4.2.Optimalityequations. . . . . . . . . . . . . . . . . . . . . . . 27 1.6.OptimizationalgorithmsforMDPs . . . . . . . . . . . . . . . . . . . . . 28 1.6.1.Thefinitecriterion . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 1.6.2.Thediscountedcriterion . . . . . . . . . . . . . . . . . . . . . . . . 28 1.6.2.1.Linearprogramming . . . . . . . . . . . . . . . . . . . . . . . 28 1.6.2.2.Thevalueiterationalgorithm . . . . . . . . . . . . . . . . . . 29 1.6.2.3.Thepolicyiterationalgorithm . . . . . . . . . . . . . . . . . 30 1.6.3.Thetotalrewardcriterion . . . . . . . . . . . . . . . . . . . . . . . 34 1.6.3.1.PositiveMDPs . . . . . . . . . . . . . . . . . . . . . . . . . . 34 1.6.3.2.NegativeMDPs. . . . . . . . . . . . . . . . . . . . . . . . . . 34 1.6.4.Theaveragecriterion. . . . . . . . . . . . . . . . . . . . . . . . . . 35 1.6.4.1.Relativevalueiterationalgorithm . . . . . . . . . . . . . . . 35 1.6.4.2.Modifiedpolicyiterationalgorithm . . . . . . . . . . . . . . 36 1.7.Conclusionandoutlook . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 1.8.Bibliography . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 Chapter2.ReinforcementLearning . . . . . . . . . . . . . . . . . . . . . . . 39 OlivierSIGAUDandFrédérickGARCIA 2.1.Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.1.1.Historicaloverview . . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.2.Reinforcementlearning:aglobalview . . . . . . . . . . . . . . . . . . . 40 2.2.1.Reinforcementlearningasapproximatedynamicprogramming. . 41 2.2.2.Temporal,non-supervisedandtrial-and-errorbasedlearning . . . 42 2.2.3.Explorationversusexploitation . . . . . . . . . . . . . . . . . . . . 42 2.2.4.Generalpreliminariesonestimationmethods . . . . . . . . . . . . 44 2.3.MonteCarlomethods . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 2.4.FromMonteCarlototemporaldifferencemethods . . . . . . . . . . . . 45 2.5.Temporaldifferencemethods . . . . . . . . . . . . . . . . . . . . . . . . 46 2.5.1.TheTD(0)algorithm . . . . . . . . . . . . . . . . . . . . . . . . . 47 2.5.2.TheSARSAalgorithm . . . . . . . . . . . . . . . . . . . . . . . . . 48 2.5.3.TheQ-learningalgorithm . . . . . . . . . . . . . . . . . . . . . . . 49 2.5.4.TheTD(λ),SARSA(λ)andQ(λ)algorithms . . . . . . . . . . . . 51 2.5.5.EligibilitytracesandTD(λ) . . . . . . . . . . . . . . . . . . . . . 52 2.5.6.FromTD(λ)toSARSA(λ) . . . . . . . . . . . . . . . . . . . . . . 55 2.5.7.Q(λ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 2.5.8.TheR-learningalgorithm . . . . . . . . . . . . . . . . . . . . . . . 58 2.6.Model-basedmethods:learningamodel . . . . . . . . . . . . . . . . . . 59 2.6.1.Dynaarchitectures . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 2.6.2.TheE3algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 2.6.3.TheR algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . 62 max Contents vii 2.7.Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 2.8.Bibliography . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 Chapter3.ApproximateDynamicProgramming . . . . . . . . . . . . . . . 67 RémiMUNOS 3.1.Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 3.2.Approximatevalueiteration(AVI) . . . . . . . . . . . . . . . . . . . . . 70 3.2.1.Sample-basedimplementationandsupervisedlearning . . . . . . 71 3.2.2.AnalysisoftheAVIalgorithm . . . . . . . . . . . . . . . . . . . . 73 3.2.3.Numericalillustration . . . . . . . . . . . . . . . . . . . . . . . . . 74 3.3.Approximatepolicyiteration(API). . . . . . . . . . . . . . . . . . . . . 77 3.3.1.AnalysisinL∞-normoftheAPIalgorithm . . . . . . . . . . . . . 77 3.3.2.Approximatepolicyevaluation . . . . . . . . . . . . . . . . . . . . 79 3.3.3.Linearapproximationandleast-squaresmethods . . . . . . . . . . 80 3.3.3.1.TD(λ). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 3.3.3.2.Least-squaresmethods. . . . . . . . . . . . . . . . . . . . . . 82 3.3.3.3.Linearapproximationofthestate-actionvaluefunction . . . 85 3.4.DirectminimizationoftheBellmanresidual . . . . . . . . . . . . . . . 87 3.5.TowardsananalysisofdynamicprogramminginLp-norm . . . . . . . 88 3.5.1.IntuitionofanLpanalysisindynamicprogramming. . . . . . . . 89 3.5.2.PACboundsforRLalgorithms . . . . . . . . . . . . . . . . . . . . 91 3.6.Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 3.7.Bibliography . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 Chapter4.FactoredMarkovDecisionProcesses . . . . . . . . . . . . . . . . 99 ThomasDEGRISandOlivierSIGAUD 4.1.Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 4.2.ModelingaproblemwithanFMDP . . . . . . . . . . . . . . . . . . . . 100 4.2.1.Representingthestatespace. . . . . . . . . . . . . . . . . . . . . . 100 4.2.2.TheCoffeeRobotexample . . . . . . . . . . . . . . . . . . . . . . 100 4.2.3.Decompositionandfunction-specificindependence . . . . . . . . 101 4.2.3.1.Transitionfunctiondecomposition . . . . . . . . . . . . . . . 102 4.2.3.2.DynamicBayesiannetworksinFMDPs . . . . . . . . . . . . 103 4.2.3.3.FactoredmodelofthetransitionfunctioninanFMDP. . . . 104 4.2.3.4.Factoredmodeloftherewardfunction. . . . . . . . . . . . . 105 4.2.4.Context-specificindependence . . . . . . . . . . . . . . . . . . . . 107 4.3.PlanningwithFMDPs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 4.3.1.Structuredpolicyiterationandstructuredvalueiteration. . . . . . 108 4.3.1.1.Decisiontrees . . . . . . . . . . . . . . . . . . . . . . . . . . 108 4.3.1.2.Representationofthetransitionfunction . . . . . . . . . . . 108 4.3.1.3.Representationoftherewardfunction . . . . . . . . . . . . . 110 4.3.1.4.Representationofapolicy. . . . . . . . . . . . . . . . . . . . 110 4.3.1.5.Representationofthevaluefunction . . . . . . . . . . . . . . 111 4.3.1.6.Algorithms . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 viii MarkovDecisionProcessesinAI 4.3.2.SPUDD:stochasticplanningusingdecisiondiagrams . . . . . . . 112 4.3.2.1.RepresentingthefunctionsofanFMDPwithADDs . . . . . 113 4.3.2.2.Algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 4.3.3.ApproximatelinearprogramminginFMDPs . . . . . . . . . . . . 115 4.3.3.1.Representations . . . . . . . . . . . . . . . . . . . . . . . . . 116 4.3.3.2.Representationofthetransitionfunction . . . . . . . . . . . 116 4.3.3.3.Representationoftherewardfunction . . . . . . . . . . . . . 117 4.3.3.4.Policyrepresentation . . . . . . . . . . . . . . . . . . . . . . 118 4.3.3.5.Representationofthevaluefunction . . . . . . . . . . . . . . 119 4.3.3.6.Algorithms . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 4.4.Perspectivesandconclusion . . . . . . . . . . . . . . . . . . . . . . . . . 122 4.5.Bibliography . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 Chapter5.Policy-GradientAlgorithms . . . . . . . . . . . . . . . . . . . . . 127 OlivierBUFFET 5.1.Reminderaboutthenotionofgradient . . . . . . . . . . . . . . . . . . . 128 5.1.1.Gradientofafunction . . . . . . . . . . . . . . . . . . . . . . . . . 128 5.1.2.Gradientdescent . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 5.2.Optimizingaparameterizedpolicywithagradientalgorithm . . . . . . 130 5.2.1.ApplicationtoMDPs: overview . . . . . . . . . . . . . . . . . . . 130 5.2.1.1.Firstattempttodefineaparameterizedpolicy. . . . . . . . . 131 5.2.1.2.Exampleofdefinitionofaparameterizedpolicy . . . . . . . 131 5.2.2.Finitedifferencemethod. . . . . . . . . . . . . . . . . . . . . . . . 132 5.2.3.Gradientestimationoff inanMDP,caseofthefinite timehorizon. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 5.2.3.1.Timehorizon1 . . . . . . . . . . . . . . . . . . . . . . . . . . 133 5.2.3.2.TimehorizonT . . . . . . . . . . . . . . . . . . . . . . . . . . 134 5.2.4.Extensiontotheinfinitetimehorizon:discountedcriterion, averagecriterion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 5.2.4.1.Caseofaregenerativeprocess . . . . . . . . . . . . . . . . . 138 5.2.4.2.Usingamovingwindow. . . . . . . . . . . . . . . . . . . . . 138 5.2.4.3.Usingadiscountfactor . . . . . . . . . . . . . . . . . . . . . 139 5.2.5.Partiallyobservablecase. . . . . . . . . . . . . . . . . . . . . . . . 139 5.2.6.Continuousactionspaces . . . . . . . . . . . . . . . . . . . . . . . 141 5.3.Actor-criticmethods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 5.3.1.AgradientestimatorusingtheQ-values . . . . . . . . . . . . . . . 143 5.3.2.Compatibilitywithanapproximatevaluefunction . . . . . . . . . 144 5.3.2.1.ApproximatingQθ . . . . . . . . . . . . . . . . . . . . . . . . 144 5.3.2.2.Compatibilityoftheapproximators . . . . . . . . . . . . . . 145 5.3.3.Anactor-criticalgorithm . . . . . . . . . . . . . . . . . . . . . . . 146 5.4.Complements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 5.5.Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 5.6.Bibliography . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 Contents ix Chapter6.OnlineResolutionTechniques . . . . . . . . . . . . . . . . . . . . 153 LaurentPÉRETandFrédérickGARCIA 6.1.Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 6.1.1.Exploitingtimeonline . . . . . . . . . . . . . . . . . . . . . . . . . 153 6.1.2.Onlinesearchbysimulation. . . . . . . . . . . . . . . . . . . . . . 154 6.2.OnlinealgorithmsforsolvinganMDP . . . . . . . . . . . . . . . . . . . 155 6.2.1.Offlinealgorithms,onlinealgorithms . . . . . . . . . . . . . . . . 155 6.2.2.Problemformalization . . . . . . . . . . . . . . . . . . . . . . . . . 155 6.2.2.1.Forwardsearchoverareasoninghorizon . . . . . . . . . . . 156 6.2.2.2.Treeorgraph? . . . . . . . . . . . . . . . . . . . . . . . . . . 157 6.2.2.3.Complexityandefficiencyoftheforwardsearch . . . . . . . 157 6.2.3.OnlineheuristicsearchalgorithmsforMDPs . . . . . . . . . . . . 158 6.2.3.1.Generalprinciples . . . . . . . . . . . . . . . . . . . . . . . . 158 6.2.3.2.TheRTDPalgorithm. . . . . . . . . . . . . . . . . . . . . . . 159 6.2.3.3.TheLAO∗ algorithm . . . . . . . . . . . . . . . . . . . . . . 160 6.2.4.Kearns,MansourandNg’ssimulation-basedalgorithm . . . . . . 163 6.2.4.1.ComplexityandconvergenceofKearnsetal.’salgorithm . . 165 6.2.4.2.Efficiencyandpracticalconsiderations . . . . . . . . . . . . 165 6.2.5.TesauroandGalperin’srolloutalgorithm . . . . . . . . . . . . . . 165 6.2.5.1.Complexityandconvergenceoftherolloutalgorithm . . . . 166 6.2.5.2.Efficiencyoftherolloutalgorithm . . . . . . . . . . . . . . . 166 6.3.Controllingthesearch . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 6.3.1.Errorboundsandpathologyoftheforwardsearch . . . . . . . . . 168 6.3.1.1.Pathologyofthesimulation-basedforwardsearch . . . . . . 168 6.3.1.2.Searchingforagoodcompromisebetweendepth andwidth . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 6.3.2.Iterativeallocationofsimulations . . . . . . . . . . . . . . . . . . 170 6.3.2.1.Multi-armedbanditsandexplorationinMDPs . . . . . . . . 171 6.3.3.Focusedreinforcementlearning. . . . . . . . . . . . . . . . . . . . 173 6.3.3.1.Globalsamplingerrorestimation. . . . . . . . . . . . . . . . 174 6.3.3.2.Organizingthesearchinsuccessivetrajectories . . . . . . . 175 6.3.3.3.Convergenceandpracticalconsiderations . . . . . . . . . . . 176 6.3.4.Controlledrollout . . . . . . . . . . . . . . . . . . . . . . . . . . . 178 6.3.4.1.Choiceofthehorizon . . . . . . . . . . . . . . . . . . . . . . 178 6.3.4.2.Iterativeallocationofsimulations . . . . . . . . . . . . . . . 179 6.4.Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180 6.5.Bibliography . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180 PART2.BEYOND MDPS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 Chapter7.PartiallyObservableMarkovDecisionProcesses . . . . . . . . 187 AlainDUTECHandBrunoSCHERRER 7.1.FormaldefinitionsforPOMDPs . . . . . . . . . . . . . . . . . . . . . . . 188 7.1.1.DefinitionofaPOMDP . . . . . . . . . . . . . . . . . . . . . . . . . 188 x MarkovDecisionProcessesinAI 7.1.2.Performancecriteria . . . . . . . . . . . . . . . . . . . . . . . . . . 189 7.1.3.Informationstate . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190 7.1.3.1.Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190 7.1.3.2.Completeinformationstate . . . . . . . . . . . . . . . . . . . 191 7.1.3.3.Sufficientstatistics . . . . . . . . . . . . . . . . . . . . . . . . 191 7.1.3.4.Beliefstates. . . . . . . . . . . . . . . . . . . . . . . . . . . . 191 7.1.4.Policy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193 7.1.5.Valuefunction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195 7.2.Non-Markovianproblems:incompleteinformation. . . . . . . . . . . . 196 7.2.1.Adaptedpolicies . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196 7.2.2.Discountedreward . . . . . . . . . . . . . . . . . . . . . . . . . . . 197 7.2.2.1.Adaptedstochasticpolicies . . . . . . . . . . . . . . . . . . . 197 7.2.2.2.Adaptedvaluefunction . . . . . . . . . . . . . . . . . . . . . 198 7.2.2.3.Convergenceofadaptedalgorithms . . . . . . . . . . . . . . 199 7.2.3.Adaptedalgorithmsandadaptedaveragerewardcriterion . . . . . 201 7.3.Computationofanexactpolicyoninformationstates . . . . . . . . . . 202 7.3.1.Thegeneralcase . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202 7.3.1.1.Finitehorizon. . . . . . . . . . . . . . . . . . . . . . . . . . . 202 7.3.1.2.Infinitehorizon . . . . . . . . . . . . . . . . . . . . . . . . . . 203 7.3.2.Beliefstatesandpiecewiselinearvaluefunction . . . . . . . . . . 203 7.3.2.1.Choiceoftheθvectors . . . . . . . . . . . . . . . . . . . . . 206 7.3.2.2.Infinitehorizon . . . . . . . . . . . . . . . . . . . . . . . . . . 207 7.4.Exactvalueiterationalgorithms. . . . . . . . . . . . . . . . . . . . . . . 207 7.4.1.Stepsforthedynamicprogrammingoperator . . . . . . . . . . . . 207 7.4.2.AparsimoniousrepresentationofV . . . . . . . . . . . . . . . . . 210 7.4.2.1.Region. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210 7.4.2.2.Parsimoniousrepresentation . . . . . . . . . . . . . . . . . . 212 7.4.2.3.Pruningofdominatedvectors. . . . . . . . . . . . . . . . . . 213 7.4.2.4.Pruning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 7.4.2.5.Choiceofavectorforabeliefstate . . . . . . . . . . . . . . 215 7.4.3.TheWITNESSalgorithm . . . . . . . . . . . . . . . . . . . . . . . 216 7.4.3.1.Neighborhoodofavector . . . . . . . . . . . . . . . . . . . . 216 7.4.3.2.Thealgorithm . . . . . . . . . . . . . . . . . . . . . . . . . . 218 7.4.4.Iterativepruning . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219 7.4.4.1.Completeenumeration. . . . . . . . . . . . . . . . . . . . . . 219 7.4.4.2.Incrementalenumeration . . . . . . . . . . . . . . . . . . . . 220 7.5.Policyiterationalgorithms. . . . . . . . . . . . . . . . . . . . . . . . . . 222 7.6.Conclusionandperspectives. . . . . . . . . . . . . . . . . . . . . . . . . 223 7.7.Bibliography . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225 Chapter8.StochasticGames . . . . . . . . . . . . . . . . . . . . . . . . . . . 229 AndriyBURKOV,LaëtitiaMATIGNONandBrahimCHAIB-DRAA 8.1.Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229 Contents xi 8.2.Backgroundongametheory. . . . . . . . . . . . . . . . . . . . . . . . . 230 8.2.1.Somebasicdefinitions . . . . . . . . . . . . . . . . . . . . . . . . . 230 8.2.1.1.Criteriadistinguishingdifferentformsofgames . . . . . . . 230 8.2.2.Staticgamesofcompleteinformation . . . . . . . . . . . . . . . . 232 8.2.2.1.Gamesinstrategicform,purestrategy,mixedstrategy. . . . 232 8.2.2.2.Zero-sumgameandminimax . . . . . . . . . . . . . . . . . . 234 8.2.2.3.Equilibriumindominatingstrategies. . . . . . . . . . . . . . 236 8.2.2.4.Nashequilibrium. . . . . . . . . . . . . . . . . . . . . . . . . 238 8.2.3.Dynamicgamesofcompleteinformation . . . . . . . . . . . . . . 240 8.2.3.1.Gamesinextensiveformwithperfectinformation . . . . . . 241 8.2.3.2.Repeatedgames . . . . . . . . . . . . . . . . . . . . . . . . . 243 8.3.Stochasticgames . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245 8.3.1.Definitionandequilibriumofastochasticgame . . . . . . . . . . 246 8.3.2.Solvingstochasticgames . . . . . . . . . . . . . . . . . . . . . . . 248 8.3.2.1.Gamemodelavailable . . . . . . . . . . . . . . . . . . . . . . 249 8.3.2.2.Gamemodelunavailable,A−iobserved,equilibrium learners . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252 8.3.2.3.Gamemodelunavailable,A−iobserved,opponent modeling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254 8.3.2.4.Gamemodelunavailable,A−inotobserved . . . . . . . . . 256 8.3.3.Complexityandscalabilityofmulti-agentlearningalgorithms . . 262 8.3.4.Beyondthesearchforanequilibrium . . . . . . . . . . . . . . . . 264 8.3.4.1.Efficientplay . . . . . . . . . . . . . . . . . . . . . . . . . . . 264 8.3.4.2.Regretminimization . . . . . . . . . . . . . . . . . . . . . . . 265 8.3.4.3.Metastrategies . . . . . . . . . . . . . . . . . . . . . . . . . . 267 8.3.5.Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267 8.4.Conclusionandoutlook . . . . . . . . . . . . . . . . . . . . . . . . . . . 269 8.5.Bibliography . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 270 Chapter9.DEC-MDP/POMDP . . . . . . . . . . . . . . . . . . . . . . . . . . 277 AurélieBEYNIER,FrançoisCHARPILLET,DanielSZERand Abdel-IllahMOUADDIB 9.1.Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277 9.2.Preliminaries . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 278 9.3.MultiagentMarkovdecisionprocesses . . . . . . . . . . . . . . . . . . . 279 9.4.Decentralizedcontrolandlocalobservability . . . . . . . . . . . . . . . 280 9.4.1.DecentralizedMarkovdecisionprocesses . . . . . . . . . . . . . . 281 9.4.2.Multiagentteamdecisionproblems . . . . . . . . . . . . . . . . . 283 9.4.3.Complexity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285 9.5.Sub-classesofDEC-POMDPs . . . . . . . . . . . . . . . . . . . . . . . 285 9.5.1.Transitionandobservationindependence . . . . . . . . . . . . . . 285 9.5.2.GoalorientedDEC-POMDPs . . . . . . . . . . . . . . . . . . . . . 287 9.5.3.DEC-MDPswithconstraints . . . . . . . . . . . . . . . . . . . . . 288

See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.