AVERTISSEMENT Ce document est le fruit d'un long travail approuvé par le jury de soutenance et mis à disposition de l'ensemble de la communauté universitaire élargie. Il est soumis à la propriété intellectuelle de l'auteur. Ceci implique une obligation de citation et de référencement lors de l’utilisation de ce document. D'autre part, toute contrefaçon, plagiat, reproduction illicite encourt une poursuite pénale. Contact : [email protected] LIENS Code de la Propriété Intellectuelle. articles L 122. 4 Code de la Propriété Intellectuelle. articles L 335.2- L 335.10 http://www.cfcopies.com/V2/leg/leg_droi.php http://www.culture.gouv.fr/culture/infos-pratiques/droits/protection.htm s.C.O.• U.H.P. NA cv 1 B1BUOTHÈQUEDES SCIENCES RueduJardinBotanique·BP 11 t;.f~1 VILLER~-LES-NANCY C~ Département de formation doctorale en informatique École doctorale IAEM Lorraine UFR STMIA Une double approche modulaire de l'apprentissage par renforcement pour des agents intelligents adaptatifs , THESE présentée et soutenue publiquement le 10 septembre 2003 pour l'obtention du Doctorat de l'université Henri Poincaré - Nancy 1 (spécialité informatique) par Olivier BUFFET Composition du jury Président: René Schott Professeur à l'Université Henri Poincaré - Nancy 1 Rapporteurs : Marie-Odile Cordier Professeur à l'Université de Rennes l Michael 1. Littman Associate Research Professor, Rutgers University Examinateurs : Alain Dutech Chargé de recherche, INRIA Jean-Arcady Meyer Directeur de recherche, CNRS Directeur de thèse : François Charpillet Directeur de recherche, l RIA Laboratoire Lorrain de Recherche en Informatique et ses Applications - UMR 7503 Mis en page avec la classe thloria. Résumé Apprentissage par renforcement (AIR) et systèmes multi-agents (SMA) sont des outils pro metteurs dans le domaine de l'intelligence artificielle: le premier permet de concevoir le com portement d'entités intelligentes (agents) à l'aide de simples récompenses (on se place ici dans le cadre des processus de décision markoviens), et le second se fonde sur l'idée qu'un comportement intelligent peut "émerger" de la collaboration d'un groupe d'agents. Nous avons cherché, dans cette thèse, à explorer les moyens d'utiliser conjointement ces deux outils. Les deux principales parties de ces travaux présentent des points de vue symétriques: 1 comment concevoir des agents coopérants par des méthodes d'apprentissage par renforcement, et 2- comment améliorer un agent (apprenant par renforcement) en lui donnant une architecture in terne distribuée (de type SMA). Ces aspects ont tous deux amené à des approches incrémentales, comme détaillé ci-après. 1. Dans le cadre Multi-Agents, nous nous attaquons au problème de la conception d'agents réactifs collaborant à l'aide d'approches par AIR. Comme divers problèmes théoriques difficiles apparaissent, nous avons proposé d'utiliser des méthodes progressives (un appren tissage progressif commençant avec des situations simples) de manière à aider les agents dans l'apprentissage de leurs comportements. Les expérimentations montrent que certains optima locaux des algorithmes classiques d'AIR en-ligne peuvent être dépassés à travers cette méthode. Malheureusement, les algo rithmes progressifs sont difficiles à automatiser dans les cadres partiellement observables, ce qui en limite l'usage. 2. Dans le second cadre, nous avons travaillé sur ladécomposition d'une politique en plusieurs politiques parallèles au sein d'un agent. Un tel problème entre dans le champ de lasélection d'action, qui s'intéresse àla prise de décision quand différents objectifs simultanés sont pris en compte. Une première étape a été de proposer et d'étudier des algorithmes pour combiner des politiques de manière adaptative. Les résultats étaient encourageants, puisque certains optima locaux ont, ici aussi, été dépassés: les techniques d'AIR classiques se limitent habituellement à seulement éviter des problèmes immédiats. Ensuite, un algorithme novateur a été proposé pour que l'agent trouve de manière au tomatique les politiques de base qu'il requière dans un environnement donné. A notre connaissance, c'est le premier travail dans lequel l'agent trouve et apprend de manière au tonome les "comportements de base" nécessaires àsa prise de décision: d'habitude, ceux-ci sont fournis par un concepteur humain. En résumé, les deux parties de cette thèse de doctorat rassemblent l'idée des approches par décomposition (au travers d'un SMA ou d'une architecture de sélection d'action) et l'appren tissage par renforcement, avec dans les deux cas une conception progressive des agents. Du fait d'hypothèses difficiles (observations partielles, pas de modèle...), les deux parties du travail pré senté sont basées sur des heuristiques, ce qui ne les empêche pas d'être très prometteuses pour la conception d'agents. Mots-clés: apprentissage par renforcement, systèmes multi-agents, processus de décision mar koviens, sélection d'action, apprentissage progressif Abstract Reinforcement Learning (RL) and Multi-Agent Systems (MAS) are promising tools in the field of Artificial Intelligence : the former allows the design of behaviors for smart entities (agents) thanks to simple rewards (we are here in the framework ofMarkov Decision Processes), and the later is based on the idea that a smart behavior may "emerge" from the collaboration of a group of agents. We have tried, in this thesis, to explore the ways ofconjointly using both tools. The two main parts of this work present symetric points ofview : 1- how to design cooperating agents through reinforcement learning methods, and 2- how to improve a (reinforcement learning) agent with a distributed internal architecture (such as a MAS). These aspects have both led to incremental approaches, as detailed below. 1. In the Multi-Agent framework we address the problem of conceiving collaborating reac tive agents through RL approaches. As various difficult theoretic problems arise, we have proposed to use shaping methods (a progressive learning beginning with simple situations) in a view to help agents learn their behaviors. The experiments show that sorne local optima of classical on-line RL algorithm can be overcome through this method. Unfortunately, shaping algorithms are difficult to automate in partially observable frameworks, what limits their use. 2. In the second framework, we have worked on the decomposition of a policy into various parallel policies in an agent. Such a problem lies in the field of Action-Selection, which concerns making a decision when considering different simultaneous goals. A first step was to propose and study algorithms to adaptively combine policies. The results were encouraging, as sorne local optima have also been overcome here :classical RL techniques are usually limited to only avoiding immediate problems. Then, an innovative algorithm has been proposed for the agent to automatically find the ba sic policies it requires in a given environment. To our knowledge, this is the first work where the agent autonomously finds and learns the "basic behaviors" necessary to its decision making : these are usually given by a human designer. To sum up, both parts ofthis PhD thesis bring together the idea ofdecomposition approaches (through a MAS or an Action-Selection architecture) and Reinforcement Learning, with a pro gressive building of the agents in both cases. Due to difficult hypotheses (partial observations, no model...), both parts of the presented work are based on heuristics, what does not prevent them from being very promising to design agents. Keywords: reinforcement learning, multi-agent systems, Markov decision processes, action se lection, shaping III Remerciements « Lao Tseu a dit: «il faut trouver la voie». Donc, je vais vous couper la tête. » (Didi, fils de Wang Jen-Ghié dans) Le Lotus Bleu, Hergé Voilà. Désolé d'avoir été si long (pour ceux qui s'essayent à la lecture de ce document). Ce n'est pourtant pas l'habitude de l'auteur d'être si prolixe. En plus il n'a pas un style littéraire des plus légers: c'est pas de chance ça... Mais bon, c'est fait maintenant, Olivier il est docteur. Ca n'a pas été sans mal: il a fallu tout plein de gens pour en arriver là. Je vais donc essayer maintenant de remercier comme il se doit les personnes ayant contribué d'une manière ou d'une autre à ce qu'on en arrive là. Respectant ce qui semble être une tradition, je commencerai par le jury en remerciant Marie Odile Cordier, Michael Littman (auquel j'espère encore pouvoir rendre visite), Jean-Arcady Meyer et René Schott. Ces remerciements vont aussi à Claude Kirchner, qui a suivi mon travail en tant que référent pendant ces trois années. Une autre assemblée que je me dois de remercier est celle qui a participé à mon comité de thèse: Frédéric Alexandre, Frédérick Garcia, Manuel Samuelides et Olivier Sigaud. Les quatre heures de discussion furent difficiles sur le moment, mais ce travail constructif fut largement récompensé. Je ne peux qu'encourager mes camarades à passer par là eux-aussi. Evidemment, j'ai omis jusqu'ici de mentionner mes deux chefs: François et Alain. J'aurais difficilement pu souhaiter meilleurs relations avec mes encadrants, lesquels ont su m'aider à avancer, m'apportant leurs points de vue complémentaires et me guidant dans ma méthode de travail. J'ai encore du chemin à faire, et espère pouvoir continuer en aussi bonne compagnie. Plutôt que de compagnie, c'est peut-être de troupe dont je devrais parler pour remercier mes compagnons de fortune, travailleurs parfois fonctionnaires mais souvent précaires, certains déjà partis d'autres arrivant tout juste. Mes remerciements se dirigent naturellement vers l équipe MAlA, mais aussi vers bien des gens de RFIA, ISA, et ClETERA : Yot, Yann, Yassine et Salma, Virginie, Vincent, Victor, Simon, Renatoto, Régis, Rédimé, Raghav, Olivier, ono, Mouna, Loïc, Laurent, Jean-Luc, Iadine, Hubert, Hacène, Grom, Glouk, Franck, Fabrice, Eric, David, Daniel, Dahbia, Cédric, Bruno, Blaise, Armelle, 1 Pour être juste, je ne dois pas oublier ce que m'ont apporté Marie-Claude Portmann et mes collègues ou élèves des Mines, lesquels m'ont permis de découvrir le côté sombre de l'enseigne ment. Au LORIA, j'ai aussi une pensée pour mes collègues nyctalopes anonymes des derniers mois de rédaction, et pour quelques personnes efficaces et souriantes: adine, ~artine, Sabrina, Matthieu et le chef pour citer quelques exemples représentatifs. Pour finir, mes remerciements vont sortir pour partie du cadre professionnel pour aller: vers mes camarades de Supélec et particulièrement ceux qui m'ont accompagné dans l'aventure de la recherche (Olivier et Vincent), vers mes amis (OlivierP, Philippe, Stéphane et Thomas), vers les chouettes et les écureuils de Villers, ainsi que les belles vosgiennes, les cockers et sharpei, et les ours crétins, tous ayant contribués à leur façon à la chaleureuse atmosphère de ces trois années. Enfin mes derniers remerciements vont vers ma famille, dont la contribution ne date pas d'hier. 1Compléter par votre prénom en cas d'oubli. 1 Il v « Continuer à rêver. » Un chat idéal, dans "Réunion d'avancement de thèse parfois bimensuelle". t- http :Il.........,.m4de.com 1111 S.C.D.• U. . . C _1 BIBLIOTHÈQUE DES SCIENces v...,!'h'.~:ninBotanique·BP11 ~ .~ 'Sr... ~t ~~" ~A~ n 4iJ Table des matières Introduction 1 1 Intelligence 3 1.1 Définition . 3 1.2 Adaptation et but 4 1.3 But, libre arbitre. 5 2 Intelligence Artificielle . 6 2.1 Définition. 6 2.2 Point de vue adopté 7 3 Deux approches 8 3.1 Expérimentation 8 3.2 Emergence 8 4 Mais où est le problème? 9 5 Plan. 9 Partie 1 Deux domaines Il Introduction 13 1 Agentisme 15 1.1 La notion d'agent . 16 1.1.1 Pourquoi cette notion? 16 1.1.2 Agent (rationnel réaliste) 16 1.1.3 Agent situé . 18 1.1.4 Agent social . . . . . . . 20 1.1.5 Autres critères de différenciation entre agents. 21 1.1.6 Bilan . 27 1.2 Systèmes Multi-Agents 27 1.2.1 Définitions rencontrées 28 VII
Description: