Table Of Content

Raisonnement et décision mixte pour l’autonomie ajustable et le partage d’autorité Nicolas Côté To cite this version: Nicolas Côté. Raisonnement et décision mixte pour l’autonomie ajustable et le partage d’autorité. Informatique [cs]. Université de Caen, 2013. Français. NNT: . tel-01082677 HAL Id: tel-01082677 https://hal.science/tel-01082677 Submitted on 14 Nov 2014 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. Université de Caen Basse-Normandie ´ Ecole doctorale SIMEM Thèse de doctorat présentée et soutenue le : 10 Décembre 2013 par Nicolas Côté pour obtenir le Doctorat de l’Université de Caen Basse-Normandie Spécialité : Informatique et applications Raisonnement et décision mixte pour l’autonomie ajustable et le partage d’autorité Directeur de thèse : François Charpillet Directeur de recherche INRIA,LORIA ,Nancy (Rapporteur) Mohamed Chetouani Professeur ISIR, Paris 6 (Rapporteur) Olivier Simonin Professeur Lyon Catherine Tessier Maˆıtre de recherche ONERA, Toulouse Maroua Bouzid Professeur Univ. Caen Basse-Normandie (Directeur) Abdel-Illah Mouaddib Professeur Univ. Caen Basse-Normandie (Directeur) Mis en page avec la classe thloria. Remerciements J’ai e(cid:27)ectuØ l’ensemble de mes annØes d’Øtudes supØrieures (cid:224) l’universitØ de Caen (depuis 8 ansmaintenant).CesannØesontØtØtrŁsrichesd’enseignements,etplusparticuliŁrementlestrois derniŁrespendant lesquellesj’aiØvoluØauseindel’ØquipeMAD dulaboratoire GREYC.Jetiens donc(cid:224)remerciertouteslespersonnesquiont,deprŁsoudeloin,contribuØes(cid:224)l’aboutissementde ces travaux. Je tiens tout d’abord (cid:224) remercier chaleureusement mes directeurs de thŁse : Maroua Bouzid et Abdel-Illah Mouaddib qui se sont toujours montrØ (cid:224) mon Øcoute, et ont su m’aider (cid:224) surmonter mes di(cid:30)cultØs. Je les remercie notamment de m’avoir laissØ assez d’autonomie pour mener mes travaux dans lesquels j’ai intØgrØ leurs recommandations de maniŁre hØgØmonique. Je remercie mon jury d’avoir acceptØ ce r(cid:244)le exigeant, et d’avoir pris du temps pour Øtudier mon travail. Merci en particulier (cid:224) Fran(cid:231)ois Charpillet et Mohamed Chetouani pour la qualitØ de leur rapport malgrØ les contraintes de temps. Mes remerciements vont Øgalement (cid:224) Laurent Jean-Pierre qui m’a permis de rØaliser des expØrimentations avec les robots : Elles n’auraient pas ØtØ possibles sans sa prØcieuse aide. Je remercie Øgalement Bruno Zanuttini avec qui j’ai apprØciØ de travailler. Je tiens Øgalement (cid:224) remercier Arnaud Canu qui m’a beaucoup appris sur le plan scienti(cid:28)que, et qui m’a trŁs souvent accompagnØ lors de nos nombreuses discussions. D’un point de vue plus personnel, je remercie les gens avec qui j’ai passØ ces trois derniŁres annØes. Je pense notamment (cid:224) Lamia, Boris, Arnaud, Guillaume, Tarik et Florian avec qui j’ai partagØ le bureau S3-362. Je remercie Øgalement Beno(cid:238)t, Mathieu, Laetitia, Abir, GrØgory,JP avec qui j’ai partagØ beaucoup de bon moments. Un grand merci (cid:224) mes (cid:28)dŁles amis : Thomas, Quentin, ZoØ, Lapin et Wiwi. Ainsi qu’(cid:224) ma famille : Laetitia, Steven, Mamie, Jean-Louis, VØro, Eric et Arlette. Je remercie tout particuliŁrement mes parents pour leur soutien sans faille, leur gentilesse et leur prØsence qui m’ont permis d’e(cid:27)ectuer ce doctorat. Je sais que j’en suis arrivØ l(cid:224) gr(cid:226)ce (cid:224) vous, et je vous en serai Øternellement reconnaissant. Et en(cid:28)n, je te remercie Clem, de partager ma vie et de me rendre heureux chaque jour que nous passons ensemble. i ii Table des matiŁres Introduction 1 I (cid:201)tat de l’art 5 Introduction de la Partie I 7 1 Plani(cid:28)cation en robotique 9 1.1 L’intelligence arti(cid:28)cielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.1.1 Historique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.1.2 Di(cid:27)Ørents exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.1.3 DØ(cid:28)nition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.2 Les propriØtØs d’un problŁme de plani(cid:28)cation . . . . . . . . . . . . . . . . . . 12 1.2.1 Les agents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.2.2 L’environnement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.2.3 La rationalitØ d’un agent . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.2.4 L’autonomie d’un agent . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.3 La modØlisation d’un problŁme de plani(cid:28)cation . . . . . . . . . . . . . . . . . 14 1.3.1 Exemple : problŁme de navigation au sol de drones . . . . . . . . . . . 14 1.3.2 Cadre formel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.3.3 Calcul d’une stratØgie . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2 Plani(cid:28)cation sous incertitude 21 2.1 Les Processus dØcisionnels de Markov . . . . . . . . . . . . . . . . . . . . . . 21 2.1.1 La propriØtØ de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.1.2 Les composants des MDP . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.1.3 Exemple de modØlisation . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.2 RØsolution d’un processus dØcisionnel de Makov . . . . . . . . . . . . . . . . 23 2.2.1 GØnØralitØs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 iii Table des matiŁres 2.2.2 L’algorithme Value Iteration . . . . . . . . . . . . . . . . . . . . . . . 24 2.2.3 L’algorithme Policy Iteration . . . . . . . . . . . . . . . . . . . . . . . 25 2.3 AmØliorations de l’algorithme Value Iteration pour la rØsolution d’un MDP . 26 2.3.1 L’ordre topologique du parcours des Øtats . . . . . . . . . . . . . . . . 26 2.3.2 Abstraction d’Øtats . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 2.4 Connaissance partielle de l’environnement et systŁme multi-agents . . . . . . 29 2.4.1 Les Processus dØcisionnels de Markov partiellement observables . . . . 29 2.4.2 Les extensions multi-agents . . . . . . . . . . . . . . . . . . . . . . . . 30 2.5 Conclusion et limites. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 3 Les Interactions Homme-Robots (IHR) 33 3.1 DØ(cid:28)nition d’un problŁme d’IHR . . . . . . . . . . . . . . . . . . . . . . . . . 34 3.1.1 La communication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 3.1.2 Le r(cid:244)le des entitØs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 3.1.3 La nature des informations ØchangØes . . . . . . . . . . . . . . . . . . 35 3.1.4 Le niveau d’autonomie de l’agent . . . . . . . . . . . . . . . . . . . . . 36 3.1.5 Conception d’un systŁme IHR . . . . . . . . . . . . . . . . . . . . . . 36 3.2 Autonomie ajustable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 3.2.1 Le temps de nØgligence d’un agent . . . . . . . . . . . . . . . . . . . . 38 3.2.2 La comprØhension de la situation . . . . . . . . . . . . . . . . . . . . . 38 3.2.3 Le coßt de l’interruption . . . . . . . . . . . . . . . . . . . . . . . . . 39 3.3 Exemples de modŁles d’interaction dans le cadre de l’autonomie ajustable . . 40 3.3.1 Interaction entre un humain et un agent . . . . . . . . . . . . . . . . . 40 3.3.2 Interaction entre un humain et des agents . . . . . . . . . . . . . . . . 40 3.3.3 Interaction entre des humains et des agents . . . . . . . . . . . . . . . 41 3.4 Interaction Homme-robot avec un MDP . . . . . . . . . . . . . . . . . . . . . 42 3.4.1 RØduire l’incertitude d’un agent dans un Øtat . . . . . . . . . . . . . . 42 3.4.2 Demander l’action (cid:224) exØcuter (cid:224) l’humain pour l’apprentissage . . . . . 43 3.4.3 Demander une tØlØopØration en cas de problŁme . . . . . . . . . . . . 44 3.4.4 Plani(cid:28)cationdansunsystŁmedynamiquesousunecontraintedesØcuritØ 44 3.4.5 Utilisation d’un POMDP dans la modØlisation d’interaction vocale . . 44 3.4.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 II Planni(cid:28)cation ajustable dans les processus dØcisionnels de Markov 47 Introduction de la partie II 49 iv 4 Introduction (cid:224) la plani(cid:28)cation ajustable : fondement de nos approches 51 4.1 L’approche Goal Biased Autonomie . . . . . . . . . . . . . . . . . . . . . . . 51 4.1.1 Recommandation pour des Øtats dØsirables . . . . . . . . . . . . . . . 52 4.1.2 Recommandation pour des Øtats indØsirables . . . . . . . . . . . . . . 52 4.2 Calculer les Øtats (cid:224) mettre (cid:224) jour concernant une recommandation pour des Øtats indØsirables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 4.2.1 Formalisation d’une recommandation pour des Øtats indØsirables . . . 53 4.2.2 Algorithme de dØtection des Øtats dØpendant d’une recommandation pour des Øtats indØsirables . . . . . . . . . . . . . . . . . . . . . . . . 55 4.3 Calculer les Øtats (cid:224) mettre (cid:224) jour concernant une recommandation pour des Øtats dØsirables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 4.3.1 Formalisation d’une recommandation pour un Øtat dØsirable . . . . . 56 4.3.2 Algorithme de dØtection des Øtats dØpendant d’une recommandation pour un Øtat dØsirable . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 4.4 ExpØriences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 4.4.1 RØsultats expØrimentaux pour des recommandations concernant des Øtats indØsirables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 4.4.2 RØsultats expØrimentaux pour des recommandations concernant des Øtats dØsirables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 4.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 5 D’une recommandation vers une politique 65 5.1 Processus d’une recommandation . . . . . . . . . . . . . . . . . . . . . . . . . 65 5.2 Traduction d’une recommandation . . . . . . . . . . . . . . . . . . . . . . . . 66 5.3 Les recommandations primitives . . . . . . . . . . . . . . . . . . . . . . . . . 67 5.4 Les recommandations de haut niveau . . . . . . . . . . . . . . . . . . . . . . 67 5.4.1 Un Waypoint . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 5.4.2 Suivre un rØfØrentiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 5.4.3 Changer la rØcompense des Øtats de mŒme type . . . . . . . . . . . . . 69 5.4.4 Changer d’objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 5.4.5 Ne pas e(cid:27)ectuer une action . . . . . . . . . . . . . . . . . . . . . . . . 70 5.4.6 Suivre un agent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 5.5 Exempledetraductionderecommandationsmulti-agentsenrecommandations de haut niveau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 5.5.1 Rassemblement un ensemble d’agents dans un Øtat . . . . . . . . . . . 71 5.5.2 Suivre un leader en formation . . . . . . . . . . . . . . . . . . . . . . 71 5.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 v Table des matiŁres 6 IntØgration d’une recommandation avec une con(cid:28)ance absolue envers l’humain 73 6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 6.1.1 Exemple introductif . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 6.1.2 Processus d’intØgration trivial . . . . . . . . . . . . . . . . . . . . . . 74 6.2 Approches faisant abstraction de l’utilitØ des recommandations . . . . . . . . 75 6.2.1 Cas d’un seul Øtat recommandØ. . . . . . . . . . . . . . . . . . . . . . 75 6.2.2 Extension (cid:224) un groupe d’Øtat recommandØ . . . . . . . . . . . . . . . 77 6.3 Recherche de la liste d’Øtats (cid:224) mettre (cid:224) jour . . . . . . . . . . . . . . . . . . . 80 6.4 Algorithmes d’intØgration d’une recommandation . . . . . . . . . . . . . . . . 81 6.4.1 Cas oø la politique de l’agent n’est pas initialement calculØe. . . . . . 81 6.4.2 Approche 1 : intØgration d’une politique partielle avec la seconde op- timisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 6.4.3 Approche 2 : intØgration d’une politique partielle avec les deux opti- misations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 6.5 ExpØrimentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 6.5.1 Description de l’exemple ØtudiØ . . . . . . . . . . . . . . . . . . . . . . 83 6.5.2 Comparaison des algorithmes de mise (cid:224) jour . . . . . . . . . . . . . . 84 6.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 7 IntØgration d’une recommandation avec une con(cid:28)ance relative 87 7.1 Exemple introductif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 7.2 IntØgration d’une politique en fonction du degrØ d’autonomie d’un agent . . . 89 7.2.1 Notion d’autonomie d’un agent . . . . . . . . . . . . . . . . . . . . . . 89 7.2.2 Algorithme d’intØgration en fonction du degrØ d’autonomie . . . . . . 89 7.3 Calcul de la liste des degrØs d’autonomie d’un agent . . . . . . . . . . . . . . 90 7.4 Calcul du degrØ optimal de l’autonomie d’un agent . . . . . . . . . . . . . . . 92 7.4.1 Algorithme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 7.4.2 Quelques rØsultats expØrimentaux . . . . . . . . . . . . . . . . . . . . 93 7.5 Calculer le niveau d’autonomie approchØe d’un agent envers un humain . . . 96 7.5.1 Le waypoint . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 7.5.2 Suivre un rØfØrentiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 7.5.3 Maximiser les rØcompenses d’un groupe d’Øtat G . . . . . . . . . . . . 98 7.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 8 (cid:201)valuation d’une recommandation 99 8.1 Notion de (cid:28)abilitØ et de rØcompense espØrØe d’une politique . . . . . . . . . . 99 vi 8.1.1 GØnØralitØs sur l’attractivitØ et la rØpulsivitØ d’un Øtat . . . . . . . . . 100 8.1.2 Le pourcentage de sßretØ et le pourcentage d’objectivitØ . . . . . . . . 101 8.1.3 Calcul du critŁre d’accomplissement . . . . . . . . . . . . . . . . . . . 102 8.1.4 Calcul du critŁre de rØpulsion . . . . . . . . . . . . . . . . . . . . . . . 102 8.2 DØ(cid:28)nitions de la qualitØ d’une politique . . . . . . . . . . . . . . . . . . . . . 103 8.3 (cid:201)valuation d’une recommandation . . . . . . . . . . . . . . . . . . . . . . . . 104 8.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 III Applications 107 Introduction de la Partie III 109 9 Contr(cid:244)le du niveau de collaboration Humain-Robot sous un environnement complexe 111 9.1 DØtection des Øtats critiques (respect du temps de nØgligence) . . . . . . . . . 112 9.1.1 (cid:201)tats absorbants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 9.1.2 DØtection en temps rØel . . . . . . . . . . . . . . . . . . . . . . . . . . 113 9.2 Le contr(cid:244)leur (minimisation du coßt de l’interruption) . . . . . . . . . . . . . 114 9.2.1 Types de requŒtes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 9.2.2 Allocation des requŒtes . . . . . . . . . . . . . . . . . . . . . . . . . . 115 9.3 Informations envoyØes (cid:224) l’humain (maximiser la comprØhension) . . . . . . . 116 9.3.1 Informations locales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 9.3.2 Informations globales . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 9.4 ExpØrimentations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 9.4.1 ParamŁtres expØrimentaux . . . . . . . . . . . . . . . . . . . . . . . . 118 9.4.2 Premier test : dØtection d’un Øtat d’Øvolution lente ou critique . . . . 119 9.4.3 Second test : choisir la bonne requŒte . . . . . . . . . . . . . . . . . . 120 9.4.4 TroisiŁme test : passage (cid:224) l’Øchelle . . . . . . . . . . . . . . . . . . . . 120 9.4.5 QuatriŁmetest:passage(cid:224)l’Øchelleavecplusieurshumainsetplusieurs agents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 9.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 10 ExpØrimentation avec des robots rØels 123 10.1 Architecture de l’outil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 10.1.1 Le waypoint . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 10.1.2 Le rØfØrentiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 10.1.3 Demande d’aide (cid:224) un humain . . . . . . . . . . . . . . . . . . . . . . . 126 vii

Description:

Spécialité : Informatique et applications. Raisonnement et décision mixte pour l'autonomie ajustable et le partage d'autorité. Directeur de th`ese : connaissances partagé par une entité définit le degré d'autonomie d'un agent. de la phase de backtrack pour retrouver les états dépendants

Raisonnement et décision mixte pour l'autonomie ajustable et le partage d'autorité PDF

155 Pages·2017·19.95 MB·French

by Nicolas Côté

Checking for file health...

Save to my drive

Quick download

Download

Upgrade Premium

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Raisonnement et décision mixte pour l'autonomie ajustable et le partage d'autorité

Description:

See more

The list of books you might like

Upgrade Premium

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.