Apprendre à un robot à reconnaître des objets visuels nouveaux et à les associer à des mots nouveaux: le rôle de l’interface Pierre Rouanet To cite this version: Pierre Rouanet. Apprendre à un robot à reconnaître des objets visuels nouveaux et à les associer à des mots nouveaux: le rôle de l’interface. Robotique [cs.RO]. Université Sciences et Technologies - Bordeaux I, 2012. Français. NNT: . tel-00758249 HAL Id: tel-00758249 https://theses.hal.science/tel-00758249 Submitted on 28 Nov 2012 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. INRIA BORDEAUX SUD-OUEST ÉCOLE DOCTORALE MATHÉMATIQUES ET INFORMATIQUE UNIVERSITÉ BORDEAUX 1 SCIENCES ET TECHNOLOGIES T H È S E pour obtenir le titre de Docteur en Sciences de l’Université de Bordeaux 1 Mention : Informatique Présentée et soutenue par Rouanet Pierre Apprendre à un robot à reconnaître des objets visuels nouveaux et à les associer à des mots nouveaux : le rôle de l’interface Thèse dirigée par Pierre-Yves Oudeyer préparée à l’INRIA Bordeaux Sud-Ouest, Équipe FLOWERS soutenue le 4 avril 2012 Jury : Rapporteurs : Mohamed Chetouani - Mc ISIR (Paris) HdR Peter Ford Dominey - Dr CNRS (Lyon) HdR Examinateurs : François Chaumette - Dr INRIA (Rennes) HdR David Filliat - Ec ENSTA - INRIA (Paris) HdR Rodolphe Gelin - Dr Aldebaran Robotics (Paris) HdR Directeur : Pierre-Yves Oudeyer - Cr INRIA - ENSTA (Bordeaux) HdR Remerciements Je tiens tout d’abord à remercier Pierre-Yves Oudeyer, mon directeur de thèse, avec qui travailler durant ces trois années fût un enrichissement et un épanouis- sement au quotidien. En plus d’avoir toujours su m’orienter, me conseiller et me re-motiver lorsque ce fût nécessaire, sa bonne humeur et son enthousiasme ont gran- dement contribué à faire des heures passées au laboratoire un réel bonheur. JetiensaussiàremerciertoutparticulièrementFabienDanieau.Sacollaboration efficace est pour beaucoup dans la réalisation des expériences décrites dans cette thèse. Les longues heures passées à concevoir des études utilisateurs écologiquement valides en ont fait un ami. JeremercieégalementDavidFilliatpoursonaideetsesconseils.Sadisponibilité et sa réactivité furent d’une grande aide. Je remercie aussi Louis ten Bosch pour ces quelques mois passés à Bordeaux, où il m’a fait découvrir l’approche NMF. Je remercie bien sûr Jérôme Béchu pour son aide et son support au quotidien. Nos discussions sur les cubes et les heures passées à conduire sur les routes de Californie resteront de magnifiques souvenirs. Je remercie également tout particulièrement Marie Sanchez et Nathalie Robin, nos assistantes successives, dont l’enthousiasme et la motivation m’ont permis de partir en mission un peu partout dans le monde, même lorsque je m’y prenais à la dernière minute... Durant ces trois dernières années, j’ai eu la chance de voir l’équipe FLOWERS naître et grandir. Je tiens à remercier toutes les personnes qui ont participé à en faire un cadre de travail aussi enrichissant qu’agréable : Alexandre, Adrien, Blaise, Bérenger, Clément, Damian, Damien, les Fabien, Franck, mon pti Fred, Haylee, Hong Li, Jérémy, Jonathan, Jonas, Manuel, Mai, les Matthieu, Ming Li, les deux Olivier, Paul, Timothée et tous les Thomas. Je remercie aussi tous nos collègues de l’ENSTA, même si je n’ai pas souvent eu l’occasion de les croiser. Je tiens aussi à remercier l’ensemble du personnels de Cap Sciences pour leur disponibilité et leur bonne humeur. Ils ont fait des journées passées là-bas un réel plaisir. Je remercie enfin toutes les personnes qui ont accepté de relire ce manuscrit de thèse, afin de le corriger. Leurs suggestions et commentaires ont contribué à l’améliorer. Et bien sûr, je veux dire un grand merci à ma famille et à mes amis. Ils ont toujours été derrière moi pendant ces trois ans. Ils m’ont apporté le soutien et la motivation nécessaire qui m’ont permis de continuer lors des moments de doute. Résumé Cettethèses’intéresseaurôledel’interfacedansl’interactionhumain-robotpour l’apprentissage. Elle étudie comment une interface bien conçue peut aider les utili- sateurs non-experts à guider l’apprentissage social d’un robot, notamment en faci- litant les situations d’attention partagée. Nous étudierons comment l’interface peut rendre l’interaction plus robuste, plus intuitive, mais aussi peut pousser les humains à fournir les bons exemples d’apprentissage qui amélioreront les performances de l’ensemble du système. Nous examinerons cette question dans le cadre de la robo- tiquepersonnelleoùl’apprentissagesocialpeutjouerunrôleclédansladécouverteet l’adaptation d’un robot à son environnement immédiat. Nous avons choisi d’étudier le rôle de l’interface sur une instance particulière d’apprentissage social : l’appren- tissage conjoint d’objets visuels et de mots nouveaux par un robot en interaction avec un humain non-expert. Ce défi représente en effet un levier important du dé- veloppement de la robotique personnelle, l’acquisition du langage chez les robots et la communication entre un humain et un robot. Nous avons particulièrement étudié les défis d’interaction tels que le pointage et l’attention partagée. Nous présenterons au chapitre 1 une description de notre contexte applicatif : la robotique personnelle. Nous décrirons ensuite au chapitre 2 les problématiques liées audéveloppementderobotssociauxetauxinteractionsavecl’homme.Enfin,aucha- pitre 3 nous présenterons la question de l’interface dans l’acquisition des premiers mots du langage chez les robots. La démarche centrée utilisateur suivie tout au long du travail de cette thèse sera décrite au chapitre 4. Dans les chapitres suivants, nous présenterons les différentes contributions de cette thèse. Au chapitre 5, nous mon- trerons comment des interfaces basées sur des objets médiateurs peuvent permettre de guider un robot dans un environnement du quotidien encombré. Au chapitre 6, nous présenterons un système complet basé sur des interfaces humain-robot, des algorithmes de perception visuelle et des mécanismes d’apprentissage, afin d’étudier l’impact des interfaces sur la qualité des exemples d’apprentissage d’objets visuels collectés. Une évaluation à grande échelle de ces interfaces, conçue sous forme de jeu robotique afin de reproduire des conditions réalistes d’utilisation hors-laboratoire, sera décrite au chapitre 7. Au chapitre 8, nous présenterons une extension de ce système permettant la collecte semi-automatique d’exemples d’apprentissage d’ob- jets visuels. Nous étudierons ensuite la question de l’acquisition conjointe de mots vocaux nouveaux associés aux objets visuels dans le chapitre 9. Nous montrerons comment l’interface peut permettre d’améliorer les performances du système de re- connaissancevocale,etdefairedirectementcatégoriserlesexemplesd’apprentissage à l’utilisateur à travers des interactions simples et transparentes. Enfin, les limites et extensions possibles de ces contributions seront présentées au chapitre 10. Mots clés : interaction humain-robot, attention partagée, acquisition du langage, conception d’interface, robotique personnelle et sociale Abstract This thesis is interested in the role of interfaces in human-robot interactions for learning. In particular it studies how a well conceived interface can aid users, and more specifically non-expert users, to guide social learning of a robotic student, notably by facilitating situations of joint attention. We study how the interface can make the interaction more robust, more intuitive, but can also push the humans to provide good learning examples which permits the improvement of performance of the system as a whole. We examine this question in the realm of personal robotics where social learning can play a key role in the discovery and adaptation of a robot in its immediate environment. We have chosen to study this question of the role of theinterfaceinsociallearningwithinaparticularinstanceoflearning:thecombined learningofvisualobjectsandnewwordsbyarobotininteractionswithanon-expert human.Indeedthischallengerepresentsanimportantanleverinthedevelopmentof personalrobotics,theacquisitionoflanguageforrobots,andnaturalcommunication between a human and a robot. We have studied more particularly the challenge of human-robot interaction with respect to pointing and joint attention. We present first of all in Chapter 1 a description of our context : personal robo- tics. We then describe in Chapter 2 the problems which are more specifically linked to social robotic development and interactions with people. Finally, in Chapter 3, we present the question of interfaces in acquisition of the first words of language for a robot. The user centered approach followed throughout the work of this thesis will be described in Chapter 4. In the following chapters, we present the different contributions of this thesis. In Chapter 5, we show how some interfaces based on mediator objects can permit the guiding of a personal robot in a cluttered home environment. In Chapter 6, we present a complete system based on human-robot in- terfaces, the algorithms of visual perception and machine learning in order to study the impact of interfaces, and more specifically the role of different feedback of what the robot perceives, on the quality of collected learning examples of visual objects. A large scale user-study of these interfaces, designed in the form of a robotic game that reproduces realistic conditions of use outside of a laboratory, will be descri- bed in details in Chapter 7. In Chapter 8, we present an extension of the system which allows the collection of semi-automatic learning examples of visual objects. We then study the question of combined acquisition of new vocal words associated withvisualobjectsinChapter9.Weshowthattheinterfacecanpermitboththeim- provement of the performance of the speech recognition and direct categorization of the different learning examples through simple and transparent user’s interactions. Finally, a discussion of the limits and possible extensions of these contributions will be presented in Chapter 10. Keywords : human-robot interaction, joint attention, language ac- quisition, interface design, personal and social robotic Table des matières 1 Introduction 1 1.1 Un domaine à forts enjeux économiques et sociétaux : la robotique personnelle et sociale . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2 Des défis scientifiques et technologiques . . . . . . . . . . . . . . . . 2 1.2.1 Perception et analyse de l’environnement . . . . . . . . . . . 3 1.2.2 Navigation et manipulation . . . . . . . . . . . . . . . . . . . 3 1.2.3 Interactions sociales avec les humains . . . . . . . . . . . . . . 4 1.2.4 Langage naturel . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.2.5 Acceptabilité et éthique . . . . . . . . . . . . . . . . . . . . . 5 1.2.6 Conception, morphologie et apparence . . . . . . . . . . . . . 5 1.2.7 Un défi transverse : s’adapter à son environnement . . . . . . 5 1.3 Le rôle de l’interface pour l’apprentissage social en robotique . . . . 6 1.3.1 L’apprentissage social en robotique . . . . . . . . . . . . . . . 6 1.3.2 Robotique développementale : inspiration fonctionnelle des mécanismes d’attention partagée . . . . . . . . . . . . . . . . 8 1.3.3 Interaction humain-robot . . . . . . . . . . . . . . . . . . . . 10 1.4 Un contexte applicatif : l’apprentissage social du langage . . . . . . . 11 2 Robots sociaux et interactifs : un domaine de recherche en pleine expansion 15 2.1 Un domaine en pleine expansion . . . . . . . . . . . . . . . . . . . . 15 2.2 Influence de la perception des robots sociaux sur les attentes de l’uti- lisateur et sur l’interaction . . . . . . . . . . . . . . . . . . . . . . . . 17 2.3 Interfaces utilisateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.3.1 Transposition directe des interactions humaines . . . . . . . . 20 2.3.2 Interfaces basées sur des objets médiateurs. . . . . . . . . . . 22 2.3.3 Interfaces multi-modales . . . . . . . . . . . . . . . . . . . . . 25 2.4 Méthodologie d’évaluation . . . . . . . . . . . . . . . . . . . . . . . . 25 2.5 Acceptation et sécurité . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.6 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 3 L’acquisition des premiers mots du langage chez les robots : la question de l’interface 29 3.1 L’acquisition des premiers mots du langage chez les robots . . . . . . 29 3.2 Impact des facteurs humains et de l’interface . . . . . . . . . . . . . 32 3.3 État de l’art des interfaces pour l’apprentissage d’un lexique de mots et de sons nouveaux à un robot . . . . . . . . . . . . . . . . . . . . . 33 3.3.1 Interactions directes . . . . . . . . . . . . . . . . . . . . . . . 33 3.3.2 Agiter les objets . . . . . . . . . . . . . . . . . . . . . . . . . 35 3.3.3 Interfaces basées sur des objets médiateurs. . . . . . . . . . . 35
Description: