Fast and accurate human action recognition using RGB-D cameras Enjie Ghorbel To cite this version: EnjieGhorbel. FastandaccuratehumanactionrecognitionusingRGB-Dcameras. Human-Computer Interaction [cs.HC]. Normandie Université, 2017. English. NNT: 2017NORMR027. tel-01662496 HAL Id: tel-01662496 https://theses.hal.science/tel-01662496 Submitted on 13 Dec 2017 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. TTHHEESSIISS IIIIInnnnn ooooorrrrrdddddeeeeerrrrr tttttooooo ooooobbbbbtttttaaaaaiiiiinnnnn ttttthhhhheeeee PPPPPhhhhhDDDDD DDDDDiiiiippppplllllooooommmmmaaaaa ooooofffff CCCooommmpppuuuttteeerrr SSSccciiieeennnccceee PPPPrrrreeeeppppaaaarrrreeeedddd iiiinnnn tttthhhheeee llllaaaabbbboooorrrraaaatttttttooooooorrrrrrryyyyyyy IIIIIIIRRRRRRRSSSSSSSEEEEEEEEEEEEEEMMMMMMM (((((((EEEEEEESSSSSSSIIIIIIIGGGGGGGEEEEEEELLLLLLLEEEEEEECCCCCCC))))))) aaaaaaannnnnnnddddddd ttttttthhhhhhheeeeeee dddddddeeeeeeepppppppaaaaaaarrrrrrrtttttttmmmmmmmeeeeeeennnnnnnttttttt IIIIIIIAAAAAAA ooooooofffffff IIIIIIIMMMMMMMTTTTTTT LLLLLLLiiiiiiilllllllllllllleeeeeee DDoouuaaii FFFFFFaaaaaasssssstttttt aaaaaannnnnndddddd aaaaaaccccccccccccuuuuuurrrrrraaaaaatttttteeeeee hhhhhhuuuuuummmmmmaaaaaannnnnn aaaaaaccccccttttttiiiiiioooooonnnnnn rrrreeeeccccooooggggnnnniiiittttiiiioooonnnn uuuussssiiiinnnngggg RRRRGGGGBBBB-DDD cccaaammmeeerrraaasss PPrreesseenntteedd aanndd wwrriitttteenn bbyy EEnnjjiiee GGHHOORRBBEELL TTThhheeesssiiisss pppuuubbbllliiiccclllyyy dddeeefffeeennndddeeeddd ooonnn OOOccctttooobbbeeerrr ttthhheee 111222ttthhh ooofff 222000111777 iiinnn fffrrrooonnnttt ooofff ttthhheee jjjuuurrryyy cccooommmpppooossseeeddd ooofff MMMrrr... FFFrrraaannnçççoooiiisss BBBrrrééémmmooonnnddd RRRReeeesssseeeeaaaarrrrcccchhhh DDDDiiiirrrreeeeccccttttoooorrrr,,,, IIIINNNNRRRRIIIIAAAA SSSSoooopppphhhhiiiiaaaa AAAAnnnnttttiiiippppoooolllliiiissss RReevviieewweerr MMrrss.. SSaaïïddaa BBoouuaakkaazz PPPPrrrrooooffffeeeessssssssoooorrrr,,,, UUUUnnnniiiivvvveeeerrrrssssiiiittttéééé CCCCllllaaaauuuuddddeeee BBBBeeeerrrrnnnnaaaarrrrdddd LLLLyyyyoooonnnn 1111 RReevviieewweerr MMrr.. CChhrriissttiiaann WWoollff Assoocciiaattee ppprrrooofffeeessssssooorrr,,, IIINNNSSSAAA LLLyyyooonnn EExxaammiinnaattoorr MMMrrrsss... DDDaaannniiieeelllllleee NNNuuuzzziiillllllaaarrrddd PPPPPrrrrrooooofffffeeeeessssssssssooooorrrrr,,,,, UUUUUnnnnniiiiivvvvveeeeerrrrrsssssiiiiitttttééééé RRRRReeeeeiiiiimmmmmsssss CCCCChhhhhaaaaammmmmpppppaaaaagggggnnnnneeeee AAAAArrrrrdddddeeeeennnnnnnnnneeeee EExxaammiinnaattoorr MMrr.. XXaavviieerr SSaavvaattiieerr RReesseeaarrcchheerr TTeeaacchheerr,, EESSIIGGEELLEECC DDiirreeccttoorr MMMrrr... SSStttéééppphhhaaannneee LLLeeecccoooeeeuuuccchhheee PPPrrrooofffeeessssssooorrr,,, IIIMMMTTT LLLiiilllllleee Douai Co-Diirreeccttoorr MMrr.. RRéémmii BBoouutttteeaauu RReesseeaarrcchheerr TTeeaacchheerr,, EESSIIGGEELLEECC Co-SSuuppeerrvviissoorr MMMrrr... JJJaaacccqqquuueeesss BBBoooooonnnaaaeeerrrttt Asssoocciiaattee Prrooffeessssoorr,, IIMMTT LLiillllee DDoouuaaii Co-SSuuppeerrvviissoorr TThheessis dddiiirrreeecccttteeeddd bbbyyy XXXaaavvviiieeerrr SSSAAVVAATTIIEERR,,, IIIRRRSSSEEEEEEMMM (((EEESSSIIIGGGEEELLLEEECCC))) aaannnddd SSSSttttéééépppphhhhaaaannnneeee LLLLEEEECCCCOOOOEEEEUUUUCCCCHHHHEEEE,,,, IIIIAAAA ddddeeeeppppaaaarttmmeenntt ((IIMMTT LLiillllee DDoouuaaii)) iii Résumé Récemment,lescamérasRGB-Dontétéintroduitessurlemarchéetontpermisl’exploration denouvellesapprochesdereconnaissanced’actionsparl’utilisationdedeuxmodalitésautres que les images RGB, à savoir, les images de profondeur et les séquences de squelette. Généralement, ces approches ont été évaluées en termes de taux de reconnaissance. Cette thèse s’intéresse principalement à la reconnaissance rapide d’actions à partir de caméras RGB-D.Letravailaétéfocalisésuruneaméliorationconjointedelarapiditédecalculetdu tauxdereconnaissanceenvued’uneapplicationtemps-réel. Dans un premier temps, nous menons une étude comparative des méthodes existantes de reconnaissance d’actions basées sur des caméras RGB-D en utilisant les deux critères énoncés : le taux de reconnaissance et la rapidité de calcul. Suite aux conclusions résultant de cette étude, nous introduisons un nouveau descripteur de mouvement, à la fois précis et rapide, qui se base sur l’interpolation par splines cubiques de valeurs cinématiques du squelette, appelé Kinematic Spline Curves (KSC). De plus, afin de pallier les effets négatifs engendrés par la variabilité anthropométrique, la variation d’orientation et la variation de vitesse, des méthodes de normalisation spatiale et temporelle rapides ont été proposées. Les expérimentations menées sur quatre bases de données prouvent la précision et la rapidité de cedescripteur. Dans un second temps, un deuxième descripteur appelé Hiearchical Kinematic Coavar- ince (HKC) est introduit. Ce dernier est proposé dans l’optique de résoudre la question de reconnaissance rapide en ligne. Comme ce descripteur n’appartient pas à un espace eucli- dien, mais à l’espace des matrices Symétriques semi-Définies Positives (SsDP), nous adap- tons les méthodes de classification à noyau par l’introduction d’une distance inspirée de la distance Log-Euclidienne, que nous appelons distance Log-Euclidienne modifiée. Cette ex- tension nous permet d’utiliser des classifieurs adaptés à l’espace de caractéristiques (SPsD). Une étude expérimentale montre l’efficacité de cette méthode non seulement en termes de rapiditédecalculetdeprécision,maiségalemententermesdelatenceobservationnelle. Ces conclusions prouvent que cette approche jointe à une méthode de segmentation d’actions pourrait s’avérer adaptée à la reconnaissance en ligne et ouvre ainsi de nouvelles perspec- tivespournostravauxfuturs. v Abstract TherecentavailabilityofRGB-Dcamerashasrenewedtheinterestofresearchersinthetopic of human action recognition. More precisely, several action recognition methods have been proposedbasedonthenovelmodalitiesprovidedbythesecameras,namely,depthmapsand skeleton sequences. These approaches have been mainly evaluated in terms of recognition accuracy. ThisthesisaimstostudytheissueoffastactionrecognitionfromRGB-Dcameras. Itfocusesonproposinganactionrecognitionmethodrealizingatrade-offbetweenaccuracy andlatencyforthepurposeofapplyingitinreal-timescenarios. Asafirststep,weproposeacomparativestudyofrecentRGB-Dbasedactionrecognition methods using the two cited criteria: accuracy of recognition and rapidity of execution. Then, oriented by the conclusions stated thanks to our study, we introduce a novel, fast and accuratehumanactiondescriptorcalledKinematicSplineCurves(KSC).Thislatterisbased on the cubic spline interpolation of kinematic values. Moreover, fast spatial and temporal normalizations are proposed in order to overcome anthropometric variability, orientation variation and rate variability. The experiments carried out on four different benchmarks showtheeffectivenessofthisapproachintermsofexecutiontimeandaccuracy. Asasecondstep,anotherdescriptorisintroduced,calledHierarchicalKinematicCovari- ance (HKC). This latter is proposed in order to solve the issue of fast online action recogni- tion. SincethisdescriptordoesnotbelongtoaEuclideanspace,butisanelementofthespace of Symmetric Positive semi-definite (SPsD) matrices, we adapt kernel classification meth- odsbytheintroductionofanoveldistancecalledModifiedLog-Euclidean,whichisinspired from Log-Euclidean distance. This extension allows us to use suitable classifiers to the fea- ture space SPsD of matrices. The experiments prove the efficiency of our method, not only in terms of rapidity of calculation and accuracy, but also in terms of observational latency. These conclusions show that this approach combined with an action segmentation method could be appropriate to online recognition, and consequently, opens up new prospects for futureworks. vii Acknowledgments Firstly,IwouldliketoexpressmysinceregratitudetomydirectorsProf. XavierSAVATIER and Prof. Stéphane LECOEUCHE and my supervisors Dr. Rémi BOUTTEAU and Dr. Jacques BOONAERT for their continuous support of my Ph.D study and related research, for their patience, motivation, and knowledge. Their guidance helped me in all the time of researchandwritingofthisthesis. Besidesmyadvisors,Iwouldliketothanktherestofmythesiscommittee: Prof. Danielle Nuzillard and Dr. Christian Wolf for accepting to examine my thesis. Also, I would like to thank more particularly Dr. Prof. Francois Brémond and Prof. Saida Bouakaz, for their insightful comments, and interesting questions which participated to improve the quality of thismanuscriptandtowidenmyresearchfromvariousperspectives. My sincere thanks also goes to my colleagues and friends (Anis, Berba, Kawther, Safa, Fabien, Lavinius, Balsam, Ziad, Monica, Pau, Pablo, Tony) for the good ambiance and for makingmystayinDouaiandRouensoperfect. Finally,Iwouldliketothankmyparents,AhmedandNanaforalwaysbeinghereduring thegoodbutalsothehardmoments. Iwouldhavenevermadeitwithoutyou. ix Synthèse en français 0.1 Introduction Lareconnaissanced’actionssuscite,deplusenplus,l’intérêtdelacommunautéscientifique du domaine en raison de son large champ applicatif. Bien que cette tâche soit intuitive pour les humains, son automatisation par le biais d’outils informatiques n’en demeure pas moins complexe. La majorité des méthodes proposées dans la littérature se sont inspirées de la structure anatomique humaine. Afin de capturer le flux de données relié au mouvement, l’homme utilise le plus souvent son sens de la vue. Ce flux d’informations est alors transféré au cerveau où il est analysé. En se basant sur des actions mémorisées par le cerveau, la scène observéeestassociéeàuneétiquette(lenomdel’action). Ainsi, les méthodes de reconnaissance d’actions automatiques se basent généralement sur des capteurs visuels qui s’inspirent du système visuel humain. Ces derniers acquièrent l’information visuelle et la code de manière conventionnelle. Suite à cela des algorithmes de vision par ordinateur permettent l’extraction de caractéristiques discriminantes. Finale- ment,desméthodesdemachinelearningsontutiliséespourreconnaîtrelesactionsgrâceaux caractéristiquesextraites. Plusieurs problématiques commencent déjà à apparaître : Quel type de capteur doit- on utiliser? Comment modéliser les actions et quels types de caractéristiques doit-on ex- traire? Quels sont les critères de performance adéquats qui permettent la comparaison des différentesméthodes? Quellessontleslimitationsdechaqueméthode? Le but de cette thèse est donc d’analyser ces diverses questions et par conséquent d’y proposerdesréponsesadéquatesetcohérentes. Dans ce qui suit, nous présentons brièvement les motivations qui ont données lieu à nos travaux de recherche, les contributions scientifiques proposées, ainsi que l’organisation de cemanuscrit. 0.1.1 Motivations De nos jours, les algorithmes de reconnaissance d’actions sont de plus en plus exploités vu leur utilité dans une grande variété d’applications (vidéo surveillance, santé, jeux vidéos, etc).
Description: