Table Of Content

2013 0071 2013 Numéro d’ordre : -ISAL- Année cole octorale nformatique et athématiques de yon É D I M L hèse de l nstitut ational des ciences T ’I N S ppliquées de yon A L Présentée en vue d’obtenir le grade de Docteur, spécialité : Informatique par Moez BACCOUCHE pprentissage neuronal de caractéristiques A spatio temporelles pour la classification - automatique de séquences vidéo Préparée à Orange Labs - France Télécom R&D, Rennes et au laboratoire LIRIS - UMR 5205, INSA de Lyon 15 2013 Soutenue publiquement le juillet devant le jury composé de : M. Denis PELLERIN PRU, Polytech Grenoble Président Mme. Bernadette DORIZZI PRU, Télécom SudParis Rapporteur M. Jean-Marc ODOBEZ MER, EPF Lausanne Rapporteur M. Nicolas THOME MC, UPMC Paris VI Examinateur M. Franck MAMALET Chercheur, Orange Labs Rennes Co-encadrant M. Christian WOLF MC/HDR, INSA de Lyon Co-encadrant M. Christophe GARCIA PRU, INSA de Lyon Co-encadrant M. Atilla BASKURT PRU, INSA de Lyon Directeur À Khaoula, à Elyes... iii iv Remerciements Cette thèse est le fruit d’un travail nécessitant le concours de nombreuses personnes, que je tiens à remercier. En premier lieu, mes remerciements s’adressent à mes responsables de thèse, messieurs Franck Mamalet, Christian Wolf, Christophe Garcia et Atilla Baskurt. J’ai pris un très grand plaisir à travailler avec eux et je les remercie sincèrement pour leurs précieux conseils, la qualité de leur encadrement, leur investissement, leur écoute, et leur disponibilité. Je leur exprime ici ma gratitude pour toute l’aide qu’ils m’ont apportée au cours des différentes étapes de cette thèse. Je remercie tout particulièrement Franck, avec qui j’ai eu le plaisir de partager le même bureau pendant ces trois années. Je tiens ensuite à remercier les membres du Jury pour avoir accepté la charge d’évaluer mon travail. Je remercie tout d’abord M. Denis Pellerin, Professeur à Polytech Grenoble, d’avoir accepté de présider mon jury de soutenance. Je remercie également Mme. Bernadette Dorizzi, Professeur à Télécom SudParis, et M. Jean-Marc Odobez, Maître d’Enseignement et de Recherche à l’École Polytechnique Fédérale de Lausanne, qui ont accepté de rapporter cette thèse, et dont les remarques constructives ont beaucoupparticipéàlafinalisationdumanuscrit.Jetiensenfinàexprimermagratitude à M. Nicolas Thome, Maître de Conférences à l’Université Pierre et Marie Curie, pour avoir examiné ce travail, ainsi que pour les discussions enrichissantes pendant et après la soutenance. Je remercie également toutes les personnes que j’ai eu le plaisir de côtoyer pendant ces années. Côté Orange Labs R&D, mes remerciements s’adressent tout d’abord à messieurs Alexandre Nolle et Sid-Ahmed Berrani, qui m’ont permis d’intégrer l’unité de recherche et de développement MAS, au sein de laquelle ce travail a été effectué. Je remercie également tous les membres de l’équipe, Jean-Bernard, Patrice, Benoît, Olivier et les autres, et plus particulièrement les Doctorants et stagiaires, Khaoula, Ali, Alina, Haykel, Sonia, Gaël, Valentin et Qinglin. Côté LIRIS, mes courts séjours au sein du laboratoire ont été à chaque fois très plaisants et enrichissants, et m’ont permis parfois de prendre du recul sur ma thèse. Je tiens à remercier tous les membres des équipes 2 IMAGINEetM DISCO,etplusparticulièrementPhuong,Jérôme,VincentetMingyuan. Enfin, mes remerciements vont à mes parents, ma famille, mes amis, à tous ceux quim’ontsupportépendantcestroisannées,ettoutparticulièrementàmesdeuxanges, Khaoula et Elyes. v vi Résumé Cettethèses’intéresseàlaproblématiquedelaclassificationautomatiquedesséquences vidéo. L’idée est de se démarquer de la méthodologie dominante qui se base sur l’utilisation de caractéristiques conçues manuellement, et de proposer des modèles qui soient les plus génériques possibles et indépendants du domaine. Ceci est fait en automatisant la phase d’extraction des caractéristiques, qui sont dans notre cas générées par apprentissage à partir d’exemples, sans aucune connaissance a priori. Nous nous appuyons pour ce faire sur des travaux existants sur les modèles neu- ronaux pour la reconnaissance d’objets dans les images fixes, et nous étudions leur extension au cas de la vidéo. Plus concrètement, nous proposons deux modèles d’apprentissage des caractéris- tiques spatio-temporelles pour la classification vidéo : - Un modèle d’apprentissage supervisé profond, qui peut être vu comme une extension des modèles ConvNets au cas de la vidéo. - Un modèle d’apprentissage non supervisé, qui se base sur un schéma d’auto- encodage, et sur une représentation parcimonieuse sur-complète des données. Outre les originalités liées à chacune de ces deux approches, une contribution sup- plémentaire de cette thèse est une étude comparative entre plusieurs modèles de classification de séquences parmi les plus populaires de l’état de l’art. Cette étude a été réalisée en se basant sur des caractéristiques manuelles adaptées à la problématique de la reconnaissance d’actions dans les vidéos de football. Ceci a permis d’identifier le mo- dèle de classification le plus performant (un réseau de neurone récurrent bidirectionnel à longue mémoire à court-terme -BLSTM-), et de justifier son utilisation pour le reste des expérimentations. Enfin,afindevaliderlagénéricitédesdeuxmodèlesproposés,ceux-ciontétéévalués sur deux problématiques différentes, à savoir la reconnaissance d’actions humaines (sur la base KTH), et la reconnaissance d’expressions faciales (sur la base GEMEP-FERA). L’étudedesrésultatsapermisdevaliderlesapproches,etdemontrerqu’ellesobtiennent des performances parmi les meilleures de l’état de l’art (avec 95,83% de bonne reconnaissance pour la base KTH, et 87,57% pour la base GEMEP-FERA). Mots clés : Apprentissage de caractéristiques, modèle ConvNet, apprentissage profond, auto-encodage parcimonieux, classification LSTM, reconnaissance d’actions humaines, reconnaissance d’expressions faciales, reconnaissance d’actions de football. vii viii Abstract This thesis focuses on the issue of automatic classification of video sequences. We aim, through this work, at standing out from the dominant methodology, which relies on so- called hand-crafted features, by proposing generic and problem-independent models. Thiscanbedonebyautomatingthefeatureextractionprocess,whichisperformedinour case through a learning scheme from training examples, without any prior knowledge. To do so, we rely on existing neural-based methods, which are dedicated to object recognition in still images, and investigate their extension to the video case. More concretely, we introduce two learning-based models to extract spatio-temporal features for video classification : - A deep learning model, which is trained in a supervised way, and which can be considered as an extension of the popular ConvNets model to the video case. - An unsupervised learning model that relies on an auto-encoder scheme, and a sparse over-complete representation. Moreover, an additional contribution of this work lies in a comparative study bet- ween several sequence classification models. This study was performed using hand- crafted features especially designed to be optimal for the soccer action recognition problem. Obtained results have permitted to select the best classifier (a bidirectional long short-term memory recurrent neural network -BLSTM-) to be used for all experiments. In order to validate the genericity of the two proposed models, experiments were carriedoutontwodifferentproblems,namelyhumanactionrecognition(usingtheKTH dataset) and facial expression recognition (using the GEMEP-FERA dataset). Obtained results show that our approaches achieve outstanding performances, among the best of the related works (with a recognition rate of 95,83% for the KTH dataset, and 87,57% for the GEMEP-FERA dataset). Keywords:Featurelearning,ConvNetmodel,deeplearning,sparseauto-encoder,LSTM classification, human action recognition, facial expression recognition, soccer action recognition. ix x

Description:

où g est une Gaussienne 2D, h1 et h2 sont des filtres de Gabor 1D, et ⊗ désigne l'opérateur de convolution. Pour chaque cuboïde ainsi sélectionné,

Thèse de l'Institut National des Sciences Appliquées de Lyon Apprentissage neuronal de ... PDF

193 Pages·2013·9.28 MB·French

Checking for file health...

Save to my drive

Quick download

Download

Upgrade Premium

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Thèse de l'Institut National des Sciences Appliquées de Lyon Apprentissage neuronal de ...

Description:

où g est une Gaussienne 2D, h1 et h2 sont des filtres de Gabor 1D, et ⊗ désigne l'opérateur de convolution. Pour chaque cuboïde ainsi sélectionné,

See more

The list of books you might like

Upgrade Premium

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.