Motion in action: optical flow estimation and action localization in videos Philippe Weinzaepfel To cite this version: Philippe Weinzaepfel. Motion in action: optical flow estimation and action localization in videos. Computer Vision and Pattern Recognition [cs.CV]. Université Grenoble Alpes, 2016. English. NNT: 2016GREAM013. tel-01407258 HAL Id: tel-01407258 https://theses.hal.science/tel-01407258 Submitted on 1 Dec 2016 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. THÈSE Pour obtenir le grade de DOCTEUR DE L’UNIVERSITÉ DE GRENOBLE Spécialité : Mathématiques, Sciences et Technologies de l’Information Arrêtéministériel:7août2006 Présentéepar Philippe WEINZAEPFEL Thèse dirigée par Cordelia SCHMID et codirigée par Zaid HARCHAOUI préparée au sein d’ Inria Grenoble et de l’école doctorale MSTII : Mathématiques, Sciences et Technolo- gies de l’Information, Informatique Le mouvement en action: estima- tion du flot optique et localisation d’actions dans les vidéos Motion in action: optical flow estimation and action localization in videos Thèse soutenue publiquement le 23 septembre 2016, devant le jury composé de : Pr. Jean Ponce EcoleNormaleSupérieure,Paris,France,Président Pr. Martial Hebert CarnegieMellonUniversity,Pittsburgh,PA,USA,Rapporteur Dr. Ivan Laptev InriaParis,France,Rapporteur Pr. Jitendra Malik UniversityofCaliforniaatBerkeley,Berkeley,CA,USA,Examinateur Dr. Cordelia Schmid InriaGrenoble,Montbonnot,France,Directeurdethèse Pr. Zaid Harchaoui UniversityofWashington,Seattle,WA,USA,Co-Directeurdethèse i Abstract With the recent overwhelming growth of digital video content, automatic video understanding has become an increasingly important issue. This thesis introducesseveralcontributionsontwoautomaticvideounderstandingtasks: optical (cid:29)ow estimation and human action localization. Optical (cid:29)ow estimation consists in computing the displacement of every pixel in a video and faces several challenges including large non-rigid dis- placements, occlusions and motion boundaries. We (cid:28)rst introduce an optical (cid:29)owapproachbasedonavariationalmodelthatincorporatesanewmatching method. Theproposedmatchingalgorithmisbuiltuponahierarchicalmulti- layercorrelationalarchitectureande(cid:27)ectivelyhandlesnon-rigiddeformations and repetitive textures. It improves the (cid:29)ow estimation in the presence of signi(cid:28)cant appearance changes and large displacements. We also introduce a novelschemeforestimatingoptical(cid:29)owbasedonasparse-to-denseinterpola- tion of matches while respecting edges. This method leverages an edge-aware geodesic distance tailored to respect motion boundaries and to handle oc- clusions. Furthermore, we propose a learning-based approach for detecting motion boundaries. Motion boundary patterns are predicted at the patch level using structured random forests. We experimentally show that our ap- proach outperforms the (cid:29)ow gradient baseline on both synthetic data and real-world videos, including an introduced dataset with consumer videos. Human action localization consists in recognizing the actions that occur in a video, such as ‘drinking’ or ‘phoning’, as well as their temporal and spatial extent. We (cid:28)rst propose a novel approach based on Deep Convolu- tional Neural Network. The method extracts class-speci(cid:28)c tubes leveraging recent advances in detection and tracking. Tube description is enhanced by spatio-temporal local features. Temporal detection is performed using a sliding window scheme inside each tube. Our approach outperforms the state of the art on challenging action localization benchmarks. Second, we introduce a weakly-supervised action localization method, i.e., which does not require bounding box annotation. Action proposals are computed by ex- tractingtubesaroundthehumans. Thisisperformedusingahumandetector robust to unusual poses and occlusions, which is learned on a human pose benchmark. A high recall is reached with only several human tubes, allowing to e(cid:27)ectively apply Multiple Instance Learning. Furthermore, we introduce a new dataset for human action localization. It overcomes the limitations of existing benchmarks, such as the diversity and the duration of the videos. Ourweakly-supervisedapproachobtainsresultsclosetofully-supervisedones while signi(cid:28)cantly reducing the required amount of annotations. Keywords: optical(cid:29)ow,actionlocalization,convolutionalneuralnetwork, video analysis, computer vision, machine learning ii RØsumØ Avec la rØcente et importante croissance des contenus vidØos, la comprØ- hension automatique de vidØos est devenue un problŁme majeur. Ce mØmoire prØsente plusieurs contributions sur deux t(cid:226)ches de la comprØhension auto- matique de vidØos : l’estimation du (cid:29)ot optique et la localisation d’actions humaines. L’estimation du (cid:29)ot optique consiste (cid:224) calculer le dØplacement de chaque pixel d’une vidØo et fait face (cid:224) plusieurs dØ(cid:28)s tels que les grands dØplace- ments non rigides, les occlusions et les discontinuitØs du mouvement. Nous proposons tout d’abord une mØthode pour le calcul du (cid:29)ot optique, basØe sur un modŁle variationnel qui incorpore une nouvelle mØthode d’appariement. L’algorithme d’appariement proposØ repose sur une architecture corrØlation- nelle hiØrarchique (cid:224) plusieurs niveaux et gŁre les dØformations non rigides ainsi que les textures rØpØtitives. Il permet d’amØliorer l’estimation du (cid:29)ot en prØsence de changements d’apparence signi(cid:28)catifs et de grands dØplace- ments. Nous prØsentons Øgalement une nouvelle approche pour l’estimation du (cid:29)ot optique basØe sur une interpolation dense de correspondences clairse- mØestoutenrespectantlescontours.CettemØthodetirepro(cid:28)td’unedistance gØodØsiquebasØesurlescontoursquipermetderespecterlesdiscontinuitØsdu mouvementetdegØrerlesocclusions.Enoutre,nousproposonsuneapproche d’apprentissagepourdØtecterlesdiscontinuitØsdumouvement.Lesmotifsde discontinuitØ du mouvement sont prØdits au niveau d’un patch en utilisant desforŒtsalØatoiresstructurØes.NousmontronsexpØrimentalementquenotre approche surclasse la mØthode basique construite sur le gradient du (cid:29)ot tant sur des donnØes synthØtiques que sur des vidØos rØelles. Nous prØsentons (cid:224) cet e(cid:27)et une base de donnØes contenant des vidØos d’utilisateurs. La localisation d’actions humaines consiste (cid:224) reconna(cid:238)tre les actions prØ- sentes dans une vidØo, comme ‘boire’ ou ‘tØlØphoner’, ainsi que leur Øtendue temporelle et spatiale. Nous proposons tout d’abord une nouvelle approche basØesurlesrØseauxdeneuronesconvolutionnelsprofonds.LamØthodepasse par l’extraction de tubes dØpendants de la classe (cid:224) dØtecter, tirant parti des derniŁres avancØes en matiŁre de dØtection et de suivi. La description des tubes est enrichie par des descripteurs spatio-temporels locaux. La dØtection temporelle est e(cid:27)ectuØe (cid:224) l’aide d’une fenŒtre glissante (cid:224) l’intØrieur de chaque tube. Notre approche surclasse l’Øtat de l’art sur des bases de donnØes di(cid:30)- ciles de localisation d’actions. DeuxiŁmement, nous prØsentons une mØthode de localisation d’actions faiblement supervisØe, c’est-(cid:224)-dire qui ne nØcessite pas l’annotation de bo(cid:238)tes englobantes. Des candidats de localisation d’ac- tions sont calculØs en extrayant des tubes autour des humains. Cela est fait en utilisant un dØtecteur d’humains robuste aux poses inhabituelles et aux occlusions, appris sur une base de donnØes de poses humaines. Un rappel ØlevØ est atteint avec seulement quelques tubes, permettant d’appliquer un apprentissage (cid:224) plusieurs instances. En outre, nous prØsentons une nouvelle iii base de donnØes pour la localisation d’actions humaines. Elle surmonte les li- mitations des bases existantes, telles la diversitØ et la durØe des vidØos. Notre approche faiblement supervisØe obtient des rØsultats proches de celles totale- ment supervisØes alors qu’elle rØduit signi(cid:28)cativement l’e(cid:27)ort d’annotations requis. Mots-clefs: (cid:29)otoptique,localisationd’actions,rØseauxdeneuronesconvo- lutionnels, analyse de vidØos, vision par ordinateur, apprentissage machine v Acknowledgements It was an exceptional chance to work in this great environment with fantastic colleagues. First of all, I would like to thank my supervisors, Cordelia Schmid and Zaid Harchaoui, for their invaluable guidance, sup- port and drive for excellence. In particular, Cordelia’s experience, intu- ition and vision have been extremely precious during all these years and Zaid’s openness, contagious enthusiasm and scienti(cid:28)c culture have made me pushed past my boundaries and allowed me to technically and scien- ti(cid:28)cally progress throughout all projects. Furthermore, I am grateful to Professor Jitendra Malik for o(cid:27)ering me the chance to visit UC Berkeley. I would also like to thank my co-authors JØrome Revaud and Xavier Mar- tin. Daily discussions with JØrome have lead to exciting work in optical (cid:29)ow estimation. The collaboration with Xavier has been extremely pre- cious, especially for solving the numerous challenges when collecting the DALY dataset. Without them, this work will not exist in this form. Be- sides my supervisors and co-authors, I would like to thank the interns I have supervised during my PhD, Quentin Cormier and Erwan Le Roux. This experience was extremely valuable. Many thanks go to my jury mem- bers (cid:21) Professor Martial Hebert, Doctor Ivan Laptev, Professor Jitendra Malik and Professor Jean Ponce (cid:21) for agreeing to evaluate my work. I am also grateful to all the colleagues I met over the past few years. They are too many to be exhaustively cited here. My special thanks go to Mattis Paulin, Nicolas Chesneau, Gregory Rogez, Guillaume Fortier, and to my o(cid:30)ce mates Thomas Mensink, Zeynep Akata, Dan Oneata, Shreyas Sax- ena, Vicky Kalogeiton and Valentin Thomas, for the valuable and daily discussions we had and their support during these years. I would also like to thank Nathalie Gillot who helped me in all administrative tasks. I (cid:28)nally cannot express how grateful I am to my family and friends for their tireless and unconditional support. Contents Contents vii 1 Introduction 1 1.1 Goals . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.2 Context . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.3 Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . 10 I Optical Flow Estimation in Re- alistic Videos 17 2 Related Work on Optical Flow 18 2.1 Optical Flow . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.2 Variational approaches . . . . . . . . . . . . . . . . . . . . . 22 2.3 Other optical (cid:29)ow approaches . . . . . . . . . . . . . . . . . 27 2.4 Image matching in optical (cid:29)ow estimation . . . . . . . . . . 29 2.5 Datasets and evaluation . . . . . . . . . . . . . . . . . . . . 31 3 DeepFlow: Large Displacement Optical Flow with Deep- Matching 35 3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 3.2 DeepMatching . . . . . . . . . . . . . . . . . . . . . . . . . . 38 3.3 Extensions of DeepMatching . . . . . . . . . . . . . . . . . . 52 3.4 DeepFlow . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 3.5 Experiments . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 3.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 4 EpicFlow: Edge-Preserving Interpolation of Correspon- dences for Optical Flow 76 4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 4.2 Sparse-to-dense interpolation . . . . . . . . . . . . . . . . . . 80 vii
Description: