Detection of local features invariant to affines transformations Krystian Mikolajczyk To cite this version: Krystian Mikolajczyk. Detection of local features invariant to affines transformations. Interface homme-machine[cs.HC].InstitutNationalPolytechniquedeGrenoble-INPG,2002. Français. ￿NNT: ￿. ￿tel-00584096￿ HAL Id: tel-00584096 https://theses.hal.science/tel-00584096 Submitted on 7 Apr 2011 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. INSTITUT NATIONAL POLYTECHNIQUE DE GRENOBLE (cid:14) N attribu(cid:19)e par la biblioth(cid:18)eque j j j j j j j j j j j THE(cid:18)SE pour obtenir le grade de DOCTEUR DE L’INPG Sp(cid:19)ecialit(cid:19)e: Imagerie Vision et Robotique Ecole Doctoral: Math(cid:19)ematiques, Sciences et technologies de l’information, Informatique pr(cid:19)esent(cid:19)ee et soutenue publiquement par Krystian Mikolajczyk le 15 juillet 2002 Detection of local features invariant to a(cid:14)ne transformations Application to matching and recognition Directeur de th(cid:18)ese: Cordelia Schmid JURY Roger Mohr, Pr(cid:19)esident Andrew Zisserman, Rapporteur David Lowe, Rapporteur Cordelia Schmid, Examinateur Tony Lindeberg, Examinateur Michel Dhome, Examinateur Th(cid:18)ese pr(cid:19)epar(cid:19)ee au laboratoire gravir - imag au sein du projet MOVI INRIA Rho^ne-Alpes, 655 av. de l’Europe, 38334 Sant Ismier, France Abstract In recent years the use of local characteristics has become one of the dominant ap- proaches to content based object recognition. The detection of interest points is the (cid:12)rst step in the process of matching or recognition. A local approach signi(cid:12)cantly improves and accelerates image retrieval from databases. Therefore a reliable algorithm for feature detection is crucial for many applications. In this thesis we propose a novel approach for detecting characteristic points in an image. Our approach is invariant to geometric and photometric transformations, which frequentlyappearbetweenscenesviewedindi(cid:11)erentconditions.Weemphasizetheproblem of invariance to a(cid:14)ne transformations. This transformation is particularly important as it canlocallyapproximatetheperspectivedeformations.Previousapproachesprovidepartial solutions to this problem, as not all essential parameters of local features are estimated in an a(cid:14)ne invariant way. Our method is truly invariant to a(cid:14)ne transformations, which include signi(cid:12)cant scale changes. An image is represented by a set of extracted points. The interest points are charac- terized by descriptors, which are computed with local derivatives of the neighborhoods of points. These descriptors together with a similarity measure enable point-to-point corres- pondencestobeestablished,andasaresult,thegeometrybetweenimagestobecomputed. In the context of an image database, the descriptors are used to (cid:12)nd similar points in the database, and therefore the similar image. The usefulness of our method is con(cid:12)rmed by excellent results for matching and image retrieval. Several comparative evaluations show that our approach provided for larger progress in the context of these applications. In our experiments we use a large set of real images, enabling representative results to be obtained. Keywords: Interest points, feature detection, a(cid:14)ne invariance, scale invariance, feature description, matching, image retrieval, recognition. R(cid:19)esum(cid:19)e Une des approches dominantes pour la reconnaissance d’objets est bas(cid:19)ee sur les ca- ract(cid:19)eristiques locales. La m(cid:19)ethode utilise la description locale calcul(cid:19)ee au voisinage de points d’int(cid:19)er^et. La d(cid:19)etection de points d’int(cid:19)er^et est une premi(cid:18)ere (cid:19)etape dans le processus de la mise en correspondance et de la reconnaissance. L’approche par apparences locales a permis d’am(cid:19)eliorer et d’acc(cid:19)el(cid:19)erer consid(cid:19)erablement la recherche d’images dans des bases de donn(cid:19)ees. Danscette th(cid:18)ese,nousproposonsunenouvelleapprochepourlad(cid:19)etection depointsca- ract(cid:19)eristiquesd’uneimage.Cetteapprocheestinvarianteauxtransformationsg(cid:19)eom(cid:19)etriques et photom(cid:19)etriques, qui apparaissent fr(cid:19)equemment entre les images prises dans des condi- tions di(cid:11)(cid:19)erentes. Nous nous concentrons sur le probl(cid:18)eme d’invariance aux transformations a(cid:14)nes. Cette transformation est particuli(cid:18)erement importante parce qu’elle permet de s’af- franchirdes probl(cid:18)emes de changements perspectives. Lesapproches pr(cid:19)ec(cid:19)edentes apportent des solutions partielles, car certains param(cid:18)etres de points d’int(cid:19)er^et ne sont pas estim(cid:19)es de fac(cid:24)on invariante aux changements a(cid:14)nes. Nous avons propos(cid:19)e une solution g(cid:19)en(cid:19)erique a(cid:18) ces probl(cid:18)emes. Notre m(cid:19)ethode est r(cid:19)eellement invariante aux transformations a(cid:14)nes, y compris aux changements d’(cid:19)echelle importants. Les images sont caract(cid:19)eris(cid:19)ees par des ensembles de descripteurs calcul(cid:19)es en des points caract(cid:19)eristiques d(cid:19)etect(cid:19)es automatiquement. Une mesure de ressemblance permet d’(cid:19)etablir descorrespondancesentrelespoints.Cescorrespondancessontensuiteutilis(cid:19)eespourcalcu- lerlag(cid:19)eom(cid:19)etrie quilielesimages.Danslecontextedelarecherched’imageslesdescripteurs sont utilis(cid:19)es pourretrouver despointssimilaires dansla baseet parcons(cid:19)equent desimages similaires aux images requ^etes. Les r(cid:19)esultats exp(cid:19)erimentaux pour la mise en correspondance et la recherche d’images montrentquenotreapprocheesttr(cid:18)esrobusteete(cid:14)cace m^emedanslescasdechangements importants. Plusieurs(cid:19)etudes comparatives e(cid:11)ectu(cid:19)ees dans cette th(cid:18)ese montrent l’avantage de cette m(cid:19)ethode par rapport aux approches existantes pr(cid:19)esent(cid:19)ees r(cid:19)ecemment dans la litt(cid:19)erature. Mots Cles: Points d’int(cid:19)er^et, d(cid:19)etection de points caract(cid:19)eristiques, invariance a(cid:14)ne, des- cription locale, mise encorrespondance, recherche d’images, reconnaissance parapparence locale. Acknowledgement I would like to thank all those people who have contributed to this work. FirstofallIwouldtothankmyadvisor,CordeliaSchmid,forherguidanceinthisresearch. Iwouldlike to thankRoger Mohrwhoinvitedmeto preparethe thesisinthe MOVIteam. IamgratefultoDavidLoweandAndrewZissermanwithwhomIhadvaluablediscussions, provided feedback on my research and helpful suggestions. In my thanks I do not forget about Tony Lindeberg, whose work was the main source of inspiration during my research. Finally, thanks to all former and actual MOVI members for an excellent ambiance during work. Most of all I would like to thank Agnieszka, who has been sharing with me the happy and the di(cid:14)cult moments during last three years. Contents 1 R(cid:19)esum(cid:19)e de la th(cid:18)ese 13 1.1 Objectives et approches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.2 Contenu de la th(cid:18)ese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.2.1 Th(cid:19)eorie de caract(cid:19)eristiques locales . . . . . . . . . . . . . . . . . . . 16 1.2.2 D(cid:19)etecteurs de points d’int(cid:19)er^et . . . . . . . . . . . . . . . . . . . . . 17 1.2.3 Description locale de points d’int(cid:19)er^ets . . . . . . . . . . . . . . . . . 18 1.2.4 Appariement et reconnaissance d’images . . . . . . . . . . . . . . . 19 1.2.5 Reconnaissance de classes d’objets . . . . . . . . . . . . . . . . . . . 20 1.3 Conclusion et perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2 Introduction 25 2.1 Principal issues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.1.1 Matching and recognition of objects . . . . . . . . . . . . . . . . . . 26 2.1.2 Recognition of an object class . . . . . . . . . . . . . . . . . . . . . . 28 2.2 Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.3 Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3 Theory of local features 33 3.1 Multi-scale representation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3.1.1 Gaussian scale-space . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 3.1.2 Scale-space derivatives . . . . . . . . . . . . . . . . . . . . . . . . . . 37 3.1.3 Second moment matrix . . . . . . . . . . . . . . . . . . . . . . . . . 40 3.1.4 Hessian matrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 3.2 Automatic scale selection . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 3.2.1 Scale-space maxima . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 3.2.2 Gamma normalization . . . . . . . . . . . . . . . . . . . . . . . . . . 46 3.2.3 Di(cid:11)erential expressions for scale selection . . . . . . . . . . . . . . . 47 3.2.4 Experimental evaluation . . . . . . . . . . . . . . . . . . . . . . . . . 48 3.3 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 4 Interest point detectors 55 4.1 Scale invariant detector . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 4.1.1 State of the art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 4.1.2 Harris-Laplace detector . . . . . . . . . . . . . . . . . . . . . . . . . 58 9

