Thèse présentée pour obtenir le grade de Docteur de l’École Nationale Supérieure des Télécommunications et de l’Université Boğaziçi Spécialité : Signal et Images Ceyhun Burak AKGÜL Density‐based shape descriptors and similarity learning for 3D object retrieval Descripteurs de forme basés sur la densité de probabilité et apprentissage des similarités pour la recherche d’objets 3D Soutenue le 19 novembre 2007 devant le jury composé de : Nozha Boujemaa Président Ethem Alpaydın Rapporteurs Atilla Başkurt Yücel Yemez Examinateur Bülent Sankur Directeurs de thèse Francis Schmitt 2 "Naturally, the four mathematical operations - adding, subtracting, multiplying, and dividing - were impossible. The stones resisted arithmetic as they did the calculation of probability. Forty disks, divided, might become nine; those nine in turn divided might yield three hundred." Jorge Luis Borges (cid:21) Blue Tigers 3 4 Remerciements Je remercie vivement et avec candeur mes deux directeurs de thŁse, B(cid:252)lent Sankur and Francis Schmitt, et mon co-encadrant de thŁse Y(cid:252)cel Yemez d’apporter autant (cid:224) ce travail, d’exprimer leurs esprits critiques (cid:224) toutes les reprises et surtout de faire l’avocat du diable. J’avais entendu cette expression pour la premiŁre fois de B(cid:252)lent Sankur il y a pas mal de temps. Vous pouvez imaginer donc le choc quand je l’ai entendue Øgalement de Francis Schmitt quand je suis arrivØ (cid:224) l’ENST. C’etait indicatif du "futur" qui est maintenant le 1 "passØ" que je ne regrettrai jamais. L’enjeu et la joie de faire une thŁse en cotutelle : c’est de satisfaire plusieurs personnes avec son travail mais aussi de pro(cid:28)ter de plusieurs esprits exceptionnels pour le perfectionner. Moi, j’ai eu cette chance de travailler avec ces trois personnes dont chacune m’a montrØ une di(cid:27)Ørente dimension de la problematique de faire une thŁse en gØnØral. En particulier, je remercie Francis Schmitt de m’avoir introduit dans le fascinant domaine 3D et de partager sa vaste connaissance avec moi; je remercie Y(cid:252)cel Yemez de m’indiquer toujours "les bons pointeurs" et aussi pour nos discussions o(cid:27)-the-record pendant les plus durs moments. Je voudrais exprimer ma gratitude (cid:224) B(cid:252)lent Sankur pour dØcouvrir le chercheur que je suis, pour tout ce que j’ai appris de lui, pour sa con(cid:28)ance en moi... Il y a bien une longue liste de choses pour lesquelles je dois lui exprimer ma gratitude. J’espŁre qu’il sait bien combien j’en suis reconnaissant. Je voudrais remercier Nozha Boujemaa d’avoir acceptØ de prØsider le jury de thŁse. Je voudrais remercier Ethem Alpayd(cid:25)n et Atilla Ba‡kurt d’avoir acceptØ d’Œtre rapporteurs de thŁse surtout avec autant de contraintes de temps et de dØplacement. Leurs apprØciations de mon travail de thŁse m’encouragent pour continuer (cid:224) travailler en tant que chercheur. Et aussi... Retenez bien la date de la soutenance : c’est le 19 novembre 2007. Ce jour-l(cid:224), il n’y avait pas trop de mØtro (cid:224) Paris ni d’autres moyens de transports et les membres du jury Øtaient tous prØsents (cid:224) temps, mŒme s’ils ont dß marchØ longuement dans les rues de Paris. Je remercie tous les membres du jury pour (cid:231)a aussi. Je tiens (cid:224) remercier JØr(cid:244)me Darbon, chercheur d’exception et "Roi de la Butte-aux- Cailles"; Geo(cid:27)roy Fouquier dit "Le Duc" et David Lesage dit "L’Aventurier" pour leurs amitiØs et leurs supports inconditionnels. De l’autre cotØ, je remercie Helin Duta§ac(cid:25) et ErdemY(cid:246)r(cid:252)k,cesdeuxpersonnesquim’ontaidØautantsanslesavoiretsansrienattendre. En particulier, je remercie Helin Duta§ac(cid:25) aussi pour achever ce boulot fantastique de gØnØrer une classi(cid:28)cation d’expert pour la base de donnØes Sculpteur. Je remercie Isabelle Bloch pour ses commentaires sur ma prØsentation de thŁse juste une semaine avant le jour de la soutenance. Ses remarques ont eu de formidables e(cid:27)ets sur le "grand jour". Je remercie Burak Acar d’Œtre membre du jury du suivi d’Øtudes 1CetravailaØtØe(cid:27)ectuØdansdeuxlaboratoiresderechercheENST/TSIetBUSIM(l’UniversitØBo§a- zi(cid:231)i)danslecadred’unecotutelledethŁseentrel’ENSTetl’UniversitØBogazi(cid:231)i.UnepartiedemesØtudes en France a ØtØ (cid:28)nancØe par le CROUS de Paris. 5 doctorales (cid:224) l’UniversitØ Bo§azi(cid:231)i. Je remercie Florence Besnard et StØphane Bonenfant, (cid:224) la Direction de la Formation par la Recherche de l’ENST, de toujours faciliter la vie doctorale. Je remercie Selim Eskiizmirliler pour son soutien comme un vØritable grand- frŁre de Galatasaray. Encore la joie de faire une thŁse en cotutelle : c’est de doubler le nombre de compa- gnons sur ce chemin que l’on poursuit et que l’on appelle "faire une thŁse". Je voudrais remercierTonyTungetCarlosHernÆndez-Esteban:j’aipro(cid:28)tØconsidØrablementdesoutils et des logiciels qu’ils ont developpØs lors du projet Sculpteur. Sans di(cid:27)Ørencier entre les gØnØrations,jevoudraisaussiremerciertouslesgens-thØsardoupas-quej’aiconnus(cid:224)TSI et (cid:224) BUSIM. En particulier, merci (cid:224) JØrØmie, Julien, Eve, Alex, Gero, Antonio, Camille, Olivier, Ebru, (cid:157)pek, ˙a§atay et Oya. J’ai partagØ de tres agrØables moments avec eux. Je remercie aussi Sophie-Charlotte, Najib et Sa(cid:239)d avec qui j’ai partagØ pas mal de pause cafØ; So(cid:28)ane, mon dernier compagnon de bureau (cid:224) TSI; et les postdocs Sylvie et Vincent. Je tiens (cid:224) remercier tous mes amis de leurs apprØciations et du courage qu’ils m’ont donnØ pendant tout le long de la thŁse. En particulier, je voudrais remercier Fulden, Eren, Funda et Ba‡ak d’Œtre prØsents (cid:224) cette grande journØe et nuit! Fulden et Eren ont fait des remarques "non-professionnels" sur la prØsentation, dont je me suis servi beaucoup lors de la soutenance. Sans qu’ils le sachent, j’ai aussi trouvØ du courage dans leurs regards amicaux pendant la soutenance. Je remercie Fulden, (cid:224) part d’Œtre prØsente (cid:224) la soutenance, mais surtout d’Œtre toujours l(cid:224) comme si c’est depuis le dØbut du monde et du temps. Finalement, un trŁs grand merci (cid:224) ma mŁre Emel, mon pŁre Ne‡at et ma s(cid:247)ur Ay‡eg(cid:252)l. Pour pouvoir soutenir une thŁse, j’avais besoin de leur soutien qu’ils m’ont o(cid:27)ert tres gØnØ- reusement et sans fatigue. Les mots restent bien faibles pour exprimer ma gratitude envers ma famille. J’espŁre que cette thŁse dØmontre que leurs supports et sacri(cid:28)ces n’Øtaient pas en vain. 6 RØsumØ Les moteurs de recherche de nouvelle gØnØration permettront de formuler des requŒtes autrement qu’avec du texte, notamment (cid:224) partir d’informations visuelles reprØsentØes sous formed’imagesoudemodŁles3D.Enparticulier,cestechnologiesappliquØes(cid:224)larecherche 3Dpermettrontd’ouvrirdenouveauxdomainesd’applications[1].L’objectifdelarecherche par le contenu est de dØvelopper des moteurs de recherche permettant aux utilisateurs d’e(cid:27)ectuer des requŒtes par la similaritØ du contenu. Cette thŁse aborde deux problŁmes fondamentaux de la recherche d’objets 3D par le contenu : (1) Comment dØcrire une forme 3D pour en obtenir une reprØsentation (cid:28)able qui facilite ensuite la recherche par similaritØ? (2) Comment superviser le processus de recherche a(cid:28)n d’e(cid:27)ectuer un apprentissage des similaritØs inter-objets pour une recherche plus e(cid:30)cace et sØmantique? Concernant le premier problŁme, nous dØveloppons un nouveau systŁme de description de formes 3D basØ sur la densitØ de probabilitØ d’attributs surfaciques locaux multivariØs. DemaniŁreconstructive,nousrelevonsdescaractØristiqueslocalesd’unensembledepoints 3D sur une surface 3D et rØsumons l’information locale ainsi obtenue sous forme d’un des- cripteur global. Pour l’estimation de la densitØ de probabilitØ, nous utilisons la mØthode d’estimation de densitØ (cid:224) noyaux [2, 3], associØe avec un algorithme d’approximation ra- pide : la transformØe de Gauss rapide [4, 5]. Le mØcanisme de conversion des attributs locaux en la description globale Øvite le problŁme de mise en correspondance entre deux formes et se rØvŁle robuste et e(cid:30)cace. Les expØriences que nous avons menØes sur diverses bases d’objets 3D montrent que les descripteurs basØs sur la densitØ sont trŁs rapides (cid:224) calculer et trŁs e(cid:30)caces pour la recherche 3D par similaritØ. Concernant le deuxiŁme problŁme, nous proposons un systŁme d’apprentissage des si- milaritØs incorporant une certaine quantitØ de supervision au processus de requŒte pour rendre la recherche plus e(cid:30)cace et sØmantique. Notre approche est basØe sur la combi- naison de scores de similaritØ multiples en optimisant une version convexe rØgularisØe du critŁrederisquedemauvaisclassementempirique[6,7].Cetteapprochedefusiondescores (cid:224) l’apprentissage des similaritØs peut Œtre appliquØe (cid:224) divers problŁmes de moteur de re- cherche utilisant tout type de modalitØs de donnØes. Dans ces travaux, nous dØmontrons son e(cid:30)cacitØ pour la recherche d’objets 3D. Ce manuscrit est organisØ en cinq chapitres. Le premier est consacrØ (cid:224) un Øtat de l’art sur la problØmatique de la recherche d’objets 3D par le contenu. Dans le second, nous prØsentonsnotreapprochepourladescriptiond’objets3DpardensitØdeprobabilitØa(cid:28)nde rØpondre(cid:224)lapremiŁrequestionprØcØdemmentposØe:commentdØcrirelaforme3D?Dans le troisiŁme chapitre, nous traitons la deuxiŁme question sur l’apprentissage supervisØe des similaritØs. Le Chapitre 4 contient de nombreux rØsultats expØrimentaux sur les propriØtØs et l’e(cid:30)cacitØ de la description par densitØ de probabilitØ ainsi que sur notre algorithme de 7 fusion de scores pour l’apprentissage des similaritØs. Dans le Chapitre 5, nous concluons la thŁse en discutant les principaux rØsultats et en proposant plusieurs pistes pour de futurs travaux de recherche dans le domaine. Dans le Chapitre 1, nous faisons tout d’abord un Øtat de l’art sur la problØmatique de la recherche d’objets 3D par le contenu et nous formulons les problŁmes associØs en suivant les travaux exposØs dans [8, 9, 10]. Ensuite, nous prØsentons les bases d’objets 3D utilisØes dans nos expØriences, notamment : 1. Princeton Shape Benchmark (PSB) [11], 2. Base de DonnØes Sculpteur (SCU) [12, 13], 3. Base de DonnØes SHREC-Watertight (SHREC-W) [14], 4. Purdue Engineering Shape Benchmark (ESB) [15]. Dans ce chapitre, nous fournissons Øgalement une taxonomie des descripteurs de forme 3D dØj(cid:224) prØsentØs dans la littØrature et nous rØcapitulons les notions de base sur le calcul des distances entre les descripteurs. Nous terminons ce chapitre par les dØ(cid:28)nitions des mesures de performance couramment utilisØes dans la recherche par le contenu [11]. Pour la recherche 3D par descripteurs globaux, chaque objet de la base de donnØes est stockØ par le systŁme informatique sous la forme d’une reprØsentation contenant le rØsumØ numØrique de sa forme. Nous appelons descripteurs de forme ces reprØsentations qui correspondent (cid:224) des vecteurs dans un espace vectoriel de haute dimension. Quand une requŒte est prØsentØe, le systŁme calcule le(s) descripteur(s) correspondant (cid:224) la requŒte et le(s) compare (cid:224) ceux des objets de la base de donnØes en utilisant une fonction de distance. Celle-ci mesure la similaritØ entre deux objets 3D. Ensuite, le systŁme renvoie la liste des objets de la base de donnØes (cid:224) l’utilisateur dans l’ordre croissant des valeurs de similaritØ. L’objectif est d’obtenir les objets les plus similaires (cid:224) la requŒte au dØbut de la liste. Pour atteindre cet objectif, un algorithme de description de forme doit satisfaire les critŁres suivants [8] : (cid:21) E(cid:30)cacitØ. L’algorithme de description doit permettre de bien discriminer les objets de di(cid:27)Ørentes classes. Inversement, pour les objets d’une mŒme classe il doit rØvØler les aspects communs de ces objets pour leur donner une grande valeur de similaritØ. Ces deux objectifs, quand ils sont atteints, conduisent (cid:224) une bonne performance de la recherche d’objets 3D par le contenu. (cid:21) E(cid:30)cience. L’algorithme doit permettre un calcul rapide des descripteurs et la taille des descripteurs ne doit pas dØpasser une certaine limite en pratique pour les appli- cations. (cid:21) FlexibilitØ. On doit pouvoir appliquer l’algorithme (cid:224) di(cid:27)Ørents types de reprØsen- tations de forme, notamment les surfaces paramØtriques, les surfaces voxelisØes, les surfaces implicites, les nuages de points, etc. (cid:21) Robustesse.L’algorithmedoitŒtrerelativementinsensibleauxdØformationslØgŁres de la forme, au bruit et aux dØgØnØrescences du maillage. (cid:21) Invariance.L’algorithmedoitŒtreinvariant(cid:224)latranslation,auchangementdepose 3D et au changement d’Øchelle isotropique. Dans notre travail, ces critŁres nous ont guidØs pour obtenir un algorithme de des- cription performant sur diverses bases d’objets 3D. Notre approche peut Œtre considØ- rØe comme une extension et une gØnØralisation des mØthodes basØes sur l’histogramme [16, 17, 18, 19, 20, 21, 22]. Ces derniŁres sont en gØnØral assez faciles (cid:224) mettre en (cid:247)uvre mais on leur reproche aussi de ne pas Œtre su(cid:30)samment discriminantes. Notre cadre basØ 8 RØsumØ sur la densitØ vainc les limitations des approches basØes sur l’histogramme, notamment gr(cid:226)ce (cid:224) sa capacitØ de discrimination. Dans le Chapitre 2, nous prØsentons notre approche pour la description de forme 3D par la densitØ de probabilitØ (DBF). DBF est un modŁle gØnØratif dont l’objectif est de coder les propriØtØs gØomØtriques de la forme contenues dans une classe d’objets 3D. Ce modŁle est basØ sur l’idØe suivante : associØ (cid:224) chacun des concepts de forme, il existe un processus alØatoire sous-jacent qui induit une mesure de probabilitØ sur un certain attribut surfacique local. Nous supposons que cette mesure admet une fonction de densitØ de probabilitØ (fdp). Celle-ci, (cid:224) son tour, contient de l’information liØe aux propriØtØs intrinsŁques de la forme captØes par la mesure de l’attribut choisi. Par consØquent, nous pouvonsmesurerlasimilaritØentredeuxformesenquanti(cid:28)antlavariationentrelesfdps.Le descripteur d’une forme 3D basØ sur la densitØ est dØ(cid:28)ni comme une version ØchantillonnØe de la fdp d’un certain attribut scalaire ou multivariØ. L’attribut est local (cid:224) la surface et traitØ comme un variable alØatoire S. A chaque point de la surface, nous avons une observation de S. Par exemple, si la surface est donnØe sous forme de maillage triangulaire, l’ensemble des observations peut Œtre obtenu (cid:224) partir des triangles ou des sommets du maillage. En utilisant ces observations, nous pouvons estimer la fdp de l’attribut S (cid:224) un ensemble de points du domaine de dØ(cid:28)nition de la fdp pour obtenir un ensemble de valeurs estimØes de la fdp, qui deviendra le descripteur de l’objet. DBF est constituØ de trois Øtapes : 1. Le choix et le calcul de l’attribut surfacique.DanscetteØtape,nouschoisissons desattributssurfaciquespourcaractØriserlasurface3DdemaniŁrelocale.L’attribut doit Œtre discriminant et simple (cid:224) calculer. Dans la Section 2.1, nous prØsentons une gamme d’attributs locaux en fonction des propriØtØs di(cid:27)Ørentielles de la surface sous- jacente. L’usage de ces attributs dans un cadre multivariØ mŁne (cid:224) trois types de caractØrisations principales : (cid:21) Ordre-0. La distance radiale d’un point sur la surface considØrØe et sa direction radiale normØe (celle du rayon tracØ (cid:224) partir de l’origine de la surface vers le point 3D) paramØtrisent le point a(cid:28)n d’obtenir une caractØrisation (cid:224) l’Ordre-0. (cid:21) Ordre-1. La distance du plan tangent (cid:224) la surface considØrØe et la direction de la normale paramØtrisent le plan tangent (cid:224) ce point a(cid:28)n d’obtenir une caractØrisation (cid:224) l’Ordre-1. (cid:21) Ordre-2. L’indice de forme proposØe dans [23] donne une caractØrisation locale de la surface en termes de formes primitives. Comme cet attribut est une fonction des courbures principales, il est considØrØ (cid:224) l’Ordre-2. Nous utilisons cet attribut conjointement avec la distance radiale et le produit scalaire entre les directions radiale et normale a(cid:28)n d’obtenir une caractØrisation riche dite (cid:224) l’Ordre-2. Dans la Section 2.1.2, nous discutons des di(cid:27)Ørentes possibilitØs pour le calcul des attributs a(cid:28)n d’obtenir un ensemble d’observations. Cet ensemble peut Œtre trŁs fa- cilement obtenu en Øvaluant l’attribut aux barycentres des triangles du maillage ou bien aux sommets du maillage. Par contre, la rØsolution du maillage peut ne pas Œtre assez (cid:28)ne et les triangles peuvent Œtre de forme et de taille arbitraires. En consØ- quence, pour obtenir une caractØrisation locale plus (cid:28)able, nous devons tenir compte de ces aspects. Nous pensons que l’espØrance de l’attribut sur un triangle est plus (cid:28)able qu’une seule valeur au barycentre ou bien au sommet. Notre approche pour le calcul des attributs est de discrØtiser l’intØgrale de l’espØrance par l’approximation de Simpson. Cette approche se rØduit (cid:224) prendre neuf points sur un triangle dont la 9 position gØomØtrique est spØci(cid:28)Øe par l’approximation, ensuite calculer l’attribut en ces points, et (cid:28)nalement en prendre une moyenne pondØrØe. 2. La sØlection des points oø est ØvaluØe la fdp. Dans cette Øtape, nous dØter- minons les points, nommØs cibles, oø est ØvaluØe la fdp. Nous devons exploiter la structure du domaine de dØ(cid:28)nition de la fdp pour Œtre e(cid:30)cace dans le choix des cibles. Notamment, quand un attribut prend ses valeurs sur la sphŁre unitØ (comme la direction radiale et la normale), il faut invoquer des mØthodes pour Øchantillonner la sphŁre unitØ. Dans la Section 2.1.3, nous prØsentons deux de ces mØthodes : la subdivision successive de l’octaŁdre et l’Øchantillonnage des paramŁtres sphØriques. 3. Le calcul du descripteur (cid:28)nal. Dans cette Øtape, en utilisant l’ensemble des observations, nous estimons les valeurs de la fdp sur l’ensemble des cibles. L’outil que nous utilisons pour cette estimation est la mØthodologie (cid:224) noyaux (KDE) [2, 3], rendue e(cid:30)cace par la transformØe de Gauss rapide (FGT) [4, 5]. Dans la Section 2.2, nous mettons KDE dans le contexte de la description de forme 3D. Nous analysons l’aspect discriminatif de notre reprØsentation en montrant une borne supØrieure pour lavariationentredeuxdescripteursdontlesformescorrespondantessontdesversions perturbØesd’unemŒmeformeinitiale.Cetteborneestinversementproportionnelleau paramŁtrelargeur de bande,leplusimportantparamŁtredelamØthodologieKDE[2, 3].Enparticulier,nousmettonsenØvidencequeceparamŁtrea(cid:27)ecteladiscrimination denotrereprØsentationainsiquesarobustesse.Unegrandevaleurdelargeurdebande conduit (cid:224) une faible variation entre les descripteurs, alors qu’une petite valeur donne une variation plus importante. Nous consacrons une grande partie de cette section (cid:224) la problØmatique de sØlectionner le paramŁtre largeur de bande inconnu au prØalable. Le fait d’avoir un schØma de description basØ sur la fdp nous permet d’exploiter cette structure spØciale pour di(cid:27)Ørents buts. Dans la Section 2.3, nous prØsentons deux outils pour manipuler les descripteurs : la marginalisation et l’Ølagage de densitØ de probabilitØ. LamarginalisationØliminetoutel’informationcontenuedansunsous-ensembled’attributs. Cet outil est utilisØ pour explorer la redondance Øventuelle de certains composants dans un attribut multivariØ. Par ailleurs, l’Ølagage de densitØ de probabilitØ Ølimine les valeurs de fdp nØgligeables par seuillage. Ces deux outils peuvent Œtre utilisØs pour rØduire la taille du descripteur sans trop rØduire pour autant sa propriØtØ de discrimination. Un autre avantage o(cid:27)ert par la structure de la fdp est que l’on peut garantir l’in- variance contre certains types de transformations 3D, notamment ceux qui changent la nomenclature et la polaritØ des trois axes principaux, au moment du calcul de la similaritØ. Dans la Section 2.4, en partant de la formule de changement de variables pour les fdps, nous dØveloppons un schØma qui permet d’e(cid:27)ectuer la transformation directement sur le descripteur par une simple permutation de ses composants. Dans la Section 2.5, nous (cid:28)- nalisons ce chapitre en donnant un algorithme pour la mise-en-(cid:247)uvre de notre algorithme de description. Les travaux scienti(cid:28)ques dans le domaine de la recherche d’objets 3D par le contenu montrent qu’un seul type de descripteur n’est pas capable de fournir une performance satisfaisante pour toutes les classes de formes 3D [8, 11]. Par consØquent, pour une perfor- mance stable et robuste, une machine de recherche 3D doit compter sur un ensemble de descripteurs variØs. Cette observation nous motive pour considØrer des schØmas de fusion de scores pour l’apprentissage des similaritØs inter-objets. Dans le Chapitre 3, nous abordons le problŁme d’apprentissage des similaritØs avec une approche statistique en minimisant une version convexe rØgularisØe du risque de mau- 10
Description: