Robuste Bilderkennung mit lokalen linearen Abbildungen und elastischer Graphenanpassung Von der Fakult¨at fu¨r Mathematik und Physik der Universit¨at Stuttgart zur Erlangung der Wu¨rde eines Doktors der Naturwissenschaften (Dr. rer. nat.) genehmigte Abhandlung Vorgelegt von Florian Hardt aus Frankfurt am Main Hauptberichter : Prof. Dr. G. Wunner Mitberichter : Prof. Dr. G. Haag Tag der mu¨ndlichen Pru¨fung: 11. April 2006 1. Institut fu¨r Theoretische Physik Universit¨at Stuttgart Pfaffenwaldring 57, 70550 Stuttgart 2006 Danksagung Im Laufe meiner Promotion habe ich von vielen Menschen Anregungen und Unterstu¨tzung erhalten, und ohne diesen Austausch w¨are meine Arbeit weni- ger erfu¨llend gewesen.Daher ist es weit mehr als eine bloße Formalit¨at, wenn ich folgenden Lehrern, Kollegen und Freunden meinen Dank ausspreche: Prof. Dr. Gu¨nter Wunner danke ich fu¨r die engagierte F¨orderung und Be- treuung dieser fu¨r ein Institut fu¨r Theoretische Physik ungew¨ohnlichen Dis- sertation. Prof. Dr. Gu¨nter Haag danke ich fu¨r die freundliche U¨bernahme des Mit- berichtes. Dr. Rolf P. Wu¨rtz verdanke ich einige wertvolle Hinweise. Unsere Gespr¨a- che haben den Verlauf dieser Arbeit maßgeblich mitbeeinflusst. DirkEngel undSteffenBu¨cheler binichfu¨rdieunkomplizierteHilfebeiRech- nerproblemen zu Dank verpflichtet. MeinenKollegen vonderKaffeerundedankeichfu¨rdiezahllosenDiskussionen auchderabwegigstenIdeen,fu¨rdiegewissenhafteFu¨hrungder Tabuthemen- ” liste”und fu¨r das offene und freundliche Arbeitsklima. Erika Hardt war an allem lebhaft interessiert, was mich besch¨aftigte und ist mir in vielerlei Hinsicht ein Vorbild gewesen. Anne Abelein danke ich fu¨r ihre Ausdauer beim Korrekturlesen und vieles weiteres, fu¨r das hier kein Raum ist. Meinen Eltern, Dr. Friederun Hardt-Friederichs und Henner Hardt, gilt mein besonderer Dank. Ich h¨atte es nicht besser treffen k¨onnen. Inhaltsverzeichnis 1. Einleitung 7 1.1. Mensch und Maschine . . . . . . . . . . . . . . . . . . . . . . . 7 1.2. Aufgabenstellung . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.3. Aufbau der Arbeit . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.4. Verwendete Symbole . . . . . . . . . . . . . . . . . . . . . . . . 11 2. Abbildungen und lokale lineare Abbildungen 13 2.1. Definition einer lokalen linearen Abbildung . . . . . . . . . . . 13 2.2. Aufspaltung einer Local Linear Map . . . . . . . . . . . . . . . 14 2.3. Klassifizierung einer Abbildung . . . . . . . . . . . . . . . . . . 16 2.3.1. Vier-Parameter-Abbildungen . . . . . . . . . . . . . . . 16 2.3.2. Drei-Parameter-Abbildungen . . . . . . . . . . . . . . . 17 2.3.3. Zwei-Parameter-Abbildungen . . . . . . . . . . . . . . . 17 2.3.4. Ein-Parameter-Abbildungen . . . . . . . . . . . . . . . . 17 3. Repr¨asentation von Bildern 19 3.1. Datenstruktur. . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.2. Neuronale Grundlagen . . . . . . . . . . . . . . . . . . . . . . . 19 3.2.1. Ganglienzellen . . . . . . . . . . . . . . . . . . . . . . . 21 3.2.2. Einfache Zellen . . . . . . . . . . . . . . . . . . . . . . . 22 3.2.3. Komplexe Zellen . . . . . . . . . . . . . . . . . . . . . . 24 3.2.4. End-Stopped”Zellen . . . . . . . . . . . . . . . . . . . 26 ” 3.2.5. Zellklassifizierung. . . . . . . . . . . . . . . . . . . . . . 27 3.3. Bildrepr¨asentationmit Gaborwavelets . . . . . . . . . . . . . . 27 3.4. Parameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 4. Detektion von Ecken 33 4.1. Zur Bedeutung von Ecken . . . . . . . . . . . . . . . . . . . . . 33 4.2. Eckendetektionmit End-Stopped”Zellen . . . . . . . . . . . . 33 ” 4.3. Eckendetektionauf verschiedenen Gr¨oßenskalen . . . . . . . . . 41 4.4. Diskussion und Ergebnisse . . . . . . . . . . . . . . . . . . . . . 42 4.5. Parameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 v Inhaltsverzeichnis 5. Zuordnen von Ecken 47 5.1. Das Zuordnen ( Matchen”) von Punkten anhand ihrer Features 47 ” 5.2. Robuste Ecken als signifikante Punkte . . . . . . . . . . . . . . 49 5.3. Robuste Jets . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 5.3.1. Robustheit gegenu¨ber Rotationen. . . . . . . . . . . . . 53 5.3.2. Robustheit gegenu¨ber Streckungen . . . . . . . . . . . . 54 5.3.3. Kombination von Rotation und Streckung . . . . . . . . 55 5.4. Der Zuordnungsvorgang . . . . . . . . . . . . . . . . . . . . . . 56 5.4.1. Zuordnungsstrategien . . . . . . . . . . . . . . . . . . . 58 5.4.2. Der Zuordnungsalgorithmus . . . . . . . . . . . . . . . . 60 5.4.3. Filterprozesse . . . . . . . . . . . . . . . . . . . . . . . . 63 5.5. Objekterkennung auf Basis der Eckenzuordnung. . . . . . . . . 68 5.6. Diskussion und Ergebnisse . . . . . . . . . . . . . . . . . . . . . 72 5.7. Parameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 6. Elastische Graphenanpassung 75 6.1. Etikettierte Graphen zur Objektbeschreibung . . . . . . . . . . 75 6.2. Initialisierung der LLM . . . . . . . . . . . . . . . . . . . . . . 75 6.3. Graphen¨ahnlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . 80 6.4. Elastische Graphenanpassung . . . . . . . . . . . . . . . . . . . 87 6.5. Stabilit¨at der Graphen . . . . . . . . . . . . . . . . . . . . . . . 92 6.6. Robustheit der Graphenanpassung gegenu¨ber Teilverdeckung . 96 6.7. Flexible Modellgraphenanpassungfu¨r komplexe Szenen. . . . . 100 6.8. Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 6.9. Diskussion und Vergleich mit anderen Methoden . . . . . . . . 103 7. Zusammenfassung 111 A. Anhang 115 A.1. Diagonalisierungeiner 2x2 Matrix . . . . . . . . . . . . . . . . 115 A.1.1. Konformer Spezialfall . . . . . . . . . . . . . . . . . . . 118 A.2. Verwendete konforme Abbildungen . . . . . . . . . . . . . . . . 120 B. English Summary 123 B.1. Introduction. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 B.2. Mappings with Local Linear Maps . . . . . . . . . . . . . . . . 123 B.3. Data Structure and Cell Models. . . . . . . . . . . . . . . . . . 124 B.4. Corner Detection . . . . . . . . . . . . . . . . . . . . . . . . . . 125 B.5. Corner Matching and Filtering . . . . . . . . . . . . . . . . . . 126 B.6. Graph Matching . . . . . . . . . . . . . . . . . . . . . . . . . . 126 vi 1. Einleitung 1.1. Mensch und Maschine Fu¨r den Menschensind das Sehen unddas VerstehenseinerUmwelt u¨blicher- weise Prozesse, die unbewusst und scheinbar mu¨helos ablaufen. Gegenst¨an- de werden nahezu unabh¨angig von Blickwinkel und konkreter Realisierung ( Schaukelstuhl”vs. Bu¨rostuhl”) erkannt und in ihrer Funktion verstanden. ” ” UnvertrauteGegenst¨ande(z.B.eineComputertastaturmitausgefallenemDe- sign) werden aufgrund spezifischer Merkmale (z.B. beschrifteter Tasten) und dem Kontext (Arbeitsplatz), in dem sie auftreten, ohne wahrnehmbare An- strengung einer bekannten Objektklasse zugeordnet. AngesichtsdieserLeichtigkeiterscheintesaufdenerstenBlicku¨berraschend, weshalbBilderkennungfu¨r ComputereineausgesprochenschwereundimAll- gemeinenungel¨osteAufgabeist.Dabeiwirdu¨bersehen,dassbisherigeCompu- ter menschliche Leistungen nur in bestimmten Teilproblemen u¨bertreffen. Je schwieriger sich eine Aufgabe und deren L¨osung durch feste Regeln beschrei- benlassen,destoproblematischeristdieRealisierungentsprechenderSoftware. Trotz großen Entwicklungsaufwandes benutzen die spielst¨arksten Schachpro- gramme prim¨ar Brute-Force”-Methoden, und nur sehr einfache Spiele (bei- ” spielsweise Vier Gewinnt”) konnten bislang analytisch gel¨ost werden. ” Fu¨r reale, d.h. nicht ku¨nstlich beschr¨ankte Umgebungen existiert dagegen eineenormeVielfaltm¨oglicher Bilder”,dievomMenschenodereinerKamera ” registriertwerden k¨onnen. Angesichts der Anzahl der m¨oglichenObjekte und ihrerVariationsm¨oglichkeiteninBezugaufihreErscheinung(Blickwinkel,Be- leuchtung, Verformung, Verdeckung etc.) sowie die Kombination der Objekte untereinanderistdereigentlichu¨berraschendeUmstandder,dassder Mensch das Problem der Bilderkennung so erfolgreichbew¨altigt. Die zu bew¨altigende Datenmenge ist immens. Die Netzhaut ist in etwa ei- ne Millionen Bildpunkte unterteilt, und an jedem von ihnen entscheiden im ZehntelsekundentaktDutzende von Neuronen daru¨ber,ob und welche Art ei- nes Reizes vorliegt. Allein die Unterteilung eines wahrgenommenen Bildes in dieverschiedenenObjekteisteineanspruchsvolleAufgabe.Farbe,Texturund Bewegung liefern Indizien daru¨ber, wie das Bild in einzelne Objekte segmen- tiert werden kann. Dennoch ist unklar, auf welche Weise gleichzeitig h¨oher- 7 1. Einleitung geordnete Prozesseentsprechend angepasste Hypothesen u¨ber den Bildgehalt bilden und u¨berpru¨fen k¨onnen. Das frustrierende Fehlen jedweder Introspektive in das eigene, so erfolgrei- che Vorgehenbei der Bilderkennungmachtdie Entwicklung eines ku¨nstlichen Bilderkennungssystemszueiner Herausforderung,derenBedeutung weitu¨ber die betr¨achtlichentechnischen Anwendungsm¨oglichkeitenhinausgeht:Die auf demWegzueinemfunktionsf¨ahigenSystemgewonnenenErkenntnissek¨onnen Einblicke in unser eigenes Denken bieten. Die gegenw¨artigen Fortschritte der Neurowissenschaften beim Verst¨andnis derHirnfunktionenaufoberer(Hirnareale)unduntererEbene(einzelnesNeu- ron), nicht aber auf mittlerer (Verbund einiger Tausend Zellen) Ebene, sind zumgroßenTeilverbessertenbildgebendenVerfahrengeschuldet.Einetheore- tische Neurobiologie wird auch versuchen, die mittlere Ebene in aufwendigen Simulationen zu modellieren. Dabei muss beru¨cksichtigt werden, dass ku¨nstlichen und biologischen Sys- temen unterschiedliche Mittel zur Verfu¨gung stehen. Das Studium des Vogel- fluges lieferte erst dann anwendbare Resultate, als von der bloßen Imitation zu einer U¨bertragung des Konzepts u¨bergegangen wurde. Wenn wir also ver- suchen, ein ku¨nstliches Wahrnehmungssystem zu entwickeln, sollten wir vor- sichtig sein, dabei nicht nur mit den Armen zu flattern. 1.2. Aufgabenstellung Diese Arbeit besch¨aftigt sich mit einem wichtigen Teilaspekt der Bilderken- nung. Ausgehendvoneiner 2D-Abbildung eines Objekts sollentschiedenwer- den, ob eine andere Abbildung dasselbe Objekt zeigt und welche Bildpunkte einandergegebenenfallskorrespondieren.Dabeisolleinevergleichsweiseallge- meine Deformation des Objekts zugelassen werden. Ausgeklammert werden dabei Informationen wie Farbe, r¨aumliches Sehen, Kontextund eine m¨ogliche zeitliche Entwicklung(z.B. Bewegung)des Bildes. Der Mensch kann unter den genannten Bedingungen und bei sinnvoller De- formationleichtdieA¨quivalenzderbeidenBilderfeststellen.Analogdazusoll ein Systementwickeltwerden,das aus einempr¨asentiertenObjekteinModell erzeugt (eigenst¨andiges Lernen), dieses Objekt trotz Deformation in anderen Aufnahmen erkennt und die einander korrespondierenden Punkte der beiden Darstellungen findet. Im Unterschied zu vielen bisherigen Methoden der Objekterkennung sol- len auch lokal verschiedene Deformationen zugelassen werden. Dabei soll das System von biologisch motivierten Eingangsdatenausgehen. 8 1.3. Aufbau der Arbeit 1.3. Aufbau der Arbeit In Kapitel 2 wird zun¨achst der wichtige Begriff einer lokalenlinearen Abbil- dung (Local Linear Map, LLM) eingefu¨hrt. Es wird gezeigt, dass eine LLM beliebige Abbildungen an jedem Bildpunkt approximieren kann. Dies erm¨og- licht es sp¨ater, die A¨hnlichkeit zweier Bildbereiche zu vergleichen. Anhand der zur Approximation ben¨otigten Parameter werden alle m¨oglichen LLMs klassifiziert. Kapitel 3 besch¨aftigt sich mit der Repr¨asentation von Bildern. Es wird ein kurzer U¨berblick u¨ber den Aufbau des menschlichen Sehsystems gegeben. Dabei werden grundlegende Zelltypen in ihrer Funktion beschrieben und ihr VerhaltenmitentsprechendenFunktionenmodelliert.Ausgehendvondenbio- logischmotiviertenZellmodellenwird eine fu¨r die Objekterkennunggeeignete Datenstruktur beschrieben. Aufbauend auf den im vorhergehenden Kapitel vorgestellten Zellmodellen wird in Kapitel 4 ein Mechanismus zur Eckendetektion beschrieben. Eck- punkte stellen auch fu¨r die menschliche Wahrnehmung wichtige Objektmerk- male dar. Die Detektion der Ecken eines Bildes erm¨oglichtdie Reduktion der in einem ersten Zuordnungsschrittzu vergleichendenPunkte. Dem Problem der Zuordnung von Eckenwidmet sich Kapitel 5. Zun¨achst wird die Robustheit des verwendeten Eckendetektors gegenu¨ber Bilddefor- mationen und damit die Eignung von Ecken als signifikante Punkte gezeigt. Mit Hilfe der LLMs wird dann ein gebr¨auchliches A¨hnlichkeitsmaß ( Jet¨ahn- ” lichkeit”) zweier Bildbereiche auf konform deformierte Bilder erweitert sowie ein dafu¨r optimaler Satz Parameter bestimmt. Damit wird eine Klasse von Bildpunkten (Ecken)robust gegenu¨ber einer Deformation,wobei ihre, sie un- tereinander auszeichnenden, Eigenschaftenerhalten bleiben. Davon ausgehend wird ein Zuordnungsalgorithmus vorgeschlagen, der die Abbildung der EckeneinesBildes aufkorrespondierendeEckeneines weiteren Bildeserm¨oglicht.ZweiFiltermechanismenzurAussonderungunzuverl¨assiger undfalscherZuordnungenwerdenentwickeltundderenLeistungdemonstriert. Bereits auf Basis der Eckenzuordnung kann fru¨hzeitig entschieden werden, ob eine widerspruchsfreie Abbildung gefunden werden kann oder ob das ge- suchte Objekt nicht im Bildbereich enthalten ist. Der vorgestellteProzessmachtu¨ber dieAnnahme eines topologischkorrek- tes Zusammenhalts der Abbildung hinaus keinerlei Einschr¨ankungen und ist damit fu¨r beliebige Deformationen geeignet. Das zentrale Anliegen der Arbeit, die L¨osung des Korrespondenzproblems fu¨r stark deformierte Bilder mit Hilfe lokaler linearer Abbildungen wird in Kapitel 6 behandelt. Dabei wird das Verfahren der elastischen Graphenan- passung genutzt. Eine erfolgreiche Graphenanpassung (Graphmatching) ist 9 1. Einleitung ¨aquivalent zum Finden der zwei Bilder verbindenden Abbildungsvorschrift. Hier wird zun¨achst die gebr¨auchliche Repr¨asentation eines Objekts in Form eines etikettierten Graphen erl¨autert und diese dann auf Graphen mit lo- kal verschiedenerDeformationerweitert.Die aus der Eckenzuordnunggewon- nenen Punktpaare werden zur Initialisierung eines Anfangsgraphen verwen- det. Damit bew¨altigt das System das u¨blicherweise mit niederdimensionalem Graphmatching verbundene Problem lokaler A¨hnlichkeitsmaxima. Der Prozessder elastischen Graphenanpassungwird auf deformierte Bilder erweitertunddessenStabilit¨atgegenu¨berverschiedenenSt¨orungenu¨berpru¨ft. In mehreren Iterationsschritten wird der Ausgangsgraph an das deformierte Bild angepasst, wobei in Wechselwirkung von LLM und angepasstem Graph die korrespondierendenPunkte sehrgenaubestimmtwerden.Zudemwirdge- zeigt, dass das System in der Lage ist, ein deformiertes Objekt in einer unbe- kannten komplexen Szene zu finden. Kapitel 7 schließlichfasstdie Ergebnissezusammenund bieteteinenAus- blick auf weiterfu¨hrende Forschung. 10
Description: