ebook img

Robuste Bilderkennung mit lokalen linearen Abbildungen und elastischer Graphenanpassung PDF

136 Pages·2006·2.84 MB·German
by  
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Robuste Bilderkennung mit lokalen linearen Abbildungen und elastischer Graphenanpassung

Robuste Bilderkennung mit lokalen linearen Abbildungen und elastischer Graphenanpassung Von der Fakult¨at fu¨r Mathematik und Physik der Universit¨at Stuttgart zur Erlangung der Wu¨rde eines Doktors der Naturwissenschaften (Dr. rer. nat.) genehmigte Abhandlung Vorgelegt von Florian Hardt aus Frankfurt am Main Hauptberichter : Prof. Dr. G. Wunner Mitberichter : Prof. Dr. G. Haag Tag der mu¨ndlichen Pru¨fung: 11. April 2006 1. Institut fu¨r Theoretische Physik Universit¨at Stuttgart Pfaffenwaldring 57, 70550 Stuttgart 2006 Danksagung Im Laufe meiner Promotion habe ich von vielen Menschen Anregungen und Unterstu¨tzung erhalten, und ohne diesen Austausch w¨are meine Arbeit weni- ger erfu¨llend gewesen.Daher ist es weit mehr als eine bloße Formalit¨at, wenn ich folgenden Lehrern, Kollegen und Freunden meinen Dank ausspreche: Prof. Dr. Gu¨nter Wunner danke ich fu¨r die engagierte F¨orderung und Be- treuung dieser fu¨r ein Institut fu¨r Theoretische Physik ungew¨ohnlichen Dis- sertation. Prof. Dr. Gu¨nter Haag danke ich fu¨r die freundliche U¨bernahme des Mit- berichtes. Dr. Rolf P. Wu¨rtz verdanke ich einige wertvolle Hinweise. Unsere Gespr¨a- che haben den Verlauf dieser Arbeit maßgeblich mitbeeinflusst. DirkEngel undSteffenBu¨cheler binichfu¨rdieunkomplizierteHilfebeiRech- nerproblemen zu Dank verpflichtet. MeinenKollegen vonderKaffeerundedankeichfu¨rdiezahllosenDiskussionen auchderabwegigstenIdeen,fu¨rdiegewissenhafteFu¨hrungder Tabuthemen- ” liste”und fu¨r das offene und freundliche Arbeitsklima. Erika Hardt war an allem lebhaft interessiert, was mich besch¨aftigte und ist mir in vielerlei Hinsicht ein Vorbild gewesen. Anne Abelein danke ich fu¨r ihre Ausdauer beim Korrekturlesen und vieles weiteres, fu¨r das hier kein Raum ist. Meinen Eltern, Dr. Friederun Hardt-Friederichs und Henner Hardt, gilt mein besonderer Dank. Ich h¨atte es nicht besser treffen k¨onnen. Inhaltsverzeichnis 1. Einleitung 7 1.1. Mensch und Maschine . . . . . . . . . . . . . . . . . . . . . . . 7 1.2. Aufgabenstellung . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.3. Aufbau der Arbeit . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.4. Verwendete Symbole . . . . . . . . . . . . . . . . . . . . . . . . 11 2. Abbildungen und lokale lineare Abbildungen 13 2.1. Definition einer lokalen linearen Abbildung . . . . . . . . . . . 13 2.2. Aufspaltung einer Local Linear Map . . . . . . . . . . . . . . . 14 2.3. Klassifizierung einer Abbildung . . . . . . . . . . . . . . . . . . 16 2.3.1. Vier-Parameter-Abbildungen . . . . . . . . . . . . . . . 16 2.3.2. Drei-Parameter-Abbildungen . . . . . . . . . . . . . . . 17 2.3.3. Zwei-Parameter-Abbildungen . . . . . . . . . . . . . . . 17 2.3.4. Ein-Parameter-Abbildungen . . . . . . . . . . . . . . . . 17 3. Repr¨asentation von Bildern 19 3.1. Datenstruktur. . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.2. Neuronale Grundlagen . . . . . . . . . . . . . . . . . . . . . . . 19 3.2.1. Ganglienzellen . . . . . . . . . . . . . . . . . . . . . . . 21 3.2.2. Einfache Zellen . . . . . . . . . . . . . . . . . . . . . . . 22 3.2.3. Komplexe Zellen . . . . . . . . . . . . . . . . . . . . . . 24 3.2.4. End-Stopped”Zellen . . . . . . . . . . . . . . . . . . . 26 ” 3.2.5. Zellklassifizierung. . . . . . . . . . . . . . . . . . . . . . 27 3.3. Bildrepr¨asentationmit Gaborwavelets . . . . . . . . . . . . . . 27 3.4. Parameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 4. Detektion von Ecken 33 4.1. Zur Bedeutung von Ecken . . . . . . . . . . . . . . . . . . . . . 33 4.2. Eckendetektionmit End-Stopped”Zellen . . . . . . . . . . . . 33 ” 4.3. Eckendetektionauf verschiedenen Gr¨oßenskalen . . . . . . . . . 41 4.4. Diskussion und Ergebnisse . . . . . . . . . . . . . . . . . . . . . 42 4.5. Parameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 v Inhaltsverzeichnis 5. Zuordnen von Ecken 47 5.1. Das Zuordnen ( Matchen”) von Punkten anhand ihrer Features 47 ” 5.2. Robuste Ecken als signifikante Punkte . . . . . . . . . . . . . . 49 5.3. Robuste Jets . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 5.3.1. Robustheit gegenu¨ber Rotationen. . . . . . . . . . . . . 53 5.3.2. Robustheit gegenu¨ber Streckungen . . . . . . . . . . . . 54 5.3.3. Kombination von Rotation und Streckung . . . . . . . . 55 5.4. Der Zuordnungsvorgang . . . . . . . . . . . . . . . . . . . . . . 56 5.4.1. Zuordnungsstrategien . . . . . . . . . . . . . . . . . . . 58 5.4.2. Der Zuordnungsalgorithmus . . . . . . . . . . . . . . . . 60 5.4.3. Filterprozesse . . . . . . . . . . . . . . . . . . . . . . . . 63 5.5. Objekterkennung auf Basis der Eckenzuordnung. . . . . . . . . 68 5.6. Diskussion und Ergebnisse . . . . . . . . . . . . . . . . . . . . . 72 5.7. Parameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 6. Elastische Graphenanpassung 75 6.1. Etikettierte Graphen zur Objektbeschreibung . . . . . . . . . . 75 6.2. Initialisierung der LLM . . . . . . . . . . . . . . . . . . . . . . 75 6.3. Graphen¨ahnlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . 80 6.4. Elastische Graphenanpassung . . . . . . . . . . . . . . . . . . . 87 6.5. Stabilit¨at der Graphen . . . . . . . . . . . . . . . . . . . . . . . 92 6.6. Robustheit der Graphenanpassung gegenu¨ber Teilverdeckung . 96 6.7. Flexible Modellgraphenanpassungfu¨r komplexe Szenen. . . . . 100 6.8. Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 6.9. Diskussion und Vergleich mit anderen Methoden . . . . . . . . 103 7. Zusammenfassung 111 A. Anhang 115 A.1. Diagonalisierungeiner 2x2 Matrix . . . . . . . . . . . . . . . . 115 A.1.1. Konformer Spezialfall . . . . . . . . . . . . . . . . . . . 118 A.2. Verwendete konforme Abbildungen . . . . . . . . . . . . . . . . 120 B. English Summary 123 B.1. Introduction. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 B.2. Mappings with Local Linear Maps . . . . . . . . . . . . . . . . 123 B.3. Data Structure and Cell Models. . . . . . . . . . . . . . . . . . 124 B.4. Corner Detection . . . . . . . . . . . . . . . . . . . . . . . . . . 125 B.5. Corner Matching and Filtering . . . . . . . . . . . . . . . . . . 126 B.6. Graph Matching . . . . . . . . . . . . . . . . . . . . . . . . . . 126 vi 1. Einleitung 1.1. Mensch und Maschine Fu¨r den Menschensind das Sehen unddas VerstehenseinerUmwelt u¨blicher- weise Prozesse, die unbewusst und scheinbar mu¨helos ablaufen. Gegenst¨an- de werden nahezu unabh¨angig von Blickwinkel und konkreter Realisierung ( Schaukelstuhl”vs. Bu¨rostuhl”) erkannt und in ihrer Funktion verstanden. ” ” UnvertrauteGegenst¨ande(z.B.eineComputertastaturmitausgefallenemDe- sign) werden aufgrund spezifischer Merkmale (z.B. beschrifteter Tasten) und dem Kontext (Arbeitsplatz), in dem sie auftreten, ohne wahrnehmbare An- strengung einer bekannten Objektklasse zugeordnet. AngesichtsdieserLeichtigkeiterscheintesaufdenerstenBlicku¨berraschend, weshalbBilderkennungfu¨r ComputereineausgesprochenschwereundimAll- gemeinenungel¨osteAufgabeist.Dabeiwirdu¨bersehen,dassbisherigeCompu- ter menschliche Leistungen nur in bestimmten Teilproblemen u¨bertreffen. Je schwieriger sich eine Aufgabe und deren L¨osung durch feste Regeln beschrei- benlassen,destoproblematischeristdieRealisierungentsprechenderSoftware. Trotz großen Entwicklungsaufwandes benutzen die spielst¨arksten Schachpro- gramme prim¨ar Brute-Force”-Methoden, und nur sehr einfache Spiele (bei- ” spielsweise Vier Gewinnt”) konnten bislang analytisch gel¨ost werden. ” Fu¨r reale, d.h. nicht ku¨nstlich beschr¨ankte Umgebungen existiert dagegen eineenormeVielfaltm¨oglicher Bilder”,dievomMenschenodereinerKamera ” registriertwerden k¨onnen. Angesichts der Anzahl der m¨oglichenObjekte und ihrerVariationsm¨oglichkeiteninBezugaufihreErscheinung(Blickwinkel,Be- leuchtung, Verformung, Verdeckung etc.) sowie die Kombination der Objekte untereinanderistdereigentlichu¨berraschendeUmstandder,dassder Mensch das Problem der Bilderkennung so erfolgreichbew¨altigt. Die zu bew¨altigende Datenmenge ist immens. Die Netzhaut ist in etwa ei- ne Millionen Bildpunkte unterteilt, und an jedem von ihnen entscheiden im ZehntelsekundentaktDutzende von Neuronen daru¨ber,ob und welche Art ei- nes Reizes vorliegt. Allein die Unterteilung eines wahrgenommenen Bildes in dieverschiedenenObjekteisteineanspruchsvolleAufgabe.Farbe,Texturund Bewegung liefern Indizien daru¨ber, wie das Bild in einzelne Objekte segmen- tiert werden kann. Dennoch ist unklar, auf welche Weise gleichzeitig h¨oher- 7 1. Einleitung geordnete Prozesseentsprechend angepasste Hypothesen u¨ber den Bildgehalt bilden und u¨berpru¨fen k¨onnen. Das frustrierende Fehlen jedweder Introspektive in das eigene, so erfolgrei- che Vorgehenbei der Bilderkennungmachtdie Entwicklung eines ku¨nstlichen Bilderkennungssystemszueiner Herausforderung,derenBedeutung weitu¨ber die betr¨achtlichentechnischen Anwendungsm¨oglichkeitenhinausgeht:Die auf demWegzueinemfunktionsf¨ahigenSystemgewonnenenErkenntnissek¨onnen Einblicke in unser eigenes Denken bieten. Die gegenw¨artigen Fortschritte der Neurowissenschaften beim Verst¨andnis derHirnfunktionenaufoberer(Hirnareale)unduntererEbene(einzelnesNeu- ron), nicht aber auf mittlerer (Verbund einiger Tausend Zellen) Ebene, sind zumgroßenTeilverbessertenbildgebendenVerfahrengeschuldet.Einetheore- tische Neurobiologie wird auch versuchen, die mittlere Ebene in aufwendigen Simulationen zu modellieren. Dabei muss beru¨cksichtigt werden, dass ku¨nstlichen und biologischen Sys- temen unterschiedliche Mittel zur Verfu¨gung stehen. Das Studium des Vogel- fluges lieferte erst dann anwendbare Resultate, als von der bloßen Imitation zu einer U¨bertragung des Konzepts u¨bergegangen wurde. Wenn wir also ver- suchen, ein ku¨nstliches Wahrnehmungssystem zu entwickeln, sollten wir vor- sichtig sein, dabei nicht nur mit den Armen zu flattern. 1.2. Aufgabenstellung Diese Arbeit besch¨aftigt sich mit einem wichtigen Teilaspekt der Bilderken- nung. Ausgehendvoneiner 2D-Abbildung eines Objekts sollentschiedenwer- den, ob eine andere Abbildung dasselbe Objekt zeigt und welche Bildpunkte einandergegebenenfallskorrespondieren.Dabeisolleinevergleichsweiseallge- meine Deformation des Objekts zugelassen werden. Ausgeklammert werden dabei Informationen wie Farbe, r¨aumliches Sehen, Kontextund eine m¨ogliche zeitliche Entwicklung(z.B. Bewegung)des Bildes. Der Mensch kann unter den genannten Bedingungen und bei sinnvoller De- formationleichtdieA¨quivalenzderbeidenBilderfeststellen.Analogdazusoll ein Systementwickeltwerden,das aus einempr¨asentiertenObjekteinModell erzeugt (eigenst¨andiges Lernen), dieses Objekt trotz Deformation in anderen Aufnahmen erkennt und die einander korrespondierenden Punkte der beiden Darstellungen findet. Im Unterschied zu vielen bisherigen Methoden der Objekterkennung sol- len auch lokal verschiedene Deformationen zugelassen werden. Dabei soll das System von biologisch motivierten Eingangsdatenausgehen. 8 1.3. Aufbau der Arbeit 1.3. Aufbau der Arbeit In Kapitel 2 wird zun¨achst der wichtige Begriff einer lokalenlinearen Abbil- dung (Local Linear Map, LLM) eingefu¨hrt. Es wird gezeigt, dass eine LLM beliebige Abbildungen an jedem Bildpunkt approximieren kann. Dies erm¨og- licht es sp¨ater, die A¨hnlichkeit zweier Bildbereiche zu vergleichen. Anhand der zur Approximation ben¨otigten Parameter werden alle m¨oglichen LLMs klassifiziert. Kapitel 3 besch¨aftigt sich mit der Repr¨asentation von Bildern. Es wird ein kurzer U¨berblick u¨ber den Aufbau des menschlichen Sehsystems gegeben. Dabei werden grundlegende Zelltypen in ihrer Funktion beschrieben und ihr VerhaltenmitentsprechendenFunktionenmodelliert.Ausgehendvondenbio- logischmotiviertenZellmodellenwird eine fu¨r die Objekterkennunggeeignete Datenstruktur beschrieben. Aufbauend auf den im vorhergehenden Kapitel vorgestellten Zellmodellen wird in Kapitel 4 ein Mechanismus zur Eckendetektion beschrieben. Eck- punkte stellen auch fu¨r die menschliche Wahrnehmung wichtige Objektmerk- male dar. Die Detektion der Ecken eines Bildes erm¨oglichtdie Reduktion der in einem ersten Zuordnungsschrittzu vergleichendenPunkte. Dem Problem der Zuordnung von Eckenwidmet sich Kapitel 5. Zun¨achst wird die Robustheit des verwendeten Eckendetektors gegenu¨ber Bilddefor- mationen und damit die Eignung von Ecken als signifikante Punkte gezeigt. Mit Hilfe der LLMs wird dann ein gebr¨auchliches A¨hnlichkeitsmaß ( Jet¨ahn- ” lichkeit”) zweier Bildbereiche auf konform deformierte Bilder erweitert sowie ein dafu¨r optimaler Satz Parameter bestimmt. Damit wird eine Klasse von Bildpunkten (Ecken)robust gegenu¨ber einer Deformation,wobei ihre, sie un- tereinander auszeichnenden, Eigenschaftenerhalten bleiben. Davon ausgehend wird ein Zuordnungsalgorithmus vorgeschlagen, der die Abbildung der EckeneinesBildes aufkorrespondierendeEckeneines weiteren Bildeserm¨oglicht.ZweiFiltermechanismenzurAussonderungunzuverl¨assiger undfalscherZuordnungenwerdenentwickeltundderenLeistungdemonstriert. Bereits auf Basis der Eckenzuordnung kann fru¨hzeitig entschieden werden, ob eine widerspruchsfreie Abbildung gefunden werden kann oder ob das ge- suchte Objekt nicht im Bildbereich enthalten ist. Der vorgestellteProzessmachtu¨ber dieAnnahme eines topologischkorrek- tes Zusammenhalts der Abbildung hinaus keinerlei Einschr¨ankungen und ist damit fu¨r beliebige Deformationen geeignet. Das zentrale Anliegen der Arbeit, die L¨osung des Korrespondenzproblems fu¨r stark deformierte Bilder mit Hilfe lokaler linearer Abbildungen wird in Kapitel 6 behandelt. Dabei wird das Verfahren der elastischen Graphenan- passung genutzt. Eine erfolgreiche Graphenanpassung (Graphmatching) ist 9 1. Einleitung ¨aquivalent zum Finden der zwei Bilder verbindenden Abbildungsvorschrift. Hier wird zun¨achst die gebr¨auchliche Repr¨asentation eines Objekts in Form eines etikettierten Graphen erl¨autert und diese dann auf Graphen mit lo- kal verschiedenerDeformationerweitert.Die aus der Eckenzuordnunggewon- nenen Punktpaare werden zur Initialisierung eines Anfangsgraphen verwen- det. Damit bew¨altigt das System das u¨blicherweise mit niederdimensionalem Graphmatching verbundene Problem lokaler A¨hnlichkeitsmaxima. Der Prozessder elastischen Graphenanpassungwird auf deformierte Bilder erweitertunddessenStabilit¨atgegenu¨berverschiedenenSt¨orungenu¨berpru¨ft. In mehreren Iterationsschritten wird der Ausgangsgraph an das deformierte Bild angepasst, wobei in Wechselwirkung von LLM und angepasstem Graph die korrespondierendenPunkte sehrgenaubestimmtwerden.Zudemwirdge- zeigt, dass das System in der Lage ist, ein deformiertes Objekt in einer unbe- kannten komplexen Szene zu finden. Kapitel 7 schließlichfasstdie Ergebnissezusammenund bieteteinenAus- blick auf weiterfu¨hrende Forschung. 10

Description:
weshalb Bilderkennung für Computer eine ausgesprochen schwere und im All- che Vorgehen bei der Bilderkennung macht die Entwicklung eines
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.