Entwicklung einer Aufmerksamkeitssteuerung für ein aktives Sehsystem Dissertation zur Erlangung des akademischen Grades Doktor der Naturwissenschaften (Dr. rer. nat.) vorgelegt dem Fachbereich Informatik der Universität Hamburg von Maik Bollmann Hamburg, März 1999 Gutachtende: Prof. Dr.-Ing. Bärbel Mertsching Prof. Dr.-Ing. H. Siegfried Stiehl Tag der Einreichung: 17.03.1999 Tag der Disputation: 25.11.1999 Danksagung IchmöchteandieserStelleallenPersonendanken,dieaufdieeinoderandereWeisezumEnt- stehen dieser Arbeit beigetragen haben. Zu nennen ist hier die Unterstützung durch verschie- deneFachbereichseinrichtungen,insbesonderedieAnstrengungenderFachbereichsbibliothek, mirdievielenLiteraturwünschezuerfüllen,sowiedieHilfedesRechenzentrumsbeimAufbau und der Pflege des Rechnernetzes unserer Arbeitsgruppe. MeinDankgebührtdemGutachterHerrnProf.Dr.-Ing.H.SiegfriedStiehlfürdiezahlreichen fruchtbaren Diskussionen und insbesondereFrau Prof. Dr.-Ing.Bärbel Mertsching für die Be- treuung dieser Arbeit und anderer Aufgaben, die meiner wissenschaftlichen und/oder fachli- chen Weiterbildung nützlich waren. Besonderer Dank aber gilt Dipl.-Ing. Rainer Hoischen, Dipl.-Inform. Steffen Schmalz und Dipl.-Ing. Alexander Schwarz für die sehr gute Zusammenarbeit und gegenseitige Unterstüt- zungbeidentäglichanfallendenAufgabensowiedieprivateFreundschaft.Desweiterenmöch- teichdenStudierendendanken,derenArbeitenichbetreuthabeunddiesoebenfallseinenAn- teil an der Entstehung dieser Arbeit haben. Insbesondere sind hier die Studienarbeiten von Thorsten Hempel und Christoph Justkowski zu nennen. NichtzuletztmöchteichderDeutschenForschungsgemeinschaft(DFG)danken,diedieseAr- beit im Rahmen eines Projektes zum Entwurf von Systembausteinen der Aktiven Bildanalyse (ESAB-1) gefördert hat. Kurzfassung Das interdisziplinäre Forschungsthema Aktives Sehen reicht von theoretischen Fundierungen über die biologienahe Modellierung aktiver Sehsysteme von Lebewesen bis hin zu echtzeitfä- higensystemtechnischenRealisierungenausderingenieurwissenschaftlichenPerspektive.All dieswirdkomplementiertdurchdieEntwicklunginnovativerProdukte,wieetwasensorgeführ- ter, autonom agierender Service-Roboter. Der vorliegenden Arbeit liegt eine anwendungsorientierte Sichtweise auf aktive Sehsysteme zugrunde.Ausgehend von bzw. aufbauend auf existierende Komponentendes gemeinsam mit derUGHPaderbornentwickeltenSystemsNAVISwirdeineBlicksteuerungentwickeltundin dasbestehendeSystemintegriert.DieseBlicksteuerungkannindreiTeilsystemeuntergliedert werden: eine datengetriebene ’Bottom-up‘-Komponente, eine modellgetriebene ’Top-down‘- Komponente und eine (bisher allerdings nur rudimentäre) Verhaltenssteuerung, die abhängig von der vorliegenden Situation die geeignetste Verhaltensklasse auswählt. Die ’Bottom- up‘- Komponente berechnet eine sogenannte Attraktivitätsrepräsentation, die verschiedene Merk- maleundAuffälligkeitenenthält.DieAttraktivitätsrepräsentationbestimmtdennächstenAuf- merksamkeitspunkt, falls kein Wissen aus der ’Top-down‘-Komponente vorliegt. Liegt dage- gen eine zu validierende Objekthypothese vor oder konnte Bewegung in der Szene detektiert werden,nimmtdie’Top-down‘-KomponentemaßgeblichenEinflußaufdieAuswahldesnäch- sten Aufmerksamkeitspunktes. Unabhängig von der jeweils vorliegenden Verhaltensklasse, ObjekterkennungoderObjektverfolgung,ermöglichtdieBlicksteuerunggeschlossenePerzep- tions-Aktions-Zyklen und ein autonomes Verhalten. Die entwickelte Blicksteuerung ist für general-purpose Sehen konzipiert. Das heißt insbeson- dere,daßsieimGegensatzzuvielenausderLiteraturbekanntenBlicksteuerungenaktiverSeh- systeme mehr als eine Verhaltensklasse unterstützt. Sie zeichnet sich weiterhin dadurch aus, daß sie leicht um zusätzliche Merkmale erweitert werden kann. Inhaltsverzeichnis Danksagung 3 Kurzfassung 4 Inhaltsverzeichnis 5 1 Einleitung 7 2 Übersicht 9 2.1 Gliederung der Arbeit 9 2.2 Aufgabenstellung und Lösungsansatz 10 3 Stand der Forschung 13 3.1 Visuelle Aufmerksamkeit und Augenbewegungen 13 3.1.1 Visuelle Aufmerksamkeit 14 3.1.2 Augenbewegungen 16 3.2 Ergebnisse der experimentellen Psychophysik 20 3.2.1 Die experimentelle Form der visuellen Suche 20 3.2.2 Eriksens ‘Zoom Lens’-Modell 22 3.2.3 Treismans ‘Feature Integration Theory’ 23 3.2.4 Wolfes ‘Guided Search’ 26 3.2.5 Duncans und Humphreys ‘Stimulus Similarity Theory’ 28 3.3 Neurowissenschaftliche Ergebnisse 31 3.3.1 Anatomie des menschlichen visuellen Systems 32 3.3.2 Neurobiologische Aspekte der Aufmerksamkeit 36 3.3.3 Organisation des attentiven Systems 42 3.4 Maschinelle Aufmerksamkeitsmodelle 44 3.4.1 Theoretische Überlegungen 45 3.4.2 Konnektionistische Modelle 47 3.4.3 Merkmalsbasierte Modelle 57 3.4.4 Aktive Sehsysteme 63 4 Die datengetriebene Aufmerksamkeitssteuerung in NAVIS 67 4.1 Die Merkmalskarten 68 4.1.1 Merkmalskarte "Orientierte Kanten" 69 4.1.2 Merkmalskarte "Orientierte Flächen" 72 5 4.1.3 Merkmalskarte Farbe 78 4.2 Die Auffälligkeitskarten 83 4.2.1 Auffälligkeitskarte Symmetrie 83 4.2.2 Auffälligkeitskarte Exzentrizität 87 4.2.3 Auffälligkeitskarte Farbkontrast 89 4.3 Das Binding-Problem und konkurrierende Aufmerksamkeit 91 4.3.1 Die Attraktivitätskarte 93 4.3.2 Die Aufmerksamkeitskarte 95 4.4 Kopplung von Aufmerksamkeitssteuerung und Kamerakopf 98 4.5 Visuelle Suche mit der datengetriebenen Aufmerksamkeitssteuerung 102 4.5.1 Merkmalssuche 103 4.5.2 Kombinationssuche 111 5 Die modellgetriebene Aufmerksamkeitssteuerung und ihre Integration in NAVIS 117 5.1 Experimentelle Plattformen 117 5.2 Stereoskopische Tiefenschätzung 119 5.3 Die 2D-Objekterkennung 121 5.3.1 Erkennungsstrategie 122 5.3.2 Erkennungssystem 124 5.3.3 Experimentelle Ergebnisse zur Objekterkennung 131 5.4 Bewegungsdetektion und Objektverfolgung 133 5.4.1 Bewegungsdetektion 135 5.4.2 Merkmalskorrespondenz 138 5.4.3 Trennung Objekt-Hintergrundbewegung 140 5.4.4 Tracking 141 5.5 Roboter-Szenarium 144 5.5.1 Systemarchitektur 145 5.5.2 Perzeptions-Aktions-Zyklen 147 5.5.3 Visuelle Suche und Identifizierung der Dominosteine 149 5.5.4 Navigation 153 5.5.5 Experimentelle Ergebnisse des Roboter-Szenariums 155 6 Diskussion 159 6.1 Psychologische und biologische Plausibilität 159 6.2 Bestandsaufnahme und Abgrenzung 162 7 Zusammenfassung 167 Literaturverzeichnis 169 Eidesstattliche Erklärung 187 Lebenslauf 189 Kapitel 1 Einleitung Seit Ende derachtziger Jahre findeteine Besinnungdarauf statt,daß biologisches Sehen nicht nur perzeptuelle, sondern auch aktorische Fähigkeiten umfaßt. Die Nachbildung solch aktiver Sehsysteme erlaubt es erstmals Maschinen, ihre Umgebung selbständig zu erkunden und als dreidimensionale Welt wahrzunehmen. Der Implementation von Blickbewegungen kommt hierbeieinewichtigeAufgabezu([Bajcsy1980],[Clark1988]).ZielgerichtetesSehenerleich- tertdieräumlicheSzenenrepräsentation,indemeseinenFixationspunktliefert,deralsBezugs- punktineinemKoordinatenraumdienenkann.DieAnzahlderFreiheitsgradereduziertsichauf diese Weise, wodurch die für eine Szenenanalyse notwendige Mathematik vereinfacht wird ([Aloimonos1987], [Ballard1988, 1991]). Desweiterenwird durchdie Fovealisierung aufin- teressante Bildbereiche die zu verarbeitende Datenmenge erheblich reduziert. Dieser Effekt kann durch den Einsatz einer bezüglich des Auflösungsvermögens inhomogenen künstlichen Retina noch verstärkt werden. UminteressanteRegionenimSehfeldeinesRoboterszielorientiertundsequentiellselektieren zukönnen,istdieNachbildungdervisuellenAufmerksamkeiterforderlich,diegenaudieseFä- higkeitbesitzt.EsexistierenzweiArtenvisuellerAufmerksamkeit,diealsoffenbzw.verdeckt bezeichnet werden. Die verdeckte Aufmerksamkeit findet ohne motorische Aktionen statt. In dieser Phase wird abgeschätzt, ob sich ein mit erhöhtem Energieaufwand zu betreibender Blickwechsel "lohnt". Es finden im Gehirn Attentionsverschiebungen statt, die das Ziel der nächsten Augenbewegung aussuchen. Hierbei können nur Regionen untersucht werden, die sichimderzeitaufderRetinafixiertenBildbefinden.Umweiteremöglicherweiseinteressante Regionenzufinden,sindschnelleAugenbewegungen,diesogenanntenSakkaden,notwendig. Diese Attentionsverschiebungen werden als offene Aufmerksamkeit bezeichnet. Biologisches Sehen kann sich nicht in Isolation entwickelt haben. Es findet statt, weil wir uns ineiner dreidimensionale Welt bewegen. Sehen und insbesondere gerichtetesSehen sollte da- her immer eine Absicht verfolgen [Aloimonos 1987]. Ein Schwerpunkt dieser Arbeit ist des- halbnebendemEntwurfeinerAufmerksamkeitssteuerungauchderenIntegrationineinbeste- hendes maschinelles Sehsystem, das zur Erkennung und Verfolgung von Objekten eingesetzt wird. 7 8 1 Einleitung Kapitel 2 Übersicht Dieses Kapitel gibt einen Überblick über die dieser Arbeit zugrundeliegende Gliederung, be- schreibt die Aufgabenstellung und skizziert den verfolgten Lösungsansatz. 2.1 Gliederung der Arbeit Der Mensch besitzt die Fähigkeit, seine Aufmerksamkeit visuell auf bestimmte Teile eines Raumes oder Objekts zu konzentrieren. Diese Aufmerksamkeitssteuerung ermöglicht dem Menschen eine effektive Suche nach Objekten bzw. eine effektive Rekonstruktion der beob- achteten Umwelt. Durch solche Eigenschaften erscheint es interessant, den Menschen als bio- logischesVorbildfürdenEntwurfeinesmaschinellenAufmerksamkeitsmodulszubetrachten. Einige der psychologischen, biologischen und maschinellen Modelle zur visuellen Aufmerk- samkeitsinddaherimKapitel3unterderÜberschrift"StandderForschung"zusammengefaßt. DemKapitelüberdiepsychophysischenundneurobiologischenGrundlagenfolgtdereigentli- che Kern dieser Arbeit, der Aufbau der Aufmerksamkeitssteuerung für das Neuronale Active- Vision-SystemNAVIS.NAVISwirdinKooperationmitdemGET-Bildverarbeitungslaborder UGHPaderbornentwickelt.BesondereAufmerksamkeitwirdaufdessenbiologischeAdäquat- heit, Modularität sowie die Integration der Module zu einem Gesamtsystem gelegt. Die Auf- merksamkeitssteuerungläßtsichineine‘Bottomup’-Komponenteundeinevonunterschiedli- chen Modellen getriebene ‘Top down’-Komponente untergliedern. Im Kapitel 4 ist zunächst die bilddatengetriebene ‘Bottom up’-Komponente beschrieben. Die ‘Top down’-Komponente istengverzahntmitanderenNAVIS-Modulen.DasKapitel5beschreibtdaherdenderzeitigen EntwicklungsstandinNAVISunddieIntegrationderentwickeltenAufmerksamkeitssteuerung indiesesSystem.DiezurRealisierungderAufmerksamkeitssteuerungumgesetztenArbeitspa- kete sind im Abschnitt 2.2 detailliert aufgeführt. ImKapitel6wirdzumeinendiepsychologischeundbiologischePlausibilitätderentwickelten Aufmerksamkeitssteuerungdiskutiertundzumanderen,inwieweitdieimfolgendenAbschnitt 9 10 2 Übersicht 2.2 aufgestellten Anforderungen an eine maschinelle Blicksteuerung erfüllt werden konnten. Die Limitierungen, denen das vorgestellte System unterliegt, werden genannt und aus diesen Einschränkungen werden Problemstellungen für zukünftige Aufgaben abgeleitet. Den Ab- schluß dieser Arbeit bildet die Zusammenfassung der wichtigsten Ergebnisse im Kapitel 7. 2.2 Aufgabenstellung und Lösungsansatz Eines der Ziele des DFG-Projektes ESAB-11, dem diese Arbeit zuzuordnen ist, und der SchwerpunktspezielldieserArbeitistdieImplementationvonattentivgesteuertenBlickwech- seln. Im Wachzustand vollziehen Menschen fortlaufend Blickwechsel. Sie erfolgen häufig kontextbasiert,wiein[Yarbus1969]und[Noton1970,1971a+b]gezeigtwurde.DieseEigen- schaft sollten auch Blicksteuerungen für Robotersysteme beinhalten [Granlund 1994]. Abbott fordert in [Abbott 1988] weiterhin, daß ein Modell für Augenbewegungen folgende Eigen- schaften aufweisen sollte: • Berücksichtigung der Distanz und der Blickrichtung zwischen aktuellem Fixations- punkt und den Kandidaten für einen Blickwechsel • Auswertung von Bildcharakteristiken wie z. B. Symmetrien • Berücksichtigung von Objektgrenzen (Fixation auf Objekte) • Berücksichtigung von zeitlichen Änderungen (Bewegung) • Begrenzung der Komplexität (Anzahl der Fixationspunkte sollte möglichst minimal sein) DieAufgabebestehtnuninderUmsetzungdergefordertenEigenschaftenbeiderEntwicklung einerrobustenAufmerksamkeitssteuerungfürdasinderAGIMAaufgebauteaktiveSehsystem NAVIS.HierzuistzunächstnureineKameraeineszurVerfügungstehendenbinokularenKop- feszuregeln;diezweiteKamerawirdinNAVISzurTiefenschätzungbeiderAnalysekomple- xer 3D-Szenen eingesetzt. Als erster wichtiger Bestandteil der Aufmerksamkeitssteuerung müssen Module zur Generie- rung topologischer Merkmals- und Auffälligkeitskarten erstellt werden. Die Merkmalskarten sollenmöglichstdisjunkteMerkmaleenthalten,dieauchfürandereModuleinNAVISnutzbar sind.Insbesondere kann hier derEffekt derKategorisierung ausgenutzt werden. Zu der Merk- malsdimension Farbe sollen so z. B. die Merkmalsausprägungen Rot, Blau, etc. auf verschie- deneKartenverteiltwerden.HierdurchkönnenandereModuleinNAVISgezieltaufbestimm- 1 DFG-Projekt "Entwicklung von Algorithmen zur aktiven Bildanalyse und deren Beschleunigung durch Methoden des Hardware/Software-Codesign" (Me 1289/3-1); Projektpartner ist das FhG-Insti- tut für Mikroelektronische Schaltungen und Systeme, Dresden (Zi 260/6-1); Laufzeit: 01.07.1996- 31.03.1999 (Förderung: 2 Jahre)
Description: