Leitfäden und Monographien der Informatik Rüdiger Brause Neuronale Netze Leitfäden und Monographien der Informatik Herausgegeben von Prof. Dr. Hans-Jürgen Appelrath, Oldenburg Prof. Dr. Volker Claus, Oldenburg Prof. Dr. Günter Hotz, Saarbrücken Prof. Dr. Klaus Waldschmidt, Frankfurt Die Leitfäden und Monographien behandeln Themen aus der Theoreti schen, Praktischen und Technischen Informatik entsprechend dem aktuel len Stand der Wissenschaft. Besonderer Wert wird auf eine systematische und fundierte Darstellung des jeweiligen Gebietes gelegt. Die Bücher die ser Reihe sind einerseits als Grundlage und Ergänzung zu Vorlesungen der Informatik und andererseits als Standardwerke für die selbständige Einar beitung in umfassende Themenbereiche der Informatik konzipiert. Sie sprechen vorwiegend Studierende und Lehrende in Informatik-Studien gängen an Hochschulen an, dienen aber auch in Wirtschaft, Industrie und Verwaltung tätigen Informatikern zur Fortbildung im Zuge der fortschrei tenden Wissenschaft. Neuronale Netze Eine Einführung in die Neuroinformatik Von Dr. rer. nato Rüdiger Brause Universität Frankfurt/Main Mit zahlreichen Abbildungen B. G. Teubner Stuttgart 1991 Dr. rer. nato Rüdiger Brause Von 1970 bis 1978 Studium der Physik und Kybernetik in Saarbrücken und Tübingen mit Diplom-Abschluß zum Thema "Stochastische Musterer kennung", 1983 Promotion mit einer Arbeit zum Thema "Fehlertoleranz in verteilten Systemen". Seit 1985 Akad. Oberrat an der Universität Frankfurt im Fachbereich Informatik mit dem Arbeitsgebiet Modellierung und An wendung neuronaler Netze. Die Deutsche Bibliothek - CIP-Einheitsaufnahme DnUR, Rlldiaer: Neuronale Netze : eine Einführung in die Neuroinformatik / von Rüdiger Brause. - Stuttgart : Teubner, 1991 (Leitfäden und Monographien der Informatik) ISBN 978-3-519-02247-3 ISBN 978-3-322-92118-5 (eBook) DOI 10.1007/978-3-322-92118-5 Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung au8erhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt besonders für Vervielfilltigungen, Übersetzungen, Mikroverfilmungen und die Ein speicherung und Verarbeitung in elektronischen Systemen. Cl B. G. Teubner Stuttgart 1991 Gesamtherstellung: Zechnersche Buchdruckerei GmbH, Speyer Einband: P.P.K,S-Konzepte Tabea Koch, Ostfildem/Stgt. VOIWOrt Dieses Buch handelt von "Neuronalen Netzen"- aber was ist das? Im Unterschied zu anderen, fest abgegrenzten und etablierten Gebieten zeigen die englischen Bezeich nungen neural nets, artificial neural networks, connectionism, computational neuroscience und dergleichen mehr die Vielfalt der Zugänge und Anwendungen eines Gebiets, das nach einem jahrelangen Dornröschenschlaf gerade wieder dem Jung brunnen entsteigt und deshalb sehr schwer mit einer Schablone abzugrenzen und zu defmieren ist. Für den Neurologen und Biologen ist es die theoretische Systematik, mit der er seine Ergebnisse ordnen kann; für den Experimentalpsychologen die mikro skopischen Modelle, die seine Experimente über menschliche Informationsverarbeitung erklären können. Physiker können darin neue Anwendungen physikalischer Methoden und atomarer Modelle von wechselwirkenden Atomen sehen, Nachrichten-Ingenieure hoffen auf schnelle Echtzeitnetzwerke und Informatiker vermuten darin bereits die neue, massiv parallele, ultraschnelle und intelligente Computergeneration, die endlich das Versprechen der "Künstlichen Intelligenz" einlöst. Dieses Buch, das auf einer zweisemestrigen Vorlesung 1990/91 an der Universität Frankfurt beruht, soll dazu beitragen, das Verständnis für die tatsächlichen, aktuellen Möglichkeiten dieses Gebiets zu vertiefen. Dazu werden anfangs kurz die wichtigsten Grundlagen und Konzepte aus den wichtigsten, beteiligten Gebieten wie der Biologie, der Mustererkennung und der Statistik referiert, um beim Leser ohne spezielles Vorwissen ein besseres Grund verständnis der präsentierten Modelle neuronaler Netze zu erreichen. Obwohl dieses Buch eine Einführung in das Gebiet darstellt, sind trotzdem über das rein intuitive Verständnis hinaus auch konkrete Formeln, Lemregeln und Algorithmen enthalten,um dem Leser einen konkreten Vergleich zwischen den verschiedenen Ansätzen zu ermöglichen und ihm/ihr die Mittel in die Hand zu geben, ein konventionelles Modell für ein gegebenes Problem passend abzuwandeln. Sehr allgemeines mathematisches Grundlagenwissen um Vektoren, Matrizen und Eigenvektoren, soweit es sich um Stoff aus der Anfängervorlesung handelt, mußte aber leider aus Platzgründen ausgespart bleiben. Das Buch beschränkt sich dann im zweiten und dritten Kapitel auf wenige, grundlegende, immer wieder zitierte Inhalte und Arbeiten von neuronalen Netzen, die als Grundpfeiler des Gebäudes dienen, und ermöglicht so dem Leser, die Fülle der neu entstehenden Variationen und Anwendungen besser einzuschätzen. Trotzdem sind auch in den folgenden Kapiteln die relativ neuen Verbindungen neuronaler Netze zu deterministischem Chaos und evolutionären Algorithmen enthalten. Zum Abschluß wird noch kurz auf die verschiedenen Hardwarekonfigurationen und die existierenden Programmiersprachen und -systeme zur Simulation neuronaler Netze eingegangen. 6 Der Schwerpunkt des Buches liegt damit im Zusammenfassen und Ordnen einer Breite von Ansätzen, Modellen und Anwendungen unter wenigen, klaren Aspekten wie Netzwerkarchitektur (feed-forward und feed-back Netze) und Informationsverarbeitung (optimale Schichten), die sich wie ein roter Faden durch die Kapitel ziehen; für ein vertiefendes Studium sind entsprechende Literaturhinweise eingearbeitet Ich hoffe, damit nicht nur für Informatiker den Einstieg in das Gebiet der neuronalen Netze erleichtert zu haben. Zuletzt möchte ich noch Herrn Klaus Wich und Frau Nicole Sabart meinen Dank aussprechen für ihre Anregungen und Korrekturhilfe; dem Verlag B.G. Teubner danke ich für die Aufnahme dieses Buches in sein Verlagsprogramm. Frankfurt, im Frühjahr 1991 Rüdiger Brause Inhaltsverzeichnis Notation 10 Einleitung 11 1 Grundlagen 13 • 1.1 Biologische Grundlagen 13 1.1.1 Gehimfunktionen und Schichten 13 1.1.2 Sehen 15 1.1.3 Hören 23 1.1.4 Motorik 27 1.1.3 Biologische Neuronen 31 -1.2 Modellierung der Infonnationsverarbeitung 35 1.2.1 Formale Neuronen 35 1.2.2 Fähigkeiten fonnaler Neuronen 44 1.2.3 Feed-forward Netze, Entropie und optimale Schichten 52 .1.3 Stochastische Mustererkennung 60 1.3.1 Zielfunktionen bei der Mustererkennung 61 1.3.2 Die Gradientenmethode zur Minimumsuche 62 1.3.3 Stochastische Approximation 64 1.3.4 Invariante Mustererkennung 66 • 1.4 Optimales Lernen und Merkmalssuche 73 1.4.1 Die Lemregeln von Hebb und Oja 73 1.4.2 Die Hauptkomponentenanalyse 76 1.4.3 Optimale Merkmale und Eigenvektorzerlegung 78 2 Einfache feed-forward Netze 81 2.1 Lineare Klassifikatoren 81 2.1.1 Perzeptron 81 2.1.2 Adaline 86 2.2 Assoziative Speicher 90 2.2.1 Konventionelle Assoziativspeicher 90 2.2.2 Das Korrelations-Matrixmodell 92 2.2.3 Die Speicherkapazität 102 2.2.4 Andere Modelle 105 2.3 Back-Propagation Netzwerke 107 2.3.1 Die Funktionsarchitektur 107 2.3.2 Anwendung: NETtalk 112 2.3.3 Die Funktion der "hidden units" 114 2.4 Eigenvektorzerlegung 118 2.4.1 Die "subspace"-Methode 118 2.4.2 Geordnete Zerlegung 120 2.4.3 Die Anti-Hebb Regel 123 2.4.4 Klassenhierarchien und Eigenvektorzerlegung 125 8 2.5 Competitive Leaming 127 2.5.1 Grundmechanismen 127 2.5.2 Das Dipol-Experiment 129 2.5.3 Diskussion 130 2.6 Topologie-erhaltende Abbildungen 132 2.6.1 Lokale Wechselwirkungen in Neuronenfeldern 133 2.6.2 Die Vereinfachung von Kohonen 136 2.6.3 Anwendungen 141 2.7 Aufmerlcsamkeits-gesteuerte Systeme 154 2.7.1 ART 1 154 2.7.2 ART 2 164 2.7.3 ART 3 165 3 Rückgekoppelte Netze 167 3.1 Assoziative Speicher 169 3.1.1 brain-state-in-a-box 169 3.1.2 Das Hopfield-Modell 179 3.1.3 Bidirektionale Assoziativspeicher (BAM) 192 3.1.4 Spärliche Kodierung: Das Kanerva-Modell 194 3.1.5 Rückgekoppelte, heteroassoziative Speicher 197 3.2 Wahrscheinlichkeits-Maschinen 199 3.2.1 Der Metropolis-Algorithmus 199 3.2.2 Simu1ated Annealing 201 3.2.3 Boltzmann-Maschinen 205 3.3 Nichtlineare Dynamik, Attraktoren und Chaos 210 3.3.1 Deterministisches Chaos 209 3.3.2 Chaos in neuronalen Netzen 215 3.3.3 Die Chaos-Maschine 216 3.3.4 lterierte Funktionen-Systeme 220 4 Zeitsequenzen 225 4.1 Zeitreihenanalyse 225 4.1.1 Chaotische Sequenzen 226 4.1.2 Börsenkurse 228 4.2 Feed-forward Assoziativspeicher 230 4.2.1 Die OUTSTAR-Konfiguration 230 4.2.2 Die Stern1awine 232 4.3 Rückgekoppelte Assoziativspeicher 234 4.3.1 Sequenzen ohne Kontext 234 4.3.2 Sequenzen mit Kontext 240 Inhalt 9 5 Evolutionäre und genetische Algorithmen 242 5.1 Die Mutations-Selektions-Strategie 242 5.2 Genetische Algorithmen 245 5.2.1 Reproduktionspläne 248 5.2.2 Genetische Operatoren 249 5.2.3 Diskussion 250 5.3 Genetische Operationen mit neuronalen Netzen 252 5.3.1 Evolution der Gewichte 252 5.3.2 Evolution der Netzarchitektur 252 6 Simulationssysteme Neuronaler Netze 255 6.1 Parallele Simulation 255 6.1.1 Multiprozessor-Architekturen 255 6.1.2 Partitionierung der Algorithmen 261 6.2 Sprachsysteme und Simulationsumgebungen 265 6.2.1 Die Anforderungen 265 6.2.2 Komponenten der Simulation 266 6.2.3 Die Netzwerkbeschreibung 268 Literatur 272 Bücher 272 Zeitschriften 273 Konferenzen 273 Referenzen 274 Stichworte 288 Notation Transponierte der Matrix A bzw. des Spaltenvektors W = Spaltenvektor der Eingabewerte (xI' ... ,Xn)T = ml y Spaltenvektor der Ausgabewerte (y I' ... ,y z Spaltenvektor der Aktivitätswerte = (zl' ... ,zml = Wi Spaltenvektor der Gewichte zur Einheit i (wil' ... ,winl W Matrix der Gewichte w .. von Einheitj zu Einheit i = (w .. ) S(Z) Ausgabefunktion (squdihingjunction) 1J S Zustand (S(zl)' ... , S(zn)l der Ausgabe bzw. "Zustand des Systems" T. Schwellwert (threshold) von Einheit i N1 Zahl der Muster xl ... ,11 M Zahl der Klassen (J)k Ereignis "Klasse k liegt vor" Menge aller Muster einer Klasse k ~ d(x,y) Abstands-oder Fehlerfunktion zwischen x und y t Zeit, diskret oder kontinuierlich (f(x)\ Erwartungswert von fex) bezüglich aller möglichen Werte von x R Zielfunktion (targetjunction; z.B. Straffkt., Fehlerfkt. oder Energie E) P(X) Wahrscheinlichkeit, mit der das Ereignis x auftritt p(X) Wahrscheinlichkeitsdichte der Ereignisse {x} lex) Information eines Ereignisses x := -In P(x) H(x) Entropie oder erwartete Information (I(x» einer NachrichtenquelIe x C Erwartungswert der Matrix der Autokorreiation = (x.x.» = (nT) 1 J ek Eigenvektor k A.k Eigenwert von ek