Frank Richter Kombination Kiinstlicher Neuronaler Netze GABLER EDITION WISSENSCHAFT Frank Richter Kombination Kiinstlicher Neuronaler Netze Zur Prognose von Wechselkursen Mit einem Geleitwort von Prof. Dr. Heinz Schaefer Deutscher Universitats-Verlag Bibliografische Information Der Deutschen Bibliothek Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet Ober <http://dnb.ddb.de> abrufbar. Dissertation Universitat Bremen, 2002 1. Auflage September 2003 Aile Rechte vorbehalten © Deutscher Universitats-Verlag/GWV Fachverlage GmbH, Wiesbaden 2003 Lektorat: Brigitte Siegel/ Sabine Scholler Der Deutsche Universitats-Verlag ist ein Unternehmen der Fachverlagsgruppe BertelsmannSpringer. www.duv.de Das Werk einschlieBlich aller seiner Teile ist urheberrechtlich geschOtzt. Jede Verwertung auBerhalb der eng en Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verla.9s unzulassig und strafbar. Das gilt insbe sondere fOr Vervielfaltigungen, Ubersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen-und Markenschutz-Gesetzgebung als frei zu betrachten waren und daher von jedermann benutzt werden dOrften. Umschlaggestaltung: Regine Zimmer, Dipl.-Designerin, Frankfurt/Main Gedruckt auf saurefreiem und chlorfrei gebleichtem Papier ISBN-13:978-3-8244-7900-9 e-ISBN-13:978-3-322-81570-5 DOl: 10.1007/978-3-322-81570-5 Geleitwort Das Interesse an Prognosen und damit auch der Bedarf an geeigneten Methoden wachst standig. Die Wissenschaft begegnet diesem Interesse durch die Erweiterung des Methodenvorrats. In der vorliegenden Arbeit von Frank Richter zeigt er die Vorteile von Kombinationsmodellen anhand des Problems der Wechselkursprognose. Die Wechselkursprognose gilt als schwierig und ist somit eine Herausforderung fur jedes Prognoseverfahren. Die Arbeit behandelt das Verfahren der Kunst lichen Neuronalen Netze und entwickelt einen Ansatz, mit dem einzelne Modelle sinnvoll zu einer Kombination zusammengefasst werden konnen. Erstmals verwendet der Autor in diesem Kontext eine fur die Wechsel kursprognose adaquate Nutzenfunktion zur Bildung der Kombinationsmo delle. Dies wird durch den Einsatz eines lokalen Optimierungsverfahrens ermoglicht, das von Frank Richter entsprechend angepasst wurde. Die Er gebnisse zeigen, dass dieser Ansatz anderen Prognoseverfahren uberlegen ist. SchlieBlich entwickelt der Autor noch spezielle Operatoren, urn Kombi nationsmodelle mit Genetischen Algorithmen zu optimieren und stellt die Ergebnisse anhand eines Testbeispiels dar. Dieser Losungsweg wird ein leuchtend dargestellt und ist sorgfaltig in das wissenschaftliche Umfeld ein geordnet. Die Lektiire der Arbeit ist einem Leserkreis zu empfehlen, der sich einen Uberblick uber die Eignung und Moglichkeiten von Kunstlichen Neuronalen Netzen fur die Wechselkursprognose verschaffen mochte und der sich fur die Verwendung moderner Konzepte der heuristischen Optimierung von Kunst lichen Neuronalen Netzen interessiert. Prof. Dr. Heinz Schaefer Vorwort Die vorliegende Dissertation entstand wahrend meiner Tatigkeit als wis senschaftlicher Mitarbeiter im Fachbereich Wirtschaftswissenschaften der Universitat Bremen. Mein Dank gilt als erstes meinem Doktorvater Prof. Dr. Heinz Schaefer, der mein Interesse auf das Gebiet der Wechselkursprognose lenkte. Beson ders danken mochte ich Prof. Dr. Herbert Kopfer, der mein Interesse fur die heuristische Optimierung weckte. Ohne die Unterstutzung meiner Kollegen ware die Arbeit so nicht zu stande gekommen. Fur Diskussionen, Anregungen und Verbesserungsvor schlage bedanke ich mich besonders bei PD Dr. Klaus B. Schebesch und Dr. Ralf Stecking. Frank Richter Inhaltsverzeichnis 1 Einleitung 1 1.1 Problemstellung. 1 1.2 Kapiteliibersicht 3 2 Prognose einer okonomischen Zeitreihe 7 2.1 Prognosen und Modelle .. 8 2.2 Wechselkursprognosen ..... . 10 2.2.1 Technische Analyse ... . 12 2.2.2 Flexible Prognosemodelle 13 3 Optimale Modelle 15 3.1 Der bedingte Erwartungswert 17 3.2 Separierung des Inputraumes 19 3.3 Bias-Varianz-Dilemma 20 4 Fehlerma6e 25 4.1 Der quadratische Fehler ..... . 26 4.2 Die mittlere absolute Abweichung . 28 4.3 Sharpe-Ratio ........... . 30 5 Kombinationsmodelle 33 5.1 Kombination einzelner Modelle ...... . 37 5.1.1 Varianzreduktion .......... . 39 5.1.2 Erzeugung unterschiedlicher Modelle 41 5.1.2.1 Problem-Hypothese ...... . 43 5.1.2.1.1 Variation der Inputvariablen 44 5.1.2.1.2 Variation des Modellansatzes . 47 5.1.2.2 Variation der Startbedingungen . 49 x Inhalt sverzeichnis 5.1.2.3 Beispieldaten.......... 50 5.1.2.3.1 VergroBerung der Lernmenge 52 5.1.2.3.2 Adaptives Sampling . . . . . 53 5.1.2.3.3 Vorteile von Sampling-Techniken . 55 5.1.3 Modellpopulation. 56 5.1.4 Modellselektion............. 57 5.1.5 Modellgewichtung ........... 58 5.1.5.1 Informationsmenge eines Kombinationsmodells 59 5.1.5.2 Lineare Regression zur Modellgewichtung 60 5.1.5.3 Nichtlineare Modellgewichtung . . . 64 5.2 Kombination von Modulen. . . . . . . . . . . . . 66 5.2.1 Sequentielle Informationsverarbeitung . . 68 5.2.2 Koordinierende Informationsverarbeitung 69 5.2.3 Kooperierende Informationsverarbeitung . 71 5.2.3.1 Lokale funktionale Abbildung . . 73 5.2.3.2 Lokalitat der Expertenmodule 75 5.3 Gruppen-Ansatz versus modularer Ansatz 76 6 K iinstliche N euronale N etze 79 6.1 Struktur und Funktionsweise von KNN . 80 6.2 Abbildungskapazitat ....... . 83 6.3 KNN zur Funktionsapproximation 85 6.4 Lernen mit KNN . . . . . . . . . . 86 6.5 Datenvorverarbeitung ... . . . . 88 6.5.1 Auswahl der Inputs und Abhangigkeitstest 88 6.5.1.1 Suche nach Inputkombination ..... . 89 6.5.1.2 Scheinbare Abhangigkeiten ...... . 90 6.5.2 Skalierung und Transformation der Daten 91 6.5.3 Stationare Daten ........ . 93 6.5.4 AusreiBer und fehlende Beispiele 94 6.6 Lernverfahren fur KNN ........ . 95 6.6.1 Backpropagation ........ . 97 6.6.1.1 Mittlerer quadratischer Fehler 99 6.6.1.2 Mittlere absolute Abweichung . 100 6.6.1.3 Sharpe-Ratio ......... . 100 6.6.2 Deterministische Lernalgorithmen 102 6.6.2.1 Gradientenabstieg ....... . 103 6.6.2.2 Konjugierter Gradientenabstieg . 104 6.6.2.3 Quasi-Newton Lernalgorithmus . 105 Inhaltsverzeichnis xi 6.6.3 Stochastische Lernverfahren ............ " 106 6.6.3.1 Gradientenbasierte stochastische Lernverfahren .. 107 6.6.3.2 Stochastische Lernverfahren ohne Gradientenabstieg 107 6.7 Komplexitatskontrolle . . . . . . . . 108 6.7.1 Explizite Modellkomplexitat . 110 6.7.1.1 Weight-decay........ 110 6.7.1.2 Pruning und Growing . . . 111 6.7.2 Implizite Modellkomplexitat . 114 6.7.2.1 Early-Stopping. 114 6.7.2.2 Cross-Validation . . . . . . 114 7 Prognose einer Finanzzeitreihe mit KNN 117 7.1 Finanzzeitreihe USDjDEM 117 7.2 Monte-Carlo-Simulation . 119 7.3 Inputs ........... . 121 7.3.1 Informationsbasis .. 121 7.3.2 Auswahl der Inputs 123 7.4 Beispieldaten 123 7.5 Topologie ..... . 125 7.6 Lernverfahren ... . 126 7.6.1 Startgewichte 126 7.6.2 Abbruchkriterium 127 7.7 Performance-MaBe fUr die Prognosemodelle 128 7.8 Ergebnisse des Trainings .. 130 7.9 Modellauswahl ...... . 133 7.10 Unterschiedliche FehlermaBe .... 135 7.10.1 Einstellungen fur die KNN 137 7.10.2 Ergebnisse und Diskussion . 138 7.11 Modellkombination mit einzelnen KNN . 142 7.11.1 Generalisierungsleistung eines Kombinationsmodells ..... . 142 7.11.2 Auswahl der Einzelmodelle .. . 144 7.11.2.1 Vorauswahl der Einzelmodelle 145 7.11.2.2 Auswahl mit linearer Regression 147 7.11.2.2.1 Auswahlkriterien ... . 150 7.11.2.2.2 Auswahlverfahren ... . 151 7.11.2.2.3 Lineare Abhangigkeiten . 151 7.11.2.3 Auswahl mit Tabu-Search. 152 7.11.2.3.1 Zielkriterium und Ablauf der Suche 157 xii Inhaltsverzeichnis 7.11.2.3.2 Beispiel fUr die drei Phasen . 159 7.11.3 Modellgewichtung . 164 7.11.3.1 Gleichgewichtung. . . . . . . . 165 7.11.3.2 Lineare Regression. . . . . . . 165 7.11.4 Ergebnisse der Kombinationsmodelle . 167 8 Mixture Density Networks 171 8.1 Inverse Probleme . . . . . . . . . . . . . . . . . . . . 172 8.2 Aufbau eines MDN-Modells . . . . . . . . . . . . . . 174 8.2.1 Initialisierung, Training und Regularisierung 177 8.2.2 Interpretation des Outputs ...... 180 8.3 Beispielmodelle fur ein inverses Problem . . . 183 8.3.1 Einzelmodelle fur das Beispielproblem 183 8.3.2 MDN-Modelle fur das Beispielproblem 185 8.3.3 Diskussion........... 191 8.4 Modellierung USD/DEM mit MDN . 192 9 Evolution von KNN und MDN 199 9.1 Genetische Algorithmen 200 9.1.1 Reprasentation 201 9.1.2 Operatoren 204 9.1.2.1 Crossover 205 9.1.2.2 Mutation 206 9.1.2.3 Selektion 207 9.2 Evolution von MDN-Modellen . 210 9.2.1 Reprasentation..... 211 9.2.2 Genetische Operatoren fUr MDN 215 9.2.2.1 Crossover. 215 9.2.2.2 Mutation. 217 9.2.2.3 Reparatur. 220 9.2.2.4 Selektion . 222 9.2.3 Populationsmanagement. 223 9.2.3.1 Genetische Operatoren 223 9.2.3.2 Populationsgr6fie und Generationenfolge . 224 9.2.3.3 Akzeptanz und Training der Nachkommen 226 9.3 Anwendung . . . . . . . . . 227 9.3.1 Die Startpopulation 227 9.3.2 Selektion 228 9.3.3 Crossover ..... . 231