Thorsten Poddig KOnstliche Intelligenz und Entscheidungstheorie Thorsten Poddig Kiinstliche Intelligenz und Entscheidungstheorie f[)fl1:\r7 DeutscherUniversitats Verlag ~ GABLER ·VIEWEG ·WESTDEUTSCHER VERLAG Die Deutsche Bibliothek - CIP-Einheitsaufnahme Poddig, Thorsten: Kunstliche Intelligenz und Entscheidungstheorie / Thorsten Poddig. - Wiesbaden.: Dt. Univ.-Verl., 1992 (DUV : Wirtschaftswissenschaft) Zugl.: Bamberg, Univ., Diss., 1991 ISBN-13: 978-3-8244-0096-6 e-ISBN-13: 978-3-322-85839-9 001: 10.1007/978-3-322-85839-9 Der Deutsche Universitats-Verlag ist ein Untemehmen der Verlagsgruppe Bertelsmann Intemational. © Deutscher Universitats-Verlag GmbH, Wiesbaden 1992 Softcover reprint of the hardcover 1s t edition 1992 Dos Werk einschlieBlich oller seiner Te ile ist urheberrechtlich ge schutzt. Jede Verwertung auBerhalb der engen Grenzen des Ur heberrechtsgesetzes ist ohne Zustimmung des Verlags unzulassig und strafbar. Dos gilt insbesondere fur Vervielfaltigungen, Ober setzungen, Mikroverfilmungen und die Einspeicherung und Verar beitung in elektronischen Systemen. Druck und Buchbinder: difo-druck Bamberg Geleitwort Die betriebswinschaftliche Entscheidungstheorie, die in den 6O-er und 70-er Jahren in Deutschland, vor aHem angeregt durch Arbeiten von Simon, mit den Veroffentlichungen von Heinen und Kirsch eine Phase groBer Fruchtbarkeit erlebte, durchlauft seither eine Periode deutlicher Stagnation. Ein wesentlicher Grund dafiir konnte sein, daB die darnaJigen Versuche, die deskriptive Entscheidungstheorie zu tragfahigen Erklarungsmodellen auszubauen, die eine fundierte Grundlage zur Ableitung von Gestaltungsempfehlungen ge liefert hatten, gescheitert sind. Vielmehr ist die deskriptive Entscheidungstheorie in weiten Tei!en tiber reine Beschreibungen des Verhaltens nicht hinausgekommen. Andererseits hat auch die normative Entscheidungstheorie, der altere Zweig der Entscheidungstheorie, fUr die Gestaltung betrieblicher Entscheidungen wenig Bedeutung erlangt, vor allem wei! ihre Informationsannahmen auch bei den Entscheidungsmodellen unter Unsicherheit sehr re striktiv sind, d.h. daB ein wesentlicher Teil realer Problemstellungen als gelost bzw. nicht existent vorausgesetzt wird. So wird immer unterstellt, daB bei einem Problem die Problemstellung und die Zielvorgabe eindeutig sei, die Alternativen zur Problemlosung aile bekannt seien, die potentiell eintretenden Umweltzustande bekannt seien, jeder Alternative beztiglich jeder denkbaren Umweltsituation eindeutig ein Ergebnis beztiglich jeden ZieJes zugeordnet werden konne und lediglich der Informationsgrad des Eintritts von Umweltsituationen je nach Typ des Entscheidungsmodells variiere. Demgegentiber bestehen die Schwierigkeiten bei der Handhabung realer (betriebswinschaftlicher) Diagnoseprobleme hliufig gerade im Fehlen oder der Zweifelhaftigkeit der zur Beschreibung und zur Beurteilung der vorliegenden Situation notwendigen Informationen. Diagnoseprobleme sind eine in der Betriebswinschaft hliufig auftretende Problemklasse. Dabei ist eine bestimmte vorliegende Situation zu erkennen und zu klassifizieren, der eine bestimmte Handlung oder Folgerung zuzuordnen ist. Da Problemlosungen entweder intellektueH einfach, dann aber hliufig zeitraubend, oder den "normalen" Entscheidungstrager intellektuell tiberfordernd sind, erscheint es reizvoH, die Problemlosung durch einen Automaten bewaltigen zu lassen, der das Wissen von Experten auswertet oder selbst "gute" LOsungen generiert. Schon Simon arbeitete, allerdings ohne groBen Erfolg, mit fruhen Verfahren der Ktinstlichen Intelligenz an seinem "General Problem Solver". Inzwischen ist die Entwicklung von Verfahren der Ktinstlichen Intelligenz recht schnell voran geschritten, wobei sich zwei sehr unterschiedliche Paradigmen herausgebildet haben: - der Symbolverarbeitungsansatz, der auch den klassischen Expertsystemen zugrundeliegt, der Ansatz des Konnektionismus, der in Nachbildung nattirlicher Gehirnstrukturen und -prozesse mit sog. Ktinstlichen Neuronalen Netzwerken arbeitet. Was diese beiden Ansatze zur U ntersttitzung bei der LOsung betriebswirtschaftlicher Diagnoseprobleme zu leisten imstande sind, ist bisher sowohl theoretisch als auch empirisch weitgehend ungekllirt. Dies ist der Ausgangspunkt der vorliegenden Arbeit. Die Arbeit von Herrn Poddig analysiert die beiden Paradigmen der KI im Hinblick darauf, welchen jeweiligen Beitrag sie zu einer normativen und deskriptiven Entscheidungstheorie betriebswirtschaftlicher Diagnoseprobleme zu leisten vermogen. Neben der reinen Adaption VI von Verfahren sind hier insbesondere die Meta-Betrachtungen hervorzuheben, die erst eine Einschatzung der vorgestellten Verfahren erlauben. DaB die Analysen von Herrn Poddig nicht nur auf einer theoretischen Ebene stehen bleiben, sondem auch auf konkrete betriebswirtschaftliche Problemstellungen angewandt werden konnen, dokumentiert die Anwendung Kiinstlicher Neuronaler Netze auf Aktien- und Wechselkursprognosen in eindrucksvoller Weise. Gerade dieser Teil ist bereits in Wissenschaft und Praxis auf groBes Interesse gestoBen. Die Arbeit von Herrn Poddig lei stet sowohl zur Erklarungs-wie auch zur Gestaltungsfunktion der Betriebswirtschaftslehre einen Beitrag, des sen Bedeutung sowohl hinsichtlich der allgemeinen Entscheidungstheorie als auch der speziellen Anwendung auf konkrete betriebswirtschaftliche Diagnoseprobleme nicht hoch genug eingeschatzt werden kann. Moge es die ihm gebiihrende Aufmerksamkeit und Resonanz finden. Prof. Dr. H. Rehkugler Vorwort Eine der wohl interessantesten Anwendungen des Digitalcomputers besteht darin, ihn zur Aufarbeitung der alten Frage nach der "Intelligenz" einzusetzen. Die Erforschung der Grundlage "natlirlicher" und "klinstlicher" Intelligenz mit Hilfe von Computermodellen seit dem Beginn der 50er zeigte bemerkenswerte Einsichten. Unter dem Stiehwort "neuronale Netze" erlebt diese Forschungsrichtung derzeit einen weiteren Hohepunkt. Aus winschaftswissenschaftlicher Sieht stellt sieh immer drangender die Frage, ob diese neuen Entwieklungen die Mogliehkeit eroffnen, bisher auschlieBlich Menschen vorbehaltene Tiitigkeiten zu ersetzen. In der betrieblichen Praxis bedeutet dies u.a. die Frage nach der Ersetzbarkeit bzw. nach der Ubernahme dispositiver Tiitigkeiten durch Automaten mit "klinstlicher Intelligenz". Wie dies aussehen konnte, we1che Verfahren dabei einzusetzen waren und wie deren Leistungsfiihigkeit zu beurteilen ist, versucht diese Arbeit aus einem entscheidungstheoretischen Ansatz heraus zu klaren. Die vorliegende Arbeit stellt eine flir die Veroffentlichung leieht liberarbeitete Fassung meiner Dissertation "Symbolverarbeitungsansatz der Klinstlichen Intelligenz versus Konnektionismus zur Handhabung betriebswinschaftlicher Diagnoseprobleme" dar, die dem PromotionsausschuB der Universitiit Bamberg zur Begutachtung vorlag. Sie zerflillt in zwei zu weiten Pas sagen voneinander unabhangigen Teilen, von denen der erste sieh dem Symbolverarbeitungsansatz, der zweite sieh dem Konnektionismus widmet. Flir einen schnellen Uberblick sei auf den "Abstract" verwiesen. Der kritischste Punkt im Vorwort ist sicherlieh, all denjenigen zu danken, die eine Arbeit ermoglicht, unterstlitzt und gefOrdert haben; zu leieht vergiBt man jemanden, der einem in schwierigen Phasen der Arbeit "den" richtigen Tip geben konnte. SchlieBlieh bilden sie aile die Arbeit in ihrer Gesamtheit, jedoch ermoglicht jeder "Tip" flir sieh allein betrachtet erst die Gesamtheit. So m5chte ich zunachst allen danken, die in dem genannten Sinne die Arbeit ermoglicht haben. Stellvertretend flir aile namentlieh nicht erwahnten, danke ich Herrn Dr. G. Angele von Rechenzentrum der Universitat Bamberg und Herrn Dr. H.G. Zimmermann von der Siemens AG. Herr Dr. G. Angele konnte mir in einer entscheidenden Phase wichtige Literaturhinweise geben, die aus heutiger Sicht "Gold wert" waren. Herr Dr. H.G. Zimmermann lieB mir Literatur zukommen, die ieh ohne seine Hilfe nicht hatte beschaffen konnen und die wesentlich zum Erfolg der Prognosesysteme beigetragen hat. Weiterhin danke ieh der Gruppe "Cognitive Science" an der Universitiit Bamberg flir die unschatzbare Moglichtkeit eines interdisziplinaren Gedankenaustauschs. Herrn Prof. Dr. J. Roishoven, der die Beschiiftigung mit dem Konnektionismus anregte, m5chte ieh hier ebenso danken wie insbesondere Herrn Prof. Dr. W. Ch. Zimmerli und seinen Mitarbeitern, die mich -erst leider nach AbschluB dieser Arbeit -mit den philosophischen Fragestellungen vertraut machten. Vor diesem Hintergrund wlirde ich heute diesen Fragestellungen ein wesentlich brei teres Gewicht einraumen. Meinem Zweitgutachter, Herrn Prof. Dr. W. Augsburger, und seinen Mitarbeitern danke ich fUr die jederzeitige Unterstiitzung die ich in allen Belangen erfahren habe. Ich bitte urn Nachsicht, daB ich mich bisher nicht ausreichend habe revanchieren konnen. VIII Zu groBtem Dank bin ich meinem Doktorvater, Herrn Prof. Dr. H. Rehkugler, Finanzwirtschaft, verpflichtet. Jetzt einzelne Dinge aufzahlen zu wollen, ware unangemessen, da hier auch eine noch so sorgfiiltig erfolgende Aufzahlung zwangslaufig unvollstiindig blei ben wiirde. Ich muB es daher bei einem schlichten Dank fiir Alles belassen. Weiterhin mtichte ich Frau H. Schieber fiir ihre Hilfe bei der Abfassung von weiten Teilen des Manuskriptes danken und nicht zu1etzt meiner Familie, ohne deren Riickhalt diese Arbeit sicherlich nicht mtiglich gewesen ware. Thorsten Poddig Inhaltsverzeichnis 1. Einfiihrung und Problemstellung der Arbeit ............................................................. 1 1.1. Einfiihrung in die Theorie des DiagnoseprobJems ............................................ 1 1.1.1. Vorbetrachtungen zum DiagnoseprobJem .......................................... 1 1.1.2. Ebenen des DiagnoseprobJems ......................................................... .4 1.2. Entscheidungstheorie und das DiagnoseprobJem .............................................. 7 1.2.1. Definitionen zum DiagnoseprobJem .................................................. 7 1.2.2. Die Einordnung des DiagnoseprobJems in die klassische Entscheidungstheorie ........................................................................ 9 1.2.3. Die Handhabung eines DiagnoseprobJems: Das MYCIN- Projekt .............................................................................................. 13 1.2.4. Mustererkennung durch Kiinstliche Neuronale Netze (KNN) ............ 19 1.3. Interpretationen des Diagnoseproblems ........................................................... 22 1.3.1. Die Interpretation des Diagnoseproblems als 'SchluBfolgem unter Unsicherheit'. ........................................................................... 22 1.3.2. Die Interpretation des Diagnoseproblems als Mustererkennungsproblem ................................................................ 22 1.4. Symbolische Entscheidungstheorie versus konnektionistische Entscheidungstheorie ....................................................................................... 23 1.5. Notwendige Abgrenzungen der Arbeit. ............................................................ 24 2. KiinstIiche Intelligenz und eine symbolverarbeitende Entscheidungstheorie des Diagnoseproblems .......................................... '" ................ 27 2.1. Entwicklungslinien der Kl und der Entscheidungstheorie ................................ 27 2.1.1. Einleitung .......................................................................................... 27 2.1.2. Einfliisse der KI auf die Entscheidungstheorie ................................... 27 2.1.3. Entwicklungsrichtungen in der Entscheidungstheorie ........................ 31 2.1.4. Entwicklungsrichtungen in der KI: Die ersten Expenensysteme ........ 34 2.1.4.1. Die DENDRAL-Programme ............................................... 34 2.1.4.2. Das MYCIN-Projekt ........................................................... 35 2.1.4.3. PROSPECTOR .................................................................. .37 2.1.5. Die Handhabung eines Konfigurationsproblems: Rl ........................ .39 2.2. Das einfache Diagnoseproblem ........................................................................ 42 2.2.1. Der Priidikatenkalkiil erster Stufe ..................................................... .43 2.2.2. Das Beschreiben und Erkennen von Situationen beim einfachen Diagnoseproblem ............................................................................. .46 2.2.3. Der Satz der handlungskonsistenten Zerlegbarkeit von Situationen ........................................................................................ 52 2.2.4. Semantische Netze ............................................................................ 55 2.2.4.1. Einleitung .......................................................................... .55 2.2.4.2. Geschichte und Entwicklung semantischer Netze ................ 55 2.2.4.3. Definition und Konzepte .................................................... .58 2.2.4.4. Die Framenotation .............................................................. 64 2.2.4.5. Anwendung semantischer Netze .......................................... 65 2.2.5. Die Beschreibung des Entscheidungsfelds als Framemenge ............... 67 2.2.6. Nutzung gemeinsamer Eigenschaften zur Aquivalenzklassenbildung ................................................................. 69 2.2.7. Typen des einfachen Diagnoseproblems ............................................ 71 2.2.8. Produktionssysteme und regelbasiene Systeme ................................. 73 x 2.2.8.1. Produktionsregeln zur Programmierung einer 'Erkenne-Handle-Maschine' .............................................. 74 2.2.8.2. Regeln als Wissenreprasentation ........................................ 76 2.2.8.2.1. Begriffe und Definitionen .................................... 76 2.2.8.2.2. Graphische Darstellungen von Regelmengen ....... 78 2.2.8.2.3. Typen von Wissensbasen ..................................... 82 2.2.8.2.4. Probleme von Regeln ........................................... 86 2.2.9. Die Beschreibung eines einfachen Diagnoseproblems durch Regeln .............................................................................................. 87 2.2.10. Gemeinsamkeiten und Unterschiede der vorgestellten Konzepte ....................................................................................... 89 2.3. Das allgemeine Diagnoseproblem ................................................................... 91 2.3.1. Die Besonderheiten des Diagnoseproblems ...................................... 91 2.3.2. Definition zum Diagnoseproblem ..................................................... 94 2.3.3. Methoden des probabilistischen SchlieBens (,uncertain reasoning') ....................................................................................... 97 2.3.3.1. Einleitung .......................................................................... 97 2.3.3.2. Das Bayes-Theorem als Grundlage eines Modells des 'uncertain reasoning' ......................................................... 99 2.3.3.3. Zadehs Theorie der 'fuzzy sets'. ......................................... 103 2.3.3.4. Das MYCIN-Modell .......................................................... 106 2.3.3.5. Das Prospector-Modell ....................................................... 111 2.3.3.6. Quinlans Kritik .................................................................. 115 2.3.3.7. SchluBbetrachtungen zu den vorgestellten Modellen .......... 122 2.3.4. Die Modellierung von Losungsobjekten eines Diagnoseproblems als Frame ............................................................ 127 2.3.5. Die Modellierung eines Diagnoseproblems durch Regeln ................. 132 2.3.6. Die Syntax der Regelnetznotation ..................................................... 135 2.3.7. Das Verhiiltnis von Konfigurationsproblemen zum Diagnoseproblem ............................................................................. 139 2.4. Die prozedurale Semantik von Regelnetz-und Regelnotation ......................... 142 2.4.1. Einleitung ......................................................................................... 142 2.4.2. Das Suchen in Graphen .................................................................... 143 2.4.2.1. Grundlegende Suchverfahren: Tiefen-und Breitensuche .......... , ........................................................... 144 2.4.2.2. Das Suchen optimaler Wege: Die Verzweige-und- Begrenze-Suche ................................................................. 148 2.5. Die Leistungsfiihigkeit des symbolverarbeitenden Ansatzes der KI- Forschung im Bezug auf das Diagnoseproblem .............................................. 153 2.5.1. Einleitung ......................................................................................... 153 2.5.2. Die Analyse der abstrakten Losungsebene ........................................ 156 2.5.2.1. Techniken des Wissenserwerbs als abstraktes LOsen eines Diagnoseproblems .................................................... 156 2.5.2.1.1. Knowledge Engineering und Wissensacquisition .............................................. 156 2.5.2.1.2. Automatische Induktion ....................................... 161 2.5.2.2. Eigenschaften von Heuristiken im Bezug auf das Diagnoseproblem ............................................................... 165 2.5.2.3. Anforderungen an und Eigenschaften von Heuristiken bei der abstrakten Problemlosung ...................................... 169 XI 2.5.2.4. Das Diagnoseproblem im Licht der normativen und deskriptiven Entscheidungstheorie ...................................... 175 2.5.3. SchluBbetrachtungen zum symbolischen Ansatz ................................ 181 3. Konnektionismus und eine konnektionistische Entscheidungstheorie des Diagnoseproblems ................................................................................................. 183 3.1. Einleitung ........................................................................................................ 183 3.2. Grundlagen des konnektionistischen Ansatzes ................................................. 185 3.2.1. Das biologische Vorbild neuronaler Netze ......................................... 185 3.2.2. Ein allgemeines funktionales Aquivalent neuronaler Netzwerke ........ 191 3.3. Assoziative Speicher. ....................................................................................... 194 3.3.1. Assoziative Speicher: Merkmale und Tauglichkeit fiir das Diagnoseproblem .............................................................................. 194 3.3.2. Das Grundmodell eines einfachen assoziativen Speichers .................. 199 3.3.3. Formales Modell eines einfachen assoziativen Speichers ................... 201 3.3.4. Tauglichkeit eines assoziativen Speichers zur Handhabung von Diagnoseproblemen .......................................................................... 213 3.3.5. Hopfield-Netze zur Handhabung von einfachen Diagnoseproblemen .......................................................................... 215 3.3.6. Die Boltzmann-Maschine zur Handhabung von (einfachen) Diagnoseproblemen .......................................................................... 222 3.3.7. Deterministische Varianten der Boltzmann-Maschine ........................ 231 3.4. Die Handhabung des Diagnoseprob1ems durch Perceptrons ............................. 234 3.4.1. Das einfache lineare Modell .............................................................. 234 3.4.1.1. Die Netzwerk-Topologie ..................................................... 234 3.4.1.2. Eigenschaften des einfachen linearen Modells ..................... 238 3.4.1.3. Anwendung des einfachen linearen Modells auf das Diagnoseproblem ................................................................ 240 3.4.2. Multilayer-Perceptrons ...................................................................... 242 3.4.2.1. Die verallgemeinerte Delta-Regel ....................................... 242 3.4.2.1.1. Inhaltliche Bedeutung der verallgemeinerten Delta-Regel .......................................................... 242 3.4.2.1.2. Die einfache Gradientenabstiegsprozedur in Multilayer-Perceptrons ......................................... 245 3.4.2.2. Spezifikation eines Multilayer-Perceptrons ......................... 250 3.4.2.3. Eigenschaften von Multilayer-Perceptrons .......................... 256 3.4.2.4. Eigenschaften der Delta-Regel ............................................ 267 3.4.2.5. Anwendung von Multilayer-Perceptrons auf das Diagnoseproblem ................................................................ 272 3.4.2.6. Multilayer-Perceptrons zur Approximation beliebiger Funktionen ......................................................................... 276 3.4.2.7. Die Lerngeschwindigkeit von Multilayer-Perceptrons ......... 296 3.4.2.7.1. Alternative Outputfunktionen ............................... 297 3.4.2.7.2. Functional Links und High-Order Neural Networks .............................................................. 305 3.4.2.7.3. Alternative Lernalgorithmen ................................. 313 3.4.2.7.4. Berechnung optimaler Startpunkte und stochastisches Lemen ........................................... 321 3.4.2.8. Neuere Entwicklungen: Backpropagation in non- feedforward Netzwerken ..................................................... 327 3.4.2.9. AbschlieBende Wiirdigung ................................................. .328 3.5. Alternative Modelle zur Handhabung von Diagnoseproblemen ........................ 331