Springer-Lehrbuch Springer-Verlag Berlin Heidelberg GmbH Carl Geiger Christian Kanzow Numerische Verfahren zurlosung unrestringierter Optimierungsaufgaben , Springer Professor Dr. Cari Geiger PD Dr. Christian Kanzow Universităt Hamburg Institut fur Angewandte Mathematik BundesstraBe 55 D-20146 Hamburg e-mail: [email protected] [email protected] Mathematics Subject Classification (1991): 65Kx.x, (49Dxx, 90CXX) ISBN 978-3-540-66220-4 Die Deutsche Bibliothek -CIP·Einheitsaufnahme Geiger, Cari: Numerische Verfahren zur Losung unrestringierter Optimierungsaufgaben I Cari Geiger: Christian Kanzow.-Berlin: Heidelberg: New York: Barcelona; Hongkong: London: Mailand: Paris: Singapur: Tokio: Springer, 1999 (Springer-Lehrbuch) ISBN 978-3-540-66220-4 ISBN 978-3-642-58582-1 (eBook) DOI 10.1007/978-3-642-58582-1 Dieses Werk ist urheberrechtlich geschiitzt. Die dadurch begriindeten Rechte, insbesondere die der Obersetzung. des Nachdrucks. des Vortrags,der Entnahme von Abbildungen und Tabellen. der Funksendung. der Mikroverfilmung oder der Vervielfaitigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen. bleiben. auch bei nur auszugsweiser Verwertung. vorbebalten. Eine VervieIfaitigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen der gesetzlicben Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland vom 9. September 1965 in der jeweils geltenden Fassung zulăssig. Sie ist grundsătzlich vergiitungs pflicbtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des Urheberrechtsgesetzes. ID Springer-Verlag Berlin Heidelberg 1999 Urspriinglich erschienen bei Springer-Verlag Berlin Heidelberg New York in 1999 Die Wiedergabe von Gebrauchsnamen. Handelsnamen. Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme. daB solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wăren und daher von jedermann benutzt werden diirften. Satz: Datenerstellung durch die Autoren unter Verwendung eines Springer MEX-Makropakets Einbandgestaltung: design c-production GmbH. Heideiberg SPIN: 10735178 4413143 -5 4 3 2 1 o -Gedruckt auf săurefreiem Papier Vorwort Das vorliegende Buch ist entstanden aus verschiedenen Vorlesungen, welche die Autoren an der Universitat Hamburg gehalten haben. Es benatigt an Grundkenntnissen neben einer gewissen Vertrautheit mit der mathematischen Sprache lediglich die mehrdimensionale Differentialrechnung sowie die lineare Algebra, wobei die wichtigsten Grundlagen auch in den Anhangen A und B zusammengefaBt sind. Das Buch soUte daher nicht nur fUr den interessierten Mathematiker nach Beendigung seines Grundstudiums lesbar sein, sondern auch Natur-, Ingenieur- und Wirtschaftswissenschaftlern einen Zugang zu Verfahren der unrestringierten Optimierung eraffnen, wobei diesen empfohlen wird, sich auf Motivation, Beschreibung und mitgeteilte Eigenschaften der Verfahren zu konzentrieren. Bei der Auswahl des Stoffes haben wir uns bewuBt auf die numeri schen Verfahren zur Losung von unrestringierten Optimierungsproblemen be schrankt, wobei wir stets davon ausgehen, daB die zu minimierende Funktion zumindest einmal stetig differenzierbar ist. Wir behandeln also keine ablei tungsfreien Verfahren; ebenso gehen wir nicht auf die Lasung von nichtli nearen Gleichungssystemen und nichtlinearen Ausgleichsproblemen ein. Zwar sind diese ProblemsteUungen eng verwandt mit der unrestringierten Minimie rung einer gegebenen Funktion, wiirden bei adaquater Behandlung aber den Rahmen dieses Buches sprengen. Durch Konzentration auf die numerischEm Verfahren zur Lasung unre stringierter Optimierungsprobleme gelang es hingegen, eine sehr umfassende Darstellung dieses Themenbereiches zu geben, die iiber die bislang existie rende Lehrbuchliteratur bei weitem hinausgeht. Dennoch muBten auch wir uns bei der Stoffauswahl beschranken, wobei die hier vorgenommenen Ein schrankungen sicherlich subjektiv sind; wir hoffen dennoch, dem Leser mit diesem Buch die fiir die numerische Praxis wichtigsten Verfahren im Detail und hoffentlich leicht verstandlich vorzustellen. Wir gehen im folgenden genauer auf den Inhalt des Buches ein und be schreiben dabei einige seiner Besonderheiten; wir wenden uns damit nattirlich mehr an den erfahrenen Dozenten als an den Studenten, der gerade erst be ginnen will, sich mit der Materie auseinanderzusetzen. Die ersten Kapitel sind absoluter Standard einer jeden Optimierungsvor lesung. Nach einer kurzen Einftihrung im Kapitel 1 gehen wir im Kapitel 2 vi Vorwort zunachst auf die notwendigen und hinreichenden Optimalitatskriterien ein, beschaftigen uns im Kapitel 3 mit der wichtigen Klasse der konvexen Funktio nen und beschreiben im Kapitel 4 bereits ein allgemeines Abstiegsverfahren, das als Grundlage fast aller spater zu beschreibenden Verfahren dient. Dabei werden auch zwei globale Konvergenzsatze bewiesen, die in den nachfolgen den Kapiteln noch mehrfach benotigt werden. Das Kapitel 5 beschreibt drei Schrittweitenstrategien, die allesamt spater noch Verwendung £lnden und die vor allen Dingen auch implementierbar sind, wobei wir mogliche Implementationen dieser Schrittweitenstrategien im Ka pitel 6 besprechen. Das wesentliche Ziel des Kapitels 7 ist der Beweis eines Charakterisie rungssatzes flir die superlineare Konvergenz einer Folge. Dieses Resultat wird spater explizit benotigt, dient vor aHem aber auch der Motivation zur Kon struktion von lokal schnell konvergenten Verfahren, so daB der Leser bereits hier ein Gefiihl dafilr bekommt, wie wohl ein Verfahren auszusehen hat, das eine lokal superlinear oder gar quadratisch konvergente Folge erzeugt. Ais Vorbereitung zum Beweis dieses Charakterisierungssatzes werden einige Lem mata bereitgestellt, die sich auch ftir die spateren Konvergenztiberlegungen als sehr wichtig erweisen werden. Mit dem Gradientenverfahren (KapiteI8) kommen wir zu unserem ersten konkreten Verfahren, ftir das - quasi zur Eingewohnung - auch ein einfacher globaler Konvergenzsatz bewiesen wird. Wir zeigen zwar, daB das Gradienten verfahren selbst La. nur ziemlich langsam konvergiert, deuten mit der Klasse der sogenannten gradientenahnlichen Verfahren allerdings auch an, wie man dieses Problem umgehen konnte. Dabei ergeben sich die gradientenahnlichen Verfahren in nattirlicher Weise als Verallgemeinerung des zuvor besprochenen Gradientenverfahrens, indem man sich den Beweis des globalen Konvergenz satzes filr das Gradientenverfahren etwas genauer anschaut. Dies ist ein erstes Beispiel ftir den induktiven Aufbau dieses Buches. Das Kapitel 9 befaBt sich mit dem Newton-Verfahren. Nach der Dar stellung der lokalen Konvergenzeigenschaften des Newton-Verfahrens be schreiben wir auch ein globalisiertes Newton-Verfahren. Zwar existieren in der Lehrbuchliteratur zahlreiche Globalisierungsstrategien ftir das Newton Verfahren, die hier gewahlte Darstellung, die neu zu sein scheint, gefallt uns jedoch im Rahmen dieses Buches besonders gut. Der Nachweis der globalen Konvergenz des Newton-Verfahrens basiert dabei in einem erheblichen Ma fie auf den Resultaten des Kapitels 8. Einige Hinweise zu einer moglichen Implementation des Newton-Verfahrens (modi£lzierte Cholesky-Zerlegung, nichtmonotone Armijo-Regel) runden das Kapitel 9 abo Ais einfache Verallgemeinerung der Newton-Verfahren betrachten wir im Kapitel 10 die Klasse der inexakten Newton-Verfahren. Der Aufbau dieses Kapitels entspricht dabei jenem des Kapitels 9: Wir gehen also zunachst auf die lokalen Konvergenzeigenschaften ein, beschreiben anschliefiend eine \Tor~ort vii Globalisierungsstrategie, die sich ebenfalls an das Kapitel 9 anlehnt, und gehen auch hier auf einige numerische Details ein. Das Kapitelll befaBt sich ausfuhrlich mit den Quasi-Newton-Verfahren. Mit den PSB-, DFP- und BFGS-Aufdatierungsformeln leiten wir zunachst die wohl wichtigsten Quasi-Newton-Formeln her. Das nachste Ziel ist der Beweis der lokal superlinearen Konvergenz des BFGS-Verfahrens, da letzte res zur Zeit immer noch das wichtigste Quasi-Newton-Verfahren darstellt. Leider ist dieser Beweis sehr langlich und technisch. 1m Hinblick auf den auch sonst induktiven Aufbau dieses Buches weisen wir aus diesem Grunde zunachst die lokal superlineare Konvergenz des PSB-Verfahrens nacho Dieses Verfahren hat zwar bei weitem nicht die Bedeutung des BFGS-Verfahrens, jedoch ist der superlineare Konvergenzbeweis flir das PSB-Verfahren we sentlich durchsichtiger als jener flir das BFGS-Verfahren und kann anschlie Bend als Grundlage fur den entsprechenden Konvergenzbeweis flir das BFGS Verfahren genommen werden. Danach gehen wir auf magliche Globalisierun gen von Quasi-Newton-Verfahren ein und beweisen insbesondere einen sehr starken globalen Konvergenzsatz fur ein globalisiertes BFGS-Verfahren bei Anwendung auf gleichmaBig konvexe Funktionen. Das Kapitel 11 wird ab geschlossen mit einigen Bemerkungen uber weitere Quasi-Newton-Verfahren sowie Hinweisen flir eine magliche Implementation. Mit den Limited Memory Quasi-Newton-Verfahren beschreiben wir im Kapitel 12 eine Variante der Quasi-Newton-Verfahren, die sich in der nu merischen Praxis bei der Lasung von groBdimensionalen Optimierungspro blemen auBerordentlich gut bewahrt hat. Dennoch werden diese Verfahren - soweit den Autoren bekannt - in keinem anderen Lehrbuch genauer betrach tet. Daher leiten wir diese Verfahren (genauer: das Limited Memory BFGS Verfahren) zunachst im Detail her, beschreiben die Konvergenzeigenschaf ten bei Anwendung auf gleichmaBig konvexe Funktionen und geben diver se Hinweise fur eine geeignete Implementation von Limited Memory Quasi Ne wton-Verfahren. 1m Kapitel13 wird mit den CG-Verfahren eine weitere Klasse von Verfah ren zur Lasung von groBdimensionalen Optimierungsproblemen untersucht. Als Motivation leiten wir hierzu zunachst das CG-Verfahren zur Lasung eines linearen Gleichungssystems her und untersuchen anschlieBend die theoreti schen Eigenschaften von zwei Varianten dieses CG-Verfahrens zur Lasung von nichtlinearen Optimierungsproblemen, namlich das Fletcher-Reeves Verfahren sowie das Polak-Ribiere-Verfahren. Dabei stellt sich heraus, daB das Fletcher-Reeves-Verfahren eine sehr zufriedenstellende Konvergenztheo rie besitzt, die fur das Polak-Ribiere-Verfahren nicht gilt, obwohlletzteres in der numerischen Praxis bevorzugt wird. Aus diesem Grunde beschreiben wir auch ein erst kurzlich vorgeschlagenes modifiziertes Polak-Ribiere-Verfahren, fur das man ein sehr schanes globales Konvergenzresultat beweisen kann. Wir runden das Kapitel13 mit einem Abschnitt uber einige weitere CG-Verfahren abo viii Vorwort In dem abschlieBenden Kapitel 14 beschaftigen wir uns sehr ausftihr lich mit der Klasse der Trust-Region-Verfahren. Diese losen eine Folge von Trust-Region-Teilproblemen, so daB wir uns zunachst intensiv mit den Eigen schaften dieses Trust-Region-Teilproblems auseinandersetzen. Wir charak terisieren zunachst die globalen Minima dieses Trust-Region-Teilproblems, untersuchen anschlieBend die sogenannten KKT-Punkte des Trust-Region Teilproblems und geben dann eine erst ktirzlich gefundene Umformulierung des Trust-Region-Teilproblems in ein unrestringiertes Minimierungsproblem unter Benutzung einer sogenannten exakten Penalty-Funktion an. Anschlie Bend beschreiben wir einen Algorithmus zur Losung des Trust-Region Teilproblems, welcher auf der Anwendung der zuvor definierten exakten Penalty-Funktion beruht. Damit wird dem Leser in diesem Buch ein rela tiv einfacher Algorithmus zur Losung des Trust-Region-Teilproblems zur Verfugung gestellt. Danach sind wir in der Lage, auf verschiedene Trust Region-Verfahren einzugehen, wobei sich die in diesem Buch beschriebe nen Trust-Region-Verfahren in der Aufdatierungsstrategie fUr den Trust Region-Radius geringfUgig von den klassischen Trust-Region-Verfahren un terscheiden, da wir fUr die hier benutzte Variante schOnere globale Kon vergenzsatze beweisen konnen: Zunachst behandeln wir das Trust-Region Newton-Verfahren, danach eine Variante, die wir hier als Teilraum-Trust Region-Newton-Verfahren bezeichnen, schlieBlich beschreiben wir ein inex aktes Trust-Region-Newton-Verfahren und beenden das Kapitel14 Lw. mit den Trust-Region-Quasi-Newton-Verfahren. Die Beschreibung der Trust Region-Verfahren in dem Kapitel 14 geht erheblich tiber die Darstellungen in sonstigen Lehrbuchern hinaus. Insbesondere wird sonst schon aus Platz grunden zumeist nur sehr spartanisch auf die Losung des Trust-Region Teilproblems eingegangen. Letzteres ist aber unumganglich fUr eine tatsachli che Implementation von Trust-Region-Verfahren. SchlieBlich enthalten praktisch aIle Kapitel, in denen wir konkrete AI gorithmen beschreiben, Tabellen mit numerischen Resultaten, die sich bei Anwendung dieser Algorithmen auf einige Standard-Testbeispiele aus dem Anhang C ergeben. Diese numerischen Abschnitte sind von zweierlei Bedeu tung: Zum einen sollen sie dem Leser einen Eindruck tiber das numerische Verhalten (manchmal auch Fehlverhalten) der angegebenen Algorithmen ge ben, zum anderen konnen die Resultate dem Leser dazu dienen, die Ergebnis se eigener Implementationen zu uberprtifen, denn die von uns durchgefUhrten Rechnungen wurden mittels MATLAB-Implementationen der in diesem Buch beschriebenen Verfahren erzielt. Diese Beispiele konnen und sollen allerdings nicht die unterschiedlichen Anwendungsbereiche der verschiedenen Verfahren (etwa groBdimensionale Probleme) wirklich ausloten. AuBerdem enthalt dieses Buch zahlreiche Aufgaben, etwa 150 an der Zahl. Diese Aufgaben sind von sehr unterschiedlichem Schwierigkeitsgrad. Einige Aufgaben dienen lediglich dazu, den Leser zu ermuntern, gewisse im Text durchgefuhrte Umformungen selbst nachzuprufen. Andere Aufgaben, auch Vorwort ix solche, zu denen keine Hinweise gegeben werden, erscheinen zunii.chst we sentlich schwerer. Wir glauben aber, daB der aufmerksame Leser mit etwas Nachdenken dazu in der Lage sein soUte, diese Aufgaben zu lasen, empfeh len allgemein aber, sich nicht wahUos eine Seite des Buches auszusuchen und dann eine beliebige Aufgabe herauszugreifen; wir betonen hier ausdriicklich, daB sich viele dieser Aufgaben erst daun als relativ leicht erweisen soUten, wenn man auch das betreffende Kapitel, in dem sich diese Aufgabe befindet, im Detail durchgearbeitet hat. Zu einer ganzen Reihe von Aufgaben werden aber auch recht ausfiihrliche Hinweise gegeben. Es wird daun dem Leser iiber lassen, diese Hinweise im einzelnen auszuarbeiten. Schlief3lich enthalten die Kapitel 8-14 jeweils mehrere Aufgaben zur Implementation, und es sei dem Leser dringend empfohlen, auch diese Aufgaben nicht einfach zu iibergehen. Ansonsten bleibt uns die Hoffnung, daf3 der Leser ahnlich viel Freude bei der Lektiire des Buches haben mage, wie wir sie beim Schreiben hatten. Fiir Hinweise auf alle Arten von Fehlern, seien es nur einfache Schreibfeh ler oder womaglich gar ernsthafte mathematische Fehler, sind wir jederzeit sehr dankbar. Wir hoffe n natiirlich, daB sich insbesondere die letztgenaunten Fehler sehr in Grenzen halten, aber: Nobody is perfect, und wir schon gar nicht. Hamburg, im Mai 1999 Carl Geiger, Christian Kanzow Bezeichnungen Der n-dimensionale (reelle) euklidische Vektorraum wird mit IRn bezeichnet. Ein Vektor x E IRn wird generell als Spaltenvektor aufgefaBt; seine Kompa nenten werden mit Xi notiert (mit €i wird gelegentlich auch die i-te Spalte der Einheitsmatrix benannt). Ist F : IRn IRm, so schreiben wir Fi fur die -t i-te Komponentenfunktion. Fur F : IRn IRm bedeutet F'(x) die Jacobi-Matrix von F im Punkt -t X E IR n. Fur eine (zweimal) stetig differenzier bare Funktion f : IR n -t IR bezeichnet V' f(x) den Gradienten und V'2 f(x) die Hesse-Matrix von f in x. Man beachte, daB der Gradient einer reellwertigen Funktion stets als Spal tenvektor aufgefaBt wird. Fur einen Vektor x E IRn bedeutet die Ungleichung x ~ 0, daB fur alle i E {I, ... , n} gilt Xi ~ 0. 1st x E IRn, so bedeutet, sofern nichts anderes gesagt wird, Ilxll die eukli dische (Vektor-) Norm. Entsprechend bezeichnet IIAII die Spektralnorm, also die durch die euklidischen Vektornorm induzierte Matrixnorm von A. Man vergleiche zum Thema "Normen" auch Anhang B. Eine Diagonalmatrix mit Diagonaleintragen aii wird mit diag(aii) notiert. Weitere verwendete Bezeichnungen sind: IR+ := {x E IRI x ~ a}, IR++ := {x E IRlx > a}, IN = {a,1,2, ... } sowie Ug(x*):= {x E IRnlllx - x*1I < c} fUr die offene Kugelumgebung urn den Punkt x*. Entsprechend wird mit Ug{x*) := {x E IRnlllx - x*1I ~ c} die zugehOrige abgeschlossene Kugelum gebung bezeichnet. SchlieBlich wird gelegentlich die 0- und O-Notation (Landau-Symbole) verwendet: Fur zwei Folgen {od, {13k} ~ IR schreiben wir Ok = O(!3k), wenn es eine Zahl C > a gibt mit lOki ~ Cj!3kl fUr alle k; wir schreiben Ok = O(!3k), wenn es eine Nullfolge {cd ~ IR+ gibt mit lOki ~ ckl!3kl fUr alle k.