Rene Henrion . Günter Henrion Multivariate Datenanalyse Methodik und Anwendung in der Chemie und verwandten Gebieten Mit 60 Abbildungen Springer-Verlag Berlin Heidelberg GmbH Dr. Rene Henrion Institut für Angewandte Mathematik Humboldt-Universität Unter den Linden 6 10099 Berlin Prof. Dr. Günter Henrion Institut für Analytische Chemie Humbold-Universität Hessische Straße 1-2 10115 Berlin ISBN 978-3-642-63357-7 Die Deutsche Bibliothek-CIP-Einheitsaufnahme Henrion, Rene: Multivariate Datenanalyse : Methodik und Anwendung in der Chemie und ver wandten Gebieten / Rene Henrion ; Günter Henrion. -Berlin ; Heidelberg ; New York ; London ; Paris; Tokyo ; Hong Kong ; Barcelona; Budapest : Springer, 1994 ISBN 978-3-642-63357-7 ISBN 978-3-642-57792-5 (eBook) DOI 10.1007/978-3-642-57792-5 NE: Henrion, Günter: Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugs weiser Verwertung, vorbehalten. Eine Vervielfliltigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland vom 9. September 1965 in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmun gen des Urheberrechtsgesetzes. © Springer-Verlag Berlin Heidelberg 1995 Ursprünglich erschienen bei Springer-Verlag Berlin Heidelberg New York 1995 Softcover reprint of the hardcover 1s t edition 1995 Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, daß solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Für die Richtigkeit und Unbedenklichkeit der Angaben über den Umgang mit Chemikalien in Versuchsbeschreibungen und Synthesevorschriften übernimmt der Verlag keine Haftung. Der artige Informationen sind den Laboratoriumsvorschriften und den Hinweisen der Chemikalien und Laborgerätehersteller und -Vertreiber zu entnehmen. Herstellung: PRODUserv Springer Produktions-Gesellschaft, Berlin Einbandentwurf: MetaDesign plus, Berlin; Satzherstellung mit TEX: Lewis & Leins, Berlin SPIN 10057897 52/3020-5 4 3 2 I 0 - Gedruckt auf säurefreiem Papier Geleitwort GroBe Datenmengen zu erzeugen ist eine Eigenart der modernen instrumentellen Analytik. Bei der Interpretation dieser Daten ist oft das Erkennen und Veran schaulichen von Zusammenhangen zwischen scheinbar weit auseinander liegen den MeBgroBen gefordert - mitunter bei sehr hohem Versuchsfehler. Fiir eine objektivierbare Auswertung greift der Chemiker in zunehmendem MaBe auf che mometrische Methoden zuriick - und daflir sucht er nach einem geeigneten Weg weiser. AIle chemometrischen Auswertemodelle sind ihrer Natur nach abstrakt. Mit den steigenden Anforderungen sind sie zunehmend kompliziert und damit in ihren Grundlagen schwer verstiindlich geworden. So besteht groBer Bedarf an einem Fuhrer, der in der Denkweise und Sprache des Chemikers den Weg zur fachgerechten Anwendung vermittelt, der aber gleichzeitig mit Darstellung des theoretischen Hintergrundes einem nicht-fachgerechten Einsatz vorbeugt. Ein solches Handwerkszeug in systematischer Form darzustellen, haben sich zwei Wissenschaftler - ein Chemiker und ein Mathematiker - zur Aufgabe ge stellt. Vor nunmehr reichlich 10 Jahren begann der Chemiker Gunter Henrion an der Berliner Humboldt-Universitiit zielstrebig, chemometrische Methoden in der Umweltanalytik, in der ProzeBkontrolle oder auch in der Klinischen Chemie einzusetzen. Seine Weiterbildungsveranstaltungen, seine Veroffentlichungen und besonders seine zur Tradition gewordenen jiihrlichen Fachtagungen haben rasch zur Verbreitung chemometrischer Methoden gefUhrt. Dabei hat die Mitwirkung seines Sohnes, des Mathematikers Rene Henrion wesentlich zum Erfolg dieser eingeschlagenen Richtung beigetragen. Sein umfangreiches Spezialwissen zu den Grundlagen der chemometrischen Modelle wie auch seine neuen theoretischen Gedankengiinge bedeuteten fUr aIle Beteiligten einen echten Gewinn. Aus ihrer beider Zusammenarbeit ist dieses Buch entstanden. Den praktisch arbeitenden Chemiker wird es durch seine vielen Beispiele zur eigenen Anwen dung der beschriebenen Methoden anregen. Der mehr theoretisch interessierte Nutzer wird mit Gewinn die mathematisch formulierte Darstellung der Grundla ge111~Solrereimt~Bl!cl:lare~~-..md~des Clrerrn~ mit Cern ~ "WlsseD rles MatilreImatikm a1s ei'nre ~ Synthese. Zum Gebiet der chemometrischen Methoden gibt es eine groBere Anzahl sehr guter englischsprachiger Bucher. 1m deutschen Schrifttum dagegen besteht an ei Ttet 2.m.'lITft1T1eT1fn1,.eru\en DM~te\\uTIg 1"1OCh am.g~pIocheneI Mange\. So 'oe~e ich es im besonderen MaBe, daB sich zwei so ideal erganzende Wissenschaftler zusammengefunden haben, urn das Gebiet der anspruchsvollen chemometrischen VI Geleitwort Methoden nun auch fiir den deutschsprachigen Leser darzustellen. Ich bin mir si cher, daB dieses Buch einen wertvollen Beitrag zur Verbreitung chemometrischer Methoden leisten wird, und daB es deshalb vielfaItiges Interesse findet. Klaus Doerffel Leipzig, im September 1994 Vorwort Die Erfassung einer fixierten MeBgroBe in einer Stichprobe und die daran an schlieBende Datenverdichtung zu statistischen Kennzahlen gehort zur Routine naturwissenschaftlicher Arbeitsweise. Mit den sich verbessemden Moglichkei ten modemer MeBtechnik entsteht der Trend zur genaueren Charakterisierung von Untersuchungsobjekten durch einen ganzen Komplex simultan bestimmter Eigenschaften. Die technische Basis hierftir liefem leistungsfahige Analysenin strumente und Computer, wiihrend die methodische Grundlage mathematisch statistische Verfahren der multivariaten Datenanalyse bilden. Diese sollen - unter dem spezifischen Blickwinkel chemisch-analytischer Anwendungen -Gegenstand des vorliegenden Buches sein. Der Zweck des Buches besteht darin, sowohl dem Anfanger eine Idee von der Wirkungsweise multivariater Methoden zu vermitteln, als auch dem erprob ten Anwender Einsicht in tiefere Zusammenhange zu verschaffen. Aus diesem Grunde findet sich neben der deskriptiven, vor all em durch Praxisanwendungen und Zahlenbeispiele untersetzten, auch eine theoretische Ebene der Darstellung. Urn bei Bedarf den Zugang zu letzterer zu erleichtem, ist ein Grundlagenkapitel eingeftigt. Es liegt in der Natur der relativ ausftihrlichen Erliiuterungen, daB nur einige der wichtigen und nicht aile relevanten Aspekte der multivariaten Daten analyse beriihrt werden konnen. Andererseits erschien es den Autoren wichtig, das modeme Gebiet der Dreiwege-Hauptkomponentenanalyse vorzustellen, da die Analyse hoherdimensionaler Datenfelder im Begriff ist, die Welt der kom plexen Versuchsanordnungen, wie sie in der Umweltchemie oder vor allem beim Einsatz gekoppelter MeBinstrumente anzutreffen ist, zu erobem. Relativ breiter Raum wird der in der Chemometrie so wichtigen Problematik der Mehrkom ponentenkalibrierung zugestanden. Wenngleich die diskutierten, konkreten Fra gestellungen, bedingt durch das Tiitigkeitsfeld der Autoren, aus der analytischen Chemie stammen, so wird es dem Leser aus einem anderen Zweig messender Wissenschaften doch nicht schwer fallen, die jeweiligen Analogien zu erkennen. Eine beigefiigte Diskette soli schlieBlich Programmiervorschliige (Turbo Pascal) fiir einige ausgewiihlte Verfahren anbieten. Die Autoren begannen vor etwa zehn Jahren aus der personlichen Konstel lation heraus eine Zusammenarbeit in der Auswertung chemisch-analytischer MeBergebnisse. Ausgangspunkt waren dabei Biicher und Publikationen von Do erffel, Ehrlich, Danzer, Eckschlager u.a. Die intensive Nutzung damals zugiingli cher Kleincomputer ftihrte zu einem ersten Buch iiber Beispiele zur Datenanalyse mit BASIC-Programmen. Die von den Autoren 1986 initiierte, und seitdem acht mal mit starker Resonanz realisierte Veranstaltungsreihe ,,Berliner Treffen zur Datenanalyse" fOrderte den Gedankenaustausch mit Vertretem anderer Wissen schaftszweige wie Medizin, Biologie, Archiiologie, Lebensmitteltechnologie usw. VIII Vorwort und machte das gro8e Potential der Anwendung mathematisch-statistischer Me thoden deutlich, was letztlich die Begriindung zur Verwirklichung des aktuellen Buchprojekts lieferte. Auf dem zUrUckgelegten Weg gab und gibt es zahlreiche Helfer, denen Dank geschuldet wird, und die nicht aIle an dieser Stelle genannt werden konnen. Ge nannt werden miissen aber Prof. K. Doerffel fiir vielfliltige, kritische Beratung, Dr. P. Heininger und Doz. Dr. H.-J. Lunk fUr unermiidliche Zusammenarbeit und Verfiigbarmachung von Datensiitzen aus der Umweltanalytik von Gewiissem und Sedimenten bzw. aus der Spurenanalytik von Materialien der Lampenin dustrie sowie Dipl. Chern. I. Fabian fUr umfangreiche Literatursammlung bzw. -aufarbeitung und analytische Beitriige. Fiir viele Jahre der Mitarbeit danken wir Herm Dr. A. Henrion, auf dessen Initiative unsere gemeinsame Beschiiftigung mit dem multivariaten Aspekt der Datenanalyse zuriickgeht. Ein besonderes Bediirf nis ist es uns, dem Springer-Verlag in Person von Herrn P. Enders zu danken, der uns unmittelbar nach der Zeit der Isolation das Angebot zu diesem Buch machte, und der uns konstruktiv und geduldig bis zu dessen Fertigstellung begleitete. SchlieBlich gilt dem Fonds der Chemischen Industrie Dank fiir die Beihilfe zur Verbesserung der rechentechnischen Ausstattung. R. Henrion und G. Henrion Berlin im September 1994 Inhaltsverzeichnis Die Diskette zum Buch . XI 1 Einleitung...... 1 2 Hauptkomponentenanalyse 10 2.1 Einleitung . . . . . . . 10 2.2 Praktische Realisierung 15 2.3 Interpretationshilfen . . 21 2.4 Bestirnrnung der Zahl signifikanter Hauptkomponenten . 29 2.5 Literaturhinweise ..... . 34 2.6 Mathematische Erganzungen 35 3 Clusteranalyse ......... . 44 3.1 Einleitung . . . . . . . . . . 44 3.2 Hierarchische Clusteranalyse 45 3.3 Optimierende Clusterung .. 51 3.4 Potential- und Fuzzy-Clusterung . 58 3.5 Literaturhinweise ..... . 62 3.6 Mathematische Erganzungen 63 4 Uberwachte Klassifikation . . . . 67 4.1 Einleitung . . . . . . . . . . 67 4.2 Methode der k niichsten Nachbarn 69 4.3 Schiitzung der Klassifikationsfehlerrate 71 4.4 Lineare Diskriminanzanalyse 73 4.5 Bayessche Klassifikation . 83 4.6 Variablenreduktion.. 87 4.7 ALLOC und SIMCA .. 89 4.8 Literaturhinweise .... 96 4.9 Mathematische Erganzungen 97 5 Methoden der multivariaten linearen Regression 103 5.1 Einleitung . . . . . . . . . 103 5.2 Multiple lineare Regression . . . 105 5.3 Variablenreduktion........ 112 5.4 Mehrkomponentenkalibrierung 116 5.5 Multikollinearitiitenproblem. 129 5.6 Hauptkomponentenregression 134 5.7 Partial Least Squares .... 144 X Inhaltsverzeichnis 5.8 Literaturhinweise ...... 151 5.9 Mathematische Erganzungen 154 6 Dreiwege-HauptkomponentenanaIyse 158 6.1 Einleitung . . . . . . . . . . . . 158 6.2 Vereinfachte Analyse mittels Entfaltung . 159 6.3 Varianten der Datenstandardisierung. . . 163 6.4 Tuckers Modell der Dreiwege-Hauptkomponentanalyse . 166 6.5 Der ALS-Algorithmus . . . . . . . . . . . . . . 171 6.6 Core-Matrix: Interpretation und Transformation. 176 6.7 Anwendungsbeispiele . . . . 183 6.8 Literaturhinweise ...... 189 6.9 Mathematische Erganzungen 190 7 Grundlagen............ 194 7.1 Vektoren........... 194 7.2 Skalarprodukt, Norm, Abstand und Winkel 196 7.3 KenngroBen statistischer Variablen 198 7.4 Unterraum, Dimension und Basis 200 7.5 Matrizen.............. 203 7.6 Spezielle Matrizen . . . . . . . . . 208 7.7 Cholesky-Zerlegung symmetrischer Matrizen mit positiven Eigenwerten . . . . . . . . . . . . . . . . . . . . . . . . . 214 7.8 Eigenwerte, Eigenvektoren und Spur quadratischer Matrizen . 217 7.9 Ableitung nach Vektoren und Matrizen; Projektion auf einen Unterraum . . . 222 7.10 Alternative Abstande 227 Anhang: Datensatze 229 Literatur .. . . 246 Sachverzeichnis . . . 259 Die Diskette zum Buch Programmbeschreibung Das Programm Multidat bietet die Moglichkeit, einige der im Buch vorgestellten Verfahren an konkreten Beispielen zu erproben und Erfahrungen im Umgang mit Datentabellen zu sammeln. Das Programm soll keine professionelle Statistik-Software ersetzen, sondem dem Leser helfen, das mit dem Buch erworbene Wissen zu erproben. Speziell handelt es sich urn die Hauptkomponentenanalyse, die hierarchische und nichthierarchische Clusteranalyse, die Methode der "nachsten Nachbam" aus der uberwachten Klassifizierung sowie die lineare Diskriminanzanalyse. Zur Er leichterung des Kennenlemens der Wirkungsweise der Programme liegen mehrere der im Buch behandelten Datenbeispiele auf der Diskette vor. Aus Grunden der Vollstiindigkeit sind neben den ausfLihrbaren Programmen auch die Quelltexte (Turbo-Pascal) der Unterprogramme (Units) enthalten. Hard- und Software Voraussetzungen zurn Benfitzen der Diskette Personalcomputer ab 80286-Prozessor, Numerik-Prozessor optional, MS-DOS ab V. 4.1, VGA-Monitor, Druckertreiber, der Hardcopy-Ausdrucke von Graphiken auf dem Bildschirm erlaubt; ist ein solcher Treiber nicht vorhanden, lauft das Programm problemlos, aber es lassen sich keine Ausdrucke der Graphiken er zeugen. (Solche Treiber fLir Matrixdrucker sind in MS-DOS enthaIten, fur Tintenstrahl oder Laserdrucker sind sie meist von den Gerateherstellern zu erhalten, falls sie nicht bereits mit dem Gerat ausgeliefert wurden. In Zweifelsfallen konsultieren Sie bitte Ihre Drucker- und DOS-Handbucher und Betriebsanleitungen.)
Description: