ebook img

Angewandte Methoden der Mathematischen Statistik: Lineare, loglineare, logistische Modelle Finite und asymptotische Methoden PDF

415 Pages·1996·8.376 MB·German
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Angewandte Methoden der Mathematischen Statistik: Lineare, loglineare, logistische Modelle Finite und asymptotische Methoden

Teubner Skripten zur Mathematischen Stochastik Helmut Pruscha Angewandte Methoden der Mathematischen Statistik Teubner Skripten zur Mathematischen Stochastik Herausgegeben von Prof. Dr. rer. nat. JOrgen Lehn, Technische Hochschule Darmstadt Prof. Dr. rer. nat. Norbert Schmitz, Universitat MOnster Prof. Dr. phil. nat. Wolfgang Weil, Universitat Karlsruhe Die Texte dieser Reihe wenden sich an fortgeschrittene Studenten, junge Wissenschaftler und Dozenten der Mathematischen Stochastik. Sie dienen einerseits der Orientierung Ober neue Teilgebiete und erm6glichen die rasche Einarbeitung in neuartige Methoden und Denk weisen; insbesondere werden Uberblicke Ober Gebiete gegeben, fOr die umfassende LehrbOcher noch ausstehen. Andererseits werden auch klassische Themen unter speziellen Gesichtspunkten behandelt. Ihr Charakter als Skripten, die nicht auf Volistandigkeit bedacht sein mOssen, erlaubt es, bei der Stoffauswahl und Darstellung die Lebendig keit und Originalitat von Vorlesungen und Seminaren beizubehalten und so weitergehende Studien anzuregen und zu erleichtern. Angewandte Methoden der Mathematischen Statistik Lineare, loglineare, logistische Modelle Finite und asymptotische Methoden Von apl. Prof. Dr. rer. nat. Helmut Pruscha Universitat Munchen 2., uberarbeitete und erweiterte Auflage m B. G. Teubner Stuttgart 1996 apl. Prof. Dr. rer. nat. Helmut Pruscha Geboren 1943 in Teplitz-Schbnau. Von 1964 bis 1969 Studium der Mathematik und Physik an den Universitaten Bonn, Freiburg i. Br. und MOnchen. 1969 Oiplom, 1975 Promotion und 1985 Habilitation im Fach Mathematik an der Universitat MOnchen. Von 1969 bis 1978 Stipendiat bzw. Assistent am Max-Planck-Institut fOr Psychiatrie in MOnchen. 1975/76 Gastaufenthalt an der Universitat Laval (Quebec). Seit 1978 Akademischer Rat und Ober rat am Mathematischen Institut der Universitat MOnchen. Die Deutsche Bibliothek -CIP-Einheitsaufnahme Pruscha, Helmut: Angewandte Methoden der mathematischen Statistik ; lineare, loglineare, logistische Modelle ; finite und asymptotische Methoden I von Helmut Pruscha. - 2., Oberarb. u. erw. Aufl. Stuttgart: Teubner, 1996 (Teubner-Skripten zur mathematischen Stochastik) ISBN 978-3-519-12726-0 ISBN 978-3-322-90903-9 (eBook) 00110.1007/978-3-322-90903-9 Das Werk einschlieBlich aller seiner Teile ist urheberrechtlich geschOtzt. Jede Verwertung auBer halb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulassig und strafbar. Das gilt besonders fi.ir Vervielfiiltigungen, Ubersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. © B. G. Teubner, Stuttgart 1996 Softcover reprint of the hardcover 1s t edition 1996 Herstellung: Druckhaus Beltz, Hemsbach/BergstraBe Umschlaggestaltung: M. Koch, Reutlingen VOR'W'"ORT Der Begriff "angewandt" hat in der Mathematik im allgemeinen und in der mathe matischen Statistik im besonderen eine schillemde Bedeutung; er wird in Situatio nen verwendet, die von der tatsachlichen Anwendung ganz unterschiedlich weit entfemt sind. Wir wollen hier unter "angewandten Methoden" der mathematischen Statistik ein Teilgebiet der mathematischen Statistik verstehen, welches nach den BedUrfnissen des numerischen Anwenders ("Endverbrauchers") ausgerichtet ist und diesen auch mit Formeln und Verfahren versorgen kann. Tatsachlich werden die meisten Methoden, die im folgenden besprochen werden, von der statistischen Software wie SPSS, SAS und BMDP unterstlitzt. Das Programm, das im vorliegen den Text verwirklicht werden solI, ist demnach das folgende: Aus den mathemati schen Grundlagen der Stochastik heraus werden die einzelnen Verfahren bis zur anwendbaren Formel hin mathematisch deduktiv abgeleitet, und praxisbezogene Hinweise sowie Fallstudien illustrieren die numerische Anwendung. Damit sol1 eine BrUcke gespannt werden von theoretischen Darstellungen der mathematischen Sta tistik (wie etwa Witting (1985); Witting & Nolle (1970)), deren optimierungstheoreti scher Standpunkt hier nicht Ubemommen werden kann, bis zu AnwendungsbUchem (wie etwa Hartung et al (1982), Linder & Berchtold (1982)), auf deren Methoden vielfalt und Beispielfulle hier ebenfalls verzichtet werden muf3. Angesprochen wer den solI der mathematische Stochastiker, der den Weg zur Anwendung in der ihm gewohnten Weise - namlich der deduktiven - gehen will (der historische Weg ver lief natlirlich in umgekehrter Richtung), als auch der ehrgeizige Anwender der Sta tistik, der etwas von den HintergrUnden der von ihm benutzten Verfahren kennen lemen will. Vorausgesetzt wird beim Leser ein Grundkurs in der mathematischen Stochastik, wie ihn die meisten Hochschulen inzwischen anbieten und wie er etwa in der Dar stellung von Behnen & Neuhaus (1984) verwirklicht ist. Der Grof3teil der benotigten Begriffe und Resultate wird auch im ersten Kapitel des vorliegenden Textes zu sammengestellt bzw. im ANHANG erglinzt, so daB eine einsemestrige Vorlesung als Vorbereitung genUgen konnte. Entsprechend den geforderten Vorkenntnissen bewegt sich die Darstellung auf einem mittleren mathematischen Niveau. 1m vorliegenden Text steht zunachst das lineare Modell der Statistik mit seinen vielseitigen Anwendungsmoglichkeiten (Varianz-, Regressionsanalyse) im Mittel punkt. Dann werden - als ein zweiter Schwerpunkt - asymptotische statistische Methoden prasentiert, mit deren Hilfe wichtige nichtlineare Modelle einheitlich be handelt werden konnen. Darunter sind die Modelle mit Linkfunktionen (wie z.B. der logistischen), die auch verallgemeinerte line are Modelle genannt werden, als auch log-lineare Modelle zur Auswertung von Kontingenztafeln. Die vorliegende Darstellung beschrankt sich auf parametrische statistische Verfah- 4 VORWORT ren; nichtparametrische (verteilungsfreie) Methoden sind nicht aufgenommen wor den. Das mag manchem unentschuldbar erscheinen, denn parametrische Verfahren gehen mit Verteilungsannahmen einher. Doch kann man sich diesen oft durch Transformieren der Ausgangsdaten niihem, oder aber man kann ihre Wichtigkeit durch Erzielen eines groBen Stichprobenumfangs und durch Wahl asymptotischer Methoden abschwachen. ErfahrungsgemaB ziehen die meisten Anwender dies en Umweg (Uber Datentransformation und / oder Asymptotik) der Benutzung nichtpa rametrischer Verfahren vor. Letztere sind namlich in der Statistik-Software nur schwach vertreten und bieten wohl auch (noch) nicht diese Methoden- und Inter pretations-Vielfalt, wie es die parametrischen Verfahren tun. Die zuktinftige Ent wicklung der Statistik-Software, basierend auf immer leistungskriiftigeren Rech nem, konnte die Einstellung der Anwender andem. Der Stoff der vorliegenden Darstellung ist Vorlesungen entsprungen, die der Autor an den Universitaten MUnchen und Hannover gehalten hat. Er kann in einer zwei semestrigen Vorlesung vorgetragen werden. Dabei kann im ersten Semester Kap I 1,2 Kap II 1 Kap III Kap IV Kap V (die beiden letzten ganz oder teilweise) behandelt werden, wiihrend Kap I 3,4 Kap II 2,3 Kap VI Kap VII Kap VIII dem zweiten Semester vorbehalten sind. Die in den Text eingestreuten Fallstudien stammen aus statistischen Beratungen und Praktika, die der Autor seit Jahren am Mathematischen Institut der Universitat MUnchen {Lehrstuhl Prof. Dr. P. Ganssler} durchfijhrt. NaturgemaB wurden die einzelnen Kapitel durch diejenigen BUcher (Artikel) beein fluBt, mit deren Hilfe ich mich in die Materie einarbeitete. So lemte ich lineare Modelle vor allem durch Nollau (1975) und Schach & Schafer (1978) kennen, die asymptotische Maximum-Likelihood Theorie zuerst durch Billingsley (1961) und Feigin (1975), verallgemeinerte line are Modelle (also Modelle mit Linkfunktionen) durch Fahrmeir & Hamerle (1984, Kap. 7), Fahrmeir & Kaufmann (1985), log-line are Modelle zur Kontingenztafel-Analyse durch Bishop et al (1975) und Christensen (1987, Chap. XV). Viel zur Verbesserung des Textes beigetragen haben Zuhorer meiner Vorlesungen; insbesondere danke ich Herm K. Ziegler. Frau Sauer und Frau Haitz-Sutor schrie ben Vorfassungen des Textes; das endgtiltige Manuskript erstellte Frau A. Kottmayr mit Hilfe des Textsystems SIGNUM2 in einem derartigen Tempo, daB ich oft mit dem Nachschub in Verzug kam. MUnchen, im Januar 1989 . VORWORT 5 Vorwort zur zweiten Auflase Fur die vorliegende zweite Auflage wurden zunachst der ganze Text durchgesehen und aile bekannt gewordenen Druckfehler korri giert. Unter Benutzung von SI GNUM3 konnte das Druckbild des Textes -hoffentlich- verbessert werden. Ferner wurden einige Erganzungen vorgenommen. Die varianzstabilisierenden Transformationen aus 11.2 werden nun durch ein numerisches Beispiel illustriert. In der Theorie des linearen Modells, siehe IIU, werden jetzt zwei Beweismethoden parallel angeboten: Neben der Benutzung kanonischer Basen tritt gleichwertig die Verwendung von Projektionsmatrizen. Dazu sind in I 2.4 und I 2.5 jeweils ein Satz 2 und im Anhang A der Punkt 1.5 tiber Projektionsmatrizen hinzugetreten (Stoff, den man bei Verwendung kanonischer Basen nicht braucht). Die varianzanalyti schen Methoden wurden in IV. 2 urn Split-Plot Designs vermehrt, die regressions analytischen Methoden in V.5 urn das nichtlineare Regresssionsmodell. Zu den ver allgemeinerten linearen Modellen in Kap. VII wurden weitere Rechenformeln und SpezialfaIle beigesteuert. Eine besondere Erweiterung erfuhren die asymptotischen Methoden. Das fur die asymptotische Statistik zentrale Kap. VI wurde in mehrfacher Hinsicht erweitert: 1. Ausgangspunkt sind nun allgemeine Schatzfunktionen und Schatzgleichungen, weIche die -in Kap VI bislang allein behandelten- log Likelihoodfunktionen bzw. Maximum-Likelihood Gleichungen als Spezialfall enthalten. 2. Die asymptotischen Kovarianzmatrizen, die in Zusammenhang mit der ersten und zweiten Ableitung der Schatzfunktion auftreten, werden nicht langer als identisch angenommen. 3. Neben den Teststatistiken yom Typ des log Likelihood-Quotienten werden noch soIche yom Waldschen Typ und yom Score-Typ analysiert. Anwendungen der asymptotischen Methoden finden sich nun zusatzlich in III.1 und V.5 auf den Minimum-Quadrat Schatzer des linearen bzw. des nichtlinearen (Re gressions-}Modells und in V.2 auf ON-Reihen Schatzer einer Regressionsfunktion. An dieser Stelle wird der Kontakt zur nichtparametrischen Kurvenschatzung her gestellt, einer Disziplin, die in den letzten Jahren in den Anwendungen machtig an Bedeutung gewonnen hat, deren Aufnahme den Rahmen dieses Bandes allerdings sprengen wiirde. Zu Dank verpflichtet bin ich den Herren Dr. A. Ziegler (Marburg), Dr. K. Ziegler, Dr.F. Strobl, U. Wellisch, A. Luhm (alle Mtinchen) sowie Frau C. Dohlus (Garmisch Partenkirchen). Sie haben Fehler entdeckt, Verbesserungsvorschlage gemacht und erganzenden Stoff beigesteuert. Mtinchen, im November 1995 Helmut Pruscha INHALTSVERZEICHNIS EINLEITUNG 11 KAP I GRUNDLAGEN AUS DER STOCHASTIK o. Vorbemerkung 13 1. Mehrdimensionale Zufallsvariablen 13 2. Mehrdimensionale Normalverteilung 19 3. Exponentialfamilien 25 4. Maximum-Likelihood Methode 32 KAP n VORBERElTENDE VERFAHREN o. Vorbemerkung 39 1. Planung des Stichprobenumfangs 39 2. Variablentransformation 45 3. X2_Anpassungstests 54 m KAP DAS LINEARE MODEU.. DER STAllSTIK O. Vorbemerkung 62 1. EinfUhrung in das lineare Modell 62 2. Spezialfiille 69 3. Schatzen der Modellparameter 74 Schatzen von J1., j3 ,,;z 75 N ebenbedingungen 82 Gewichtetes line ares Modell 85 4. Lineare Schatzer und ihre Verteilung 87 5. Konfidenzintervalle 94 6. Testen linearer Hypothesen 100 KAP IV VARIANZANALmSCHE MODEILE O. Vorbemerkung 109 1. Einfache Klassifikation 109 2. Zweifache Klassifikation 119 KreuzklassiFlkation 119 Hierarchische Klassifikation 130 Split-Plot Design 134 3. Dreifache Klassifikation 141 Kreuzklassifikation 142 Hierarchische Klassifikation 144 Lateinisches Quadrat 146 7 KAP V UNEARE REGRESSION UND VERWANDTE MEnlODEN o. Vorbemerkung 151 1. Lineare Regressionsanalyse 151 2. Regressionsfunktionen 171 3. Korrelationsanalyse 180 Bivariate Korrelation 181 Multiple Korrelation 186 Partielle Korrelation 190 4. Kovarianzanalyse 200 Einfache Kovarianzanalyse 200 Zweifache Kovarianzanalyse 204 5. Nichtlineare Regressionsanalyse 213 KAP VI ASYMPTOTISCHE STATISTISCHE MElHODEN O. Vorbemerkung 219 1. Asymptotisches Verhalten von Schatzerfolgen 220 2. Asymptotisches Testen von Hypothesen 232 Test einer einfachen Hypothese 232 Zusarnmengesetzte Hypothen, log LQ 234 3. Score- und Wald-Test 242 Score Teststatistik 242 Wald Teststatistik 247 4. Pearson-Fisher Teststatistiken 252 5. Hinreichende Bedingungen zur asymptotischen Theorie 257 Bedingung W* 258 Bedingung u* 261 KAP VII VERAILGEMEINERTES UNEARES MODElL (GLM) o. Vorbemerkung 268 1. Einflihrung in die Modelle mit Linkfunktionen 269 Univariate GLM 269 Multivariate GLM 276 2. Spezielle GLM 279 3. Schatzen und Testen 288 Berechnung des ML-Schatzers 288 Asymptotische ML-Theorie 293 4. Statistische Analyse spezieller GLM 297 KAP VIII ANALYSE VON KON11NGENZrAFELN o. Vorbemerkung 308 1. Unabhangigkeitsproblem 308 2. Homogenitatsproblem 319 8 3. Log-lineare Modelle 327 4. Zweidimensionale log-line are Modelle 340 Vollstandige Tafeln 340 Unvollstandige Tafeln 343 5. Mehrdimensionale log-line are Modelle 349 Dreidimensionale Modelle 349 Logit-Modelle 360 Vierdimensionale Modelle 362 ANHANGE A ERGANzUNGEN AUS DER MATRIZENLEHRE 1. Symmetrische Matrizen 368 2. Ellipsoide 372 3. Ableitungsvektoren und -Matrizen 373 B ERGANZUNGEN AUS DER STOCHAS11K 1. Testverteilungen 375 2. Grundbegriffe aus der mathematischen Statistik 382 Signifikanztests und ihre GUtefunktion 382 Konfidenzintervalle 386 Parameterschatzung 388 3. Grenzwertsatze 390 Fast sichere, stochastische Konvergenz 390 Verteilungskonvergenz 394 Zentrale Grenzwertsatze 397 UTERATURVERZEICHNIS 404 SACHVERZEICHNIS 409

See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.