ebook img

Regression: Modelle, Methoden und Anwendungen PDF

516 Pages·2009·9.21 MB·German
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Regression: Modelle, Methoden und Anwendungen

Reihenherausgeber: Prof. Dr. Holger Dette • Prof. Dr. Wolfgang Härdle Statistik und ihre Anwendungen Azizi Ghanbari, S. Einführung in die Statistik für Sozial- und Erziehungs- wissenschaft ler 2002 Bickeböller, H.; Fischer, C. Einführung in die Genetische Epidemiologie 2007 Brunner, E.; Munzel, U. Nichtparametrische Datenanalysen 2002 Dehling, H.; Haupt, B. Einführung in die Wahrscheinlichkeitstheorie und Statistik 2. Aufl age 2004 Dümbgen, L. Stochastik für Informatiker 2003 Falk, M.; Becker, R.; Marohn, F. Angewandte Statistik 2004 Franke, J.; Härdle, W.; Hafner, C. Einführung in die Statistik der Finanzmärkte 2. Aufl age 2004 Greiner, M. Serodiagnostische Tests 2003 Handl, A. Multivariate Analysemethoden 2003 Hassler, U. Stochastische Integration und Zeitreihenmodellierung 2007 Hilgers, R. -D.; Bauer, R.; Scheiber, V. Einführung in die Medizinische Statistik 2. Aufl age 2007 Kohn, W. Statistik Datenanalyse und Wahrscheinlichkeitsrechnung 2005 Kreiß, J. -P.; Neuhaus, G. Einführung in die Zeitreihenanalyse 2006 Ligges, U. Programmieren mit R 2. Aufl age 2007 Meintrup, D.; Schäffl er, S. Stochastik Th eorie und Anwendungen 2005 Plachky, D. Mathematische Grundbegriff e der Stochastik 2002 Pruscha, H. Statistisches Methodenbuch Verfahren, Fallstudien, Programmcodes 2005 Schumacher, M.; Schulgen, G. Methodik klinischer Studien 2. Aufl age 2007 Steland, A. Mathematische Grundlagen der empirischen Forschung 2004 Zucchini, W.; Schlegel, A.; Nenadic, O.; Sperlich, S. Statistik für Bachelor- und Masterstudenten 2009 Ludwig Fahrmeir Thomas Kneib Stefan Lang Regression Modelle, Methoden und Anwendungen Zweite Auflage 1 C Professor Dr. Ludwig Fahrmeir Prof. Dr. Stefan Lang Institut für Statistik Institut für Statistik Ludwig-Maximilians-Universität München Leopold-Franzens-Universität Innsburg Ludwigstraße 33 Universitätsstraße 15 80539 München 6020 Innsburg Deutschland Österreich [email protected] [email protected] Prof. Dr. Thomas Kneib Institut für Mathmatik Carl von Ossietzky Universität Oldenburg 26111 Oldenburg Deutschland [email protected] ISBN 978-3-642-01836-7 e-ISBN 978-3-642-01837-4 DOI 10.1007/978-3-642-01837-4 Springer Heidelberg Dordrecht London New York Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bib- liografische Daten sind im Internet über http://dnb.d-nb.de abrufbar. © Springer-Verlag Berlin Heidelberg 2007, 2009 Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugs- weiser Verwertung, vorbehalten. Eine Vervielfältigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzel- fall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland vom 9. September 1965 in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich vergütungspflichtig. Zuwiderhand- lungen unterliegen den Strafbestimmungen des Urheberrechtsgesetzes. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz- Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Einbandentwurf: WMXDesign GmbH, Heidelberg Gedruckt auf säurefreiem Papier Springer ist Teil der Fachverlagsgruppe Springer Science+Business Media (www.springer.com) Vorwort zur 1. Auflage Regression ist die wohl am h¨aufigsten eingesetzte statistische Methodik zur Analyse em- pirischer Fragestellungen in Wirtschafts-, Sozial- und Lebenswissenschaften. Dement- sprechend existiert auch eine Vielfalt von Modellklassen und Inferenzmethoden, ausge- hend von der klassischen linearen Regression bis hin zur modernen nicht- und semi- parametrischen Regression. Zu den meisten speziellen Klassen von Regressionsmodellen gibt es bereits eigene Lehrbu¨cher. Diese variieren zum Teil stark in Stil, mathematisch- theoretischemNiveauundAnwendungsorientierung.WarumnunnocheinBuchu¨berRe- gression?EinerhohenZahlvoneinfu¨hrendenTextenzurlinearenRegression,diesichvor- nehmlichanStudierendeundPraktikerausverschiedenenAnwendungsbereichenrichten, steht eine vergleichsweise kleine Zahl von Texten zur modernen nicht- und semiparame- trischen Regression gegenu¨ber, die jedoch in mathematisch-formaler Hinsicht wesentlich anspruchsvoller und auch deutlich theoretischer angelegt sind. Ziel dieses Buches ist eine anwendungsorientierte, einheitliche Einfu¨hrung in die para- metrische, nicht- und semiparametrische Regression, mit der diese bestehende Lu¨cke zwischen Theorie und Praxis geschlossen wird. Wesentliches Auswahlkriterium fu¨r die behandelten Methoden ist dabei insbesondere die Verfu¨gbarkeit geeigneter, benutzer- freundlicher Software gewesen. Auf solider formaler Basis werden die wichtigsten Model- le und Verfahren der Regressionsanalyse dargestellt und deren sachgerechte Anwendung vermittelt. Wir sehen dies sowohl fu¨r den Fortschritt in vielen Anwendungsdisziplinen als auch fu¨r die Entwicklung der methodischen Statistik, die ihre Motivation aus neu- en praktischen Herausforderungen erh¨alt, als wichtig an. Ein ¨ahnliches Ziel, mit etwas anderen Schwerpunkten, verfolgen Ruppert, Wand & Carroll (2003) mit ihrem Buch Semiparametric Regression“. ” Damit wendet sich dieses Buch insbesondere an Studierende, Dozenten und Praktiker in den Wirtschafts-, Sozial und Lebenswissenschaften, an Studierende und Dozenten des Fachs Statistik, sowie an Mathematiker und Informatiker mit Interesse an statistischer Modellierung und Datenanalyse. Das Buch ist soweit wie m¨oglich eigenst¨andig lesbar und setzt lediglich Kenntnisse zur elementaren Wahrscheinlichkeitsrechnung und Sta- tistik voraus, wie sie etwa in dem Einfu¨hrungsbuch von Fahrmeir, Ku¨nstler, Pigeot & Tutz (2007) vermittelt werden. Teile des Buches, die kompliziertere Details behandeln oder zus¨atzliche Informationen beinhalten, die nicht unmittelbar zum Verst¨andnis der vorgestellten Methoden notwendig sind und damit beim ersten Lesen u¨bersprungen wer- denk¨onnen,werdenamAnfangdurchdasSymbol undamEndedurchdasSymbol am Rand gekennzeichnet. Die wichtigsten Definitionen und Aussagen werden in K¨asten kompakt zusammengefasst. In zwei Anh¨angen werden die notwendigen Grundlagen zur Matrix-Algebra, sowie zur Wahrscheinlichkeitsrechnung und induktiven Statistik kom- pakt dargestellt. Abh¨angig von Interessen und Schwerpunkten k¨onnen Teile des Buches auch unabh¨angig von anderen Teilen und auch in ver¨anderter Reihenfolge gelesen werden: VI Vorwort zur 1. Auflage • Kapitel2bieteteineeinfu¨hrendeU¨bersichtzuparametrischensowienicht-undsemipa- rametrischen Regressionsmodellen, wobei auf die statistische Inferenz und technische Details bewusst verzichtet wird. • Die Kapitel 1 – 3 sind als Einfu¨hrung in lineare Modelle geeignet. • LinearegemischteModelle(Kapitel6.1–6.6)k¨onnenalsErweiterunglinearerModelle direkt anschließend, ohne Vorkenntnisse aus den Kapiteln 4 und 5, gelesen werden. • Die Kapitel 1 – 5 umfassen parametrische Regressionsmodelle fu¨r stetige und diskrete Zielvariablen. • Schließlichk¨onnenauchdieKapitel1–3,7unddieAbschnitte8.1–8.3alsEinfu¨hrung in die parametrische und semiparametrische Regression fu¨r stetige Zielvariablen stu- diert werden. • Darauf aufbauend sind Erweiterungen fu¨r diskrete Zielvariablen dann in Kapitel 4 (generalisierte lineare Modelle), Kapitel 5 (kategoriale Regression), Abschnitt 6.7 – 6.8 (generalisierte lineare gemischte Modelle) und Abschnitt 8.4 (strukturiert-additive Regression) dargestellt. Zahlreiche Anwendungsbeispiele aus unterschiedlichen Bereichen illustrieren die Modelle und Methoden. Die meisten zugeh¨origen Datens¨atze sind u¨ber die Homepage zum Buch http://www.statistik.lmu.de/~kneib/regressionsbuch/ beziehungsweise u¨ber http://www.springer.de erh¨altlich und erm¨oglichen so auch das eigenst¨andige Studium mit Hilfe realer Beispiele. Daru¨ber hinaus enth¨alt die Homepage auch Hinweise zu statistischer Software mit de- ren Hilfe die vorgestellten Verfahren angewendet werden k¨onnen, neueste Informationen zum Buch und ausfu¨hrlichere Versionen der Appendices zur Matrix-Algebra sowie zur Wahrscheinlichkeitstheorie und Inferenz. Wie fast immer verbleiben auch in diesem Buch einige Lu¨cken. Diese betreffen insbe- sondere Regressionsmodelle fu¨r Lebensdauern und multivariate Zielvariablen. Da unsere Vorgehensweise eher explorativ ausgerichtet ist, haben wir auch bewusst auf viele spezi- elle Tests, die insbesondere in der ¨okonometrischen Literatur popul¨ar sind, verzichtet. Fu¨r die Hilfe und Unterstu¨tzung beim Schreiben von Teilen des Textes, bei der Aus- arbeitung von Beispielen und beim Korrekturlesen bedanken wir uns insbesondere bei Kathrin Dallmeier, Oliver Joost, Franziska Kohl, Jana Lehmann, Cornelia Oberhauser, Sylvia Schmidt, Sven Steinert und Peter Wechselberger. Unser Dank gilt auch Lilith BraunundChristianeBeiselvomSpringerVerlagfu¨rdiestetsfreundliche,sehrguteund vor allen Dingen geduldige Zusammenarbeit. Mu¨nchen & Innsbruck, Ludwig Fahrmeir Februar 2007 Thomas Kneib Stefan Lang Vorwort zur 2., durchgesehenen Auflage Bei der vorliegenden 2. Auflage handelt es sich um eine durchgesehene und verbesser- te Version der ersten Auflage. Wir danken allen Kollegen, Freunden, Mitarbeitern und Studenten fu¨r Hinweise auf Fehler und Unstimmigkeiten ebenso wie fu¨r die positiven Ru¨ckmeldungen, die maßgeblich zur Fertigstellung dieser 2. Auflage beigetragen haben. UnserDankgiltaußerdemNielsPeterThomasvomSpringerVerlagfu¨rdieUnterstu¨tzung bei der zu¨gigen Erstellung der 2. Auflage. Um eine dauerhaft zug¨angliche Internet-Pr¨asenz fu¨r das Buch zu schaffen, ist die Home- page nun unter http://www.regressionbook.org/ erreichbar. Mu¨nchen, Oldenburg & Innsbruck, Ludwig Fahrmeir Mai 2009 Thomas Kneib Stefan Lang Inhaltsverzeichnis 1 Einfu¨hrung ......................................................... 1 1.1 Anwendungsbeispiele.............................................. 4 1.2 Erste Schritte .................................................... 11 1.2.1 Beschreibung der Verteilung der Variablen..................... 11 1.2.2 Grafische Zusammenhangsanalyse ............................ 13 Stetige erkl¨arende Variablen ................................. 13 Kategoriale erkl¨arende Variablen ............................. 16 2 Regressionsmodelle ................................................. 19 2.1 Einfu¨hrung ...................................................... 19 2.2 Lineare Regressionsmodelle ........................................ 20 2.2.1 Das einfache lineare Regressionsmodell ........................ 20 2.2.2 Das multiple lineare Regressionsmodell........................ 24 2.3 Regression bei bin¨aren Zielvariablen: Das Logit-Modell ................ 30 2.4 Gemischte Modelle ............................................... 35 2.5 Einfache nichtparametrische Regression ............................. 40 2.6 Additive Regression............................................... 44 2.7 Generalisierte additive Regression .................................. 47 2.8 Geoadditive Regression............................................ 49 2.9 Modelle im U¨berblick ............................................. 55 2.9.1 Lineare Modelle (LM, Kapitel 3) ............................. 55 2.9.2 Logit-Modell (Kapitel 4) .................................... 56 2.9.3 Poisson-Regression (Kapitel 4) ............................... 56 2.9.4 Generalisierte lineare Modelle (GLM, Kapitel 4, 5) ............. 56 2.9.5 Lineare gemischte Modelle (LMM, Kapitel 6) .................. 56 2.9.6 Additive Modelle und Erweiterungen (AM, Kapitel 7, 8) ........ 57 2.9.7 Generalisierte additive (gemischte) Modelle (GAMM, Kapitel 8).. 58 2.9.8 Strukturiert-additive Regression (STAR, Kapitel 8)............. 58 3 Lineare Regressionsmodelle ........................................ 59 3.1 Das klassische lineare Modell....................................... 59 3.1.1 Modelldefinition............................................ 59 3.1.2 Modellparameter, Sch¨atzungen und Residuen .................. 63 3.1.3 Diskussion der Modellannahmen ............................. 64 Linearit¨at des Einflusses der Kovariablen ...................... 64 Homoskedastische Varianz der St¨orgro¨ßen ..................... 64 X Inhaltsverzeichnis Unkorreliertheit der St¨orgr¨oßen .............................. 66 Additivit¨at der St¨orgr¨oßen................................... 70 3.1.4 Modellierung des Einflusses der Kovariablen ................... 72 Metrische Kovariablen ...................................... 72 Kategoriale Kovariablen..................................... 80 Interaktionen zwischen Kovariablen........................... 83 3.2 Parametersch¨atzungen ............................................ 90 3.2.1 Sch¨atzung der Regressionskoeffizienten ........................ 90 Die Methode der kleinsten Quadrate.......................... 90 Maximum-Likelihood-Sch¨atzung.............................. 92 Gesch¨atzte Werte und Residuen .............................. 93 3.2.2 Sch¨atzung der Varianz der St¨orgr¨oßen......................... 94 Maximum-Likelihood-Sch¨atzung.............................. 94 Restringierte Maximum-Likelihood-Sch¨atzung.................. 94 3.2.3 Eigenschaften der Sch¨atzungen............................... 95 Geometrische Eigenschaften des KQ-Sch¨atzers ................. 95 Streuungszerlegung und Bestimmtheitsmaß .................... 98 Statistische Eigenschaften ohne spezielle Verteilungsannahmen ... 101 Statistische Eigenschaften bei Normalverteilungsannahme ....... 103 Asymptotische Eigenschaften des KQ-Sch¨atzers ................ 105 Statistische Eigenschaften der Residuen ....................... 107 Standardisierte und studentisierte Residuen.................... 108 3.3 Hypothesentests und Konfidenzintervalle ............................ 111 3.3.1 F-Test .................................................... 113 Zusammenhang mit dem Wald-Test........................... 115 F-Test fu¨r einige spezielle Testprobleme ....................... 115 Asymptotische Eigenschaften des F-Tests...................... 119 3.3.2 Konfidenzbereiche und Prognoseintervalle ..................... 119 Konfidenzintervalle und Ellipsoide fu¨r die Regressionskoeffizienten 119 Prognoseintervalle .......................................... 121 3.4 Das allgemeine lineare Regressionsmodell ............................ 124 3.4.1 Modelldefinition............................................ 124 3.4.2 Gewichtete Methode der kleinsten Quadrate ................... 125 Gruppierte Daten .......................................... 127 3.4.3 Heteroskedastische Fehler ................................... 128 Diagnose heteroskedastischer Fehler........................... 129 Maßnahmen bei Heteroskedastizit¨at .......................... 132 3.4.4 Autokorrelierte Fehler....................................... 136 Autokorrelation erster Ordnung .............................. 137 Diagnose autokorrelierter St¨orungen .......................... 139 Maßnahmen bei Autokorrelation erster Ordnung ............... 142 Inhaltsverzeichnis XI 3.5 Bayesianische lineare Modelle ...................................... 147 3.5.1 Priori-Verteilungen ......................................... 147 3.5.2 Vollst¨andig bedingte Dichten und MCMC-Inferenz.............. 149 3.5.3 Posteriori-Verteilung........................................ 152 3.6 Modellwahl und Variablenselektion ................................. 152 3.6.1 Auswirkunge Bias, Varianz und Prognosegu¨te.................. 155 Auswirkungen auf Bias und Varianz des KQ-Sch¨atzers .......... 156 Auswirkung der Modellspezifikation auf die Prognosegu¨te........ 157 3.6.2 Modellwahlkriterien ........................................ 159 Das korrigierte Bestimmtheitsmaß ............................ 160 Mallows’ Cp ............................................... 161 Informationskriterium nach Akaike AIC ....................... 161 Kreuzvalidierung ........................................... 161 Bayesianisches Informationskriterium BIC ..................... 162 3.6.3 Praktische Verwendung der Modellwahlkriterien................ 163 3.6.4 Modelldiagnose ............................................ 168 U¨berpru¨fen der Modellannahmen............................. 168 Kollinearit¨atsanalyse........................................ 170 Ausreißer- und Einflussanalyse ............................... 173 Alternative Modellierungsans¨atze nach Modelldiagnose.......... 179 3.7 Bemerkungen und Erg¨anzungen .................................... 180 3.7.1 Literaturhinweise........................................... 180 3.7.2 Beweise ................................................... 181 4 Generalisierte lineare Modelle ...................................... 189 4.1 Bin¨are Regression ................................................ 189 4.1.1 Bin¨are Regressionsmodelle................................... 189 Logit-Modell............................................... 190 Probit-Modell.............................................. 191 Komplement¨ares log-log-Modell .............................. 191 Bin¨are Modelle als Schwellenwertmodelle latenter linearer Modelle 193 Parameterinterpretation..................................... 194 Gruppierte Daten .......................................... 195 U¨berdispersion (Overdispersion).............................. 197 4.1.2 Maximum-Likelihood-Sch¨atzung.............................. 198 Vergleich mit ML- bzw. KQ-Sch¨atzung im linearen Modell....... 201 Iterative numerische Berechnung des ML-Sch¨atzers ............. 202 Asymptotische Eigenschaften des ML-Sch¨atzers ................ 203 4.1.3 Testen linearer Hypothesen .................................. 204 4.1.4 Kriterien zur Modellanpassung und Modellwahl ................ 205 4.2 Regression fu¨r Z¨ahldaten .......................................... 210

Description:
In dieser Einführung werden erstmals klassische Regressionsansätze und moderne nicht- und semiparametrische Methoden in einer integrierten, einheitlichen und anwendungsorientierten Form beschrieben. Die Darstellung wendet sich an Studierende der Statistik in Wahl- und Hauptfach sowie an empirisch-
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.