Rönz / Förster· Regressions- und Korrelationsanalyse Bernd Rönz / Erhard Förster Regressions- und Korrelations anal yse Grundlagen - Methoden - Beispiele GABLER Dr. Bemd Rönz ist Hochschuldozent für Statistik an der Humboldt-Universität zu Berlin. Prof. Dr. habil. Erhard Förster lehrt Statistik an der Humboldt-Universität zu Berlin. Er ist Autor zahlreicher Publikationen zu diesem Gebiet. Die Deutsche Bibliothek - CIP-Einheitsaufnahme Rönz, Bernd: Regressions-und Korrelationsanalyse : Grundlagen, Methoden, Beispiele I Bernd Rönz ; Erhard Förster.-Wiesbaden: Gabler, 1992 ISBN 978-3-409-13019-6 ISBN 978-3-322-96496-0 (eBook) DOI 10.1007/978-3-322-96496-0 NE: Förster, Erhard: Der Gabler Verlag ist ein Unternehmen der Verlagsgruppe Bertelsmann International. © Betriebswirtschaftlicher Verlag Dr. Th. Gabler GmbH, Wiesbaden 1992 Softcover reprint of the hardcover 1s t edition 1992 Lektorat: Jutta Hauser-Fahr Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Ver wertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustim mung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfälti gungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbei tung in elektronischen Systemen. Höchste inhaltliche und technische Qualität unserer Produkte ist unser Ziel. Bei der Produktion und Ausliefe rung unserer Bücher wollen wir die Umwelt schonen: Dieses Buch ist auf säurefreiem und chlorfrei gebleich tem Papier gedruckt. Die Einschweißfolie Polyäthylen besteht aus organischen Grundstoffen, die weder bei der Herstellung noch bei der Verbrennung Schadstoffe freisetzen. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, daß solche Namen im Sinne der Warenzeichen und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Vorw-ort Die Untersuchung von Abhängigkeiten und Zusammenhängen in der Mikro und Makroökonomie wird schon seit langem in großem stil durchge führt. So wird versucht, mittels Verbrauchs-, Produktions- und Ko stenfunktionen, um nur einige zu nennen, die Faktoren zu betrachten, die wesentlich auf der Grundlage von Ursache-Wirkungs-Beziehungen den jeweiligen ökonomischen Prozeß beeinflussen. Das gilt für Ent scheidungen im Rahmen der Unternehmens führung ebenso wie im Manage ment und im Marketing. Dabei spielt nicht nur die verbale Beschrei bung der Abhängigkeiten und Zusammenhänge aus wirtschaftstheoreti scher Sicht eine Rolle, sondern vor allem ihre statistische Erfas sung, das heißt die zahlenmäßige Messung ihrer Intensität und die Beschreibung ihrer Form. Die Regressions- und Korrelationsanalyse ist ein Teilgebiet der Statistik, das die zahlenmäßige Erfassung und Analyse von Abhängigkeiten und Zusammenhängen zum Inhalt hat. Wäh rend die Regressions- und Korrelationsanalyse in mathematisch-stati stischen Büchern im allgemeinen mehr oder weniger intensiv abgehan delt wird, haben wir uns das Ziel gesetzt, eine geschlossene Ein führung in die Grundzüge der Regressions- und Korrelationsanalyse anzubieten. Dabei sollen die Grundprobleme der Regressions- und Kor relationsanalyse vor allem dem in der ökonomischen Praxis Tätigen, Studenten wirtschaftswissenschaftlicher Fachbereiche und Mitarbei tern von Wirtschaftsforschungsinstituten nähergebracht werden. Die angeführten Beispiele wurden deshalb fast ausschließlich aus dem wirtschaftlichen Bereich gewählt. Das schließt nicht aus, daß Inter essierte aus anderen Bereichen, wie Technik und Medizin, durch die Lektüre dieses Buches Anregungen für ihre Arbeit erhalten. Da diese Ausführungen anwendungsbezogen zu verstehen sind, wurde auf eine strenge Beweisführung in der Regel verzichtet, ohne die Exaktheit der Betrachtungen zu vernachlässigen. Personalcomputer bzw. Zugang zu größeren EDV-Anlagen sowie ausge feilte statistische Software erleichtern die Anwendung der Regres sions- und Korrelationsanalyse mit ihren zum Teil umfänglichen Be rechnungen erheblich. Um so wichtiger werden sichere Kenntnisse der theoretischen Voraussetzungen, der richtigen Auswahl der Methoden sowie der Interpretation der Ergebnisse, um einer schematischen Nut zung der Methoden und möglichen statistischen Fehlleistungen vorzu beugen. Grundlegende Begriffe und Verfahren werden deshalb ausführ lich erläutert und an nachvollziehbaren Beispielen gezeigt. Bei der Bearbeitung des Stoffes wurde auf das von den gleichen Auto ren ver faßte Fachbuch "Methoden der Korrelations- und Regressions analyse - ein Leitfaden für ökonomen", erschienen im Verlag Die Wirtschaft, Berlin 1979, zurückgegriffen, jedoch der Inhalt vollkom men überarbeitet, neu strukturiert und um einige Problemkreise er- V weitert. Bei der Behandlung der Regressions- und Korrelationsanalyse haben wir uns von folgenden überlegungen leiten lassen: Die Anwendung sta tistischer Methoden hängt grundsätzlich von der Maßskala der einbe zogenen statistischen Merkmale (Variablen) ab. Schwerpunkt dieses Buches ist die Darstellung der Regressions- und Korrelationsanalyse für kardinal- bzw. metrisch skalierte Variablen (bis einschließlich Kapitel 12). Dabei dominiert die Zugrundelegung linearer Beziehungen zwischen den Variablen (bis einschließlich Kapitel 10.), da sich eine Vielzahl von ökonomischen Abhängigkeiten gut durch lineare Re gressionsfunktionen erfassen bzw. hinreichend genau approximieren lassen. Die lineare Regression und Korrelation wird zunächst im Sin ne der statistischen Deskription behandelt. Darauf aufbauend erfolgt in den Abschnitten 2.6., 2.7., 3.2. und vor allem im 5. Kapitel der übergang zur induktiven Regressions- und Korrelationsanalyse (den Schätz- und Testverfahren). Dies soll Lesern mit unterschiedlichen Statistik-Vorkenntnissen ein selektives Lesen ermöglichen. Die Kapitel 6 - 8 sind speziellen Problemen der linearen Regres sions- und Korre lationsanalyse gewidmet, mit denen der Anwender häufig konfrontiert wird. Mit Kapitel 10 soll eine Brücke zur ökono metrie geschlagen werden, um auf diese weitreichende Nutzung der Re gressionsanalyse aufmerksam zu machen. Die Kapitel 11. und 12. enthalten einen Ausblick auf die statisti sche Erfassung nichtlinearer Abhängigkeiten und Zusammenhänge. Im Kapitel 13 werden einige Zusammenhangsmaße für ordinalskalierte und nominalskalierte Variablen erläutert. Im Rahmen dieser Einführung in die Regressions- und Korrelations analyse kann nicht das breite Spektrum dieser statistischen Methode mit ihren vielen Spezialfällen behandelt werden. Ein umfangreiches Literaturverzeichnis soll Anregung für tiefergehende Studien geben. Bernd Rönz, Erhard Förster VI Iriba1ts~erzeichnis 1. Grundbegriffe der Regressions- und Korrelationsanalyse .... 1 1.1. Abhängigkeiten und Zusammenhänge. ............ ... ..... 1 1. 2. Begriff der Regression ............................... 4 1.3. Begriff der Korrelation ..... ........ ... ......... ..... 10 1.4. Aufgaben der Korrelations- und Regressionsanalyse 13 1.5. Historische Entwicklung der Korrelations- und Regressionsanalyse 17 2. Lineare Regression.... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.1. streuungsdiagramm .................................... 22 2.2. Methode der bedingten Mittelwerte .......... , .... ..... 24 2.3. Einfache lineare Regression ...... , ... ...... ..... ..... 27 2.3.1. Regressionsgerade nach der Methode der klein- sten Quadrate (nicht gruppiertes Material) .... 30 2.3.2. Regressionsgerade bei gruppierten Daten ....... 38 2.4. Multiple lineare Regression ........ ... ... ...... ...... 43 2.5. Partielle lineare Regression......................... 57 2.6. Voraussetzungen der Regressionsschätzungen . ... .... ... 59 2.7. Eigenschaften der Regressionsschätzungen .......... ... 71 2.8. Gesichtspunkte der praktischen Regressionsanalyse .... 78 3. Güte der Regression 81 3.1. Bestimmtheit der Regression ......................... . 81 3.1.1. Einfache Bestimmtheit ........................ . 83 3.1.2. Multiple Bestimmtheit ........................ . 86 3.1.3. Partielle Bestimmtheit ....................... . 91 3.1.4. Innere Bestimmtheit .......................... . 92 3.2. Standardfehler ...................................... . 94 4. Lineare Korrelation 106 4.1. Einfache lineare Korrelation ....................... ,. 106 4.1.1. Einfache lineare Korrelation bei nichtgruppierten Angaben ..................... . 106 4.1.2. Einfache lineare Korrelation bei gruppierten Angaben ...................................... . 110 4.1.3. Beziehungen zwischen einfachem Korrelations koeffizienten, Regressionskoeffizient und Bestimmtheitsmaß .............................. 111 4.1.4. Korrelationsindex von Fechner ................. 117 4.2. Multiple lineare Korrelation ......................... 118 4.3. Partielle lineare Korrelation........................ 122 4.4. Beziehungen zwischen multipler und partieller Korrelation, Regression und Bestimmtheit ............. 128 4.5. Beeinflussung des Korrelationskoeffizienten durch Nebenfaktoren ........................................ 130 VII 4.6. Korrelationsverhältnis ............................... 132 5. Zuverlässigkeit von Schätzungen der Regressions- und Korrelationsanalyse ....................................... 137 5.1. Verteilung von Regressions- und Korrelationskoeffizienten ............................ 138 5.2. Intervallschätzung . . . . . . . . . . . . • . . . . . . . . . . . . . . . . . . . . .. 142 5.2.1. Konfidenzintervalle für die Regressionsparameter .......................... 144 5.2.2. Konfidenzintervalle für die Korrelationskoeffizienten ..................... 146 5.2.3. Konfidenzintervalle für die Regreßwerte ....... 147 5.2.4. Konfidenzintervall für .einen Wert der Variablen Y ................................... 152 5.3. Statistische Prüfung von Hypothesen über Parameter der Regressions- und Korrelationsanalyse ............. 156 5.3.1. Statistische Prüfung von Hypothesen über linearen Korrelationskoeffizienten ............ 161 5.3.2. Statistische Prüfung von Hypothesen über Bestimmthei tsmaße . . . . . . .... . . . . . . . . . . . . . . . . . . . .. 170 5.3.3. Statistische Prüfung von Hypothesen über Regressionsparameter .......................... 174 5.4. Statistische Prüfung der Linearität einer Regressionsfunktion .................................. 195 6. Multikollinearität ........................................ 197 7. Regression und Korrelation von Zeitreihen ................. 215 7.1. Modell der Zeitreihenregression ...................... 215 7.2. Autokorrelation der Variablen ........................ 223 7.3. Autokorrelation der Residuen ............•............ 225 8. Heteroskedastizität 235 9. Zusammenfassendes Beispiel ................................ 240 10. Interdependente Beziehungen in der Regressionsanalyse ..... 252 10.1. Allgemeine Einführung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 252 10.2. Die Variablen in einem Regressionsmodell ............ 257 10.3. Arten von Regressionsmodellen ....................... 260 10.4. Das Identifikationsproblem .......................... 266 10.5. Wichtige Modellannahmen ............................. 269 10.6. Schätzmethoden für Regressionsmodelle ............... 271 10.6.1. Methode der kleinsten Quadrate .............. 271 10.6.2. Indirekte Methode der kleinsten Qu~drate .... 275 10.6.3. Zweistufige Methode der kleinsten Qu~drate " 277 VIII 11. Nichtl ineare Regression. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 283 11.1. Einfache nichtlineare Regression .................... 284 11.1.1. Einfache nichtlineare Regression bei nichtgruppiertenDaten ...................... 284 11.1.2. Einfache nichtlineare Regression bei gruppierten Daten ........................... 295 11.2. Multiple nichtlineare Regression .................... 297 12. Nichtlineare Korrelation .................................. 300 12.1. Einfache nichtlineare Korrelation ................... 300 12.1.1. Einfache nichtlineare Korrelation bei nichtgruppiertenDaten ...................... 300 12.1.2. Einfache nichtlineare Korrelation bei gruppierten Daten. . . . . . . . . . . . . . . . . . . . . . . . . .. 303 12.2. Multiple nichtlineare Korrelation ................... 304 12.3. Beziehungen zwischen dem linearen Korrelationskoef fizienten, dem allgemeinen Korrelationskoeffizienten und dem Korrelationsverhältnis ...................... 305 13. Messung des Zusammenhanges von nominal- und ordinalskal ierten Variablen ............................... 307 13.1. Zusammenhangsmaße für wenigstens ordinalskalierte Variable ............................................ 308 13.1.1. Rangkorrelationskoeffizient von Spearman .... 308 13.1.2. Rangkorrelationskoeffizient von Kendall ..... 311 13.1.3. Konkordanzkoeffizient von Kendall ........... 314 13.2. Zusammenhangsmaße für nominalskalierte Variable..... 316 13.2. J • Kontingenzkoeffizient . . . . . . . . . . . . . . . . . . . . . .. 319 13.2.2. Assoziationsmaß ............................. 321 13.2.3. Zwei zeilen-Korrelation . . . . . . . . . . . . . . . . . . . . .. 323 Anhang ........................................................ 327 Tafel 1 : Dichtefunktion der Standardnormalverteilung .......... 328 Tafel 2 : Verteilungsfunktion der Standardnormalverteilung ..... 330 Tafel 3 : Signifikanzgrenzen Fl~ der F-Verteilung ............. 334 Tafel 4: t-Verteilung ......................................... 340 Tafel 5: Chi-Quadrat-Verteilung .. . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 341 Tafel 6: Zufallshöchstwerte des Korrelationskoeffizienten 342 Tafel 7: Verteilung des zyklischen Autokorrelationskoef- fizienten ............................................ 343 Tafel 8: Autokorrelation nach Durbin-Watson ................... 344 Literaturverzeichnis 347 Stichwortverzeichnis 365 IX 1. Grundbegriffe der Regress:l.ons- und Korre1ationsana1yse 1.1. Abhängigkeiten und Zusammenhänge Wenn Erscheinungen und Prozesse in der Mikro- und Makroökonomie zum Zwecke ihrer operationalen und zukünftigen Beherrsch- und Beeinfluß barkeit untersucht werden, dann müssen sie im Kontext ihres Umfel des, in ihrem Zusammenhang mit bzw. in Abhängigkeit von anderen Er scheinungen und Prozessen sowohl aus fachwissenschaftlicher Sicht theoretisch als auch aus der Empirie zahlenmäßig analysiert werden. Für die Entscheidungsfindung auf Unternehmerebene , Branchenebene oder volkswirtschaftlicher Ebene ist die Kenntnis von Ursache-Wir kungsbeziehungen unerläßlich. Die Korrelations- und Regressionsana lyse als statistische Methode ist dabei ein unschätzbares Hilfsmit tel. Im weiteren soll von Abhängigkeit einer Erscheinung oder eines Pro zesses von anderen ökonomischen, technischen, natürlichen oder ande ren Einflußgrößen gesprochen werden, wenn diese Faktoren einen ein sei tig gerichteten Einfluß auf die abhängige Größe ausüben. Die Festlegung, welche Erscheinung die abhängige Größe und welche Er scheinungen die beeinflußenden Faktoren sind, ist in jedem Falle aus fachwissenschaftlicher Sicht zu treffen. Von einem Zusammenhang zwi schen wirtschaftlichen, technischen oder anderen Größen soll gespro chen werden, wenn es zunächst unerheblich ist, welche Erscheinung die abhängige Größe ist und welche Erscheinungen die Einflußfaktoren sind, wenn also geprüft werden soll, ob sich Erscheinungen und Pro zesse in irgendeiner Weise beeinflussen, unabhängig von der Richtung dieses Einflusses. Jede Untersuchung von Abhängigkeiten und Zusammenhängen sollte fach wissenschaftlich fundiert sein, um von vornherein sachlogisch unsin nige Analysen zu vermeiden. Nun sind jedoch die Aussagen der Wirt schaftstheorien sehr allgemeiner Art in dem Sinne, daß sie die Exi stenz von Abhängigkeiten und Zusammenhängen postulieren und gegebe nenfalls die Wirkungsrichtung angeben. Aus wirtschaftstheoretischer überlegung kann zum Beispiel die Anzahl der abhängig Erwerbstätigen unter anderem aus der Abhängigkeit von den Anlageinvestitionen, dem Export, der Kapaz i tätsaus lastung, dem privaten Verbrauch und dem Einkommen aus ArbeitnehmertätigkeitjUnternehmertätigkeitj Vermögen erklärt werden (zum Teil mit einer gewissen zeitlichen Verzögerung), wobei bei den ersten vier Einflußgrößen eine positive Beschäfti gungswirkung und bei der letzten Einflußgröße ein negativer Effekt angenommen werden kann. Wie ist aber das konkrete quantitative Aus maß der einzelnen Einflüsse auf die abhängig Erwerbstätigen gesamt wirtschaftlich bzw. für einzelne Wirtschaftszweige und ihre Teilbe- 1 reiche in einem gegebenen Zeitraum? Hier genau ist der Ansatzpunkt für die Regressions- und Korrelationsanalyse als statistische Metho de. Dabei werden die wirtschaftstheoretischen Aussagen mittels der Methoden der Regressions- und Korrelationsanalyse in ein statisti sches Modell überführt, das auf der Grundlage von empirischen Daten material numerisch bestimmt wird. Wie bei allen statistischen Untersuchungen liegt auch der statisti schen Analyse von Abhängigkeiten und Zusammenhängen eine Menge rele vanter Objekte (Merkmal sträger , statistische Einheiten), das heißt eine Gesamtheit oder eine ihrer Teilgesamtheiten, zugrunde, über die bezüglich der interessierenden ökonomischen Merkmale Daten erfaßt werden. Die im Ergebnis der Regressions- und Korrelationsanalyse er zielten Ergebnisse sind statistische (zahlenmäßige) Aussagen über die Beziehungen zwischen Erscheinungen und Prozessen, die im Mittel aller erfaßten Objekte bzw. im Mittel des beobachteten Gesamtzeit raumes Gültigkeit haben, jedoch nicht zwangsläufig für das Einzel objekt oder den Einzelzeitraum zutreffen. Da das Wirtschaftsgesche hen auf menschlichem Verhalten beruht und "trotz der Willensfreiheit ... menschliche Individuen, ohne daß sie voneinander gewußt oder sich gegenseitig abgesprochen hätten, Entscheidungen getroffen haben, die in ihrer Gesamtheit zu einer Regelmäßigkeit führen" (MENGES [157], s. 38), kann diese gefundene Regelmäßigkeit (die im Durchschnitt geltende Abhängigkeit bzw. der Zusammenhang) berechtigt zur Ent scheidungsfindung herangezogen werden. Andererseits soll deutlich darauf hingewiesen werden, daß mit einem numerisch aufgezeigten Zusammenhang noch kein Nachweis über die wirkliche Existenz solcher Beziehungen erbracht ist (siehe Nonsense Regression weiter unten). Mit diesem Problem wird man vor allem kon frontiert, wenn Zeitreihen die Basis von Regressions- und Korrela tionsanalysen sind. Für zwei ökonomische Erscheinungen, die jeweils einen ausgeprägten Trend aufweisen, wird im Ergebnis der Korrela tionsberechnungen ein enger Zusammenhang ausgewiesen, obwohl ein solcher überhaupt nicht existieren muß. Ein wesentlicher Aspekt, der bei der Erforschung der Zusammenhänge zu berücksichtigen ist, besteht darin, daß eine Beziehung zwischen Erscheinungen nicht immer und nicht überall auftreten mUß, sondern erst, wenn bestimmte Bedingungen dafür vorhanden sind. Veränderungen in den Bedingungen können auch zu Veränderungen in den Zusammenhän gen führen. Soll zum Beispiel der Lohn der Arbeitnehmer unter ande rem auch von seinem Qualifikationsgrad abhängen, so sind im Lohnsy stem Bedingungen zu schaffen, die diese Abhängigkeit des Lohnes von der Qualifikation ermöglichen. Wenn die Einnahmen des staates unter anderem von der Höhe der Einkommen aus Unternehmertätigkeit und Ver mögen bzw. aus Arbeitnehmertätigkeit abhängen sollen, muß ein ent- 2