Heinz Sahner SchlieBende Statistik Studienskripten zur Soziologie Herausgeber: Prof. Dr. Heinz Sahner begrundet von Prof. Dr. Erwin K. Scheuch t Die Bande "Studienskripten zur Soziologie" sind als in sich abgeschlossene Bausteine fur das Grund- und Hauptstudium konzipiert. Sie umfassen sowohl Bande zu den Methoden der empirischen Sozialforschung, Darstellung der Grundlagen der Soziologie als auch Arbei ten zu so genannten Bindestrich-Soziologien, in denen verschiedene theoretische Ansatze, die Entwicklung eines Themas und wichtige empirische Studien und Ergebnisse dargestellt und diskutiert werden. Diese Studienskripten sind in erster Linie fUr Anfangssemester gedacht, sollen aber auch dem Examenskandidaten und dem Praktiker eine rasch zugangliche Infor mationsquelle sein. Heinz Sahner Sch Ii eBende Statistik Eine Einfuhrung fur Sozialwissenschaftler 6. Auflage II VS VERLAG FOR SOZIALWISSENSCHAFTEN Bibliografische Information Der Deutschen Bibliothek Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet Ober <http://dnb.ddb.de> abrufbar. 6. Auflage Oktober 2005 Aile Rechte vorbehalten © VS Verlag fOr Sozialwissenschaften/GWV Fachverlage GmbH, Wiesbaden 2005 Lektorat: Frank Engelhardt Der VS verlag fOr Sozialwissenschaften ist ein Unternehmen von Springer Science+Business Media. www.vs-verlag.de Das Werk einschlieBlich aller seiner Teile ist urheberrechtlich geschOtzt. Jede verwertung auBerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlags unzulassig und strafbar. Das gilt insbesondere fOr vervielfaltigungen, Obersetzungen, Mikroverfilmungen und die Einspei cherung und Verarbeitung in elektronischen Systemen. Die wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten waren und daher von jedermann benutzt werden dOrften. Umschlaggestaltung: KOnkelLopka Medienentwicklung, Heidelberg Gedruckt auf saurefreiem und chlorfrei gebleichtem papier ISBN 978-3-531-14687-4 ISBN 978-3-322-95695-8 (eBook) DOI 10.1007/978-3-322-95695-8 Inhaltsverzeichnis Vorwort ............................................................................................................. 7 1. Grundbegriffe ..................................................................................... 9 1.1 Grundgesamtheit und AuswahI ........................................................... 10 1.1.1 Die Grundgesamtheit ..... ............. ..... ...... ...... .... .................... ... ... ......... 11 1.1.2 Die Auswahl ....................................................................................... 12 1.2 Mittelwerte und Streuungsma13e ......................................................... 14 1.2.1 Die Standardisierung .......................................................................... 18 2. Die Normalverteilung ....................................................................... 21 3. Schlie6verfahren fUr quantitative Variablen ................................ 31 3. I Der Reprasentationsschluss, das Schlie13en yom Mittelwert des Samples auf den Parameter der Grundgesamtheit (fJ) ....................... 31 3.1.1 Normalverteilung als Priifverteilung .................................................. 31 3.1.2 t-Verteilung als Priifverteilung, n < 30 ............................................... 46 3.2 Der Inklusionsschluss; die Parameter der Grundgesamtheit fJ und ax sind bekannt ................................................................................... 53 3.2.1 Schatzung des Samplemittelwertes ..................................................... 53 3.2.1.1 Sampleumfang n ~ 30 ......................................................................... 53 3.2.1.2 Sampleumfang n < 30 ......................................................................... 55 4. Schlie6verfahren fUr Prozentwerte; der Schluss vom Sample- prozentsatz auf den Gesamtgruppenprozentsatz .......................... 57 S. Priifung der Unterschiede zwischen Stich proben ......................... 73 5.1 Signifikanztests fur Prozentwerte ....................................................... 73 5.2 Signifikanztests fUr Mittelwerte ......................................................... 79 5.2.1 Der z-Test, (nl + n2) ~ 30 .................................................................... 79 5.2.2 Der I-Test, (n, + n2) < 30 .................................................................... 84 5.2.2.1 Gleiche Varianzen, (J; "(J; .............................................................. 84 5.2.2.2 Ungleiche Varianzen, I( Jx2 * 2( Jx2 .......................................................... 85 I 2 5.2.2.3 U.b.er.pr.uf ung, ob (Jx2 "(Jx2 oder (J 2 * (J.2 durch den F-Test .............. 86 I 2 xl X2 6. Einseitige Tests .................................................................................. 91 7. Die Chi-Quadrat-Verteilung ............................................................ 97 7.1 DieMaf3Zahlx2=L(O~E)2 ......................................................... 103 7.2 Die Yates-Korrektur fur kleine Besetzungszahlen und der i-Test fUr Vierfeldertabellen ....................................................................... 109 8. F-Test und Varianzanalyse ............................................................ III 8.1 Varianzanalyse und Experiment ....................................................... 122 8.1.1 Beispiel einer Varianzanalyse -Zerlegung der Varianz in ihre Bestandteile ...................................................................................... 123 8.1.2 Varianzanalyse und Korrelation ....................................................... 129 8.1.3 Bestimmung der Varianzanteile ........................................................ 130 9. Schlussbemerkungen ...................................................................... 133 9.1 Zum Problem der Auswahl und der Faktorenkontrolle .................... 133 9.2 Zum Problem des Signifikanzniveaus .............................................. 134 9.3 Die Aussagefahigkeit von Signifikanztests ...................................... 135 Tabellenanhang ............................................................................................ 137 Literaturverzeichnis .................................................................................... 149 Sachregister .................................................................................................. 151 Uber den Autor ............................................................................................ 155 Vorwort Testverfahren sind heute ein we it verbreitetes Instrument der empirischen Sozial forschung. Weitere Ausbreitung ist durch die wachsende Bedeutung der elektro nischen Datenverarbeitung gesichert, die Signifikanztests sozusagen automatisch anfallen Hi13t. Dass aber an die Durchfiihrung von Signifikanztests bestimmte Bedingungen gekniipft sind, droht dariiber in Vergessenheit zu geraten. Ziel dieser Einfiihrung in die Schlie13ende Statistik ist es nicht, eine Vielzahl von Testverfahren kochbuchartig vorzustellen, sondem vielmehr die Logik und die Bedingungen einzelner Schlussverfahren zu diskutieren. Besondere Kennt nisse der Mathematik werden nicht vorausgesetzt. Ich habe mich bemiiht, so einfach wie moglich vorzugehen, urn den Zugang zu den einzelnen Problem kreisen zu gewahrleisten. Diesem Ziel sollen auch die Anwendungsbeispiele dienen. Beherrscht man erst einmal die Logik des Vorgehens und sind die Vorausset zungen und Grenzen statistischen Schlie13ens bekannt, so verlieren auch dicke und anspruchsvolle Biicher viel von ihrem Schrecken. Will der Leser seine Kenntnisse erweitem, so empfiehlt es sich, auf die im Anhang aufgeftihrte Literatur zuriick zugreifen, auf die im Text auch teilweise ausdriicklich Bezug genommen wird. Empfehlenswert ist hier vor allem das Buch von P. Neurath, obwohl es aufgrund eigenwilliger Gliederung und durch den umfangreichen Stoff leicht benutzerun freundlich wirkt. Hier findet der Leser auch mathematische Nachweise, auf die in diesem Skriptum nicht immer eingegangen wird, da sie fiir das Verstandnis statistischer Testverfahren nicht unbedingt erforderlich sind. Eine geschlossene und didaktisch geschickte Darstellung der Schlie13enden Statistik bietet S.G. Levy. Zur Vertiefung hier dargestellter und zur Erarbeitung weiterer Verfahrensweisen empfiehlt es sich, vor allem aufW.L. Hays und H.M. Blalock zuriickzugreifen. Folgende Verlage, denen ich an dieser Stelle danken mochte, gaben die Er laubnis zum Abdruck von Tabellen: die Iowa State University Press, Ames, Iowa, USA, fiir die Tabellen der F-Verteilung aus George W. Snedecor und William C. Cochran, © 1967, Statistical Methods, 6th edition; der Verwalter des literarischen Nachlasses von Sir Ronald A. Fisher, F.R.S. und Dr. Frank Yates, F.R.S., sowie i der Verlag Oliver & Boyd, Edinburgh, fiir die Tabelle der -Verteilung aus R.A. Fisher und F. Yates, Statistical Tables for Biological, Agricultural und Medical Research, 1963, 6th edition, und der Verlag Prentice-Hall, Inc., Englewood Cliffs, New Jersey, fiir die Tabellen der Flachenanteile der Normalverteilung und der t Verteilung aus Croxton, Cowden und Klein, Applied General Statistics © 1967. 8 Vorwort AbschlieBend mochte ich Herro Dipl.-Volksw. F. BOltken fUr die kritische Durch sicht des Manuskriptes danken. Frau Karhausen gebuhrt Dank fUr das Schreiben einer fruheren und Fraulein Zimmermann fUr die Niederschrift der endgiiltigen Fassung. Vor allem aber danke ich Herro stud. rer. pol. M. Kops fUr die Zeichnun gen und die unermudliche redaktionelle Hilfe. Koln, im August 1971 H. Sahner Vorbemerkung zur 3. Auflage Fur die dritte Auflage wurden einige Beispiele verandert und kleine Korrekturen vorgenommen. Luneburg, im Juni 1989 H. Sahner Vorbemerkung zur 5. Auflage Fur die vierte Auflage wurde der Text an einigen wenigen Stell en aktualisiert, kleinere Korrekturen vorgenommen und das Literaturverzeichnis urn neuere Titel erganzt. Fur eine kritische Durchsicht des Textes danke ich Soren Petermann und Matthias Henze, der auch die elektronische Version erstellte. Halle, im Dezember 2001 H. Sahner 1. Grundbegriffe Wahrend die beschreibende (deskriptive) Statistik sich mit der Untersuchung und Beschreibung von Gesamtheiten oder Teilmengen von Gesamtheiten begnUgt (z.B. durch Mittelwerte, Prozentsatze, StreuungsmaBe, Korrelationskoeffizienten etc.), untersucht demgegenUber die SchlieBende Statistik (analytische Statistik, Inferenz statistik) z.B. nur eine reprasentative Teilmasse der Grundgesamtheit (Population) und schlieBt von dieser Teilmasse auf die Charakteristika der Grundgesamtheit. Es wird also nur eine meist relativ kIeine Anzah] der Einheiten der Grundgesamtheit untersucht und aus den Ergebnissen aufMerkmale der Grundgesamtheit geschlossen. Dieser "Reprasentationsschluss", das SchlieBen von Merkmalen einer Auswahl auf die entsprechenden Charakteristika der Grundgesamtheit, ist das von den weiter unten dargestellten Schlussverfahren wohl am haufigsten verwendete. Die Verallgemeine rungen zulassende Untersuchung nur relativ kleiner Auswahlen erfreut sich aus vielerlei GrUnden groBer Beliebtheit. An erster Stelle sind wohl wirtschaftliche Gesichtspunkte zu nennen. 1m Vergleich zur Vollerhebung ist die Berticksichtigung von Teilmassen bedeutend billiger, besonders, wenn die Gesamtheiten sehr groB sind. "Sichere" Aussagen konnen dann - berticksichtigt man einige noch darzustellende Voraussetzungen - schon aufgrund von Teilmassen getroffen werden, die nur einen winzigen Bruchteil der Grundgesamtheit ausmachen, da die Sicherheit der Schlussfolgerungen primar vom absoluten Umfang der Auswahl und weniger von der Relation ihrer GroBenordnung zur Gesamtheit bestimmt wird, wie noch zu zeigen sein wird. Ein weiterer Vorteil ist die groBere Schnelligkeit im Vergleich zur Vollerhebung. Tausend oder zweitausend Personen auszuwahlen und z.B. deren Gewicht zu be stimmen ist unproblematisch und ztigig zu erledigen. Will man dagegen das Durch schnittsgewicht der Bundesbtirger durch eine Vollerhebung ermitteln, wird eine bedeutend langere Zeit erforderlich sein. Ob dieses Vorgehen genauere Ergebnisse liefert als die Untersuchung einer Auswahl, ist obendrein fraglich. Es wird kaum gelingen, das Gewicht eines jeden Bundesrepublikaners zu bestimmen. Viele Individuen werden im Erhebungszeitraum einfach nicht aufzutreiben sein, und bevor die ganze Aktion abgeschlossen ist, werden einige Individuen wieder einige pfunde zugelegt und andere just das Licht der Welt erblickt haben. Das genaue Durchschnittsgewicht ftir einen gegebenen Zeitpunkt zu bestimmen, ist also kaum moglich. Zwar wird ein Ausgleich der Verzerrungen zu beobachten sein (einige fiihren gerade eine Schlankheitskur durch, andere segnen das Zeitliche), aber eine exakte Bestimmung