Daten und Statistik Gabriele Hornsteiner Daten und Statistik Eine praktische Einführung für den Bachelor in Psychologie und Sozialwissenschaften GabrieleHornsteiner HochschuleHof [email protected] ISBN978-3-8274-2390-0 ISBN978-3-8274-2391-7(eBook) DOI10.1007/978-3-8274-2391-7 DieDeutscheNationalbibliothekverzeichnetdiesePublikationinderDeutschenNationalbibliografie; detailliertebibliografischeDatensindimInternetüberhttp://dnb.d-nb.deabrufbar. SpringerVS ©Springer-VerlagBerlinHeidelberg2012 DasWerkeinschließlichallerseinerTeileisturheberrechtlichgeschützt.JedeVerwertung,dienicht ausdrücklichvomUrheberrechtsgesetzzugelassenist,bedarfdervorherigenZustimmungdesVerlags. DasgiltinsbesonderefürVervielfältigungen,Bearbeitungen,Übersetzungen,Mikroverfilmungenund dieEinspeicherungundVerarbeitunginelektronischenSystemen. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigtauchohnebesondereKennzeichnungnichtzuderAnnahme,dasssolcheNamenimSinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermannbenutztwerdendürften. PlanungundLektorat:KatharinaNeuser-vonOettingen,MarionKrämer,SabineBartels Redaktion:RegineZimmerschied Einbandabbildung:©1997PhotoAlto-FabriquéenFranceparMPO Einbandentwurf:wspdesignWerbeagenturGmbH,Heidelberg GedrucktaufsäurefreiemundchlorfreigebleichtemPapier Springer VS ist eine Marke von Springer DE. Springer DE ist Teil der Fachverlagsgruppe Springer Science+BusinessMedia. www.springer-vs.de Vorwort Statistik–warumbrauchenwirsie?Psychologe,Soziologe,Politologe...werdaswerden möchte, hat meistens mit Statistik wenig am Hut. Aber sie kann nicht weggewünscht werden. Wir brauchen sie, um unsere Theorien, Analysen und Untersuchungen wissen- schaftlich korrekt zu untermauern. DieStatistikwirdvonvielenStudierendengehasstundgefürchtet.Siegiltals„Killerfach“. DamittutmanderStatistikunrecht.Gut,sieisteinesprödeDame.Undsohateswenig Sinn, Statistik zu lernen, sie will verstanden sein. Dann aber lässt sie uns in ihre Welt eintreten.SonimmtdieAutorindesBuchesdenStudienanfängerandieHandundführt ihndurchdieLandschaftenderStatistik.UnterwegswerdenwirdieArtdesHerangehens an statistische Fragestellungen lernen. Am Ende dieser Wanderung sollte die oder der Studierende die Statistik-Klausur überleben können. DiesesBuchversetztdenStudierendenindieLage,dierichtigenMethodenanzuwenden. Und auch die Grenzen der Statistik zu erkennen. Für jede statistische Methode gibt es spezielleRegeln.DieseRegelnmüssenbeachtetwerden.DieHerausforderungbestehtalso darin herauszufinden, welches Verfahren anzuwenden ist. Dann können wir die entspre- chenden Regeln benützen. Ebenso dient das Buch dem Praktiker mit wenig Erfahrung instatistischenDingen alsmethodische Grundlage,seine Auswertungen methodischein- wandfrei und unangreifbar durchzuführen. Mathematische Vorkenntnisse sind für das Niveau dieses Buches nicht erforderlich – es genügen im Wesentlichen die vier Grundrechenarten. Die meisten Studierenden mögen Beweisenicht.Eswurdedaraufverzichtet.EsgibtgenügendstatistischeLehrbücher,die auch Beweise aufführen. ImerstenKapitelwirddiedeskriptiveoderauchbeschreibendeStatistikgezeigt.Esgeht dabeiimWesentlichendarum,vorliegendeDateningeeigneterWeisezusammenzufassen. Verteilung, Kennwerte der Lage und der Streuung beschreiben die Daten. Grafiken wie Balkendiagramm,Histogramm,Stamm-Blätter-DiagrammundPunktdiagrammsindhier unverzichtbare Instrumente. DaszweiteKapitellieferteinenkurzenAbrissderWahrscheinlichkeitstheorie.Hierstehen WahrscheinlichkeitenvonEreignissenundihreRechenregelninVordergrund.Abhängige und unabhängige Ereignisse werden thematisiert, ebenso die Abfolge mehrerer Experi- mente. ImdrittenKapitelwerdenZufallsvariablenvorgestellt,ihreVerteilungenundVerteilungs- parameterwieErwartungswertundVarianz.AlsausgewählteVerteilungenwerdenhyper- geometrische Verteilung, Binomialverteilung, Poisson-Verteilung und Normalverteilung vi Vorwort näherbeschrieben.VonInteressesinddiespeziellenEigenschaftenderNormalverteilung, die vor allem auf dem zentralen Grenzwertsatz fußen. Die Schätzung von Eigenschaften einer Zufallsvariablen ist das Thema des vierten Ka- pitels.SchätzfunktionenvonVerteilungsparameternundihreKonfidenzintervallewerden systematisch durchgearbeitet. Aufbauend auf die Erkenntnisse des vierten Kapitels fasst das fünfte Kapitel die wich- tigstenHypothesentestszusammen.EinausführlichesBeispielführtindieThematikein. Besonders werden auch Fehler erster und zweiter Art genauer erläutert. DassechsteKapitelwidmetsichdersimultanenAnalysemehrererVariablen.Einkurzer Abschnitt über deskriptive Verfahren zeigt die wichtigsten Instrumente zur Gewinnung von Informationen. Schlagworte sind hier Kontingenztabelle und Streudiagramm. Von Interesse sind vor allem Art und Stärke des Zusammenhangs zwischen zwei Variablen, die durch verschiedene Koeffizienten gemessen werden. Als spezielle Verfahren werden RegressionsanalyseundVarianzanalysenähererläutert.SpezielleKonfidenzintervalleund Hypothesentests runden dieses letzte Kapitel ab. ImAnhangerleichterneinigeausgewählteVerteilungstabellendieBerechnungvonWahr- scheinlichkeiten. Das anschließende Glossar bietet eine knappe Erklärung zentraler Be- griffe. Zum Schluss möchte ich noch Danksagungen aussprechen. Zum einen will ich vor al- lem meinem Mann Norbert Hornsteiner danken. Mit dem Blick des Laien legte er den Finger erbarmungslos in jede Wunde, wo die Ausführungen zu wissenschaftlich abstrakt abhoben. Als studierter Deutschlehrer korrigierte und verbesserte er gründlich den ge- samten Text. Als Ehemann ertrug er geduldig die Zeit, in der die Autorin sich von der Alltagswelt verabschiedete, um das Buch zu vollenden. Mein Dank gebührt auch den MitarbeiterinnenvonSpektrumAkademischerVerlag,KatharinaNeuser-vonOettingen, Sabine Bartels und Marion Krämer. Mit viel Einsatz und Streicheleinheiten sorgten sie dafür, dass aus dem Projekt ein Buch wurde. Hof, am 10. Oktober 2011 Gabriele Hornsteiner Inhaltsverzeichnis Vorwort ................................................................ v 1 Deskriptive Statistik.............................................. 1 1.1 Einführung in die deskriptive Statistik – Statistik zum Anfassen .......... 2 1.2 Begrifflichkeiten – Möchte ich einen Familienstand von 2,5?............... 7 1.2.1 Grundgesamtheit und Stichprobe................................ 8 1.2.2 Begriffsdefinitionen............................................ 9 1.2.3 Skalierung eines Merkmals ..................................... 11 1.3 Verteilung eines Merkmals – Wie bändigt man die Datenflut?............. 14 1.3.1 Klassierte Häufigkeitstabelle.................................... 14 1.3.2 Genauere Informationen mithilfe der Urliste ...................... 23 1.3.3 Kleiner Exkurs................................................ 28 1.3.4 VerteilungeinesMerkmals,dessenDateninHäufigkeitstabellenein- geteilt werden können.......................................... 33 1.4 Lagemaße – Die Lage der Daten ist selten hoffnungslos................... 38 1.4.1 Arithmetisches Mittel.......................................... 38 1.4.2 Median ...................................................... 39 1.4.3 Modus....................................................... 39 1.4.4 Warum der Median, wenn man den Mittelwert haben kann? ........ 40 1.5 Streuungsmaße – Mit Schrot trifft man immer .......................... 41 1.5.1 Varianz und Standardabweichung ............................... 42 1.5.2 Interquartilsabstand ........................................... 47 1.6 Kennwerte bei Daten in Häufigkeitstabellen – Was in aller Welt ist eine Einfallsklasse? ...................................................... 47 2 Wahrscheinlichkeitstheorie........................................ 51 2.1 Ereignisse und Wahrscheinlichkeiten – Gibt es überhaupt Wahrscheinlich- keiten? ............................................................ 51 2.2 Gemeinsame Wahrscheinlichkeiten – Gemeinsame Wahrscheinlichkeiten sind ungemein gemein!............................................... 65 2.3 Bedingte Wahrscheinlichkeiten – Warum können Placebos schwere Neben- wirkungen haben?................................................... 70 2.3.1 Bedeutung der bedingten Wahrscheinlichkeit...................... 70 2.3.2 Bayes’sches Theorem .......................................... 74 2.4 Stochastische Unabhängigkeit – Kann ein Fahrrad von den Tupfen einer Krawatte abhängen?................................................. 79 2.5 Mehrfache Zufallsvorgänge – Ab in die Urne! ........................... 82 2.5.1 Unabhängige Versuche......................................... 83 2.5.2 Abhängige Versuche ........................................... 85 2.5.3 Urnenmodelle................................................. 88 viii Inhaltsverzeichnis 3 Zufallsvariablen................................................... 93 3.1 Diskrete Zufallsvariablen – Warum ist die Serviceagentur so diskret?....... 93 3.1.1 Lageparameter................................................ 100 3.1.2 Varianz ...................................................... 101 3.2 Diskrete Verteilungen – Ist Dichotomie eine Urnenkrankheit? ............. 105 3.2.1 Hypergeometrische Verteilung .................................. 105 3.2.2 Binomialverteilung ............................................ 109 3.2.3 Poisson-Verteilung ............................................ 112 3.3 Stetige Zufallsvariablen – Warum kann ein Fisch nicht genau zehn Tage lang leben?......................................................... 115 3.3.1 Geometrische Ermittlung der Verteilungsfunktion ................. 118 3.3.2 Quantile ..................................................... 121 3.3.3 Integrieren bei Verteilungsfunktionen ............................ 121 3.4 Normalverteilung – die Königin der Verteilungen........................ 124 3.4.1 Eigenschaften der Normalverteilung ............................. 124 3.4.2 Reproduktivität der Normalverteilung ........................... 132 3.4.3 Zentraler Grenzwertsatz........................................ 132 3.4.4 Approximation von Verteilungen ................................ 133 3.5 Gemeinsam verteilte Zufallsvariablen – Steigt immer die Zahl der Kinder mit der Zahl der Störche? ............................................ 137 3.5.1 Kovarianz und Korrelationskoeffizient............................ 141 3.5.2 Lineare Funktionen von Zufallsvariablen ......................... 147 4 Parameterschätzungen............................................ 151 4.1 Schätzverteilungen – Könnte man sie Designerverteilungen nennen? ....... 151 4.1.1 χ2-Verteilung................................................. 152 4.1.2 F-Verteilung ................................................. 155 4.1.3 t-Verteilung .................................................. 157 4.2 Schätzfunktionen – Ist der beste Schätzer auch der beste Schätzer?........ 159 4.2.1 SchätzfunktionfürdenErwartungswerteinesnormalverteiltenMerk- mals mit bekannter Varianz .................................... 159 4.2.2 Schätzfunktion für die Varianz eines normalverteilten Merkmals..... 164 4.2.3 SchätzfunktionfürdenErwartungswerteinesnormalverteiltenMerk- mals mit unbekannter Varianz .................................. 165 4.2.4 SchätzfunktionfürdenErwartungswerteinesnormalverteiltenMerk- mals bei einer Auswahl ohne Zurücklegen ........................ 166 4.2.5 Schätzfunktion für den Anteil der Kugeln erster Sorte einer binomi- alverteilten Zufallsvariablen .................................... 167 4.3 Konfidenzintervalle – Wie weit geht das Vertrauen in den Schätzer? ....... 168 4.3.1 Konfidenzintervall für den Erwartungswert eines normalverteilten Merkmals mit bekannter Varianz................................ 168 Inhaltsverzeichnis ix 4.3.2 Konfidenzintervall für den Erwartungswert eines normalverteilten Merkmals mit unbekannter Varianz.............................. 173 4.3.3 Konfidenzintervall für den Erwartungswert eines unbekannt verteil- ten Merkmals mit unbekannter Varianz .......................... 174 4.3.4 Konfidenzintervall für den Erwartungswert eines normalverteilten Merkmals mit bekannter Varianz bei einer Auswahl ohne Zurück- legen ........................................................ 175 4.3.5 Konfidenzintervall für den Erwartungswert eines normalverteilten MerkmalsmitunbekannterVarianzbeieinerAuswahlohneZurück- legen ........................................................ 176 4.3.6 Konfidenzintervall für den Erwartungswert eines unbekannt verteil- ten Merkmals mit unbekannter Varianz bei einer Auswahl ohne Zu- rücklegen .................................................... 176 4.3.7 Konfidenzintervall für den Anteilswert eines dichotomen Merkmals bei einer Auswahl mit Zurücklegen .............................. 178 4.3.8 Konfidenzintervall für den Anteilswert eines dichotomen Merkmals bei einer Auswahl ohne Zurücklegen ............................. 179 5 Hypothesentests .................................................. 181 5.1 Einführung in den Hypothesentest – Wie tickt der?...................... 181 5.1.1 Punkthypothese............................................... 181 5.1.2 Bereichshypothese............................................. 185 5.1.3 α- und β-Fehler............................................... 188 5.1.4 Bemerkungen zur Nullhypothese und Alternativhypothese.......... 194 5.2 Test eines Erwartungswertes.......................................... 196 5.2.1 Test des Erwartungswertes eines normalverteilten Merkmals bei be- kannter Varianz............................................... 196 5.2.2 TestdesErwartungswerteseinesnormalverteiltenMerkmalsbeiun- bekannter Varianz............................................. 197 5.2.3 Test des Erwartungswertes eines Merkmals mit unbekannter Vertei- lung und unbekannter Varianz .................................. 198 5.2.4 Test des Erwartungswertes eines Merkmals bei einer Stichproben- entnahme ohne Zurücklegen .................................... 199 5.3 Test des Anteilswertes einer dichotomen Grundgesamtheit................ 200 5.3.1 Test des Anteilswertes einer dichotomen Grundgesamtheit bei großem Stichprobenumfang n ................................... 200 5.3.2 Test des Anteilswertes einer dichotomen Grundgesamtheit bei klei- nem Stichprobenumfang n...................................... 201 5.3.3 TestdesAnteilswerteseinerdichotomenGrundgesamtheitbeieinem Entnahmemodell ohne Zurücklegen.............................. 204 5.4 Test der Varianz .................................................... 206 x Inhaltsverzeichnis 5.5 Vergleich zweier Parameter........................................... 208 5.5.1 Vergleich zweier Erwartungswerte ............................... 208 5.5.2 Vergleich der Anteilswerte zweier dichotomer Grundgesamtheiten.... 214 5.5.3 Vergleich der Varianzen zweier Grundgesamtheiten ................ 216 5.6 χ2-Tests ........................................................... 217 5.6.1 Verteilungstest................................................ 217 5.6.2 Unabhängigkeitstest ........................................... 225 5.7 Verteilungsfreie Tests................................................ 228 5.7.1 Vorzeichentest ................................................ 228 5.7.2 Wilcoxon-Mann-Whitney-Test .................................. 234 6 Analyse mehrerer Merkmale...................................... 243 6.1 Deskriptive Analyse – Das gute alte Streudiagramm ..................... 243 6.1.1 Zusammenfassung mehrdimensionaler Daten...................... 243 6.1.2 Häufbare Merkmale ........................................... 244 6.1.3 Stetige Merkmale ............................................. 247 6.1.4 Gemischte Skalenniveaus....................................... 248 6.1.5 Abhängigkeitsstrukturen ....................................... 249 6.2 Zusammenhangsmaße – Können wir Linearität messen? .................. 250 6.2.1 Korrelationskoeffizient nach Pearson............................. 251 6.2.2 Rangkorrelationskoeffizient nach Spearman ....................... 256 6.2.3 Kontingenzkoeffizient .......................................... 261 6.3 Regressionsanalyse – Wie finden wir eine Gerade?....................... 264 6.3.1 Einfaches lineares Regressionsmodell............................. 265 6.3.2 Güte der Anpassung........................................... 273 6.3.3 Prognose..................................................... 277 6.3.4 Multiple Regression ........................................... 278 6.4 SchätzenundTestenimZusammenhangmitmehrerenMerkmalen–Wann ist ein linearer Zusammenhang wirklich linear?.......................... 279 6.4.1 Test des Pearson’schen Korrelationskoeffizienten .................. 279 6.4.2 Test des Spearman’schen Rangkorrelationskoeffizienten............. 280 6.4.3 Schätzen im einfachen linearen Regressionsmodell ................. 281 6.4.4 Testen im einfachen linearen Regressionsmodell ................... 286 6.5 Varianzanalyse – Varianz heißt Information............................. 293 6.5.1 Einfaktorielle Varianzanalyse ................................... 293 6.5.2 Zweifaktorielle Varianzanalyse .................................. 305 A Verteilungstabellen ............................................... 317 A.1 Standardnormalverteilung............................................ 317 A.2 χ2-Verteilung....................................................... 317 A.3 F-Verteilung ....................................................... 317 A.4 t-Verteilung ........................................................ 322