Werner Timischl Biostatistik Eine Einfuhrung fUr Biologen und Mediziner Zweite, neubearbeitete Auflage Springer-V erlag Wien GmbH Univ.-Prof. Dipl.-Ing. Dr. Werner Timischl Institut fUr Algebra und Computennathematik Technische Universităt Wien Wien, Osterreich Das Werk ist urheberrechtlich geschiitzt. Die dadurch begriindeten Rechte, insbesondere die der Ubersetzung, des Nachdruckes, der Entnahme von Abbildungen, der Funksendung, der Wiedergabe auf photomechanischem oder ăhnlichem Wege und der Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. © 2000 Springer-Verlag Wien Urspri.inglich erschienen bei Springer-VerlagIWien 2000 Reproduktionsfertige Vorlage vom Autor Graphisches Konzept: Ecke Bonk Gedruckt auf săurefreiem, chlorfrei gebleichtem Papier - TCF SPIN 10728430 Mit 59 Abbildungen ISBN 978-3-211-83317-9 ISBN 978-3-7091-6313-9 (eBook) DOI 10.1007/978-3-7091-6313-9 Vorwort zur zweiten Auflage Die Neubearbeitung der "Biostatistik" unterscheidet sich sowohl im Aufbau als auch in der in Auswahl der Inhalte von der ersten .Auflage Da heute die statisti sche Bearbeitung von Problemen meist computerunterstiitzt mit Hilfeeinschlagi ger Statistiksoftware erfolgt, verlagern sich die Anforderungen an den Anwender mehr und mehr auf die Modellbildung und die Interpretation. Beidesgelingt umso besser, je mehr man mit den Denkweisender Statistik und den hinter den statisti schen Methoden steckenden Ideen vertraut ist.Esist das ZieldesBuches, Interesse an der Statistik zu wecken und das Verstandnis fiir die sachgemahe Anwendung von statistischen Methoden zu fordern. Die "Biostatistik" ist in erster Linieein Lehr- und Ubungsbuch fiir Studierende der Biowissenschaften. Abweichendvonder ersten Auflagewerden nun deskriptive und induktive Verfahren, die auch bei praktischen Problemlosungen eng mitein ander verbunden sind, nicht in getrennten Abschnitten, sondern parallel behan delt. Nach einer kurzen EinfUhrung in die Wahrscheinlichkeitsrechnung und die fiir die Praxis relevanten Wahrscheinlichkeitsverteilungen folgt der Einstieg in die Punkt- und Intervallschatzung. Ausflihrlich wird das Testen von Hypothesen mit den wichtigsten Verfahren fiir Ein- und Zweistichprobenvergleiche einschlieBlich Anpassungstests und Aquivalenzprmung behandelt . Einen breiten Raum nimmt auch die Korrelation bei metrischen und nominalen Daten sowiedie einfache und mehrfache lineare Regression ein. Stark erweitert wurde die Darstellung der va rianzanalytischen Modelle. Neben dem Grundmodell der einfaktoriellen Varianz analyse werden allgemeinere Versuchsanlagen wie die Blockvarianzanalyse, die Kovarianzanalyse oder die zweifaktorielle Varianzanalyse betrachtet . Neu aufge nommen wurde ein Kapitel iiber multivariate Statistik ,das in die Clusteranalyse , die Hauptkomponentenanalyse, die Faktorenanalyse und die Diskriminanzanalyse einfiihrt . Grundsiitzlich werden nur Kenntnisse aus der Schulmathematik vorausgesetzt . Wenn auch auf Formeln nicht vezichtet werden kann, so wird nicht zuletzt durch die vielen durchgerechneten Beispieledas Anwenden der verschiedenen Verfahren in den Mittelpunkt geriickt.Die Empfehlung "elarningby"doing gilt ganz beson ders fur die angewandte Statistik. Indem man Beispiele nachvollzieht und sich im Losen einfacherer und komplexerer Musteraufgaben iibt,gewinnt man die fiir die Anwendungspraxis notwendige Sicherheit. Neben den Beispielen bilden die Auf gaben am Ende eines jeden Kapitels ein zusatzliches Ubungsmaterial , das auch zu computerunterstiitzten Problemlosungen anregen soll. Zu den Aufgaben gibt es im Anhang einen ausfiihrlichen Losungsteil. VI Vorwort Mein Dank gilt allen Lesern, die durch Hinweise zur Verbesserung des Tex tes und zur Korrektur fehlerhafter Stellen beigetragen haben. Fiir das Mitlesen der Korrekturen habe ich Frau Dipl.-Ing. Edith Fenz und Herrn Mag. Herbert Weilguni, vor allem aber Herrn DDr. Martin Baumgartner zu danken, der auch die Bespielenachgerechnet hat. hcilBeilhcS danke ich Frau .Mag Elisabeth Bohu skynov und Herrn Thomas Redl vom Springer-Verlag in Wien fiir die Betreuung wahrend der Entstehung der Druckvorlage und die gute Zusammenarbeit. Wien, im April 2000 Werner Timischl Inhaltsverzeichnis 1 Rechnen mit Wahrscheinlichkeiten 1.1 Begriffder Wahrsch~inlichkeit . . . 1 1.1.1 Zufalls exper iment und Ereignis 1 1.1.2 Lapla ce-Wahrscheinlichkeit . .. 3 1.1.3 S tat istische Wahrscheinlichkeit . 5 1.1.4 Elementare Eigenschaften der Wahrscheinlichke it 5 1.2 Bedingt e Wahrscheinlichkeit . . . . . . . . . . . . . 7 1.2.1 Definition der bedingten Wahrscheinlichkeit 7 .21.2 Unabhangige Ereignisse . 9 1.2.3 Satz von der totalen Wahrscheinlichkeit . 10 1.2.4 Bayes'sche Formel. 11 1.3 Aufgaben . 13 2 Wahrscheinlichkeitsverteilungen 2.1 Zufallsvariable . 16 .12.1 Merkmalstypen . .. . . 16 2.1.2 Diskrete Zufallsvariable . 18 2.1.3 Stetige Zufallsvariable . 19 2.1.4 Unabhangigk eit von Zufallsvariablen 22 2.1.5 MaBzahlen von Zufallsvariablen 24 .22 Einige diskrete Wahrscheinlichkeits verteilungen . . . . . . . . . . . . . . 27 2.2.1 Binomialv erteilung . 27 2.2.2 ypH ergeometrische Vertilunge 32 2.2.3 Poisson-V erteilung .... . 35 2.2.4 Negative B inomialv erteilung 36 2.3 Normalv erteilung . 37 2.3.1 Standardnormalverteilung . 37 2.3.2 emAllgeine Normalverteilung 39 2.3.3 Logarithmische Normalverteilung 42 2.3.4 Z entral er Grenzwertsatz 43 2.4 Aufgaben . 43 VIII Inhaltsverzeichnis 3 Parameterschatzung 3.1 Begriffder Zufallsstichprobe 46 3.1.1 Grundgesamtheit .. 46 3.1.2 Stichprobenauswahl . 47 3.2 Datenbeschreibung bei einem Merkmal 48 3.2.1 Hiiufigkeitsverteilung enohne Klassenbildung 48 3.2.2 Hiiufigkeitsverteilungen mit Klassenbildung . 53 3.2.3 Weitere Kenngroflen und Ergiinzungen . . 59 3.3 Punktschiitzung . . . .. . . .. . ... . .. ... 63 3.3.1 Stichprobenmittel und Stichprobenvarianz 63 3.3.2 Schiitzfunktionen. . . . ..... 64 3.4 Intervallschiitzung. ... . . .. ...... 69 3.4.1 Konfidenzintervalle fur Varianzen . 69 3.4.2 Konfidenzintervalle fiir Mittelwerte 72 3.4.3 Konfidenzintervalle fiir Wahrscheinlichkeiten 74 3.4.4 Planung von Stichprobenumfangen 76 3.4.5 Bootstrap-Schiitzung 78 3.5 Aufgaben 80 4 Testen von Hypothesen 4.1 Einfuhrung in das Testen: l-Stichprobenvergleiche . 84 4.1.1 Der Binomialtest bei groBen Stichproben 84 4.1.2 Giitefunktion des Binom ialtests 90 4.1.3 Logikder Signifikanzpriifung . . . . . . . 94 4.1.4 erD l-Stichproben-t- Test . . . . . . . . . 97 4.2 2-Stichprobenvergleiche bei normalvert eilten Grundgesamtheiten . 101 4.2.1 Unabhiingige und abhangige Stichproben . . 101 4.2.2 Der F-Test zum VergleichzweierVarianzen 102 4.2.3 Der 2-Stichproben-t- Test . . . . . . . . . 104 4.2.4 erD t- Test fiir abhiingige Stichproben . . . . 107 4.2.5 Verteilungsfreie Alternativen zum t- Test . . 110 4.3 2-Stichprobenvergl eichebei dichotomen Grundgesamtheiten . 116 4.3.1 Vergleichzweier Anteile aus unabhiingigen Stichproben 116 4.3.2 Dei McNemar-Test fiir abhiingige Stichproben 122 4.4 Anpassungstests . . . . . ....... . . . . 125 4.4.1 Der X 2 - Test fiir diskrete ertVeilungen 125 4.4.2 Normalit iitspriifung . . .... ... 129 4.5 Aquivalenzpriifung . . . . . . . . . . . . . 134 4.5.1 eichwGl ertigk eit von Mitteretlwen . 134 4.5.2 erteichwGleitigk von Anteneil 137 4.6 abAufgen 139 Inhaltsverzeichnis IX 5 Korrelation und Regression 5.1 Zweidimensionale Kontingenztafeln 143 5.1.1 Unabhangigkeit und Korrelation . 143 5.1.2 KontingenzmaBe 148 5.1.3 Homogenitatshypothesen . . . . . 151 5.2 Korrelation bei metrischen Merkmalen . 153 5.2.1 Zweidimensionale Normalverteilung 153 5.2.2 Produktmomentkorrelation . . .. 156 5.2.3 Verteilungsfreie Korrelationsmafe . 163 5.3 E infache lineare Regression . . . . . . . . . 168 5.3.1 Regressionsfunktion bei zweidimensional normalverteilten Variablen 168 5.3.2 Zufallsgestorte lineare Abhangigke iten 174 5.3.3 Beurteilung der Anpassungsgiite . . . . 180 5.3.4 Linearisierende Transformationen . . . 185 5.3.5 Regressionsgerade durch einen festen Punkt 188 5.4 Mehrfache lineare Regression . . . . . . . . . 190 5.4.1 Bestimmung der Regressionsfunktion . . . . 190 5.4.2 Multiple und partielle Korrelation . . . . . . 197 5.4.3 Globale und partielle Abhangigkeitsprufung 202 5.5 Aufgaben 206 6 Varianzanalytische Modelle 6.1 Einfaktorielle Varianzanalyse . . . . . . . . . . . . . . . . 213 6.1.1 Globaltest zum Vergleich von k > 2 Mittelwerten 213 6.1.2 Untersuchung der Varianzhomogenitat . . . . . . 221 6.1.3 Multiple Vergleiche von Mittelwerten . . . . . . . 222 6.1.4 Rangvarianzanalyse fiir unabhangige Stichproben 226 6.2 MaBnahmen zur Verkleinerung des Versuchsfehlers . . . . 229 6.2.1 Randomisierte Blo ckanlage. . . . . . . . . . . . . 229 6.2.2 Einfaktorielle Varianzanalyse mit Messwiederholungen 235 6.2.3 Rangvarianzanalyse fur verbundene Stichproben 238 6.2.4 Einfaktorielle Versuche mit einer Kovariablen 241 6.3 Zweifaktorielle Varianzanalyse . . . . . . . . . . 249 6.3.1 Der vollstandige zweifaktorielle Versuch . 249 6.3.2 Versuche mit einfach besetzten Zellen . 258 6.4 Aufgaben 262 7 Multivariate Methoden 7.1 Clust eranalyse . 266 7.1.1 Prinzip der hierarchischen Klassifikation 266 .1.27 Distanz- und AhnlichkeitsmaBe 268 .1.37 Fusionierung von Gruppen 269 7.2 H auptkomponentenanalyse . . . . 273 7.2.1 Prinzip und Grundbegriff e 273 x Inhaltsverzeichnis 7.2.2 Berechnung der Hauptkomponenten . . 275 .27.3 Interpretation der Hauptkomponenten 082 7.3 Faktorenanalyse . 282 .3.17 Modell der Faktorenanalyse . . 282 7.3.2 Schiitzung der Faktorladungen . 482 7.4 Diskriminanzanalyse . 982 .17.4 Das Diskriminanzkriterium von Fisher 982 7.4.2 Diskriminanzanalyse fur zwei Gruppen 293 7.4.3 Zuordnung von Objekten . 692 Anhang A: Statistische Tafeln . . . 992 Anhang B: Rechnen mit Matrizen 310 Anhang C: Losungen der Aufgaben 314 Literatur .. . . 331 Sachverzeichnis 334 Kapitel 1 Rechnen mit Wahrscheinlichkeiten Aueh wer sieh bloB als Anwender von statistis ehen Methoden sieht, sollte zu mindest die in der einschlagigen Literatur (z.B. Softwaredokumentationen) be sehriebenen Anwendungsvoraussetzungen verstehen und die erhaltenen Ergeb nisse riehtig interpretieren konnen . Zu diesem Zweek ist eine Vertrautheit mit dem Wahrseheinliehkeitsbegriff und einfaehen Regeln fiir das Reehnen mit Wahr seheinliehkeiten ebenso niitzlieh wiedie Kenntnis der grundl egenden Wahrsehein liehkeitsverteilungen. Die beiden ersten Kapitel dienen dazu, in die Begriffswelt der Wahrseheinliehkeitsreehnung einzufUhren, die das mathematisehe Standbein der Statistik darstellt. 1.1 Begriff der Wahrscheinlichkeit 1.1.1 Zufallsexperiment und Ereignis Mit vielen physikalisehen Prozessen verbindet man die Vorstellung, dass sie mit Hilfe geeigneter Formeln vorausbereehnet werden konnen . Wenn man z.B. einen Stein die Hohe H frei durchfallen lasst, dann Iiefert jede Wiederholung des Ex perimentes im Wesentliehen (d.h. innerhalb der Messgenauigkeit) die dureh die = Formel T J2H/g gegebene Falldau er T. (Die Konstante 9 bezeichnet die Erd besehleunigung .) erD Ausgang eines jeden Fallversuehes ist - wenigstens unter idealen Bedingungen - determini ert. Vollig anders ist der Ausgang bei dem in Abb. 1.1 darg estellten Kreuzungsv ersuch : Eine Pflanze (Pisum sativum) mit vio letter Bliitenfarbe (G enotyp VV) wird durch eine Pflanze mit weiBer Bliitenfarbe (Genotyp ww) bestiiubt. Inder Ft-G eneration entst ehennur violette Pflanzen . Die daraus hervorg ehend en Pflanzen sind miseherbig, d.h.,sie entwickeln Keimzellen, die zur Halfte die Erbanlage V fiir die violette und zur anderen Halfte die Erb anlage w fiir die eBiew Bliitenfarb e besitz en. Erfolgt eine w eiter e Befruchtung mit einer miseherbigen Pflanze,sind drei Viertel der F r Pflanzen violett bliihend (d.h. yom Genotyp VV , Vw oder wV) und ein Viertel weif bliihend (d.h.vom Genotyp ww). 1m Gegensatz zu dem zuerst betra ehteten Fallv ersueh gibt es beim Mendel sehen Kreuzungsexperiment in der FrGeneration beehziigli des Genotyp s gleieh vier mogliche Ausgiinge, namlich die Kornbinationen \lV , Vw, wV oder ww, die W. Timischl, Biostatistik © Springer-Verlag/Wein 2000
Description: