Uni-Taschenbücher 522 UTB Eine Arbeitsgemeinschaft der Verlage Birkhäuser Verlag Basel und Stuttgart Wilhelm Fink Verlag München Gustav Fischer Verlag Stuttgart Francke Verlag München Paul Haupt Verlag Bern und Stuttgart Dr. Alfred Hüthig Verlag Heidelberg Leske Verlag + Budrich GmbH Opladen J. C. B. Mohr (Paul Siebeck) Tübingen C. F. Müller Juristischer Verlag - R. v. Decker's Verlag Heidelberg Quelle & Meyer Heidelberg Ernst Reinhardt Verlag München und Basel F. K. Schattauer Verlag Stuttgart-New York Ferdinand Schöningh Verlag Paderborn Dr. Dietrich SteinkopffVerlag Darmstadt Eugen Ulmer Verlag Stuttgart Vandenhoeck & Ruprecht in Göttingen und Zürich Verlag Dokumentation München Arthur Linder Willi Berchtold Statistische Auswertung von Prozentzahlen Pro bit- und Logitanalyse mit EDV Birkhäuser Verlag, Basel und Stuttgart A. LI ND ER, Professor für mathematische Statistik an der Universität Genf und an der ETH Zürich, Dr. med. h.c., Fellow, American Statistical Association. Honorary Fellow, Royal Statistical Society. W. BERCHTOLD, 1969-73 Assistent bei Prof. A. Linder. Seit 1974 Oberassistent am Institut für Biometrie und Populations genetik an der ETH Zürich. CIP-Kurztitelaufnabme der Deutschen Bibliothek Linder, Art""r Statistische Auswertung von Prozentzahlen : Probit-u. Logitanalyse mit EDV I Arthur Linder; Willi Berchtold. - 1. Aufl. - Basel, Stuttgart: Birkhäuser, 1976. (Uni-Taschenbücher; 522) NE: Berchtold, Willi: ISBN 978-3-7643-0820-9 ISBN 978-3-0348-7289-8 (eBook) DOI 10.1007/978-3-0348-7289-8 Nachdruck verboten. Alle Rechte, insbesondere das der Übersetzung in fremde Sprachen und der Reproduktion auf photostatischem Wege oder durch Mikrofilm, vorbehalten. © Birkhäuser Verlag Basel, 1976. Vorwort Die Ergebnisse von Beobachtungen und Versuchen liegen oft als Prozentzahlen vor. Die für diesen Fall geeigneten statistischen Verfahren werden in den allgemeinen Lehrbüchern der mathematischen Statistik meist überhaupt nicht erwähnt; gelegentlich werden sie nur ganz kurz gestreift. Monographien, die sich mit der statistischen Auswertung von Prozentzahlen befassen, sind nur in englischer Sprache erschienen; wir erwähnen die Werke von D. J. FINNEY (1971) über die Probitanalyse, von D. R. Cox (1970) und von W. D· ASHTON (1972) über die Logitanalyse. Diese Bücher haben eines gemeinsam: Sie behandeln jeweils nur eine der ver schiedenen Transformationen, die man anwendet, um' Prozent zahlen den üblichen statistischen Methoden zugänglich zu machen. Unsere Darstellung ist demgegenüber allgemein gehalten. Nicht nur wird die Theorie für alle üblichen Transformationen behandelt, sondern wir geben überdies Anwendungsbeispiele aus den verschiedensten Gebieten wie Biologie, Medizin, Technik, Soziologie, während die obenerwähnten Werke ent weder einem bestimmten Anwendungsgebiet (z. B. den biolo gischen Gehaltsbestimmungen) gewidmet sind, oder aber nahezu ausschliesslich die Theorie behandeln. Mit dem heute üblichen mathematischen Rüstzeug des Naturwissenschafters und Technikers sollten die theoretischen Kapitel unseres Buches leicht zu erarbeiten sein. Indessen kann der Leser die rein theoretischen Teile überschlagen, wenn er nur die Anwendungen kennenlernen will; die Darstellung ist so angelegt, dass die statistischen Auswertungsverfahren unab hängig von den theoretischen Darlegungen erläutert werden· In dieser Monographie liegt das Schwergewicht auf statistischen Auswertungen mit Hilfe moderner Rechenauto maten; allerdings wird auch angegeben, wie man vorgeht, wenn lediglich nichtprogrammierbare Tischrechner zur Verfügung 5 stehen; die entsprechenden Abschnitte sind mit einem Stern (*) gekennzeichnet. Das Buch richtet sich an Forscher auf den Gebieten der Biologie (im weitesten Sinne), der Technik, der Medizin, der Wirtschaftswissenschaften und der Soziologie, sowie insbeson dere auch an Studierende, welche Einblick gewinnen möchten in ein wichtiges Sondergebiet der neueren Statistik. Unser Dank richtet sich in erster Linie an Herrn Prof. Dr. H. L. Le Roy, der unsere Arbeit in grosszügiger Weise gefördert hat. Herrn Dr. H. R. Roth verdanken wir verschiedene An regungen und Vorschläge. Die Ausarbeitung des Manuskripts besorgte Frl. M. Schneeberger mit gewohnter Umsicht; sie hat auch alle Figuren gezeichnet. Genf und Zürich, Juli 1976 A.L., W.B. 6 Inhaltsverzeichnis 1 Einleitung 11 1.1 Ziel der Arbeit . 11 1.2 Eigenschaften der verschiedenen Transformationen 19 1.21 Die Winkeltransformation 19 1.22 Die Probittransformation 20 1.23 Die Logittransformation . 23 1.24 Die Loglogtransformation 32 1.25 Die Wurzeltransformation 35 1.26 Die logarithmische Transformation 35 1.27 Transformation kleiner Anzahlen . 36 1.3 Theoretische Grundlagen 37 1.31 Allgemeine Grundlagen 37 1.32 Ergänzungen zur Berechnung mit Tischrechnern 40 1.33 Nach Poisson verteilte Anzahlen 42 1.4 Gewichte, Spannweiten und Rechenwerte 45 1.41 Winkeltransformation . 45 1.42 Probittransformation 46 1.43 Logittransformation . 47 1.44 Loglogtransformation . 48 1.45 Wurzeltransformation . 49 1.46 Logarithmische Transformation 49 1.47 Transformation für kleine Anzahlen . 50 1.5 Historische Hinweise und Literaturangaben 52 2 Einfache lineare Regression; eine einzige Regressions- gerade 55 2.1 Theorie 55 2.11 Likelihoodschätzung 55 2.12 Zulässigkeit der gewählten Transformation . 62 2.13 Testen von Hypothesen und Streuungszerlegung 64 2.14 Likelihoodschätzung; die Methode der Rechenwerte . 66 2.15 Vertrauensgrenzen 68 2.16 Grenzfälle . 72 2.2 Beschreibung des Rechenablaufs 74 2.3 Anwendungen 79 7 2.31 Beispiel aus der Bakteriologie 79 2.32 Beispiel aus der Ornithologie. 85 2.33 Beispiel aus der Elektrotechnik *) 88 3 Einfache lineare Regression; mehrere Regressions- geraden 97 3.1 Theorie 97 3.11 Parallelität und Abstand zweier Regressionsgeraden . 97 3.12 Parallelität bei mehreren Regressionsgeraden . 103 3.13 Abstände zwischen mehreren Regressionsgeraden 106 3.2 Anwendungen 110 3.21 Beispiel aus der Pathologie. 110 3.22 Beispiel einer biologischen Gehaltsbestimmung 114 3.23 Beispiel aus der Epidemiologie . 118 4 Mehrfache Regression; allgemeines lineares Modell 125 4.1 Theorie 125 4.11 Likelihoodschätzung; allgemeine Formulierung. 125 4.12 Testen von Hypothesen 129 4.13 Likelihoodschätzung; die Methode der Rechenwerte . 134 4.14 Einfache lineare Regression 137 4.2 Beschreibung des Rechenablaufs 139 4.3 Anwendungen 146 4.31 Beispiel aus der Metallurgie 146 4.32 Beispiel aus der Physiologie 148 4.33 Beispiel aus der Strahlengenetik 150 5 Einweg-und Mehrwegklassifikation; Streuungszerlegung 155 5.1 Einleitung . 155 5.2 Theorie 162 5.21 Einwegklassifikation 162 5.22 Zweiwegklassifikation ohne Wiederholung 168 5.23 Zweiwegklassifikation mit Wiederholung . 173 5.3 Anwendungen 176 5.31 Beispiel aus der Tierzucht 176 5.32 Beispiel aus der medizinischen Genetik 177 5.33 Beispiel aus der Genetik . 180 5.34 Beispiel aus der Entomologie. 182 *) Anwendungen ohne Benützung von Rechenautomaten. 8 5.35 Beispiel aus der Soziologie . 184 5.36 Beispiel eines Feldversuchs . 187 5.37 Beispiel aus der Schädlingsbekämpfung*) 192 5.38 Beispiel aus der Ophthalmologie*) 200 6 Tafeln. 206 6.1 Winkeltransformation . 206 6.2 Probittransformation 208 6.3 Logittransformation. 211 6.4 Loglogtransformation . 214 6.5 Verteilung von x2 • 218 6.6 Normalverteilung . 219 6.7 Verteilung von F und von t 220 7 Literatur. 226 7.1 Im Text zitiert 226 7.2 Weitere Literaturangaben 228 8 Namenverzeichnis, Sachverzeichnis . 230 *) Anwendungen ohne Benützung von Rechenautomaten. 9 1 Einleitung In diesem einleitenden Kapitel wird unter 1.1 zunächst angegeben, weIchen Zweck wir mit unseren Ausführungen ver folgen. Es wird gezeigt, weshalb bei der statistischen Auswertung von Prozentzahlen besondere Schwierigkeiten auftreten und wie man versucht, durch Transformation der Prozentzahlen diese Schwierigkeiten zu überwinden. In 1.2 werden die am meisten verwendeten Transformationen einzeln vorgeführt und ihre Eigenschaften angegeben. In 1.3 und 1.4 erörtern wir die bei derartigen Transformationen allgemein auftretenden Probleme. Schliesslich fügen wir in 1.5 noch einige kurze historische Bemerkungen und Hinweise auf die Literatur an. 1.1 Ziel der Arbeit Der Forscher erhält recht oft die zahlenmässigen Ergeb nisse seiner Beobachtungen und Versuche in Form von Pro zentzahlen (Anteilziffern). Wir erwähnen einige Beispiele. 1. Sterberate eines Insektes in Abhängigkeit von der Konzentration eines Giftes; 2. Prozentsatz der Überschläge an einem Isolator in Abhängigkeit von der Stromspannung ; 3. Prozentsatz der befruchteten Eier, aus denen Küken geschlüpft sind, bei sechs weiblichen Inzuchtlinien; 4. Prozentsatz der Personen mit Magenkrebs, in Ab hängigkeit von Blutgruppe und Geschlecht; 5. Prozentsatz der Personen mit Steinkrankheit (Lithia sis), in Abhängigkeit von Geschlecht und Alter. In jedem dieser fünf Beispiele will man untersuchen, in weIcher Weise Prozentzahlen von gewissen Einflüssen abhängen. In den Beispielen 1 und 2 verändern sich die Prozentsätze in Abhängigkeit von kontinuierlich variierenden Einfluss grössen; in 1 ist diese Einflussgrösse die Giftkonzentration, in 11 2 ist es die Stromspannung. Im allereinfachsten Fall wird diese Abhängigkeit durch eine lineare Funktion y = c + bx (1) dargestellt, wobei x der Einflussgrösse, Y dem im Mittel zu erwartenden Prozentsatz entspricht. Im Beispiel 3 will man herausfinden, ob die weiblichen Inzuchtlinien die (cSchlüpfrate» beeinflussen. Mit den sechs Inzuchtlinien werden die Prozentzahlen in ebensoviele Klassen aufgeteilt, wodurch sich eine sogenannte Einwegklassijikation ergibt. In den Beispielen I und 2 haben wir quantitative Variabeln als Einflussgrössen; im Beispiel 3 dagegen eine qualitative Variable. Auch hier kann die Beziehung zwischen den Prozent zahlen Yund der Einflussgrösse durch eine Formel dargestellt werden, indem man schreibt Y = m + b" (2) wobeij die Werte I bis 6 annimmt. Im Beispiel 4 suchen wir festzustellen, wie der Prozentsatz der Personen mit Magenkrebs von der Blutgruppe und vom Geschlecht beeinflusst wird. Die beiden Einflussgrössen, Blut gruppe und Geschlecht, sind wiederum qualitativer Art; sie bilden je zwei Klassen, da nur die beiden häufigsten Blut gruppen A und 0 berücksichtigt werden. Wir haben es hier mit einer Zweiwegklassijikation zu tun. Die Beziehung zwischen den Prozentzahlen Y und den beiden (qualitativen) Einfiussgrössen lässt sich in die folgende Formel fassen: (3) wobei bj (bl und b2) den Einfluss der Blutgruppe und CI< (Cl und C2) den Einfluss des Geschlechts angibt. Im letzten Beispiel schliesslich liesse sich der Prozentsatz Y der Personen mit Lithiasis durch eine Beziehung der folgenden Art in Abhängigkeit vom Geschlecht und vom Alter x darstellen: (4) 12