ebook img

Nichtparametrische Verfahren der Statistik PDF

237 Pages·2001·5.35 MB·German
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Nichtparametrische Verfahren der Statistik

Robert Hafner N ichtparametrische Verlahren cler Statistik Springer-Verlag Wien GmbH Univ.-Prof. Dipl.~Ing. Dr. Robert Hafner Institut ftir Angewandte Statistik Jo hannes-Kepler-Un iversităt Linz Linz, Osterreich Das Werk ist urheberrechtlich geschtitzL Die dadurch begrtind~t,ţn Rechte, insbesondere die der Dbersetzung, des Nachdruckes, der Entnahme von Abbildungen, der Funksendung, der Wiedergabe auf photomechanischem oder ăhnlichem Wege und der Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Produkthaftung: Sămtliche Angaben in diesem F achbuch (wissenschaftlichen We rk) erfolgen trotz sorgfăltiger Bearbeitung und Kontrolle ohne Gewăhr. Insbesondere Angaben tiber Dosie rungsanweisungen. und Applikationsformen mtissen vom jeweiligen Anwender im Eirizelfall anhand anderer Literaturstellenauf ihre Richtigkeit tiberpruft werden. Eine Haftung des Autors oder des Verlages aus dem Inhalt dieses Werkes ist ausgeschlossen. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Buch berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, daB solche Namen im Sinne der Warenzeichen-und Markenschutz-Gesetzgebung als frei zu betrachten wăren und daher von jedermann benutzt werden dtirfen. © 2001 Springer-Verlag Wien U rspriinglich erschienen bei Springer-VerlagIWien 2001 Reproduktionsfertige Vorlage vom Autor Gedruckt auf săurefreiem, chlorfrei gebleichtem Papier - TCF SPIN 10793011 Mit 102 Abbildungen Die Deutsche Bibliothek - CIP-Einheitsaufnahme Ein Titeldatensatz ftir diese Publikation ist bei Der Deutschen Bibliothek erhăltlich. ISBN 978-3-211-83600-2 ISBN 978-3-7091-6273-6 (eBook) DOI 10.1007/978-3-7091-6273-6 Vorwort In den zuriickliegenden drei Jahrzehnten ist die nichtparametrische Statistik rasch und umfassend gewachsen. Fiir die verschiedensten Fragestellungen und Modelle der Datenerzeugung wurden nichtparametrische Verfahren entwickelt, und auch in die gangigen Statistik-Programmpakete haben viele dieser Verfah- ren Eingang gefunden. Es ist daher heute auch im deutschsprachigen Raum eine Selbstverstandlichkeit, Anwender der Statistik und damit insbesondere Studen- ten der angewandten Statistik mit den Grundlagen und Methoden der nicht- parametrischen Statistik in eigenen Kursen und Vorlesungen vertraut zu ma- chen. Aus Vorlesungen dieser Art, die der Autor an verschiedenen Hochschulen gehalten hat, ist das vorliegende Buch entstanden. Die dabei gewonnenen Er- fahrungen haben die Stoffauswahl und Prasentation wesentlich bestimmt. Der zur Verfiigung stehende Raum von ca. 200 Druckseiten erzwang automatisch eine Beschrankung auf grundlegende Fragestellungen, vor allem auch weil die Darstellung sorgfaltig und motivierend sein sollte. Indessen schadet diese Be- schrankung nicht, denn wie die Erfahrung mit vielen Studentenjahrgangen zeigt, findet sich derjenige, der das in dem vorliegenden Lehrbuch gebotene Material griindlich verdaut hat, jederzeit in der weiterfiihrenden Literatur iiber nichtpa- rametrische Verfahren zurecht. Viel Miihe wurde auch darauf verwandt, durch eine groBe Zahl von Abbildungen die Anschaulichkeit des Gebotenen zu fordern. Das Buch richtet sich an Leser, die im Bereich der klassischen parametri- schen Statistik, wenigstens was das BegrifHiche angeht, einigermaBen sattelfest sind - konkrete Formelkenntnisse sind nur in sehr bescheidenem Umfang er- forderlich. Es sollte daher einem breiten Publikum zuganglich sein. AbschlieBend danke ich allen, die mir bei der Herstellung des Buches gehol- fen haben: Herrn Mag. Dr. H. Waldl, Herrn Mag. Dr. H. Potuschak und Herrn Mag. Dr. J. Fersterer. Fiir sorgfaltiges Korrekturlesen danke ich Frau Mag. H. Wagner und den vormaligen Studenten Raferzeder, Hubauer, Sensenberger und Langgartner. Mein besonderer Dank gilt aber meiner langjahrigen Sekretarin Frau R. Janout fiir ihre groBe Sorgfalt und Geduld bei der Fertigstellung der Druckvorlage. Linz, im Janner 2001 R. Hafner Inhaltsverzeichnis 1 Einfiihrung .......................... ................. ... .. . 1 2 Einstichprobenprobleme 2.1 Vorbetrachtung .. .............. .... .............. .... .. ... ... 11 2.2 Ordnungsstatistiken .......................................... 13 2.3 Verteilung von Ordnungsstatistiken ............... ....... ...... . 15 2.4 Bereichschatzung von Fraktilen ... .. ........ ......... ..... .. ... 30 2.5 Testen von Hypothesen uber Fraktile .... ............. .......... 36 2.6 Statistische Toleranzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 41 2.7 Schatzung der Verteilungsfunktion - Anpassungstests ..... ..... .. 45 Der Kolmogorov-Test .. .. ... .... .... .... .... .. .... ... .... .. ... 54 Der Lilliefors-Test auf Normalitat .. .. .......... ... ....... ... ... 60 Tests vom Cramer-von-Mises-Typ .... ............. ..... .. ... .. . 65 Der Chi-Quadrat-Test ................ ........................ 68 2.8 Schatzung der Dichte einer stetigen Verteilung ... ...... ....... ... 74 Arten von Dichteschatzern - ein Uberblick ........ ......... .... 75 Der Kern-Dichteschatzer .... .... .................... ....... .. . 82 Kern-Dichteschatzer fur multivariate Daten ...... ...... ... .... ... 91 2.9 Einstichprobenprobleme bei zensierten Daten ... ...... ... .... .... 95 Grundbegriffe der Lebensdaueranalyse ...... .......... .......... 96 Zensierte Daten .. ... .... ............................ ... .... .. 99 Der Kaplan-Meier-Schatzer ... .......... ....... ... ..... ..... .. . 103 Bereichschatzer fur St .. ..... ..... ... ... ..... .. ..... .. ..... .... 111 3 Zweistichprobenprobleme 3.1 Rangstatistiken .... ... ..... ... .. .. .. .. ... ............... ..... 114 Range .. ... ..... ... ............ ................. .... .. .... .. 116 Die Verteilung der Range ...................... .. ....... .... .. . 117 Lineare Rangstatistiken .. ........ ......................... ... . 119 Die Nullverteilung linearer Rangstatistiken ... ........ .... .. ... .. 124 Asymptotische Verteilung linearer Rangstatistiken .... ......... .. . 129 3.2 Der Lagevergleich zweier Verteilungen ............ .. .... ... .. ... 132 Effizienzmaf3e von Bahadur, Hodges-Lehmann und Pitman ........ 140 Der Wilcoxon-Test .. .................................. .. .... . 144 Der van-der-Waerden-Test ............. .......... ....... ..... .. 153 Der Median-Test ............................................. 158 viii Inhaltsverzeichnis 3.3 Der Skalenvergleich zweier Verteilungen ... .... ..... ...... .. ..... 163 Der Siegel-Tukey-Test ..... ..... ...... ... .... ..... ...... .. .. ... 168 Der Freund-Ansari-Bradley-David-Barton-Test .............. .... . 168 Der Mood-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 169 Der Klotz-Test .. ........... ... ........ .......... ... ..... .... . 169 3.4 Der Allgemeinvergleich zweier Verteilungen .... ...... .. . ... . . . . . .. 182 Der Kolmogorov-Smirnov-Test ... ... .. ... .... ...... .. .. ..... ... 182 Der Cramer-von-Mises-Zweistichprobentest .. ... ...... .. .. ....... 187 4 Mehrstichprobenprobleme 4.1 Das k-Stichproben-Lageproblem .... .. .. ..... .. ... ... ... ..... ... 189 4.2 Das k-Stichproben-Skalenproblem ... .... .. .. ........ .... ..... .. 192 5 Regression 5.1 Einfache lineare Regression 196 5.2 Multiple lineare Regression 207 Tabellenanhang ... ...... ...... ........ ... ..... .. ..... .. .... ... . 215 Literatur .... ... ....... ......... .. ..... .... .. ...... ..... ...... .. 223 Sachverzeichnis ....... ..... .. ..... .. ... .. ........ .......... .. .. 231 Kapitell Einfiihrung In der Statistik werden Daten auf unterschiedliche Weise ausgewertet, urn die in ihnen enthaltene interessante Information in moglichst klar erkennbarer Form zu gewinnen. Dabei betrachtet man in der deskriptiven Statistik die Daten und nichts als die Daten als das Gegebene, verzichtet auf jede Hypothese uber den Mechanismus ihrer Entstehung und erhiilt als Ergebnis der Auswertungen Aussagen, die sich allein auf die gegebenen Daten beziehen. Anders in der mathematischen Statistik: zwar sind auch hier die Daten das primar Gegebene, aber dazu kommen noch Hypothesen uber den diesen Da- ten zugrundeliegenden Erzeugungsmechanismus. Diese Hypothesen, gleichgultig ob sie Ergebnis theoretischer Uberlegungen, ob sie die Summe von Erfahrun- gen oder nur erste tastende Vermutungen sind, beschreiben einen hypotheti- schen Mechanismus - ein Modell fur die Datenerzeugung. Prazise gespro- chen: diese Hypothesen beschreiben nicht einen, sondern eine Schar struktu- rell gleichartiger Erzeugungsmechanismen, die sich voneinander nur durch die Werte verschiedener KenngroBen (ein- oder mehrdimensionaler Parameter oder frei wiihlbarer Funktionen) unterscheiden. Ein Modell ist somit eine Schar strukturell gleichartiger Erzeugungsme- chanismen fur Daten. Den beobachteten Daten ein Modell unterlegen, heiBt annehmen, die Daten waren von einem der in dem Modell enthaltenen (d.h. zulassigen) Mechanismen erzeugt. Die Auswertung der Daten hat nunmehr das Ziel, Aussagen uber dies en Erzeugungsmechanismus zu machen - Hypothesen zu testen, Parameter oder Funktionen (z.B. Dichten oder Verteilungsfunktionen) zu schatzen. Die erkenntnistheoretische Methode, den Beobachtungen Modelle zu unter- legen und die Daten auf diese Modelle hin zu interpretieren, ist in den N aturwis- schenschaften, insbesondere in der Physik uralt. Auch in der mathematischen Statistik ist diese Denkweise seit langem ublich, wenn auch in den Anwendun- gen die jeweils benutzten Modelle haufig unscharf und schlampig oder gar nicht beschrieben werden. R. Hafner, Nichtparametrische Verfahren der Statistik © Springer-Verlag/Wien 2001 2 1 Einfuhrung Modelle der mathematischen Statistik Der Grundbaustein aller Modelle der mathematischen Statistik ist das Zufalls- experiment. In der Wahrscheinlichkeitstheorie sieht man von allem Konkreten eines Zufallsexperiments abo Ais allein wesentliche Essenz bleibt eine Black-Box £, aus der ein in der Regel numerisch codierter Ausgang x oder x = (Xl' ... ' Xk) gemeldet wird, und eine Wahrscheinlichkeitsverteilung Px bzw. Px nach der die- ser zufciJ.lige Ausgang verteilt ist (vgl. Abb. 1.1). 1----.-.. x-P z Abb. 1.1: Zufallsexperiment £ mit nach Px verteiltem Ausgang X Ein Zufallsexperiment mit exakt priizisierter Verteilung Px seines Ausgan- ges ist kein Modell. Hier ist nichts zu bestimmen, nichts zu schiitzen, nichts zu testen - alles ist bekannt, und aus irgendwelchen Daten kann nichts geschlossen werden, was nicht schon gegeben ware. Ein Modell erhalten wir erst, wenn die Verteilung Px nicht exakt priizisiert, sondern innerhalb einer Familie P von zuliissigen Verteilungen frei wiihlbar ist. Jetzt ist eine Schar moglicher, zuliissiger Zufallsexperimente gegeben. Wir schreiben: Modell: X '" Px E P (1.1) und sagen: Gegeben ist ein Zufallsexperiment £, des sen Ausgang x nach einer Verteilung P aus der Schar P verteilt ist. x Parametrische Modelle 1st die Schar P der zuliissigen Verteilungen durch endlich viele, etwa k nume- e e rische Scharparameter (191, ... ,19k) E c R k parametrisiert - heiBt der Parameterraum fur die gewiihlte Parametrisierung -, dann spricht man von einem parametrischen, im besonderen von einem k-parametrischen Mo- dell. Dabei verlangt man, daB diese Parametrisierung stetig und differenzier- bar sei, d.h. etwa, daB die Verteilungsfunktion F(xlt9l , ... ,19k) oder die Dichte f(xlt91, .•• , 19k) stetig und differenzierbar von den Scharparametern (191, ... , 19k) abhiingen.1 1 Es laBt sich zeigen, daB etwa die Menge Paller stetigen Verteilungen P auf R die Machtigkeit des Kontinuums besitzt und damit durch einen einzigen reellen Parameter 19 parametrisierbar ist. Derartige Parameterisierungen sind jedoch weder stetig noch differenzierbar und fur praktische Anwendungen ungeeignet. 1 Einftihrung 3 Wir betrachten einige Beispiele fUr parametrische Modelle und fUhren bei dieser Gelegenheit die in diesem Buch verwendeten Bezeichnungen ftir verschie- dene klassische Verteilungsfamilien ein. • (Ap: P E [0,1]) ... die Familie der Alternativverteilungen mit den Dichten • (Bn,p: n E N,p E [0,1]) ... die Familie der Binomialverteilungen mit den Dichten: • (HN,A,n: N, A, n E No, 0 ~ A, n ~ N) ... die Familie der hypergeome- trischen Verteilungen mit den Dichten: • (PI': J.1, E R+) ... die Familie der Poisson-Verteilungen mit den Dichten: • (N(J.1,,<12): J.1, E R,<12 E R+) die Familie der Normalverteilungen mit den Dichten: 2 1 (x - J.1,)2 f(xIN(J.1" <1 )) = $ exp( - 2 2 ). 211" . <1 <1 • (B( a, ,8): a,,8 > 0) ... die Familie der Betaverteilungen mit den Dich- ten: 1 f(xIB(a,,8)) = B(a,,8) xO- 1(1 - X),8-1 ftir x E [0,1). • (r(>I,J.1,): A,J.1, > 0) ... die Familie der Gammaverteilungen mit den Dichten: Bezeichnet Peine der obigen Verteilungsfamilien, dann erhalten wir ebensoviele parametrische Modelle x '" Px E P mit 1,2 oder 3 freien Scharparametern. 4 1 Einfiihrung Die zur Parametrisierung einer Schar P von Verteilungen benutzten Pa- rameter nennt man ihre Scharparameter. Eine Schar P kann naturlich auf mannigfachste Art und Weise parametrisiert werden, die Scharparameter und ihre Bedeutung hiingen somit von der gewiihlten Parametrisierung ab und sind in keiner Weise naturgegeben. Beispielsweise konnte man die Familie der Binomialverteilungen statt durch (n,p) mit (n, l' = In(p/(1-p))) parametrisieren. Durchliiuft p das Intervall [0,1]' dann wiichst l' von -00 bis +00 und es gilt p = e"Y /(1 + e"Y) bzw. (1 - p) = = 1/(1 + e"Y). Die Dichte der Binomialverteilung hat in der neuen Parametri- sierung die Gestalt: f(x) = (n)(~)x(_1_)n_x = x 1 + e"Y 1 + e"Y = (:) (1 +1e"Y)n e"Yx, ein ganz ungewohnter Ausdruck, der nichtsdestoweniger fur manche Zwecke seine Vorteile hat. 1st allgemein P = (Px('ID) : D = (191, ... ,19k) E e c Rk) eine Parametri- sierung der Schar P und ist 7 = t( D) eine umkehrbar eindeutige Abbildung des D-Parameterraumes e auf r = {7 : 7 = 7( D) fur DEe}, den 7-Parameterraum, und ist diese Abbildung stetig und stetig differenzierbar, mit der Umkehrung D = t-1(-y), dann ist P = (Px('lt-1(-y)) : 7 E r) eine neue Parametrisierung von P. Die Einschriinkung auf stetige und stetig differenzierbare Transformationen t(.) stellt unter anderem sicher, dafi der neue Scharparameter 7 = (1'1, ... ,1'k) von der gleichen Dimension ist wie der alte D = (191, ... ,19k). Von den Scharparametern einer Verteilungsfamilie P begriffiich klar zu unterscheiden sind Verteilungsparameter wie etwa Mittelwert, Varianz, Mo- mente, Fraktile. Zwar konnen die Scharparameter im konkreten Einzelfall die Bedeutung solcher Verteilungsparameter haben (z.B. bei PI" N(/1, 0"2)), doch ist das keineswegs die Regel. 1m allgemeinen sind die den Statistiker interessie- renden Verteilungsparameter mehr oder weniger komplizierte Funktionen der Scharparameter (z.B. /1 = np, 0"2 = np(1 - p) bei der Binomialverteilung Bn,p oder /1 = a/(a + (3), 0"2 = a{3/(a + (3)2(a + (3 + 1) bei der Betaverteilung B(a,{3)). Unterlegt man den beobachteten Daten ein parametrisches Modell, so hat man keineswegs immer das Ziel, die zur Parametrisierung benutzten Schar- parameter zu schiitzen. Viel hiiufiger sind bei komplexen parametrischen Mo- dellen verschiedene Verteilungsparameter von Interesse und man wird keines- wegs immer aIle Scharparameter D = (191, ... , 19 k) schiitzen, urn uber die For- mel l' = 1'( D), die den interessanten Verteilungsparameter l' als Funktion der Scharparameter D ausdruckt, aus einem Schiitzer J(X1 ... xn) etwa den Schiitzer 1 = 1'(J(X1 ... xn)) zu gewinnen. Wir kommen auf diese Frage etwas spiiter, bei der Besprechung nichtparametrischer Modelle zuruck.

Description:
In den letzten Jahrzehnten ist die nichtparametrische Statistik rasch und umfassend gewachsen. Für die verschiedensten Fragestellungen und Modelle der Datenerzeugung wurden nichtparametrische Verfahren entwickelt, und auch in die gängigen Statistik-Programmpakete haben viele dieser Verfahren Einga
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.