Das Statistiklabor Rainer Schlittgen Das Statistiklabor Einführung und Benutzerhandbuch Mit64Abbildungen 123 RainerSchlittgen UniversitätHamburg FBWirtschaftswissenschaften InstitutfürStatistikundÖkonometrie Von-Melle-Park5 20146Hamburg,Deutschland e-mail:[email protected] BibliografischeInformationDerDeutschenBibliothek DieDeutscheBibliothekverzeichnetdiesePublikationinderDeutschenNationalbibliografie; detailliertebibliografischeDatensindimInternetüberhttp://dnb.ddb.deabrufbar. MathematicsSubjectClassification(2000):62-01,62-07 ISBN3-540-22389-4 SpringerBerlinHeidelbergNewYork DiesesWerkisturheberrechtlichgeschützt.DiedadurchbegründetenRechte,insbesonderedie derÜbersetzung,desNachdrucks,desVortrags,derEntnahmevonAbbildungenundTabellen, derFunksendung,derMikroverfilmungoderderVervielfältigungaufanderenWegenundder SpeicherunginDatenverarbeitungsanlagen,bleiben,auchbeinurauszugsweiserVerwertung, vorbehalten.EineVervielfältigungdiesesWerkesodervonTeilendiesesWerkesistauchim EinzelfallnurindenGrenzendergesetzlichenBestimmungendesUrheberrechtsgesetzesder BundesrepublikDeutschlandvom9.September1965inderjeweilsgeltendenFassungzulässig.Sie istgrundsätzlichvergütungspflichtig.ZuwiderhandlungenunterliegendenStrafbestimmungen desUrheberrechtsgesetzes. SpringeristeinUnternehmenvonSpringerScience+BusinessMedia springer.de ©Springer-VerlagBerlinHeidelberg2005 PrintedinGermany DieWiedergabevonGebrauchsnamen,Handelsnamen,Warenbezeichnungenusw.indiesem WerkberechtigtauchohnebesondereKennzeichnungnichtzuderAnnahme,daßsolcheNamen imSinnederWarenzeichen-undMarkenschutz-Gesetzgebungalsfreizubetrachtenwärenund dahervonjedermannbenutztwerdendürften. Satz:ReproduktionsfertigeVorlagevomAutor Herstellung:LE-TEXJelonek,Schmidt&VöcklerGbR,Leipzig Einbandgestaltung:design&productionGmbH,Heidelberg GedrucktaufsäurefreiemPapier SPIN:11019466 40/3142YL-543210 Inhaltsverzeichnis Vorbemerkung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 I Das Statistiklabor 3 1 Eine erste Beispielauswertung 5 2 Die Oberfläche 11 2.1 Symbolleisten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.2 Das Menü . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.3 Das Arbeitsblatt . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3 Ein- und Ausgabe 19 3.1 Datensatzimport . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.2 Copy & Paste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.3 Datenexport . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.4 Bericht erstellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 4 Statistische Objekte 25 4.1 Zufallszahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 4.2 Urliste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.3 Datensatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.4 Zeitreihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 4.5 Häufigkeitstabelle . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 4.6 Kontingenztafel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 4.7 Grafik-Wizard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 vi Inhaltsverzeichnis 5 Der Kalkulator 35 5.1 Der Kalkulator als Taschenrechner . . . . . . . . . . . . . . . . . 35 5.2 Der Statistik-Taschenrechner . . . . . . . . . . . . . . . . . . . . . 38 5.3 Berechnungen im Kalkulator . . . . . . . . . . . . . . . . . . . . . 43 6 Einiges zu R 51 6.1 Datentypen und Objekte . . . . . . . . . . . . . . . . . . . . . . . 51 6.2 Operatoren und Funktionen . . . . . . . . . . . . . . . . . . . . . 58 6.3 Weitergehende Nutzung von R . . . . . . . . . . . . . . . . . . . . 66 7 R-Grafik 69 7.1 Univariate Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 7.2 Bivariate und höherdimensionale Daten . . . . . . . . . . . . . . . 75 7.3 Ergänzen von Grafiken . . . . . . . . . . . . . . . . . . . . . . . . 77 8 Anwenderbibliotheken und Packages 81 8.1 Anwenderbibliotheken . . . . . . . . . . . . . . . . . . . . . . . . 81 8.2 Packages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 9 Der Musterlösungseditor 87 10 Zur R-Schnittstelle 91 II Einige Standardauswertungen 93 11 Beschreibung von Daten 95 11.1 Univariate Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 11.2 Bivariate Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 12 Wahrscheinlichkeitsrechnung 109 12.1 Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 12.2 Spezielle Verteilungen. . . . . . . . . . . . . . . . . . . . . . . . . 110 12.3 Die Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . 116 13 Stichproben und Punktschätzungen 121 13.1 Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 13.2 Schätzfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 Ivnihaltsverzeichnis Inhaltsverzeichnviisi 14 Tests und Konfidenzintervalle 129 14.1 Theoretischer Hintergrund . . . . . . . . . . . . . . . . . . . . . . 129 14.2 Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 15 Regression 139 15.1 Die einfache lineare Regression. . . . . . . . . . . . . . . . . . . . 139 15.2 Linearisieren eines Zusammenhanges . . . . . . . . . . . . . . . . 144 15.3 Das multiple lineare Regressionsmodell . . . . . . . . . . . . . . . 146 15.4 Diagnose des Regressionsmodells . . . . . . . . . . . . . . . . . . 149 15.5 Multikollinearität . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 III Wichtige R-Funktionen 155 16 Tabellarische Überblicke 157 16.1 Mathematische Funktionen . . . . . . . . . . . . . . . . . . . . . . 157 16.2 Statistische Funktionen . . . . . . . . . . . . . . . . . . . . . . . . 158 16.3 Erzeugung und Bearbeitung von Matrizen und Vektoren . . . . . 158 16.4 Wahrscheinlichkeitsverteilungen . . . . . . . . . . . . . . . . . . . 159 16.5 Alphabetische Liste . . . . . . . . . . . . . . . . . . . . . . . . . . 160 17 Referenz von R-Funktionen 165 Liste typischer Auswertungen 206 Literaturverzeichnis 209 1 Vorbemerkung Diese Einführung beschreibt das Arbeiten mit dem Statistiklabor.Das Statistik- Laboristeineinteraktive ArbeitsumgebungzurBearbeitungstatistischer Aufga- ben.InersterLiniestelltsichdasLabordamNutzerwieeinArbeitsblattdar,auf dem mit Hilfe statistischer Funktionen und Darstellungsmöglichkeiten Aufgaben gelöst werden können. Das Statistiklabor ermöglicht ein objektorientiertes Arbeiten: Zentrale statisti- sche Objekte (wie Datensatz, Matrix, Häufigkeitstabelle) können als sogenannte GUI-Objekte1 aufgerufen und über Konnektoren mit einem Kalkulator verbun- den werden. Dort können statistische Berechnungen vorgenommen werden. Die Ergebnisse stellen das abschließende Ergebnis dar oder führen zu weiteren Aus- wertungsschritten bzw. grafischen Darstellungen. Abgespeichert werden Arbeits- blätteralsLaborprojekte(DateienmitderDateierweiterungspf).DieBedienung der Laborelemente wird im ersten Teil erklärt. Eine zentralen Plattformfür alle Statistiklabor-Nutzer ist eine Webseite, die un- terderDomainhttp://www.statistiklabor.de zuerreichen ist.Sieistdieoffizielle Support-Site für das Statistiklabor, in der die aktuellen Versionen des Statisti- klabors, ein Labor-Aufgabenpool mit Aufgaben und Musterlösungen zu unter- schiedlichen Themengebieten, TutorialsundBenutzerbibliotheken zurVerfügung gestellt und ausgetauscht werden können. Das Labor ist eine Oberfläche für die statistische Programmiersprache R, einen freiverfügbarenDialektderProgrammierspracheS.DieLabor-Oberflächeerlaubt einen wesentlichen einfacheren Zugangzuderstatistischen Funktionalitätvon R. Da R auf der einen Seite einen großen Vorratan statistischen Funktionen bietet, andererseits für den Anfänger eher etwas schwierig und von der Bedienung her wenig komfortabel ist, wurde die Oberfläche ’Statistiklabor’ geschaffen. Um die Verbindung des Labors mit R etwas genauer zu benennen: Einige der GUI-Objekte verfügen über eine systeminterne Schnittstelle zu R. Diese über- setzt die Darstellung am Bildschirm gemäß den R-Konventionen. Innerhalb des GUI-Objektes’R-Kalkulator’istdergesamteUmfangderProgrammiersprache R verfügbar. Zudem gibt es einige zusätzliche Funktionalitäten. Da auch die Programmierung mit R möglich ist, wird in einem eigenen Kapitel etwas weitergehend auf die Programmiersprache eingegangen. Für noch weiter- gehendeAspektederNutzungvonundProgrammierunginRistvonBedeutung, dass für Anwender R und S-Plus weitgehend identisch sind. Bücher zu S-Plus sinddaherauchfürR-Nutzergeeignet.DaherkönnenfolgendeBücherempfohlen werden: Crawley (2002), Dalgaard (2002), Dolić (2004), Krause & Olson (2002), Süsselbeck (1993),Venables (2000) sowie Venables and Ripley (1994). Das Statistiklabor ist Gewinner des mediendidaktischen Hochschulpreises Medi- daPrix 2003.Folgende Auszüge aus derBegründung durch die Jury des Medida- Prix seien hier wiedergegeben. 1GUIisteinKürzelfürGraphicUserInterface,grafischeBenutzerschnittstelle. 2 DasaufkonstruktivistischenDesignprinzipienbasierendeProjekt’Sta- tistiklabor’ der Freien Universität Berlin wurde als Preisträger des MedidaPrix 2003 ausgewählt, da es neue Möglichkeiten in der statis- tischen Grundausbildung eröffnet. Statt der üblicherweise vorhandenen mathematikbasierten Lehre in derStatistikisthiereindatenorientierterZuganggewähltworden,der es Lehrenden und Lernenden ermöglicht, mit visueller Unterstützung interaktive statistische Experimente und Auswertungen durchzufüh- ren. Das System eignet sich sowohl für die Präsentation in der Lehre als auch für das individuelle Lernen. Eine standardisierter Schnittstelle ermöglichtdieEinbeziehungfremderMaterialienunddieErweiterung des Systems um neue Auswertungsverfahren. Die professionelle technische Entwicklung dieser kostenfrei verfügba- ren Software eröffnet nachhaltige Nutzungsmöglichkeiten. Das Labor ist Teil des größeren Verbundvorhabens ’Neue Statistik’2. Der Text ist in drei Teile gegliedert. Im ersten wird das Labor selbst vorgestellt. Auch wenn das Labor selbst mit einer umfangreichen Hilfe und Beschreibung ausgestattet ist, erscheint ein Überblick in dieser Form sinnvoll. Einmal kann man das Buch direkt neben den Bildschirm legen und hat so einen parallelen Zugriff. Dann werden doch etliche Punkte angesprochen und Hinweise gegeben, die in der Laboreigenen Beschreibung nicht zu finden sind. Um die Durchführung von Aufgaben mit dem Labor zu illustrieren, werden im zweitenTeil’EinigeStandardauswertungen’präsentiert.Dabeiwerdennichtnack- teAnwendungenvorgestellt,sonderneswirdauchderjeweiligemethodischeHin- tergrund angegeben. So ist dieser Teil zugleich eine knappe Einführung in die Statistik insgesamt. Dabei wird der Stoff einer Grundvorlesung überspannt: De- skriptive Statistik, Wahrscheinlichkeitsrechnung, Schätzen und Testen sowie die Regressionsrechnung. Im dritten Teil werden die wichtigsten Funktionen tabellarisch und in Form der R-Referenz gelistet. ZurGestaltungdesTextes istnochFolgendesanzumerken. DerKalkulatorspielt eine wesentliche Rolle beim Statistiklabor. Er kann zwei Zustände aufweisen, einen Eingabe- oder Schreibmodus und einen Rechenmodus. Um kenntlich zu machen, zu welchem Modus der angezeigte Text gehört, werden die zugehörigen Symbole,derBleistift unddasZahnrad ,verwendet.Ein-undAusgabesowie R-Befehle werden in Schreibmaschinenschrift gesetzt. 2FörderungerhieltdasProjektdurchdasbmb+fimRahmendesProgramms’NeueMedien inderBildung’ Teil I Das Statistiklabor Kapitel 1 Eine erste Beispielauswertung BevordasStatistiklaborsystematischbeschriebenwird,sollanhanddieserersten Beispielauswertung ein Eindruck vermittelt werden, wie sich das Arbeiten mit dem Laborgestaltet. Die Ausgangssituation Korporale Belastungen der Allgemeinbevölkerung durch Blei ergeben sich über unterschiedlicheBelastungspfade,überluftgetragenePartikel,belasteteNahrungs- mittel und Trinkwasser. Der Bleigehalt imBlut giltim allgemeinen als derbeste Indikator zur Ermittlung einer aktuellen Bleibelastung. Im Rahmen eines umfangreichen Umwelt-Surveys wurde verschiedenen Belas- tungspfaden nachgespürt, siehe Krause et al. (1996). Unter anderem wurde der KonsumvonMilchproduktenanalysiert.DazuwurdendiePersoneninzweiGrup- peneingeteilt;solche,diewenigerhäufigMilchproduktekonsumiertenundsolche, die es häufig taten. Zwei Stichproben aus Verteilungen, die den berichteten ent- sprechen, stehen zur Verfügung; sie haben den Umfang von jeweils 100. Einlesen der Daten Als erstes müssen die Daten eingelesen werden. Nach entsprechender Vorberei- tungderASCII-Dateigeschiehtdies,indemderDatensatzimportaufgerufenwird. Dazu wird auf der Objektleiste am linken Rand des Bildschirms das zugehörige Symbol (Diskette mit dem Pfeil raus) anklickt, die Maus auf das Arbeitsblatt geführtundaneinerbeliebigenfreienStellewiederdielinkeMaustastegedrückt. Nun wird bei gedrückt gehaltener Taste die Maus etwas gezogen. Schon ist das ’Datensatzobjekt’platziert.AnklickenmitderrechtenMaustasteöffnetdasKon- textmenü,überdasimMenüpunktEinstellungendiegewünschteDatei(imExcel- oder ASCII-Format; Dateierweiterungen xls bzw. txt) ausgewählt und somit ge- laden werden kann. Zunächst wird die Datei Blut1.txt geladen.