ebook img

Grundlagen der Datenanalyse mit R: Eine anwendungsorientierte Einführung PDF

708 Pages·2017·5.421 MB·German
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Grundlagen der Datenanalyse mit R: Eine anwendungsorientierte Einführung

Daniel Wollschläger Grundlagen der Datenanalyse mit R Eine anwendungsorientierte Einführung 4., überarbeitete und erweiterte Auflage DanielWollschläger InstitutfürMedizinischeBiometrie,EpidemiologieundInformatik(IMBEI) UniversitätsmedizinderJohannesGutenberg-UniversitätMainz Mainz,Deutschland StatistikundihreAnwendungen ISBN:978-3-662-53669-8 ISBN:978-3-662-53670-4(eBook) DOI10.1007/978-3-662-53670-4 DieDeutscheNationalbibliothekverzeichnetdiesePublikationinderDeutschenNationalbibliografie;detaillierte bibliografischeDatensindimInternetüberhttp://dnb.d-nb.deabrufbar. SpringerSpektrum ©Springer-VerlagGmbHDeutschland2010,2012,2014,2017 SpringerSpektrumistTeilvonSpringerNature DieeingetrageneGesellschaftistSpringer-VerlagGmbHDeutschland DieAnschriftderGesellschaftist:HeidelbergerPlatz3,14197Berlin,Germany Vorwort Dieses Buch liefert eine an human- und sozialwissenschaftlichen Anwendungen ori- entierte Einführung in die Datenauswertung mit R. R ist eine freie Umgebung zur umfassenden statistischen Analyse und grafischen Darstellung von Datensätzen, die befehlsorientiert arbeitet. Der vorliegende Text soll jenen den Einstieg in R erleichtern, die in erster Linie grundlegende Auswertungsverfahren anwenden möchten und keine VorkenntnissemitProgrammenohnegrafischeBenutzeroberflächebesitzen. Das Buch stellt die Umsetzung grafischer und deskriptiver Datenauswertung, nonpa- rametrischerVerfahren,(verallgemeinerter)linearerModelleundmultivariaterMethoden vor. Die Auswahl der behandelten statistischen Verfahren orientiert sich an den Anfor- derungenderPsychologie,sollaberauchdiewichtigstenAuswertungsmethodenanderer Human-undSozialwissenschaftensowiederklinischenForschungabdecken. StrukturundLesereihenfolge DasBuchbestehtausviergroßenTeilen: I Kap.1–4befassensichmitdenzumEinlesenundVerarbeitenvonDatennotwendigen Grundlagen. Kap.1 dient der Einführung in den Umgang mit R sowie in die Syntax derBefehlssteuerung.InKap.2werdengrundlegendeDatenstrukturengemeinsammit Methoden zur deskriptiven Datenauswertung behandelt. Kap.3 befasst sich mit der Organisation von Datensätzen. Die Verwaltung von Befehlen und Daten beschreibt Kap.4. II Kap.5–13 behandeln die Anwendung verschiedener statistischer Modelle und Me- thoden. Kap.5 stellt Hilfsmittel für die schließende Statistik bereit. Diese wird in Kap.6 (lineare Regression), 7 (t-Tests und Varianzanalysen), 8 (Regression für kategoriale Daten), 9 (Survival-Analyse), 10 (klassische nonparametrische Tests), 11 (bootstrapundPermutationstests),12(multivariateMethoden)und13(Vorhersagegüte prädiktiverModelle)behandelt. III Kap.14–15 stellen vor, wie Diagramme erstellt werden können. Kap.14 erläutert die allgemeinen Grundlagen sowie die relevanten Funktionen des Basisumfangs von R. Kap.15vermitteltdenUmgangmitdembeliebtenZusatzpaketggplot2. IV Kap.16–17beschreibenfortgeschritteneTechniken,insbesonderefürmaßgeschneiderte Auswertungen. Dazu zählen numerische Methoden in Kap.16 sowie der Einsatz von RalsProgrammierspracheinKap.17. DieLesereihenfolgemussderReihenfolgederKapitelnichtunbedingtfolgen.Während TeilIuniversellfürdiemeistenAnwendungenwichtigistunddaherzuerstgelesenwerden sollte,lassensichdieInhaltevonTeilIIundIIIauchunabhängigvoneinandernachBedarf kombinieren.TeilIVistoptionalundbesondersfürbereitserfahreneNutzergedacht. Hinweise Der Fokus des Buchs liegt auf der Umsetzung der Verfahren mit R, nicht aber auf der Vermittlung statistischer Grundlagen. Von diesen wird hier angenommen, dass die Leser mit ihnen vertraut sind. Auf Literatur zu den behandelten Verfahren wird zu Beginn der Abschnittejeweilshingewiesen. Um die Ergebnisse der R-eigenen Auswertungsfunktionen besser nachvollziehbar zu machen, wird ihre Anwendung an vielen Stellen durch manuelle Kontrollrechnungen begleitet. Die eigene Umsetzung soll zudem zeigen, wie auch Testverfahren, für die zunächst keine vorbereitete Funktion vorhanden ist, prinzipiell selbst umgesetzt werden können. In den meisten Beispielen wird davon ausgegangen, dass die vorliegenden Daten bereitsgeprüftsindundeinehoheDatenqualitätvorliegt:FragenderEinheitlichkeitetwa hinsichtlichderCodierungvonDatumundUhrzeit,potentiellunvollständigeDatensätze, fehlerhafteingegebeneoderunplausibleDatensowiedoppelteWerteoderAusreißersollen ausgeschlossensein.BesondereAufmerksamkeitwirdjedochdemThemafehlenderWerte geschenkt. ÄnderungeninderzweitenAuflage Das Buch vertieft nun das Thema der Verarbeitung von Zeichenketten sowie von Da- tumsangaben (Abschn.2.12, 2.13) und beinhaltet eine umfassendere Darstellung der Diagnostik und Kreuzvalidierung von Regressionsmodellen (Abschn.6.5, 13.1). Die Auswertung varianzanalytischer Fragestellungen berücksichtigt jetzt die Schätzung von Effektstärken(Abschn.7.2–7.7).AlsTestsaufgleicheVariabilitätwerdenzusätzlichjene nachFligner-KilleensowienachMoodundAnsari-Bradleybesprochen(7.1.3,10.4).Das neue Kap.11 führt in die Anwendung von bootstrapping und Permutationstests ein. Bei multivariaten Verfahren ist die Diskriminanzanalyse ebenso hinzugekommen wie eine BehandlungdesallgemeinenlinearenModells(Abschn.12.8,12.9).Schließlichgehtder Text nun auf Möglichkeiten zur Darstellung von Bitmap-Grafiken ein (Abschn.14.5.10) und beschreibt detaillierter, welche Möglichkeiten für Funktionsanalyse und debugging R bietet (Abschn.17.3). Die R-Beispielauswertungen sind ausführlicher kommentiert undabschnittsübergreifendkonsistenter.DerüberarbeiteteIndexwurdenachinhaltlichen Schlagworten,R-FunktionenundZusatzpaketengetrennt. ÄnderungeninderdrittenAuflage Abschn.4.2.4 behandelt ausführlicher den Datenaustausch mit Datenbanken. Der neue Abschn.4.3 stellt vor, wie man mit Dateien und Pfaden arbeitet. Hinweise auf Erweite- rungen der linearen Regression liefert Abschn.6.6 – etwa auf robuste, penalisierte oder gemischte Modelle sowie auf verallgemeinerte Schätzgleichungen. Regressionsmodelle für kategoriale Daten und Zähldaten sind nun in Kap.8 zusammengefasst und wur- den um die ordinale (Abschn.8.2), multinomiale (Abschn.8.3) und Poisson-Regression (Abschn.8.4)ergänzt.Abschn.8.5beschreibtlog-lineareModelle.DasneueKap.9führt in die Analyse von Ereigniszeiten ein (Kaplan-Meier in Abschn.9.3, Cox proportional hazards in Abschn.9.4 und parametrische Modelle in Abschn.9.5). ROC-Kurven und AUC werden nun in Abschn.10.2.7 beschrieben. Abschn.11.1.3 zeigt ein Beispiel für stratifiziertes bootstrapping, Abschn.11.1.6 demonstriert den wild bootstrap für lineare Modelle.DerAbschnittzurKreuzvalidierunglinearerModellewurdezuKap.13erweitert, das auch die Vorhersagegüte in verallgemeinerten linearen Modellen behandelt sowie Bootstrap-MethodenzurunverzerrtenSchätzungdesVorhersagefehlersvorstellt.Wieman mitdemPaketggplot2Diagrammeerstellt,erläutertinGrundzügenKap.15. ÄnderungeninderviertenAuflage In der vorliegenden vierten Auflage bezieht sich das Buch auf Version 3.3.2 von R. NebenvielenDetailänderungenwurdedieAuswahlverwendeterZusatzpaketederweiter sehr dynamischen Entwicklung in diesem Bereich angepasst. Abschn.1.3 zur Arbeit mit Zusatzpaketen ist ausführlicher und klarer strukturiert. Abschn.2.12.3 und 2.12.4 beschreibenneuinRintegrierteFunktionenzumManipulierenundSuchenvonZeichen- ketten.HinweisezurPrüfungderDatenqualitätenthältAbschn.4.2.7.ErsteInformationen zudenzunehmendpopulärenRDokumentenundNotebooksgibtAbschn.4.4.DasKapitel zu Resampling-Verfahren behandelt jetzt in Abschn.11.2 parametrisches bootstrapping. Der Abschnitt zum Erstellen von Diagrammen mit ggplot2 (Version 2.2.0) wurde deutlich erweitert zum neuen Kap.15. Das ebenfalls neue Kap.16 gibt einen Überblick überallgemeinenumerischeMethoden,etwaNullstellensuche(Abschn.16.2),numerische IntegrationundAbleitungvonFunktionen(Abschn.16.3)sowienumerischeOptimierung (Abschn.16.4). Korrekturen,ErgänzungenundAnregungensindherzlichwillkommen.Dieverwende- tenDatensowiealleBefehledesBuchesundggf.notwendigeBerichtigungenerhaltenSie online: http://www.dwoll.de/r/ Danksagung MeinbesondererDankgiltdenPersonen,dieanderEntstehungdesBuchesinfrühenund späteren Phasen mitgewirkt haben: Abschn.1.1 bis 1.2.3 entstanden auf der Grundlage eines Manuskripts von Dieter Heyer und Gisela Müller-Plath am Institut für Psycho- logie der Martin-Luther-Universität Halle-Wittenberg, denen ich für die Überlassung des Textes danken möchte. Zahlreiche Korrekturen und viele Verbesserungsvorschläge wurden dankenswerterweise von Andri Signorell, Ulrike Groemping, Wolfgang Ramos, Julian Etzel, Erwin Grüner, Johannes Andres, Sabrina Flindt und Susanne Wollschläger beigesteuert. Johannes Andres danke ich für seine ausführlichen Erläuterungen der statistischenGrundlagen.DieEntstehungdesBucheswurdebeständigdurchdieselbstlose UnterstützungvonHeike,MarthaundNikeJoressowievonVincentvanHoutenbegleitet. IrisRuhmann,ClemensHeine,NielsPeterThomasundAliceBlanckvomSpringerVerlag möchteichherzlichfürdiefreundlicheKooperationundBetreuungderVeröffentlichung danken. ZuvorderstistaberdenEntwicklernvonR,denAutorenderzahlreichenZusatzpakete sowie dem CRAN-Team Dank und Anerkennung dafür zu zollen, dass sie in freiwillig geleisteter Arbeit eine hervorragende Umgebung zur statistischen Datenauswertung ge- schaffen haben, deren mächtige Funktionalität hier nur zu einem Bruchteil vorgestellt werdenkann. Mainz, DanielWollschläger November2016 [email protected] Inhalt 1 ErsteSchritte....................................................................... 1 1.1 Vorstellung................................................................... 1 1.1.1 ProundContraR................................................. 1 1.1.2 TypografischeKonventionen..................................... 3 1.1.3 R installieren..................................................... 4 1.1.4 GrafischeBenutzeroberflächen.................................. 5 1.1.5 WeiterführendeInformationsquellenundLiteratur............. 6 1.2 GrundlegendeElemente..................................................... 7 1.2.1 R Starten,beendenunddieKonsoleverwenden............... 7 1.2.2 Einstellungen..................................................... 12 1.2.3 Umgangmitdemworkspace .................................... 13 1.2.4 EinfacheArithmetik.............................................. 14 1.2.5 FunktionenmitArgumentenaufrufen........................... 17 1.2.6 Hilfe-Funktionen................................................. 18 1.2.7 EmpfehlungenundtypischeFehlerquellen ..................... 18 1.3 Zusatzpaketeverwenden.................................................... 19 1.3.1 Zusatzpaketeinstallieren......................................... 20 1.3.2 Zusatzpaketeladen............................................... 21 1.3.3 HinweisezumArbeitenmitZusatzpaketen..................... 22 1.4 Datenstrukturen:Klassen,Objekte,Datentypen........................... 23 1.4.1 Objektebenennen ................................................ 24 1.4.2 ZuweisungenanObjekte......................................... 24 1.4.3 Objekteausgeben................................................. 25 1.4.4 Objekteanzeigenlassen,umbenennenundentfernen.......... 26 1.4.5 Datentypen........................................................ 27 1.4.6 LogischeWerte,OperatorenundVerknüpfungen .............. 28 2 ElementareDateneingabeund-verarbeitung .................................. 31 2.1 Vektoren ..................................................................... 31 2.1.1 Vektorenerzeugen................................................ 31 2.1.2 Elementeauswählenundverändern............................. 33 2.1.3 DatentypeninVektoren.......................................... 35 2.1.4 Elementebenennen............................................... 36 2.1.5 Elementelöschen................................................. 36 2.2 LogischeOperatoren........................................................ 37 2.2.1 VektorenmitlogischenOperatorenvergleichen................ 37 2.2.2 LogischeIndexvektoren.......................................... 39 2.3 Mengen ...................................................................... 41 2.3.1 DoppeltauftretendeWertefinden ............................... 41 2.3.2 Mengenoperationen.............................................. 42 2.3.3 Kombinatorik..................................................... 43 2.4 SystematischeundzufälligeWertefolgenerzeugen ....................... 46 2.4.1 NumerischeSequenzenerstellen................................ 46 2.4.2 Wertefolgenwiederholen ........................................ 47 2.4.3 ZufälligauseinerUrneziehen................................... 48 2.4.4 ZufallszahlenausbestimmtenVerteilungenerzeugen.......... 49 2.5 Datentransformieren........................................................ 50 2.5.1 Wertesortieren ................................................... 50 2.5.2 WerteinzufälligeReihenfolgebringen......................... 51 2.5.3 TeilmengenvonDatenauswählen............................... 52 2.5.4 Datenumrechnen................................................. 53 2.5.5 NeueausbestehendenVariablenbilden......................... 55 2.5.6 Werteersetzenoderrecodieren.................................. 56 2.5.7 KontinuierlicheVariableninKategorieneinteilen.............. 58 2.6 Gruppierungsfaktoren....................................................... 59 2.6.1 UngeordneteFaktoren ........................................... 59 2.6.2 Faktorenkombinieren............................................ 60 2.6.3 Faktorstufennachträglichändern................................ 62 2.6.4 GeordneteFaktoren .............................................. 64 2.6.5 ReihenfolgevonFaktorstufenbestimmen ...................... 64 2.6.6 FaktorennachMustererstellen.................................. 66 2.6.7 QuantitativeinkategorialeVariablenumwandeln.............. 67 2.7 DeskriptiveKennwertenumerischerDaten................................ 68 2.7.1 Summen,DifferenzenundProdukte ............................ 69 2.7.2 Extremwerte...................................................... 70 2.7.3 Mittelwert,MedianundModalwert............................. 71 2.7.4 RobusteMaßederzentralenTendenz........................... 72 2.7.5 Prozentrang,QuartileundQuantile ............................. 73 2.7.6 Varianz,Streuung,SchiefeundWölbung....................... 74 2.7.7 DiversitätkategorialerDaten .................................... 75 2.7.8 KovarianzundKorrelation....................................... 76 2.7.9 RobusteStreuungsmaßeundKovarianzschätzer................ 77 2.7.10 KennwertegetrenntnachGruppenberechnen.................. 79 2.7.11 FunktionenaufgeordnetePaarevonWertenanwenden........ 81 2.8 Matrizen ..................................................................... 81 2.8.1 DatentypeninMatrizen.......................................... 82 2.8.2 Dimensionierung,ZeilenundSpalten........................... 82 2.8.3 Elementeauswählenundverändern............................. 84 2.8.4 Weitere Wege, Elemente auszuwählen und zu verändern ......................................................... 86 2.8.5 Matrizenverbinden............................................... 87 2.8.6 Matrizensortieren................................................ 88 2.8.7 Randkennwerteberechnen....................................... 89 2.8.8 BeliebigeFunktionenaufMatrizenanwenden.................. 90 2.8.9 Matrixzeilen-oderspaltenweisemitKennwerten verrechnen........................................................ 90 2.8.10 Kovarianz-undKorrelationsmatrizen........................... 91 2.9 Arrays........................................................................ 93 2.10 Häufigkeitsauszählungen.................................................... 94 2.10.1 Einfache Tabellen absoluter und relativer Häufigkeiten...................................................... 94 2.10.2 Iterationenzählen ................................................ 96 2.10.3 Absolute, relative und bedingte relative HäufigkeiteninKreuztabellen................................... 97 2.10.4 RandkennwertevonKreuztabellen.............................. 100 2.10.5 DatensätzeausHäufigkeitstabellenerstellen ................... 100 2.10.6 KumulierterelativeHäufigkeitenundProzentrang............. 101 2.11 FehlendeWertebehandeln.................................................. 102 2.11.1 FehlendeWertecodierenundidentifizieren..................... 103 2.11.2 FehlendeWerteersetzenundumcodieren....................... 104 2.11.3 BehandlungfehlenderWertebeiderBerechnung einfacherKennwerte ............................................. 105 2.11.4 BehandlungfehlenderWerteinMatrizen....................... 106 2.11.5 BehandlungfehlenderWertebeimSortierenvonDaten ....... 108 2.11.6 Behandlung fehlender Werte in inferenzstatistischenTests ....................................... 109 2.11.7 MultipleImputation.............................................. 109 2.12 Zeichenkettenverarbeiten................................................... 109 2.12.1 ObjekteinZeichenkettenumwandeln........................... 110 2.12.2 Zeichenkettenerstellenundausgeben........................... 110 2.12.3 Zeichenkettenmanipulieren ..................................... 113 2.12.4 Zeichenfolgenfinden............................................. 115 2.12.5 Zeichenfolgenextrahieren....................................... 116 2.12.6 Zeichenfolgenersetzen........................................... 118 2.12.7 ZeichenkettenalsBefehlausführen............................. 119 2.13 DatumundUhrzeit.......................................................... 119 2.13.1 Datumsangabenerstellenundformatieren...................... 120 2.13.2 Uhrzeit............................................................ 121 2.13.3 MitDatumundUhrzeitrechnen................................. 122 3 Datensätze.......................................................................... 125 3.1 Listen ........................................................................ 125 3.1.1 Komponentenauswählenundverändern........................ 126 3.1.2 Komponentenhinzufügenundentfernen........................ 128 3.1.3 ListenmitmehrerenEbenen..................................... 129 3.2 Datensätze ................................................................... 130 3.2.1 DatentypeninDatensätzen ...................................... 132 3.2.2 Elementeauswählenundverändern............................. 134 3.2.3 NamenvonVariablenundBeobachtungen ..................... 135 3.2.4 DatensätzeindenSuchpfadeinfügen........................... 136 3.3 Datensätzetransformieren .................................................. 138 3.3.1 Variablenhinzufügenundentfernen............................. 138 3.3.2 Datensätzesortieren.............................................. 139 3.3.3 TeilmengenvonDatenmitsubset()auswählen ............ 140 3.3.4 DoppelteundfehlendeWertebehandeln........................ 143 3.3.5 Datensätzeteilen ................................................. 144 3.3.6 Datensätzezeilen-oderspaltenweiseverbinden................ 145 3.3.7 Datensätzemitmerge()zusammenführen.................... 146 3.3.8 OrganisationsformeinfacherDatensätzeändern................ 149 3.3.9 OrganisationsformkomplexerDatensätzeändern.............. 151 3.4 Datenaggregieren........................................................... 156 3.4.1 FunktionenaufVariablenanwenden ............................ 156 3.4.2 FunktionenfürmehrereVariablenanwenden................... 158 3.4.3 FunktionengetrenntnachGruppenanwenden.................. 159 4 BefehleundDatenverwalten..................................................... 163 4.1 BefehlssequenzenimEditorbearbeiten.................................... 163 4.2 Datenimportierenundexportieren......................................... 165 4.2.1 DatenimEditoreingeben........................................ 165 4.2.2 DatentabellenimTextformat .................................... 167 4.2.3 R-Objekte......................................................... 168 4.2.4 DatenmitanderenProgrammenaustauschen................... 169 4.2.5 DateninderKonsoleeinlesen................................... 176 4.2.6 UnstrukturierteTextdateien...................................... 177 4.2.7 Datenqualitätsicherstellen....................................... 177

See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.