ebook img

R kompakt: Der schnelle Einstieg in die Datenanalyse PDF

281 Pages·2016·3.065 MB·German
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview R kompakt: Der schnelle Einstieg in die Datenanalyse

Daniel Wollschläger R kompakt Der schnelle Einstieg in die Datenanalyse 2. Auflage Springer-Lehrbuch Daniel Wollschläger R kompakt Der schnelle Einstieg in die Datenanalyse 2. Auflage DanielWollschläger Mainz,Deutschland ISSN0937-7433 Springer-Lehrbuch ISBN978-3-662-49101-0 ISBN978-3-662-49102-7(eBook) DOI10.1007/978-3-662-49102-7 Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detailliertebibliografischeDatensindimInternetüberhttp://dnb.d-nb.deabrufbar. SpringerSpektrum ©Springer-VerlagBerlinHeidelberg2013,2016 DasWerkeinschließlichallerseinerTeileisturheberrechtlichgeschützt.JedeVerwertung,dienichtaus- drücklichvomUrheberrechtsgesetzzugelassenist,bedarfdervorherigenZustimmungdesVerlags.Das giltinsbesonderefürVervielfältigungen,Bearbeitungen,Übersetzungen,MikroverfilmungenunddieEin- speicherungundVerarbeitunginelektronischenSystemen. DieWiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesemWerk be- rechtigtauch ohnebesondere Kennzeichnung nicht zuderAnnahme, dasssolcheNamenimSinneder Warenzeichen- undMarkenschutz-Gesetzgebung alsfreizubetrachtenwärenunddahervonjedermann benutztwerdendürften. DerVerlag,dieAutorenunddieHerausgebergehendavonaus,dassdieAngabenundInformationenin diesemWerkzumZeitpunkt derVeröffentlichungvollständigundkorrektsind.WederderVerlagnoch die Autoren oder die Herausgeber übernehmen, ausdrücklich oder implizit,Gewähr für den Inhalt des Werkes,etwaigeFehleroderÄußerungen. GedrucktaufsäurefreiemundchlorfreigebleichtemPapier. Springer-Verlag GmbH Berlin Heidelberg ist Teil der Fachverlagsgruppe Springer Science+Business Media (www.springer.com) Vorwort Das vorliegendeBuch liefert eine kompakte Einführungin die praktische Datenauswer- tung mit R. R ist eine freie Umgebung zur statistischen Analyse und grafischen Dar- stellung von Datensätzen, die befehlsorientiertarbeitet und seit nunmehreinigen Jahren immer weiter an Popularität gewinnt. Dieser Text soll einen ersten Überblick über die ArbeitmitRgebenundbeschränktsichdafüraufwesentlicheGrundfunktionen–fürei- ne breitereund tiefereDarstellung vgl. Wollschläger (2014).Ziel ist es, einen schnellen Einstieg in die grafische und deskriptiveDatenauswertung sowie in die Umsetzung aus- gewählterinferenzstatistischerMethodenzuermöglichen. Der Text geht auf die zugrundeliegenden statistischen Verfahren inhaltlich nicht ein, sondernnimmtan,dassdieLeserbereitsausreichendmitihnenvertrautsind.ZuBeginn derAbschnittefinden sich dafürHinweise aufLiteratur,diediebehandeltenTests näher erläutern. Kapitel 1 bis 4 dienen der Einführung in den Umgang mit R, in die zur Datenanaly- senotwendigenGrundkonzeptesowie indieSyntax derBefehlssteuerung.Dabeierklärt Kap. 2 den Import und Export von Daten, Kap. 3 behandelt Methoden zur deskripti- ven Datenauswertung, und Kap. 4 befasst sich mit der Organisation von Datensätzen. Vorbereitend auf die folgenden Abschnitte stellt Kap. 5 allgemeine Hilfsmittel für infe- renzstatistischeVerfahrenbereit.DiesewerdeninKap.6(lineareRegression),7(t-Tests undVarianzanalysen),8(nonparametrischeTests)und9(multivariateMethoden)behan- delt.DasBuchschließtmitKap.10zumErstellenvonDiagrammenundeinemAusblick aufdenEinsatzvonRalsProgrammierspracheinKap.11. DiegewählteReihenfolgederThemenistbeiderLektürekeinesfallszwingendeinzu- halten.DastatistischeAnalyseninderPraxismeistgemeinsammitderDatenorganisation undgrafischenIllustrationdurchzuführensind,empfiehltessichvielmehr,bereitszuBe- ginnauchKap.4und10selektivparallelzulesen. ÄnderungeninderzweitenAuflage Gegenüber der vorangehenden Auflage wurde das Buch überarbeitet und inhaltlich er- gänzt. Insbesondere werden Diagramme mit dem Paket ggplot2 in Abschn. 10.7.3 nunausführlicher dargestellt. Auchan vielen anderenStellen trägtdieneueAuflageder sich dynamischveränderndenLandschaftderZusatzpakete Rechnung.Mittlerweile sind V VI Vorwort Zusatzpakete auch für Aufgaben beliebt, die sich mit Mitteln des Basisumfangs zwar lösen lassen, dies aber komplizierter oder weniger elegant ist. Dies gilt insbesondere für den Umgang mit Zeichenketten (vgl. Abschn. 3.10) und mit Datumsangaben (vgl. Abschn. 3.11) sowie für die Transformation von Datensätzen (vgl. Abschn. 4.2, 4.3.2). Neben Hinweisen auf Erweiterungsmöglichkeiten durch Zusatzpakete konzentriert sich dieDarstellungaberaufdenBasisumfangvonR,dereinereifeundstabileGrundlagefür Erweiterungendarstellt. DasBuchbeziehtsichindervorliegendenzweitenAuflageaufVersion3.2.3vonR. Korrekturen,ErgänzungenundAnregungensindherzlichwillkommen.Dieverwendeten Daten sowie alle Befehle des Buches und ggf. notwendige Berichtigungen können Sie unterdieserAdressebeziehen: http://www.dwoll.de/r/ Danksagung Zahlreiche Korrekturen und Verbesserungsvorschläge wurden dankenswerterweise von JulianEtzelundTilOleBergmannbeigesteuert.DieEntstehungdesBucheswurdebestän- digdurchdieselbstloseUnterstützungvonHeike,MarthaundNikeJoressowieVincent van Houten begleitet. Iris Ruhmann, Agnes Herrmann, Clemens Heine und Beate Siek vom Springer Verlag möchte ich herzlich für die freundliche Kooperation und Beglei- tungderVeröffentlichungdanken.ZuvorderstistaberdemEntwickler-TeamvonRsowie derzahlreichenZusatzpaketeDankundAnerkennungdafürzuzollen,dasssieinfreiwil- lig geleisteter Arbeit eine hervorragende Umgebung zur statistischen Datenauswertung geschaffen haben,deren mächtigeFunktionalität hier nur zu einem Bruchteilvorgestellt werdenkann. Mainz,November2015 DanielWollschläger [email protected] Inhaltsverzeichnis 1 ErsteSchritte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1 Vorstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1.1 ProundContraR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.1.2 TypografischeKonventionen . . . . . . . . . . . . . . . . . . . . . . . 5 1.1.3 Rinstallieren. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.1.4 GrafischeBenutzeroberflächen. . . . . . . . . . . . . . . . . . . . . . 6 1.1.5 WeiterführendeInformationsquellenundLiteratur. . . . . . . . . . 8 1.2 GrundlegendeElemente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.2.1 RStarten,beendenunddieKonsoleverwenden . . . . . . . . . . . 8 1.2.2 BefehlssequenzenimEditorbearbeiten . . . . . . . . . . . . . . . . 10 1.2.3 Einstellungenvornehmen . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.2.4 UmgangmitdemWorkspace . . . . . . . . . . . . . . . . . . . . . . . 11 1.2.5 EinfacheArithmetik . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.2.6 FunktionenmitArgumentenaufrufen . . . . . . . . . . . . . . . . . 13 1.2.7 Hilfe-Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.2.8 Zusatzpaketeverwenden . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.2.9 EmpfehlungenundtypischeFehlerquellen . . . . . . . . . . . . . . 16 1.3 Datenstrukturen:Klassen,Objekte,Datentypen . . . . . . . . . . . . . . . . 17 1.3.1 Objektebenennen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.3.2 ZuweisungenanObjekte . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.3.3 Objekteausgeben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 1.3.4 Objekteanzeigenlassenundentfernen . . . . . . . . . . . . . . . . . 19 1.3.5 Datentypen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 1.3.6 LogischeWerte,OperatorenundVerknüpfungen. . . . . . . . . . . 21 2 Datenimportierenundexportieren . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.1 DatenimTextformatlesenundschreiben. . . . . . . . . . . . . . . . . . . . 23 2.2 R-Objektespeichernundladen . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.3 DatenimEditorbearbeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 VII VIII Inhaltsverzeichnis 2.4 DatenmitanderenProgrammenaustauschen . . . . . . . . . . . . . . . . . 26 2.4.1 ProgrammezurTabellenkalkulation . . . . . . . . . . . . . . . . . . 27 2.4.2 SPSS,StataundSAS. . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 2.4.3 Datenbanken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 3 ElementareDatenverarbeitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3.1 Vektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3.1.1 Vektorenerzeugen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3.1.2 Elementeauswählenundverändern . . . . . . . . . . . . . . . . . . . 35 3.1.3 DatentypeninVektoren . . . . . . . . . . . . . . . . . . . . . . . . . . 37 3.1.4 Elementebenennen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 3.2 LogischeOperatoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 3.2.1 LogischerVergleichvonVektoren. . . . . . . . . . . . . . . . . . . . 38 3.2.2 LogischeIndexvektoren . . . . . . . . . . . . . . . . . . . . . . . . . . 40 3.3 SystematischeundzufälligeWertefolgenerzeugen . . . . . . . . . . . . . . 41 3.3.1 NumerischeSequenzenerstellen. . . . . . . . . . . . . . . . . . . . . 42 3.3.2 Wertefolgenwiederholen . . . . . . . . . . . . . . . . . . . . . . . . . 43 3.3.3 ZufälligauseinerUrneziehen . . . . . . . . . . . . . . . . . . . . . . 44 3.3.4 ZufallszahlenausbestimmtenVerteilungenerzeugen . . . . . . . . 44 3.4 Datentransformieren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 3.4.1 Wertesortieren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 3.4.2 WerteinzufälligeReihenfolgebringen. . . . . . . . . . . . . . . . . 47 3.4.3 TeilmengenvonDatenauswählen . . . . . . . . . . . . . . . . . . . . 47 3.4.4 Datenumrechnen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 3.4.5 NeueausbestehendenVariablenbilden . . . . . . . . . . . . . . . . 51 3.4.6 Werteersetzenoderrecodieren. . . . . . . . . . . . . . . . . . . . . . 52 3.4.7 KontinuierlicheVariableninKategorieneinteilen . . . . . . . . . . 54 3.5 Gruppierungsfaktoren. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 3.5.1 UngeordneteFaktoren . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 3.5.2 Faktorstufennachträglichändern . . . . . . . . . . . . . . . . . . . . 58 3.5.3 GeordneteFaktoren. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 3.5.4 ReihenfolgevonFaktorstufen . . . . . . . . . . . . . . . . . . . . . . 59 3.5.5 FaktorennachMustererstellen. . . . . . . . . . . . . . . . . . . . . . 60 3.5.6 QuantitativeinkategorialeVariablenumwandeln . . . . . . . . . . 61 3.6 DeskriptiveKennwertenumerischerDaten . . . . . . . . . . . . . . . . . . . 62 3.6.1 Summen,DifferenzenundProdukte . . . . . . . . . . . . . . . . . . 63 3.6.2 Extremwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 3.6.3 Mittelwert,MedianundModalwert . . . . . . . . . . . . . . . . . . . 64 3.6.4 Prozentrang,QuartileundQuantile . . . . . . . . . . . . . . . . . . . 65 3.6.5 Varianz,Streuung,SchiefeundWölbung . . . . . . . . . . . . . . . 66 3.6.6 KovarianzundKorrelation . . . . . . . . . . . . . . . . . . . . . . . . 67 3.6.7 KennwertegetrenntnachGruppenberechnen. . . . . . . . . . . . . 68 Inhaltsverzeichnis IX 3.7 Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 3.7.1 Dimensionierung,ZeilenundSpalten . . . . . . . . . . . . . . . . . 69 3.7.2 Elementeauswählenundverändern . . . . . . . . . . . . . . . . . . . 70 3.7.3 Matrizenverbinden. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 3.7.4 Matrizensortieren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 3.7.5 Randkennwerteberechnen . . . . . . . . . . . . . . . . . . . . . . . . 74 3.7.6 Matrixzeilen-oderspaltenweisemitKennwertenverrechnen . . . 75 3.7.7 Kovarianz-undKorrelationsmatrizen. . . . . . . . . . . . . . . . . . 76 3.8 Häufigkeitsauszählungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 3.8.1 EinfacheTabellenabsoluterundrelativerHäufigkeiten . . . . . . . 78 3.8.2 Absolute,relativeundbedingterelativeHäufigkeiten inKreuztabellen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 3.8.3 RandkennwertevonKreuztabellen . . . . . . . . . . . . . . . . . . . 82 3.9 Codierung,IdentifikationundBehandlungfehlenderWerte . . . . . . . . 83 3.9.1 FehlendeWertecodierenundihrVorhandenseinprüfen . . . . . . 83 3.9.2 FehlendeWerteersetzenundumcodieren . . . . . . . . . . . . . . . 85 3.9.3 Behandlung fehlender Werte bei der Berechnung einfacher Kennwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 3.9.4 BehandlungfehlenderWerteinMatrizen . . . . . . . . . . . . . . . 86 3.9.5 BehandlungfehlenderWertebeimSortierenvonDaten. . . . . . . 88 3.9.6 BehandlungfehlenderWerteininferenzstatistischenTests. . . . . 89 3.10 Zeichenkettenverarbeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 3.10.1 Zeichenkettenerstellenundausgeben . . . . . . . . . . . . . . . . . 89 3.10.2 Zeichenkettenmanipulieren . . . . . . . . . . . . . . . . . . . . . . . 90 3.10.3 Zeichenfolgenfinden. . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 3.10.4 Zeichenfolgenersetzen . . . . . . . . . . . . . . . . . . . . . . . . . . 93 3.11 DatumundUhrzeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 3.11.1 Datumsangabenerstellenundformatieren . . . . . . . . . . . . . . . 94 3.11.2 Uhrzeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 3.11.3 BerechnungenmitDatumundUhrzeit . . . . . . . . . . . . . . . . . 96 4 Datensätze. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 4.1 MitDatensätzenarbeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 4.1.1 DatentypeninDatensätzen . . . . . . . . . . . . . . . . . . . . . . . . 101 4.1.2 Elementeauswählenundverändern . . . . . . . . . . . . . . . . . . . 102 4.1.3 NamenvonVariablenundBeobachtungen . . . . . . . . . . . . . . 103 4.1.4 DatensätzeindenSuchpfadeinfügen . . . . . . . . . . . . . . . . . . 104 4.2 Datensätzetransformieren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 4.2.1 Variablenhinzufügenundentfernen . . . . . . . . . . . . . . . . . . 106 4.2.2 Datensätzesortieren . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 4.2.3 TeilmengenvonDatenauswählen . . . . . . . . . . . . . . . . . . . . 108 4.2.4 DoppelteundfehlendeWertebehandeln . . . . . . . . . . . . . . . . 110 X Inhaltsverzeichnis 4.2.5 Datensätzeteilen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 4.2.6 Datensätzezusammenfügen . . . . . . . . . . . . . . . . . . . . . . . 112 4.2.7 OrganisationsformvonDatensätzenändern . . . . . . . . . . . . . . 113 4.3 Datenaggregieren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 4.3.1 FunktionenaufVariablenanwenden . . . . . . . . . . . . . . . . . . 117 4.3.2 FunktionengetrenntnachGruppenanwenden . . . . . . . . . . . . 118 4.4 Listen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 4.4.1 Komponentenauswählenundverändern . . . . . . . . . . . . . . . . 120 4.4.2 Komponentenhinzufügenundentfernen . . . . . . . . . . . . . . . . 121 5 HilfsmittelfürdieInferenzstatistik. . . . . . . . . . . . . . . . . . . . . . . . . . 123 5.1 LineareModelleformulieren . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 5.2 FunktionenvonZufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . 125 5.2.1 Dichtefunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 5.2.2 Verteilungsfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 5.2.3 Quantilfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 5.3 GemeinsamerDatensatzfüralleAuswertungen . . . . . . . . . . . . . . . . 128 6 LineareRegression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 6.1 TestdesKorrelationskoeffizienten . . . . . . . . . . . . . . . . . . . . . . . . 129 6.2 EinfachelineareRegression . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 6.2.1 DeskriptiveModellanpassung . . . . . . . . . . . . . . . . . . . . . . 130 6.2.2 Regressionsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 6.3 MultiplelineareRegression . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 6.3.1 DeskriptiveModellanpassungundRegressionsanalyse . . . . . . . 134 6.3.2 Modellevergleichen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 6.4 ErweiterungenderlinearenRegression . . . . . . . . . . . . . . . . . . . . . 136 6.5 RegressionsmodelleaufandereDatenanwenden . . . . . . . . . . . . . . . 137 6.6 KreuzvalidierungvonRegressionsmodellen . . . . . . . . . . . . . . . . . . 138 6.7 Regressionsdiagnostik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 6.7.1 Extremwerte,AusreißerundEinfluss . . . . . . . . . . . . . . . . . . 139 6.7.2 VerteilungseigenschaftenderResiduen. . . . . . . . . . . . . . . . . 142 6.7.3 Multikollinearität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 6.8 PartialkorrelationundSemipartialkorrelation . . . . . . . . . . . . . . . . . 144 6.9 LogistischeRegression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 6.9.1 ModellanpassungfürdichotomeDaten. . . . . . . . . . . . . . . . . 145 6.9.2 Anpassungsgüte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 6.9.3 Vorhersage,KlassifikationundAnwendungaufneueDaten . . . . 147 6.9.4 SignifikanztestsfürParameterundModell . . . . . . . . . . . . . . 148 7 t-TestsundVarianzanalysen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 7.1 TestsaufNormalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 7.2 Levene-TestaufVarianzhomogenität . . . . . . . . . . . . . . . . . . . . . . 152

See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.