ebook img

Grundlagen der Datenanalyse mit R: Eine anwendungsorientierte Einführung PDF

543 Pages·2012·5.04 MB·German
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Grundlagen der Datenanalyse mit R: Eine anwendungsorientierte Einführung

Reihenherausgeber: Prof.Dr.HolgerDette·Prof.Dr.WolfgangHärdle Statistik und ihre Anwendungen WeitereBändedieserReihefindenSieunterhttp://www.springer.com/series/5100 Daniel Wollschläger Grundlagen der Datenanalyse mit R Eine anwendungsorientierte Einführung 2. Auflage DanielWollschläger Kiel Deutschland ISBN978-3-642-25799-5 ISBN978-3-642-25800-8(eBook) DOI10.1007/978-3-642-25800-8 DieDeutscheNationalbibliothek verzeichnet diesePublikation inderDeutschenNationalbibliografie; detailliertebibliografischeDatensindimInternetüberhttp://dnb.d-nb.deabrufbar. SpringerSpektrum ©Springer-VerlagBerlinHeidelberg2010,2012 Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklichvomUrheberrechtsgesetz zugelassenist,bedarfdervorherigenZustimmungdesVerlags. Das gilt insbesondere fürVervielfältigungen, Bearbeitungen, Übersetzungen, Mikroverfilmungen und dieEinspeicherungundVerarbeitunginelektronischenSystemen. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auchohnebesondere Kennzeichnung nichtzuderAnnahme, dasssolche NamenimSinne derWarenzeichen-undMarkenschutz-Gesetzgebung alsfreizubetrachtenwärenunddahervonjeder- mannbenutztwerdendürften. GedrucktaufsäurefreiemundchlorfreigebleichtemPapier SpringerSpektrumisteineMarkevonSpringerDE. SpringerDEistTeilderFachverlagsgruppeSpringerScience+BusinessMedia www.springer-spektrum.de Vorwort DasvorliegendeBuchlieferteineanhuman-undsozialwissenschaftlichenAnwen- dungenorientierteEinführungindieDatenauswertungmitR.RisteinefreieUmge- bungzurumfassendenstatistischenAnalyseundgrafischenDarstellungvonDaten- sätzen, die befehlsorientiertarbeitet. Die Motivation für dieses Buch entstand aus dem Eindruck, dass sich R zwar unter statistischen Experten großer Beliebtheit erfreut,AnwenderstatistischerVerfahrenausGebietenderempirischenDatenana- lysedagegendasPotentialvonRnochnichtgleichermaßennutzen.DieserTextsoll daherjenendenEinstieginRerleichtern,dieinersterLiniegrundlegendeAuswer- tungsverfahren anwenden möchten, nicht aber über technische Vorkenntnisse mit befehlsgesteuertenProgrammenverfügen. Die hier getroffene Auswahl an statistischen Verfahren orientiert sich an den Anforderungen der Psychologie, sollte damit aber auch die wichtigsten Auswer- tungsmethoden anderer Human- und Sozialwissenschaften abdecken. Das Buch stellt die Umsetzung grafischer und deskriptiver Datenauswertung, nonparametri- scherVerfahren,univariaterlinearerModelleundmultivariaterMethodenvor.Dabei liegtderFokusaufderUmsetzungderVerfahrenmitR,nichtaberaufderVermitt- lung statistischer Grundlagen.Von diesen wird hier angenommen,dass die Leser- schaft mit ihnen vertraut ist. Auf Literatur zu den behandelten Verfahren wird zu BeginnderAbschnittejeweilshingewiesen. Kapitel1 bis3dienenderEinführungindenUmgangmitR, in diezurDaten- analyse notwendigen Grundkonzepte sowie in die Syntax der Befehlssteuerung. Inhaltlich werden in Kap. 2 Methoden zur deskriptiven Datenauswertung behan- delt,Kap.3befasstsichmitderOrganisationvonDatensätzen.DassichanKap.4 zur Verwaltung von Befehlen und Daten anschließende Kap. 5 stellt Hilfsmittel für die inferenzstatistischen Methoden bereit. Diese werden in Kap. 6 (Regres- sion), 7 (t-Tests und Varianzanalysen), 8 (klassische nonparametrische Tests), 9 (Resampling-Verfahren) und 10 (ausgewählte multivariate Methoden) behandelt. DasBuchschließtmitKap.11zumErstellenvonDiagrammenundeinemAusblick aufdenEinsatzvonR alsProgrammiersprachein Kap.12.Diese Reihenfolgeder ThemenistbeiderLektürekeinesfallszwingendeinzuhalten.DastatistischeAna- lysenpraktischmeistgemeinsammitderDatenorganisationundgrafischenIllustra- v vi Vorwort tiondurchzuführensind,empfiehltessichvielmehr,bereitszuBeginnauchKap.4 und11selektivparallelzulesen. UmdieErgebnissederR-eigenenAuswertungsfunktionenbessernachvollzieh- bar zu machen, wird ihre Anwendung an vielen Stellen durch manuelle Kontroll- rechnungenbegleitet.DieeigeneUmsetzungsollzudemzeigen,wieauchTestver- fahren,fürdiezunächstkeinevorbereiteteFunktionvorhandenist,mitelementaren Mittelnprinzipiellselbstumgesetztwerdenkönnen.IndenmeistenBeispielenwird davonausgegangen,dassdievorliegendenDatenbereitsgeprüftsindundeinehohe Datenqualitätvorliegt: Fragen der Einheitlichkeitetwa hinsichtlich der Codierung von Datum und Uhrzeit, potenziell unvollständigeDatensätze, fehlerhafteingege- bene oder unplausible Daten sowie doppelte Werte oder Ausreißer sollen ausge- schlossensein.BesondereAufmerksamkeitwirdjedochineinemeigenenAbschnitt demThemafehlenderWertegeschenkt. Im Buch wird an verschiedenen Punkten Bezug zu anderer Software genom- men.DiefolgendendabeiverwendetenNamensinddurcheingetragenesWarenzei- chenderjeweiligenEigentümergeschützt:Eclipse,Excel,Java,Linux, MacOS, MySQL,ODBC,OpenGL, OpenOffice,Oracle,RStudio, S, S+, SAS, SPSS, SQLite,Stata,TIBCO,Trellis,Unix,Windows. Änderungen inder zweitenAuflage In der vorliegenden zweiten Auflage bezieht sich das Buch auf Version 2.14 von R. Gegenüber der vorangehenden Auflage wurde es stärker aufgabenorien- tiert strukturiert sowie an vielen Stellen überarbeitet und inhaltlich ergänzt. So geht es etwa ausführlicher auf die Verarbeitung von Zeichenketten und Datums- angaben ein (Abschn. 2.12, 2.13) und beinhaltet eine vertiefte Darstellung der KreuzvalidierungundDiagnostikvonRegressionsmodellen(Abschn.6.5,6.6).Die AuswertungvarianzanalytischerFragestellungenberücksichtigtjetztdieSchätzung von Effektstärken (Abschn. 7.2–7.7). Als Tests auf gleiche Variabilität werden zusätzlichjenenachFligner-KilleensowienachMoodundAnsari-Bradleybespro- chen (7.1.3, 8.4). Das neue Kap. 9 führt in die Anwendung von Bootstrapping undPermutationstestsein.BeimultivariatenVerfahrenistdieDiskriminanzanalyse ebenso hinzugekommen wie eine Behandlung des allgemeinen linearen Modells (Abschn.10.8,10.9).SchließlichgehtderTextnunaufMöglichkeitenzurDarstel- lung von Bitmap-Grafikenein (Abschn.11.5.10)und beschreibtdetaillierter, wel- che Möglichkeiten für Funktionsanalyse und Debugging R bietet (Abschn. 12.3). Die R-Beispielauswertungen sind ausführlicher kommentiert und abschnittsüber- greifendkonsistenter.DerüberarbeiteteIndexwurdenachinhaltlichenSchlagwor- ten,R-FunktionenundZusatzpaketengetrennt. Korrekturen,ErgänzungenundAnregungensindherzlichwillkommen.Diever- wendetenDatensowiealleBefehledesBuchesundggf.notwendigeBerichtigungen könnenSieunterdieserAdressebeziehen: http://www.uni-kiel.de/psychologie/dwoll/r/ Vorwort vii Danksagung MeinbesondererDankgiltdenPersonen,dieanderEntstehungdesBuchesinfrü- henundspäterenPhasenmitgewirkthaben:Abschn.1.1bis1.2.3entstandenaufder GrundlageeinesManuskriptsvonDieterHeyerundGiselaMüller-PlathamInstitut fürPsychologiederMartin-Luther-UniversitätHalle-Wittenberg,denenichfürdie ÜberlassungdesTextesdankenmöchte.ZahlreicheKorrekturenundvieleVerbes- serungsvorschlägewurdendankenswerterweisevonWolfgangRamos,JulianEtzel, Erwin Grüner,Johannes Andres, Sabrina Flindt und Susanne Wollschläger beige- steuert.JohannesAndresdankeichfürseineausführlichenErläuterungenderstatis- tischenGrundlagen.DieEntstehungdesBucheswurdebeständigdurchdieselbst- lose UnterstützungvonHeikeJoresundVincentvanHoutenbegleitet.NielsPeter ThomasundAliceBlanckvomSpringerVerlagmöchteichherzlichfürdiefreund- licheKooperationundBegleitungderVeröffentlichungdanken. ZuvorderstistaberdemEntwickler-TeamvonRsowiederzahlreichenZusatzpa- keteDankundAnerkennungdafürzuzollen,dasssieinfreiwilliggeleisteterArbeit einehervorragendeUmgebungzurstatistischenDatenauswertunggeschaffenhaben, derenmächtigeFunktionalitäthiernurzueinemBruchteilvorgestelltwerdenkann. Kiel, DanielWollschläger November2011 [email protected] Inhaltsverzeichnis 1 ErsteSchritte.................................................. 1 1.1 Vorstellung ............................................... 1 1.1.1 ProundContraR ................................... 1 1.1.2 TypografischeKonventionen .......................... 3 1.1.3 Rinstallieren ....................................... 4 1.1.4 GrafischeBenutzeroberflächen ........................ 5 1.1.5 WeiterführendeInformationsquellenundLiteratur........ 5 1.2 GrundlegendeElemente .................................... 7 1.2.1 RStarten,beendenunddieKonsoleverwenden .......... 7 1.2.2 Einstellungen....................................... 10 1.2.3 Umgangmitdemworkspace .......................... 11 1.2.4 EinfacheArithmetik ................................. 13 1.2.5 FunktionenmitArgumentenaufrufen................... 15 1.2.6 Hilfe-Funktionen.................................... 16 1.2.7 Zusatzpaketeverwenden ............................. 16 1.3 Datenstrukturen:Klassen,Objekte,Datentypen................. 19 1.3.1 Objektebenennen ................................... 20 1.3.2 ZuweisungenanObjekte ............................. 20 1.3.3 Objekteausgeben ................................... 21 1.3.4 Objekteanzeigenlassen,umbenennenundentfernen...... 22 1.3.5 Datentypen......................................... 23 1.3.6 LogischeWerte,OperatorenundVerknüpfungen ......... 24 2 ElementareDateneingabeund-verarbeitung...................... 27 2.1 Vektoren ................................................. 27 2.1.1 Vektorenerzeugen................................... 27 2.1.2 Elementeauswählenundverändern .................... 28 2.1.3 DatentypeninVektoren .............................. 30 2.1.4 Elementebenennen.................................. 31 2.1.5 Elementelöschen ................................... 32 2.2 LogischeOperatoren ....................................... 32 ix x Inhaltsverzeichnis 2.2.1 LogischeOperatorenzumVergleichvonVektoren ........ 32 2.2.2 LogischeIndexvektoren.............................. 35 2.3 Mengen.................................................. 36 2.3.1 DuplizierteWertebehandeln .......................... 37 2.3.2 Mengenoperationen ................................. 37 2.3.3 Kombinatorik....................................... 39 2.4 SystematischeundzufälligeWertefolgenerzeugen .............. 41 2.4.1 NumerischeSequenzenerstellen....................... 41 2.4.2 Wertefolgenwiederholen ............................. 43 2.4.3 ZufälligauseinerUrneziehen......................... 43 2.4.4 ZufallszahlenausbestimmtenVerteilungenerzeugen...... 44 2.5 Datentransformieren....................................... 45 2.5.1 Wertesortieren ..................................... 45 2.5.2 WerteinzufälligeReihenfolgebringen ................. 46 2.5.3 TeilmengenvonDatenauswählen...................... 47 2.5.4 Datenumrechnen ................................... 48 2.5.5 NeueausbestehendenVariablenbilden ................. 51 2.5.6 Werteersetzenoderrecodieren ........................ 51 2.5.7 KontinuierlicheVariableninKategorieneinteilen......... 53 2.6 Gruppierungsfaktoren ...................................... 54 2.6.1 UngeordneteFaktoren ............................... 54 2.6.2 Faktorenkombinieren................................ 56 2.6.3 Faktorstufennachträglichändern ...................... 57 2.6.4 GeordneteFaktoren.................................. 59 2.6.5 ReihenfolgevonFaktorstufen ......................... 59 2.6.6 FaktorennachMustererstellen ........................ 60 2.6.7 QuantitativeinkategorialeVariablenumwandeln......... 61 2.7 DeskriptiveKennwertenumerischerDaten..................... 62 2.7.1 Summen,DifferenzenundProdukte.................... 63 2.7.2 Extremwerte ....................................... 64 2.7.3 Mittelwert,MedianundModalwert .................... 65 2.7.4 RobusteMaßederzentralenTendenz ................... 66 2.7.5 Prozentrang,Quartile,QuantileundInterquartilabstand.... 67 2.7.6 Varianz,Streuung,SchiefeundWölbung................ 68 2.7.7 KovarianzundKorrelation............................ 69 2.7.8 KennwertegetrenntnachGruppenberechnen ............ 71 2.7.9 FunktionenaufgeordnetePaarevonWertenanwenden .... 73 2.8 Matrizen ................................................. 73 2.8.1 DatentypeninMatrizen .............................. 74 2.8.2 Dimensionierung,ZeilenundSpalten................... 75 2.8.3 Elementeauswählenundverändern .................... 77 2.8.4 WeitereWege,Elementeauszuwählenundzuverändern... 78 2.8.5 Matrizenverbinden.................................. 79 2.8.6 Matrizensortieren................................... 80 2.8.7 Randkennwerteberechnen............................ 81 Inhaltsverzeichnis xi 2.8.8 BeliebigeFunktionenaufMatrizenanwenden............ 81 2.8.9 Matrix zeilen- oder spaltenweise mit Kennwerten verrechnen ......................................... 82 2.8.10 Kovarianz-undKorrelationsmatrizen................... 83 2.9 Arrays ................................................... 84 2.10 Häufigkeitsauszählungen.................................... 86 2.10.1 EinfacheTabellenabsoluterundrelativerHäufigkeiten .... 86 2.10.2 Iterationenzählen ................................... 88 2.10.3 Absolute,relativeundbedingterelativeHäufigkeitenin Kreuztabellen....................................... 89 2.10.4 RandkennwertevonKreuztabellen ..................... 92 2.10.5 KumulierterelativeHäufigkeitenundProzentrang ........ 92 2.10.6 DiversitätkategorialerDaten .......................... 94 2.11 Codierung,IdentifikationundBehandlungfehlenderWerte ....... 94 2.11.1 FehlendeWertecodierenundihrVorhandenseinprüfen.... 95 2.11.2 FehlendeWerteersetzenundumcodieren ............... 96 2.11.3 Behandlung fehlender Werte bei der Berechnung einfacherKennwerte................................. 97 2.11.4 BehandlungfehlenderWerteinMatrizen................ 98 2.11.5 BehandlungfehlenderWertebeimSortierenvonDaten....100 2.12 Zeichenkettenverarbeiten...................................101 2.12.1 ObjekteinZeichenkettenumwandeln...................101 2.12.2 Zeichenkettenerstellenundausgeben...................102 2.12.3 Zeichenkettenmanipulieren...........................104 2.12.4 Zeichenfolgenfinden ................................106 2.12.5 Zeichenfolgenersetzen...............................108 2.12.6 ZeichenkettenalsBefehlausführen ....................108 2.13 DatumundUhrzeit.........................................109 2.13.1 Datumsangabenerstellenundformatieren...............109 2.13.2 Uhrzeit ............................................110 2.13.3 BerechnungenmitDatumundUhrzeit..................112 3 Datensätze ....................................................115 3.1 Listen....................................................115 3.1.1 Komponentenauswählen,verändernundhinzufügen......116 3.1.2 ListenmitmehrerenEbenen ..........................119 3.2 Datensätze................................................120 3.2.1 DatentypeninDatensätzen............................122 3.2.2 Elementeauswählenundverändern ....................123 3.2.3 NamenvonVariablenundBeobachtungen...............124 3.2.4 DatensätzeindenSuchpfadeinfügen...................125 3.3 Datensätzetransformieren...................................127 3.3.1 Variablenhinzufügenundentfernen ....................127 3.3.2 Datensätzesortieren .................................128 3.3.3 TeilmengenvonDatenauswählen......................129

Description:
Dieses Buch liefert eine anwendungsorientierte Einführung in die statistische Datenauswertung mit der freien Statistikumgebung R. Es behandelt deskriptive Auswertungen ebenso wie inferenzstatistische Analysen. Neben den klassischen univariaten Verfahren berücksichtigt es auch zahlreiche nonparamet
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.