Reihenherausgeber: Prof.Dr.HolgerDette·Prof.Dr.WolfgangHa¨rdle Statistik und ihre Anwendungen WeitereBa¨ndedieserReihefindenSieunterhttp://www.springer.com/series/5100 Daniel Wollschla¨ger Grundlagen der Datenanalyse mit R Eine anwendungsorientierte Einfu¨hrung 123 DanielWollschla¨ger Christian-Albrechts-Universita¨tzuKiel Institutfu¨rPsychologie Olshausenstr.62 24098Kiel Deutschland [email protected] ISBN978-3-642-12227-9 e-ISBN978-3-642-12228-6 DOI10.1007/978-3-642-12228-6 SpringerHeidelbergDordrechtLondonNewYork DieDeutscheNationalbibliothekverzeichnetdiesePublikationinderDeutschenNationalbibliografie; detailliertebibliografischeDatensindimInternetu¨berhttp://dnb.d-nb.deabrufbar. (cid:2)c Springer-VerlagBerlinHeidelberg2010 Dieses Werk ist urheberrechtlich geschu¨tzt. Die dadurch begru¨ndeten Rechte, insbesondere die der U¨bersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funksendung,derMikroverfilmungoderderVervielfa¨ltigungaufanderenWegenundderSpeicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfa¨ltigungdiesesWerkesodervonTeilendiesesWerkesistauchimEinzelfallnurindenGrenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland vom 9. September 1965 in der jeweils geltenden Fassung zula¨ssig. Sie ist grundsa¨tzlich vergu¨tungspflichtig. ZuwiderhandlungenunterliegendenStrafbestimmungendesUrheberrechtsgesetzes. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigtauchohnebesondereKennzeichnungnichtzuderAnnahme,dasssolcheNamenimSinneder Warenzeichen-undMarkenschutz-Gesetzgebungalsfreizubetrachtenwa¨renunddahervonjedermann benutztwerdendu¨rften. Einbandentwurf:WMXDesignGmbH,Heidelberg Gedrucktaufsa¨urefreiemPapier SpringeristTeilderFachverlagsgruppeSpringerScience+BusinessMedia(www.springer.com) Vorwort DasvorliegendeBuchlieferteineanhuman-undsozialwissenschaftlichenAnwen- dungenorientierteEinführungindieDatenauswertungmitdemStatistikprogramm R. R ist eine freie Umgebung zur Analyse und graphischen Darstellung von Da- tensätzen, die befehlsorientiert arbeitet. Die Motivation für dieses Buch entstand ausdemEindruck,dasssichRzwarunterstatistischenExpertengroßerBeliebtheit erfreut,AnwenderstatistischerVerfahrenausGebietenderempirischenDatenana- lysedagegendasPotentialvonRnochnichtgleichermaßennutzen.DieserUmstand scheintzumindestteilweisedemMangelandeutschsprachigerLiteraturgeschuldet, die sich explizit an ein Publikum wendet, das in erster Linie einen Grundkanon bestehender Auswertungsverfahren anwenden möchte und nicht über technische VorkenntnissemitbefehlsgesteuertenProgrammenverfügt. Dieses Buch ist deshalb nicht auf eine Leserschaft zugeschnitten, die an fort- geschrittenen Themen komputationaler Statistik interessiert ist und aufbauend auf ErfahrungeninProgrammiersprachenauchReinsetzenmöchte.Stattdessensolles jenen den Einstieg in R ermöglichen, die zwar mit den statistischen Grundlagen vertrautsind,nichtabermitderenUmsetzungmitHilfebefehlsgesteuerterSoftware. DiehiergetroffeneAuswahlanstatistischenVerfahrenorientiertsichandenAn- forderungenderPsychologie,solltedamitaberauchdiewichtigstenAuswertungs- methodenandererHuman-undSozialwissenschaftenabdecken.Vorgestelltwirddie UmsetzunggraphischerunddeskriptiverDatenauswertung,nonparametrischerVer- fahren,univariaterlinearerModelle(Regression,Varianzanalysen)undausgewähl- termultivariaterMethoden.DabeiliegtderFokusdesBuchesaufderAnwendung derVerfahrenmitR,nichtaberaufderVermittlungstatistischerGrundkenntnisse– aufhierfürgeeigneteLiteraturwirdzuBeginnderAbschnittejeweilshingewiesen. Eine nähere Erläuterung der Tests etwa hinsichtlich ihrer mathematischen Grund- lagen, Anwendungsbereiche und Interpretation der Ergebnisse erfolgt dort, wo es fürdieBeschreibungderTestanwendungunabdingbarist.IndenmeistenBeispie- lenwirddavonausgegangen,dassdievorliegendenDatenbereitsgeprüftsindund eine hohe Datenqualität vorliegt: Fragen der Einheitlichkeit etwa hinsichtlich der CodierungvonDatumundUhrzeit,potentiellunvollständigeDatensätze,fehlerhaft eingegebene oder unplausible Daten sowie doppelte Werte oder Ausreißer sollen ausgeschlossensein.BesondereAufmerksamkeitwirdjedochineinemeigenenAb- schnittdemThemafehlenderWertegeschenkt. v vi Vorwort Kapitel 1 bis 3 dienen der Einführung in den generellen Umgang mit R, in die zur Datenanalyse notwendigen Grundkonzepte sowie in die Syntax der Befehls- steuerung. Inhaltlich werden in Kap. 2 Methoden zur deskriptiven Datenauswer- tungbehandelt,Kap.3befasstsichmitderOrganisationvollständigerDatensätze, die Daten aus mehreren Variablen zusammenfassen. Das sich an Kap. 4 zur Ver- waltung von Befehlen und Daten anschließende Kap. 5 stellt Hilfsmittel für die inferenzstatistischen Methoden bereit. Diese werden in Kap. 6 (nonparametrische Verfahren), 7 (Regression) und 8 (t-Tests und Varianzanalysen) behandelt. Einen ÜberblicküberausgewähltemultivariateVerfahrengibtKap.9.DasBuchschließt mit Kap. 10 zum Erstellen von Diagrammen und einem kurzen Ausblick auf den Einsatz von R als Programmiersprache in Kap. 11. Die gewählte Reihenfolge der ThemenistbeiderLektürekeinesfallszwingendeinzuhalten.Dainderpraktischen AuswertungstatistischeAnalysenmeistgemeinsammitderDatenorganisationund graphischen Illustrationen durchzuführen sind, empfiehlt es sich vielmehr, bereits zuBeginnauchKap.4und10selektivparallelzulesen. UmdieErgebnissevonR-eigenenAuswertungsfunktionenbessernachvollzieh- bar zu machen, wird ihre Anwendung an vielen Stellen durch manuelle Kontroll- rechnungen begleitet. Der gewählte Rechenweg soll dabei die aus der Statistik bekannten Formeln umsetzen, vernachlässigt aber zusätzliche Fragen, wie sie bei der Behandlung empirischer Datensätze auftreten, etwa wie mit fehlenden Werten umzugehenist.DieeigeneUmsetzungsollzudemzeigen,wieauchTestverfahren, fürdiezunächstkeinevorbereiteteFunktionvorhandenist,mitelementarenMitteln prinzipiellselbstumgesetztwerdenkönnen. ImBuchwirdanverschiedenenPunktenBezugzuandererSoftwaregenommen. Die folgenden dabei verwendeten Namen sind durch eingetragenes Warenzeichen derjeweiligenEigentümergeschützt:Eclipse,Excel,Java,Linux,MacOSX,Ma- thematica,MySQL,MATLAB,Octave,ODBC,OpenGL,OpenOffice,Oracle, S,S+,SAS,SPSS,SQLite,Stata,TIBCO,Trellis,Unix,Windows. DasBuchbeziehtsichaufVersion2.10.1vonR.DieverwendetenDatensowie alleBefehledesBucheskönnenSieunterdieserAdressebeziehen: http://www.uni-kiel.de/psychologie/dwoll/r/ Korrekturen, Ergänzungen und Anregungen sind herzlich willkommen – bitte [email protected]. Danksagung Mein besonderer Dank gilt den Personen, die an der Entstehung des Buches in frühen und späteren Phasen mitgewirkt haben: Abschn. 1.1 bis 1.2.3 entstanden aufderGrundlageeinesManuskriptszurBegleitungderMethoden-Veranstaltungen vonDieterHeyer undGiselaMüller-PlathamInstitutfürPsychologie derMartin- Luther-UniversitätHalle-Wittenberg,denenichfürdieÜberlassungdesTextesdan- ken möchte. Zahlreiche Korrekturen und viele Verbesserungsvorschläge wurden dankenswerterweise von Erwin Grüner, Johannes Andres, Sabrina Flindt und Su- Vorwort vii sanneWollschlägerbeigesteuert.JohannesAndresdankeichfürseineausführlichen ErläuterungenderstatistischenGrundlagen.DieEntstehungdesBucheswurdebe- ständigdurchdieselbstloseUnterstützungvonHeikeJoresundVincentvanHouten begleitet.SchließlichistdenEntwicklernvonRzudanken,dieinfreiwilliggelei- steter Arbeit eine offene Umgebung zur statistischen Datenauswertung geschaffen haben,derenmächtigeFunktionalitäthiernurzueinemBruchteilvermitteltwerden kann. Kiel,Germany DanielWollschläger März2010 Inhaltsverzeichnis 1 ErsteSchritte ................................................. 1 1.1 Vorstellung.............................................. 1 1.1.1 WasistR?...................................... 1 1.1.2 TypographischeKonventionen ..................... 3 1.1.3 WoerhalteichRundDokumentationzuR?.......... 4 1.1.4 InstallationvonRunterWindows .................. 5 1.2 GrundlegendeElemente ................................... 6 1.2.1 Startenundbeenden,dieKonsole .................. 6 1.2.2 Einstellungen ................................... 9 1.2.3 UmgangmitdemWorkspace ...................... 10 1.2.4 EinfacheArithmetik.............................. 11 1.2.5 FunktionenmitArgumentenaufrufen ............... 13 1.2.6 Hilfe-Funktionen ................................ 14 1.2.7 Zusatzpaketeverwenden .......................... 15 1.3 Datenstrukturen:Klassen,Objekte,Datentypen................ 17 1.3.1 Objektebenennen ............................... 18 1.3.2 ZuweisungenanObjekte.......................... 19 1.3.3 Objekteausgeben................................ 20 1.3.4 Objekteanzeigenlassenundentfernen .............. 20 1.3.5 Datentypen ..................................... 20 1.3.6 LogischeWerte,OperatorenundVerknüpfungen...... 22 2 ElementareDateneingabeund-verarbeitung ..................... 25 2.1 Vektoren ................................................ 25 2.1.1 Vektorenerzeugen ............................... 25 2.1.2 Elementeauswählenundverändern................. 26 2.1.3 DatentypeninVektoren........................... 28 2.1.4 ReihenfolgevonElementenkontrollieren............ 29 2.1.5 Elementebenennen .............................. 30 2.1.6 Elementelöschen................................ 31 2.1.7 RechenoperationenmitVektoren ................... 31 2.2 LogischeOperatoren...................................... 35 ix x Inhaltsverzeichnis 2.2.1 LogischeOperatorenzumVergleichvonVektoren .... 35 2.2.2 LogischeIndexvektoren .......................... 37 2.2.3 Werteersetzenoderrecodieren..................... 38 2.3 Mengen................................................. 40 2.3.1 DuplizierteWertebehandeln....................... 40 2.3.2 Mengenoperationen .............................. 41 2.3.3 Kombinatorik ................................... 42 2.4 NumerischeSequenzenundfesteWertefolgenerzeugen ........ 44 2.4.1 NumerischeSequenzenerstellen ................... 44 2.4.2 Wertefolgenwiederholen ......................... 46 2.5 ZufallszahlenundzufälligeReihenfolgengenerieren ........... 46 2.5.1 ZufälligauseinerUrneziehen ..................... 47 2.5.2 ZufallszahlenausbestimmtenVerteilungenerzeugen .. 47 2.5.3 UnterauswahleinerDatenmengebilden ............. 48 2.5.4 ZufälligeReihenfolgenerstellen ................... 49 2.6 DeskriptiveKennwertenumerischerVektoren................. 49 2.6.1 Summen,DifferenzenundProdukte ................ 50 2.6.2 Extremwerte .................................... 51 2.6.3 Mittelwert,MedianundModalwert................. 52 2.6.4 Quartile,Quantile,Interquartilabstand .............. 53 2.6.5 Varianz,Streuung,SchiefeundWölbung ............ 54 2.6.6 Kovarianz,KorrelationundPartialkorrelation ........ 55 2.6.7 FunktionenaufgeordnetePaarevonWertenanwenden. 57 2.7 Gruppierungsfaktoren..................................... 57 2.7.1 UngeordneteFaktoren............................ 58 2.7.2 Faktorstufen hinzufügen, entfernen und zusammenfassen ................................ 60 2.7.3 GeordneteFaktoren .............................. 61 2.7.4 ReihenfolgevonFaktorstufen...................... 61 2.7.5 FaktorennachMustererstellen..................... 63 2.7.6 QuantitativeVariableninFaktorenumwandeln ....... 64 2.7.7 FunktionengetrenntnachGruppenanwenden ........ 64 2.8 Matrizen ................................................ 66 2.8.1 DatentypeninMatrizen........................... 67 2.8.2 Dimensionierung,ZeilenundSpalten ............... 68 2.8.3 Elementeauswählenundverändern................. 70 2.8.4 WeitereWege,umElementeauszuwählenundzu verändern ...................................... 71 2.8.5 Matrizenverbinden .............................. 72 2.8.6 Randkennwerte.................................. 73 2.8.7 BeliebigeFunktionenaufMatrizenanwenden ........ 73 2.8.8 Matrixzeilen-oderspaltenweisemitKennwerten verrechnen ..................................... 74 2.8.9 Kovarianz-undKorrelationsmatrizen ............... 75 2.8.10 Matrizensortieren ............................... 76 Inhaltsverzeichnis xi 2.9 LineareAlgebra.......................................... 78 2.9.1 Matrix-Algebra.................................. 78 2.9.2 LineareGleichungssystemelösen .................. 81 2.9.3 NormundAbstandvonVektorenundMatrizen....... 81 2.9.4 OrthogonaleProjektion ........................... 85 2.9.5 KennwerteundZerlegungenvonMatrizen........... 86 2.10 Arrays.................................................. 90 2.11 Häufigkeitsauszählungen .................................. 91 2.11.1 EinfacheTabellenabsoluterundrelativerHäufigkeiten. 91 2.11.2 HäufigkeitennatürlicherZahlen.................... 93 2.11.3 Iterationenzählen................................ 94 2.11.4 Absolute,relativeundbedingterelativeHäufigkeiten inKreuztabellen ................................ 94 2.11.5 RandkennwertevonKreuztabellen.................. 97 2.11.6 KumulierterelativeHäufigkeitenundProzentrang..... 98 2.12 Codierung,IdentifikationundBehandlungfehlenderWerte......100 2.12.1 FehlendeWertecodierenundihrVorhandenseinprüfen 101 2.12.2 FehlendeWerteersetzenoderumcodieren ...........102 2.12.3 BehandlungfehlenderWertebeiderBerechnung einfacherKennwerte............................. 103 2.12.4 BehandlungfehlenderWerteinMatrizen ............104 2.12.5 BehandlungfehlenderWertebeimSortierenvonDaten 106 2.13 Zeichenkettenverarbeiten..................................106 2.13.1 ObjekteinZeichenkettenumwandeln ...............107 2.13.2 Zeichenkettenerstellenundausgeben ...............107 2.13.3 Zeichenkettenmanipulieren .......................109 2.13.4 Zeichenfolgenfinden.............................111 2.13.5 Zeichenfolgenersetzen ...........................112 2.13.6 ZeichenkettenalsBefehlausführen .................113 2.14 DatumundUhrzeit .......................................113 2.14.1 Datum .........................................114 2.14.2 Uhrzeit ........................................115 3 Datensätze ...................................................117 3.1 Listen ..................................................117 3.1.1 Komponentenauswählenundverändern.............117 3.1.2 ListenmitmehrerenEbenen.......................120 3.2 Datensätze ..............................................121 3.2.1 DatentypeninDatensätzen ........................123 3.2.2 Elementeauswählenundverändern.................124 3.2.3 DatensätzeindenSuchpfadeinfügen ...............126 3.2.4 NamenvonVariablenundBeobachtungen ...........127 3.2.5 Variablen einem Datensatz hinzufügen oder aus diesementfernen................................ 128