ebook img

Moderne Datenanalyse mit R: Daten einlesen, aufbereiten, visualisieren, modellieren und kommunizieren PDF

559 Pages·2019·39.381 MB·German
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Moderne Datenanalyse mit R: Daten einlesen, aufbereiten, visualisieren, modellieren und kommunizieren

Sebastian Sauer Moderne Datenanalyse mit R Daten einlesen, aufbereiten, visualisieren, modellieren und kommunizieren FOM-Edition FOM Hochschule für Oekonomie & Management Reihenherausgeber FOMHochschulefürOekonomie&Management,Essen,Deutschland DiesesWerkerscheintinderFOM-Edition,herausgegebenvonderFOMHochschulefür Oekonomie&Management. WeitereBändeinderReihe http://www.springer.com/series/12753 Sebastian Sauer Moderne Datenanalyse mit R Daten einlesen, aufbereiten, visualisieren, modellieren und kommunizieren SebastianSauer FOMHochschulefürOekonomie& Management Nürnberg,Deutschland FOM-Edition ISBN978-3-658-21586-6 ISBN978-3-658-21587-3(eBook) https://doi.org/10.1007/978-3-658-21587-3 DieDeutscheNationalbibliothekverzeichnetdiesePublikationinderDeutschenNationalbibliografie;detaillier- tebibliografischeDatensindimInternetüberhttp://dnb.d-nb.deabrufbar. SpringerGabler ©SpringerFachmedienWiesbadenGmbH,einTeilvonSpringerNature2019 DasWerkeinschließlichallerseinerTeileisturheberrechtlichgeschützt.JedeVerwertung,dienichtausdrücklich vomUrheberrechtsgesetzzugelassenist,bedarfdervorherigenZustimmungdesVerlags.Dasgiltinsbesondere fürVervielfältigungen,Bearbeitungen,Übersetzungen,MikroverfilmungenunddieEinspeicherungundVerar- beitunginelektronischenSystemen. DieWiedergabevonGebrauchsnamen,Handelsnamen,Warenbezeichnungenusw.indiesemWerkberechtigt auchohnebesondereKennzeichnungnichtzuderAnnahme,dasssolcheNamenimSinnederWarenzeichen- undMarkenschutz-Gesetzgebungalsfreizubetrachtenwärenunddahervonjedermannbenutztwerdendürften. DerVerlag,dieAutorenunddieHerausgebergehendavonaus,dassdieAngabenundInformationenindiesem WerkzumZeitpunktderVeröffentlichungvollständigundkorrektsind.WederderVerlagnochdieAutorenoder dieHerausgeberübernehmen,ausdrücklichoderimplizit,GewährfürdenInhaltdesWerkes,etwaigeFehler oderÄußerungen.DerVerlagbleibtimHinblickaufgeografischeZuordnungenundGebietsbezeichnungenin veröffentlichtenKartenundInstitutionsadressenneutral. SpringerGableristeinImprintdereingetragenenGesellschaftSpringerFachmedienWiesbadenGmbHundist einTeilvonSpringerNature. DieAnschriftderGesellschaftist:Abraham-Lincoln-Str.46,65189Wiesbaden,Germany Vorwort Wir fühlen, dass selbst, wenn alle möglichen wissenschaftlichen Fragen beantwortet sind, unsereLebensproblemenochgarnichtberührtsind. –Wittgenstein,Tractatus,6.52 DystopieeinesDatenzeitalters Wir leben im frühenZeitalter der Daten und Algorithmen,dem Algorithmozän. Gebets- mühlenartighabenunsUnternehmensberatungen,PolitikerundGoogle-Ingenieuredieses Mantra vorgetragen, so dass es längt zum Fundus säuberlich abgehefteter Binsenweis- heiten gehört (vgl. Chui et al. 2018). Untermalt wird dieses sonore Flüstern durch ein StakkatovonEilmeldungenwiekürzlichvonAlphaGoZero(D.Silveretal.2017b).Das ist ein Programm, das sehr gut im Brettspiel Go ist (und wohl auch in einigen anderen SpielenlautD.Silveretal.(2017a)).WieseinVorgängerausdemletztenJahr,AlphaGo, basiertdasProgrammaufsog.neuronalenNetzen,einerwohlbekanntenMethodedessta- tistischenModellierens(Scherer2013).DasneueProgrammspieltdeutlichbesseralsdas alte:BeieinemgemütlichenTreffenschlugderNeuedenAltenvernichtend:Mit100zu0 fegtederFrischlingdenaltenHasenvomPlatz.DabeihattederAlteeinigesvorzuweisen. ImVorjahrhatteereinenMeisterdesGo-Spiels,einenMenschen,klarbesiegt(D.Silver etal.2017b).Interessantist,dassAlphaGoZeroohneLernmaterialvonaußenauskam,im GegensatzzufrüherenProgrammenwieAlphaGo.Daslegtnahe,dassMaschinengrund- sätzlich in der Lagesind, ohneHilfe von Menschen zu lernen – und „übermenschliche“ LeistungimGo-Spielundvielleichtauchanderswozuerzielen. Ähnlich spektakulär:Eine Reihevon Fachartikeln zeigte, dass Algorithmen – ausrei- chend mit Daten gefüttert – die Persönlichkeit einer Person besser einschätzen können alsderenFreunde(Kosinskietal.2013;Quercia,Kosinski,Stillwell,&Crowcroft2011; Youyouetal. 2015).Auchhier wurdenmoderneModelledesstatistischen Modellierens verwendet. Auf analoge Art schlägt Ihnen ein Algorithmus auf einer Webseite vor, für welche Produkte Sie sich noch interessieren könnten. Nicht immer ist der Algorithmus auchnuransatzweiseclever:Werhatnochnichterlebt,imInterneteinenGegenstander- worbenzuhaben,einFahrradzumBeispiel,unddanachnochwochenlangvonWerbung fürFahrräderdrangsaliertzuwerden(mirreichteinRad,Google). V VI Vorwort Beialler Dystopie, diemitderDigitalisierung zusammenhängtundmitChinas„Kre- ditwürdigkeitspunkten“bisheramkonsequentestenweitergedachtwurde(Botsman2017), esgibtauchNutzen.ModerneDaten-TechnologiensteckenimSmartphone,inmedizini- schenAnwendungenundindeutschenAutos.WermöchteaufdiesenFortschrittverzich- ten?Diewenigstenoffenbar. Diese Beispiele ließen sich noch länger mit Unterhaltungswert fortsetzen. Wie man den Fortschritt der Algorithmen auch einschätzt – wünschenswert, durchwachsen oder bedrohlich–manmusszumgleichenSchlusskommen:AnderintensivenBeschäftigung mit dieser Technik kommen wir (jeder Einzelne) nichtvorbei. Ein Baustein, um dieun- heimliche Bedrohungdurch panoptische, orwelleske Überwachung abzuwenden, ist das VerständnisdermodernenDatentechnik.Gleichermaßengilt:Umdieoffenbargewaltigen ökonomischen Potenziale für die Unternehmen urbar zu machen, müssen wir die Tech- nikverstehen(BrynjolfssonundMcAfee2016).DieDigitalisierungistderbestimmende TrenddesWirtschaftslebens–wahrscheinlich(VorsichtmitVorhersagen);daheristesbe- ruflich, gesellschaftlich und politisch geboten, sich dem Algorithmozän zu stellen. Das heißt nicht, dass jeder Programmierer und Statistiker werden muss. Aber ein gewisses GrundverständnissolltezumBildungsstandardgehören. DasStatistikcurriculumistveraltet DieLehrplänederHochschulengebensichvondramatischenMeldungenundneuenTech- nologien noch weitgehend unbescholten. Zumeist gilt in Lehrplänen für Statistik: Über dent-Testgehtnichts.DerWirklichkeitaußerhalbderAlmaMaterwirddaskaumgerecht. DieGründefürdieseGemächlichkeitkönnendarinliegen,dasssicheinigeHochschulleh- rer1 mit neuen Technologien schwertun und mit Daten operieren (wollen), für die die altenMethodenwiedert-Testgeeignetsind.FreinachMaxPlanckkannmanbehaupten, dass alteLehrmeinungendannerstdasZeitlichesegnen,wenn dasauchdieProfessoren tun, die die Lehrmeinungenvertreten. Vielleicht liegt es auch schlicht daran, dass unser Alltag indenmeisten Belangenwenig vonderDigitalisierung undvonAlgorithmenbe- rührtscheint:BeimBäckergrüßtmanwieseitAltvaterzeiten;deutscheAutosrollenvom BandwieseitdemWirtschaftswunder;SchülerundStudentenleseninihrenBüchern,wie esihneninPreußen,alsdasdeutscheSchulwesenseineAnfängefand,eingebläutwurde (Foucault1994).DieRevolutionderDatenistkaumspürbar;siefühltsichweitwegan. AbereinWechsel„unterdenTalaren“zeichnetsichab:StatistikermitRenommeerufen dazu auf, das Datenzeitalter im Unterricht einzuläuten (Cobb2007;Hardin et al. 2015): Datenanalyseheuteist andersals gestern (s. folgendeAbbildung).Immermehr Lehrbü- cherzumodernerStatistikundDatenanalysenerscheinen,auchrichtiggute(Baumeretal. 2017;z.B.Jamesetal.2013;McElreath2015;WickhamundGrolemund2016).Bislang zumeistimenglischenSprachraum,aberesgibtauchzunehmendmehrdeutschsprachige Bücher(z.B.WickhamundGrolemund(2017)). 1AusGründenderLesbarkeitwirdindiesemBuchdasgenerischeMaskulinum(„derLeser“)ver- wendet;immersindalleGeschlechtergleichermaßengemeint. Vorwort VII Früher Normalverteilung kleine Daten keine/kaum Computer Heute Flexible Algorithmen (sehr) große Daten Computer allgegenwärtig Das vorliegende Buch versucht, einen Teil der Lücke im deutschsprachigen Raum zu schließen.SiewerdenindiesemBuchdiegrundlegendenIdeendermodernenDatenana- lyselernen.Zielistes,Sie–inGrundzügen–mitmodernerStatistikvertrautzumachen.2 Lernziele Zielgruppe dieses Buches sind Einsteiger; Formeln und mathematische Hintergründe suchtman meistvergebens.Dasliegtzum einendaran, dasskeineoderkaumVorkennt- nisse in Datenanalyse vorausgesetzt werden. Zum anderen beruht das Buch auf einem didaktischen Ansatz, der das Tun vor das Wissen setzt. Das bedeutet nicht, dass Wissen geringergeschätztwürdealsHandeln.VielmehrstehtdahinterdieIdee,dassesdemVer- stehenunddemstatisticalthinking(C.J.WildundPfannkuch1999)hilft,sichfrühzeitig mitdemAusprobierenauseinanderzusetzen.DerWerkzeug-oderProblemlöse-Charakter desDenkensstehtimMittelpunktdesLernansatzesdiesesBuches(vgl.TrillingundFadel (2012)).Kein Inhaltdieses Buchesbleibt ohneUmsetzung, ohneAnwendung;es ist ein BuchfürPraktiker.Wereinetiefere,mathematischansprechendereEinführungsucht,sei andasexzellenteBuchvonHastieetal.(2013)verwiesen. ReinesLesendiesesBucheswirddemAnfängerinetwasovielbringenwiedieLek- türeeinerSchwimmfibel.UmgekehrtistÜbendieGrundlagefürFortschrittinderKunst der Datenanalyse (s. folgende Abbildung).3 Nutzen Sie die Übungsangebote: die reich- haltigeR-Syntax,dieDaten,dieAufgabenunddieVerweisezuweiterführenderLiteratur. WesentlichistdasDurcharbeitenderSyntax-Beispiele.DieKapitelsindzumTeilinsich abgeschlossen;dieGrundlagen(biseinschließlichKap.7)werdendurchgängigbenötigt. EineLektürevonvornenachhintenistratsam,abernichtzwangsläufignötig,geradefür fortgeschritteneLeser.VergleichsweiseschwierigsinddieKap.28und29. 2Statistiker, die diesem Buch als Vorbild Pate standen, sind: Roger D. Peng: http://www.biostat. jhsph.edu/~rpeng/,HadleyWickham:http://hadley.nz,JenniferBryan:https://github.com/jennybc. 3Die Abbildung zeigt den Zusammenhang von Klausurerfolg und Vorbereitungsaufwand. Man sieht, dass der Klausurerfolg (Y-Achse) tendenziell steigt, wenn der Vorbereitungsaufwand (X- Achse)steigt. VIII Vorwort Mehr Lernen, bessere Noten en Der Zusammenhang von Lernzeit und Klausurerfolg in der Statistik g n 1.00 u s Lö 0.75 er g 0.50 hti c nt ri 0.25 ze 0.00 Pro 1 2 3 4 5 Lernaufwand bestanden ja nein n = 1646 Studenten NachderLektürediesesBucheskönnenSie: (cid:2) denAblaufeinesProjektsausderDatenanalyseinwesentlichenSchrittennach- vollziehen (cid:2) Datenaufbereitenundansprechendvisualisieren (cid:2) Inferenzstatistikanwendenundkritischhinterfragen (cid:2) klassischeVorhersagemethoden(Regression)anwenden (cid:2) moderneMethodenderangewandtenDatenanalyseanwenden(z.B.Textmining) (cid:2) (wirtschaftliche) Fragestellungen mittels datengetriebener Vorhersagemodelle beantworten. ZurDidaktik ImGegensatzzuanderenvergleichbarenKursenstehthierdieUmsetzungmitR(RCore Team 2018) im Vordergrund. Dies hat pragmatische Gründe: Möchte man Daten einer statistischen Analyse unterziehen, so muss man sie zumeist erst aufbereiten, und zwar oftmühselig.Selten kannmandenLuxusgenießen,einfach„nur“,nachHerzenslustso- zusagen, ein Feuerwerk an multivariater Statistik abzubrennen. Zuvor gilt es, die Daten umzuformen,zu prüfen und zusammenzufassen. Für beide Anforderungenist R bestens geeignet. Dem Teil des Aufbereitens der Daten ist hier ausführlich Rechnung getragen. AußerdemspieltindiesemKursdieVisualisierungvonDateneinegroßeRolle.EinGrund ist,dassMenschenbekanntlichAugentieresind.ZumanderenbietenDiagrammebeium- fangreichenDatenEinsichten,diesonstleichtwortwörtlichübersehenwürden. Lovett und Greenhouse (2000) leiten aus der kognitiven Theorie fünf Prinzipien zur DidaktikdesStatistikunterrichts ab;nachdiesen Prinzipienist diesesBuchausgerichtet. (1) Menschen lernen am meisten durch das und von dem, was sie selber ausprobieren: DasSelber-TunstehtimZentrumdiesesBuches.(2)Wissenistsituiert,kontextspezifisch: Im Unterricht bzw. in einem Buch sollte daher lebensnah und alltagsrelevantes Wissen Vorwort IX vermittelt werden; die Beispiele und Methoden dieses Buches sind aus typischen oder verbreiteten Fragestellungen des Wirtschaftslebens entnommen. (3) Direktes Feedback verbessert das Lernergebnis: Das sofortige Ausprobieren anhand der R-Syntax gibt un- mittelbares Feedback,ob ein Plan aufgegangenist. Wiebeim Jonglieren:Wennein Ball zuBodenfällt,weißman,esisteinFehlerpassiert.Ähnlichverhältessich,wennRnichts oder Kauderwelsch ausspuckt. (4) Lernen geschieht beim Verbinden von Bekanntemmit Neuem: Der Sprachduktus ist informell, da viele Themen gerade in Bereichen nahe der MathematiknichtwegendesInhalts,sondernwegenderFormalisierungkompliziertwer- den. Freilich setzt man mit informeller Sprache Genauigkeit und Detailtiefe aufs Spiel. Daessich aberumein fürdieavisierteLeserschaftneuesThemahandelt,neigtsich die Waagehierzugunstenderinformellen,intuitivenHerangehensweise.Fürfortgeschrittene LeseristdiesesBuchdaherwenigergeeignet.(5)DiementaleBelastungsollteausgewo- gensein:DasBuchbeginntmitgrundlegendenThemen;dievergleichsweiseschwierigen wartengenEnde.JedesKapitelbehandeltnureinThema,umgeistigeRessourceneffek- tiv zu nutzen. Die „R-Philosophie“ dieses Buches orientiert sich am „Tidyverse“ (vgl. WickhamundGrolemund(2017));alleKapitelundalleR-SyntaxsinddiesemParadigma verhaftet.SiewerdenschnelldenähnlichenAufbauderSyntaxinallenKapitelnerkennen. ErfahrenenR-ProgrammierernwirdderausgiebigeGebrauchder„Pfeife“ausmagrittr auffallen;genausowiederausgiebigeGebrauchvondplyrundanderenFigurenausdem „Tidyverse“. Icons R spricht zu Ihnen; sie versucht es jedenfalls in diesem Buch, und zwar mit folgenden Icons(Fonticons2018). R-Pseudo-Syntax: An vielen Stellen dieses Buches findet sich R-Syntax. Neue oderkompliziertereSyntaxistZeilefürZeileinsDeutscheübersetzt. Achtung,aufgepasst:Schwierige,merkwürdigeoderfehlerträchtigeStellensind mitdiesemSymbolmarkiert. Übungsaufgaben:InjedemKapitelfindensichÜbungsaufgaben.Aufdiesewird mit diesem Icon verwiesen oder die Übungen sind in einem Abschnitt mit ein- sichtigemTitelzufinden. Hinweise Kunstwerke (Bilder) sind genau wie Standard-Literatur im Text zitiert, die verwendeten R-Paketenur im Anhang. Alle Werke (auch Daten und Software) finden sich im Litera- turverzeichnis.DiesesBuchwurdemitdemR-PaketbookdownbasierendaufR(RCore Team 2018) in RStudio (RStudio 2018) geschrieben. bookdown basiert wiederum u.a. aufdenR-Paketenknitrundrmarkdown.NormanMarkgrafsTypografie-Pakethatden

See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.