ebook img

Angewandte Datenanalyse: Der Bayes'sche Weg PDF

403 Pages·2017·8.623 MB·German
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Angewandte Datenanalyse: Der Bayes'sche Weg

Statistik und ihre Anwendungen Daniel Bättig Angewandte Datenanalyse Der Bayes’sche Weg 2. Auflage Reihenherausgeber Prof.Dr.HolgerDette (cid:2) Prof.Dr.WolfgangHärdle Statistik und ihre Anwendungen WeitereBändedieserReihefindenSieunter http://www.springer.com/series/5100 Daniel Bättig Angewandte Datenanalyse Der Bayes’sche Weg 2., überarbeitete und erweiterte Auflage DanielBättig InstitutfürRisiko-undExtremwertanalyse BernerFachhochschule Burgdorf,Schweiz StatistikundihreAnwendungen ISBN978-3-662-54219-4 ISBN978-3-662-54220-0(eBook) DOI10.1007/978-3-662-54220-0 DieDeutscheNationalbibliothekverzeichnetdiesePublikationinderDeutschenNationalbibliografie;detaillier- tebibliografischeDatensindimInternetüberhttp://dnb.d-nb.deabrufbar. SpringerSpektrum ©Springer-VerlagGmbHDeutschland2015,2017 DasWerkeinschließlichallerseinerTeileisturheberrechtlichgeschützt.JedeVerwertung,dienichtausdrücklich vomUrheberrechtsgesetzzugelassenist,bedarfdervorherigenZustimmungdesVerlags.Dasgiltinsbesondere fürVervielfältigungen,Bearbeitungen,Übersetzungen,MikroverfilmungenunddieEinspeicherungundVerar- beitunginelektronischenSystemen. DieWiedergabevonGebrauchsnamen,Handelsnamen,Warenbezeichnungenusw.indiesemWerkberechtigt auchohnebesondereKennzeichnungnichtzuderAnnahme,dasssolcheNamenimSinnederWarenzeichen- undMarkenschutz-Gesetzgebungalsfreizubetrachtenwärenunddahervonjedermannbenutztwerdendürften. DerVerlag,dieAutorenunddieHerausgebergehendavonaus,dassdieAngabenundInformationenindiesem WerkzumZeitpunktderVeröffentlichungvollständigundkorrektsind.WederderVerlagnochdieAutorenoder dieHerausgeberübernehmen,ausdrücklichoderimplizit,GewährfürdenInhaltdesWerkes,etwaigeFehler oderÄußerungen.DerVerlagbleibtimHinblickaufgeografischeZuordnungenundGebietsbezeichnungenin veröffentlichtenKartenundInstitutionsadressenneutral. Planung:IrisRuhmann GedrucktaufsäurefreiemundchlorfreigebleichtemPapier. SpringerSpektrumistTeilvonSpringerNature DieeingetrageneGesellschaftistSpringer-VerlagGmbHGermany DieAnschriftderGesellschaftist:HeidelbergerPlatz3,14197Berlin,Germany Für Franziska Vorwort Information,UnsicherheitundStatistik Menschensindinteressiertdaran,zukünftigeEreignisseeinschätzenzukönnen.Dassdie- ses Anliegen komplex ist, ist einleuchtend und soll nachfolgendangedacht werden. Die FahrzeitdesPersonenzugs,deramnächstenTagumachtUhrvonBernnachZürichfährt, istnichtexaktprognostizierbar.Diesistso,weilInformationenzudenherrschendenWet- terbedingungen, zu den Verhaltensweisen der Passagiere und zum Verkehrsaufkommen auf dem Schienennetz nicht vollständig erfassbar sind. Der Weltmarktpreis für ein Ki- lo Weizenam 1. DezemberdesnächstenJahrskannnurunsicherprognostiziertwerden, weil Informationenzu den Anbauflächen,zum Wetter oder zur Inflation fehlen. Die Le- bensdauern von Menschen zu bestimmen ist schwierig: Informationenzu Lebensdauern aufgrundderKörperkonstitution,desLebensortes, derLebensgewohnheitenu.a.m.feh- len,umeinepräziseRechnungzumachen. In einem Produktionsprozess können wegen sich ändernden Bedingungen – Arbeits- teams, die wechseln, Rohstoffe, die in der Qualität streuen – keine Fernsehgeräte pro- duziert werden, die eine identische Lebensdauer haben. Um verlässliche Aussagen zu nicht direkt messbaren Grössen, wie die durchschnittliche Lebensdauer eines Fernseh- geräts einer Produktionsserie,zu machen,ist Informationoder Wissen notwendig.Viele nicht direkt messbare Grössen müssen Ingenieurinnen und Ingenieure bestimmen. So kann der Druck in einer Kammer nur indirekt mit Apparaturen gemessen werden. We- gen variierender Bedingungen und wegen Messungenauigkeiten der Apparaturen erhält manMesswerte,dieumdengesuchtenDruckmehroderwenigerstreuen. Spezifische Information zu (a) zukünftigen Werten von unsicheren Grössen oder (b) zu nicht direkt messbaren Grössen kann man mit Messungen, Zahlen und Daten, sowie mitSachwissenerlangen.EinBlickindieerstengeschriebenenDokumentederMensch- heit zeigt, dass das geordnete Zusammenstellen von Zahlen und Daten eine langjährige Tradition hat. So stellen dieältesten bekannten Schrifttafeln, die „Tafeln von Uruk“aus dem 4. Jahrtausend vor Christus, Auszüge über die soziale Organisation einer Bevölke- rungsgruppedar.Manerfährt,dassdiereligiöseGemeinschaftdesTempelsLagashunter anderemaus18Bäckern,31Brauern,7Sklavenbestand. VII VIII Vorwort Die Zeit der modernen Statistik begann in der zweiten Hälfte des 18. Jahrhunderts, alsgrosseundrechtkomplexeDatensätzevonNationalstaatenuntersuchtwurden.Volks- zählungen für die Erhebung von Steuern oder für die Rekrutierung von Heeren waren fürdieStaatenwichtig.ZahlungsbilanzenzwischenStaatenwurdenbetrachtetundanaly- siert. DerartigeDaten inTabellen darzustellen, umbesondereMerkmalehervorzuheben, warkeinegeeigneteMethodemehr.GrafischeMethoden,umgrosseDatenmengendarzu- stellen,wurdenerfunden:Stabdiagramme,HistogrammeundGrafiken,umZeitreihenzu visualisieren.Im20.JahrhundertwurdenimRahmenderMassenproduktioninderIndus- trie,diedurchdieautomatisierteProduktionvonAutos,Fernsehgeräten,Medikamenten, ChipsundintegriertenSchaltkreisengekennzeichnetist,vielfältigeArtenvongrafischen Darstellungen erfunden,dieeineschnelle undeffizienteAnalyse der Produktionermög- lichen. Diese Darstellungen spielen bei der Qualitätskontrolle eine wichtige Rolle. Als BeispieleseienKontrollkartenundBox&WhiskerPlotserwähnt. DiemoderneStatistikistdieWissenschaft,dieeinerseitsMethodenaufzeigt,wieDaten oderMesswerteeffizientgesammeltwerdensollten.MansprichtvonderVersuchsplanung (engl.DesignofExperiments).InsbesondereversuchtmanbeiminimalemAufwandeinen maximalen Ertrag an Informationen zu erhalten. Andererseits erklärt die Statistik, wie mitderInformationausDatenundMesswertennichtdirektmessbareGrössenberechnet oder zukünftige Werte unsicherer Grössen prognostiziert werden können. Wie plausibel solcheRechnungenoderPrognosensind,wirdinderstatistischenArbeitmiteinerWahr- scheinlichkeit ausgedrückt. So will eine Ärztin wissen, mit welcher Wahrscheinlichkeit einMedikamentbeieinerPersonwirkenwird.OdereinProduzentmöchteberechnen,wie langdiedurchschnittlicheLebensdauerseinerhergestelltenFernsehgeräteistundwiezu- verlässig–formuliertmiteinerWahrscheinlichkeit–einesolcheAussageist.DasResultat einer derartigenRechnungkönnteso aussehen:„Mit einer Wahrscheinlichkeitvon 90% beträgtdiedurchschnittlicheLebensdauerderFernsehgerätezwischen10und12Jahren.“ OdereineGeologinmöchteprognostizieren,wielangemanaufdasnächsteschwereErd- bebenwartenmussundwiesicherdieseAngabeist.EswarPierre-SimonLaplace(1749 –1827),der Anfangdes19. JahrhundertsaufdieIdeekam, Wahrscheinlichkeitenzu be- nutzen,umPlausibilitätenzunichtdirektmessbarenGrössenausAstronomie,Natur-und Sozialwissenschaftenauszudrücken.UnterStatistikernistaberumstritten,waseineWahr- scheinlichkeitvonbeispielsweise90%bedeutetundwiesieausDatenberechnetwerden soll: „It is unanimouslyagreed that statistics dependssomehow on probability.But, as to what probabilityisandhowitisconnectedwithstatistics,therehasseldombeensuchcomplete disagreementandbreakdownofcommunicationsincetheTowerofBabel.“ L.J.Savage:TheFoundationsofStatistics,DoverPublications,Inc.NewYork,1972,S.2. In diesem Buch sind Wahrscheinlichkeiten dazu da, um zu messen, wie plausibel Aus- sagen sind. So bedeutet die Aussage „Mit einer Wahrscheinlichkeit von 90% beträgt die durchschnittliche Lebensdauer der Fernsehgeräte zwischen 10 und 12 Jahren“, dass man bereit ist, 90 zu 10 Franken zu wetten, dass die durchschnittliche Lebensdauer der Vorwort IX Fernsehgeräte zwischen 10 und 12 Jahren ist. Man spricht auch von der Bayes’schen Wahrscheinlichkeitsrechnung.SehrverbreitetsindauchanderefrequentistischeInterpre- tationen. Diese werten Wahrscheinlichkeiten als Langzeit-Häufigkeiten. Dies ist vor al- lemdanninteressant,wennausProbandengruppenaufParametereinerGesamtpopulation gerechnetwird. DieFragen,diesich dabeistellen, sind:Wiewärediestatistische Rech- nung ausgefallen, wenn man eine andereProbandengruppeausgewählt hätte? Was wäre passiert,wennmandasExperimentwiederholthätte?MansprichthiervonderStichpro- benunsicherheit(engl.randomerror)derRechnung.SolcheRechnungenstehennichtim Zentrum des Buchs. In Ingenieur- und Wirtschaftswissenschaften sind sie meist wenig interessant.ManhatDatenwieMessungenzuDefekten,zuTemperaturen,zuUnfallzah- lenoderzuSchadensummen.Mankümmertsichnichtum„imaginäreWiederholungen“, sondernessollenPlausibilitätenzuParameterngerechnet,Prognosengemacht,sowieEnt- scheidegetroffenwerden. InhaltundLeserschaft Der Inhalt des Buches zeigt vor allem, wie Daten oder allgemeiner, wie Information benutztwerdenkann,umnichtdirektmessbareGrössenzubestimmen,Prognosenzuzu- künftigenWertenvonunsicherenGrössenzurechnen,Regressionsmodellezukonstruieren undsolcheModellezuvergleichenundauszuwählen.HierBeispieledazu: NichtdirektmessbareGrösserechnen Eine Person möchte ihr Gewicht bestimmen. Sie steht dazu viermal auf eine Personen- waageundliestfolgendeZahlenab: 75;5kg; 74;8kg; 75;2kg; 75;7kg DieangezeigtenGewichtevariieren,weildasLuftvolumenimKörperändert,diePerson nichtimmer gleich ruhig aufder Waagesteht und dieWaageselber Messunsicherheiten hat.DasGewichtderPersonistdahernichtdirektmessbar.InderHoffnung,diezufälligen Fehlerzuminimieren,wirddiePersonvielleichtdasarithmetischeMittelderMessungen betrachten.Diesesbeträgt 75;5kgC74;8kgC75;2kgC75;7kg D75;3kg 4 DiePersonkönntesagen:„MeinGewichtbeträgt75,3kg.“DieFragestelltsich:Wiege- nau und wie plausibel ist diese Angabe? Dank statistischen Werkzeugen kann man auf diese Frage mit Aussagen, wie „Die Wahrscheinlichkeit, dass mein Gewicht zwischen 75,2 und 75,4kg liegt, beträgt 95%“, antworten. Oder was vielleicht eine äquivalente X Vorwort Aussageist:„Ichwette95zu5Franken,dassmeinGewichtzwischen75,2und75,4kgbe- trägt.“DieseArbeitbezeichnetmanalsschliessendeStatistik(engl.statisticalinference). ZukünftigeWerteeinerunsicherenGrösseprognostizieren Eine Person, die am nächsten Morgen um acht Uhr den Schnellzug von Bern nach Zü- richnimmt,möchtewissen,wielangdieFahrzeitdesZugsseinwird.DieFahrzeiteines SchnellzugsvonBernnachZürichisteinekomplexeGrösse,dievonvielenFaktorenab- hängt.DiePersonwirddaherwegenfehlenderInformationzudenFaktorendenmorgigen Wert dieser Grösse nicht berechnen können. Sie benutzt daher Informationen aus dem FahrplanundDaten,wiebeispielsweisedreigemesseneFahrzeitenderletztenWochevon 5605700,5905300und5703800.Mitdenenwirdsieversuchen,dieFahrzeitzuprognostizieren. Mit statistischen Werkzeugen und Wahrscheinlichkeiten kann ausgedrückt werden, wie plausibel dies ist: „Die Wahrscheinlichkeit, dass die Fahrzeit des Zugs, der morgen um achtUhrnachvonBernnachZürichfährt,mehrals65Minutenseinwird,beträgt5%.“ Mansagt,dassmaneinePrognose(engl.prediction)gerechnethat. Regressions-undKlassifikationsmodelle Viele Untersuchungen versuchen aus einer ersten Grösse einen unsicheren Wert einer zweitenGrössezuprognostizieren.SomöchtejemanddenPreiseinesGebrauchtwagens ausdemKilometerstand desWagensberechnen.Oderein ArztwilldasLungenvolumen ausdemAltereinesPatientenbestimmen.DazubrauchtmanDatenausVersuchsgruppen. AuchhierkönnenPrognosengerechnetwerden:„DerPreisdesGebrauchtwagensliegtmit einerWahrscheinlichkeitvon95%zwischen5000CHFund7000CHF,wennderKilome- terstand100000Kilometerbeträgt.“MansprichtinsolchenFällenauchvomstatistischem Lernen(engl.statisticallearning).DazubenutztmanRegressions-undKlassifikationsmo- delle.Beigrossen,komplexenDatenmengen(„BigData“)könnenverschiedeneModelle ZusammenhängezwischenGrössenbeschreiben.StatistischeWerkzeugehelfenoptimale Modellezufinden.MansprichtvonModellselektion. LeserschaftundBayes’scheStatistik DasBuchrichtetsichanStudierende,dieinangewandtenWissenschaften,wieIngenieur-, Natur-undWirtschaftswissenschafteneinenBachelor-oderMastergradabschliessenwol- len. Es wird die Bayes’sche Statistik vorgestellt, um Problemstellungen, wie sie oben erwähnt wurden, wissenschaftlich zu diskutieren. Sie arbeitet im wesentlichen mit ei- nemeinzigenWerkzeug,derRegelvonBayes.DieRegelerklärt,wiemanInformationen aus Daten und Zusatzinformationen verarbeiten kann. Die Zusatzinformation kann frü-

See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.