ROLAND M. MÜLLER · HANS-JOACHIM LENZ Business Intelligence eXXamen.press eXamen.pressisteineReihe,dieTheorieundPraxisausallenBereichenderInformatikfür dieHochschulausbildungvermittelt. Roland M. Müller · Hans-Joachim Lenz Business Intelligence RolandM.Müller Hans-JoachimLenz HochschulefürWirtschaftundRechtBerlin FreieUniversitätBerlin Berlin,Deutschland Berlin,Deutschland ISSN1614-5216 ISBN978-3-642-35559-2 ISBN978-3-642-35560-8(eBook) DOI10.1007/978-3-642-35560-8 DieDeutscheNationalbibliothekverzeichnetdiesePublikationinderDeutschenNationalbibliografie;detaillierte bibliografischeDatensindimInternetüberhttp://dnb.d-nb.deabrufbar. SpringerVieweg ©Springer-VerlagBerlinHeidelberg2013 DasWerkeinschließlichallerseinerTeileisturheberrechtlichgeschützt.JedeVerwertung,dienichtausdrücklich vomUrheberrechtsgesetzzugelassenist,bedarfdervorherigenZustimmungdesVerlags.Dasgiltinsbesondere fürVervielfältigungen,Bearbeitungen,Übersetzungen,MikroverfilmungenunddieEinspeicherungundVerar- beitunginelektronischenSystemen. DieWiedergabevonGebrauchsnamen,Handelsnamen,Warenbezeichnungen usw.indiesemWerkberechtigt auchohnebesondereKennzeichnungnichtzuderAnnahme,dasssolcheNamenimSinnederWarenzeichen- undMarkenschutz-Gesetzgebungalsfreizubetrachtenwärenunddahervonjedermannbenutztwerdendürften. GedrucktaufsäurefreiemundchlorfreigebleichtemPapier SpringerViewegisteineMarkevonSpringerDE.SpringerDEistTeilderFachverlagsgruppeSpringer Science+BusinessMedia www.springer-vieweg.de Vorwort BusinessIntelligence(BI),istnachwievoreinModewort,„verkauftsichgut“undistzu RechtausdemUnternehmensalltagkaummehrwegzudenken. Dies gilt insbesondere dann, wenn man sich in die sechziger bis achtziger Jahre zu- rückversetzt, wo jede Datenauswertung vom jeweiligen Abteilungsleiter beantragt, vom Rechenzentrumsleiter eines Unternehmens genehmigt und dann dort einzeln program- miertwerdenmusste. Schlimmernoch,derzweiteAutorkannsichgutandenSommer1964erinnern,woer ineinemnamhaftendeutschenGroßunternehmenalsWerkstudentbeschäftigtwar.Eine unzweckmäßige Programmierung von sog. „Tabellierungen“ führte zu seitenlangen Pa- pierausdrucken – einen Papierstapel von gut 25cm Höhe. Dieser Ausdruck enthielt die KupferpreiseaufdeninternationalenWeltmärktengruppiertnachdiversenKriterien.Die Aufgabebestanddarin,dieDatenmanuellsozukomprimieren,dassderzuständigeAbtei- lungsleiterimstandeundbereitwar,sieinTabellenformzuanalysieren.Medienbrüchewie diesewarenübrigensbisweitindieneunzigerJahrehineindurchausanderTagesordnung inderdeutschenWirtschaft. EsstelltsichwiebeijedemBuchdieFrage,wozunocheinBuchüberBusinessIntelligence geschriebenwerdenmuss.Wirhabendazu,glaubenwir,guteGründe. Zuerst einmalwollen wir unserenehemaligen Kollegen der Wirtschaftsinformatikan derHumboldt-UniversitätzuBerlin,denjetzigenPräsidentenderUniversitätPotsdamund –inPersonalunion–derdeutschenGesellschaftfürInformatik(GI),OliverGünther,dafür „verantwortlich“ machen;denn er war es,der den Anstoßzu diesem Projekt gab.Ohne seinenMotivationsschubamAnfanghätteunser„Baby“niedasLichtderWelterblickt. Weiterhintriebunsan,dasseszweifelsfreiausgezeichneteenglischsprachigeLiteratur zurBIgibt,dieseaberoftvonInformatikerngeschriebenwurdeundBusinessmehr„Eti- kett“oder„Alibi“istalsdiebetriebswirtschaftlicheAnwendungsdomäne.WiederBegriff Intelligence deutlich macht, spielt die Auswertung von Daten bei BI eine entscheidende Rolleundzwarimbetrieblichen,nichtprimärimtechnischenodergarnaturwissenschaft- lichenBereich.WirbringengernBIaufdieFormelBusiness Intelligence=50%Betriebs- wirtschaft/OperationsResearch+25%DataMining/Statistik+25%DataWarehousing. Diesbedeutet,dassdieobenangesprocheneGruppevonBüchernunsererEinschätzung nachzuetwa%LückenanbetriebswirtschaftlichenAnwendungenaufweisen.Diesezu V VI Vorwort füllenbzw.eineBrückezwischenInformatik,Statistik,OperationsResearchundBetriebs- wirtschaft(BWL)zuschlagen,sehenwiralseinewichtigeZielsetzungdiesesBuchesan. ZweifelsohneexistierengeradeauchimdeutschsprachigenRaumBücherüberBI.Diese sindaberausunsererSicht„zudeskriptiv“,d.h.siegliedern,be-undumschreibenPhä- nomeneanstattdiedahinterstehendenProblemeaufzugreifen,zuformalisierenundmit geeigneten Werkzeugenzulösen.Auchmangeltesanillustrativen,methodischnachvoll- ziehbarenBeispielenundFällen. Mit diesem Buch haben wir hartnäckig versucht, uns auf das Wie zu konzentrieren, undnichtnuraufdasWas.SelbstverständlichhabenwirdiefachlicheEinbettung derBI- ProblemeindasbetrieblicheUmfeldnichtvölligaußerAchtgelassen.MitderQuantifizie- rungundFormalisierungderbetrieblichenFragestellungenundderDarstellungzugehö- rigermethodischerLösungenvonBusinessIntelligence, wiebeispielsweiseDataMining, maschinellesLernen,statistischeDatenanalyseundOperations Research,habenwir uns ein vertracktes Darstellungsproblem eingehandelt: Die Vielfalt der Notationen in diesen Fachgebieten.SobezeichnetalleindasSymbol„π“inderMathematikeineKonstante,im Operations Research einen Schattenpreis beim linearen Optimieren, in der Datenbank- TheorieeinenProjektionsoperatorusw.InderStatistikwerdenZufallsvariablentraditionell mitgroßenBuchstabenwie„X,Y,...“bezeichnet,imOperationsResearchüblicherweise nur in Ausnahmefällen, siehe Produktions- und Lagerhaltung bei stochastischer Nach- frage.Dafürwerdenwiederum(deterministische)BestandsgrößenwiederLagerbestandin Periodet,I ,mitgroßenBuchstabenbezeichnet.NachreiflicherÜberlegunghabenwiruns t entschlossen,indeneinzelnenKapitelnsoweitwiemöglichandenjeweiligendomänen- spezifischenBezeichnernfestzuhalten.DieIdeeeinereinheitlichen,kapitelübergreifenden Notationhabenwirbewusstverworfen. Unsere Herangehensweise an Business Intelligence ist natürlich durch etliche For- schungs-undEntwicklungsprojekteunddiejahrzehntelangeLehrerfahrungimakademi- schenBereichmitgeprägt.DazuhabenganzeGenerationenvonStudierendenbeigetragen. Im Mittelpunkt stand dabei nie die reine Stoff- oder Faktenvermittlung, sondern eine spezifischeDenkweise,wieBIinderPraxiserfolgversprechendeinzusetzenist: 1. Untersuchungszielefestlegen, 2. Datenbeschaffung durch Buchführung, Messen oder Schätzen, Herunterladen (engl. crawlen)vonInhaltenausdemInternetoderdurchgeplanteExperimente, 3. DatenintegrationineinDataWarehouseinVerbindungmiteffizientenDatenstrukturen für„massiveDatenmengen“oder–modernerausgedrückt–„BigData“, 4. explorativeDatenanalysemittelsstatistischer,Data-Mining-odermaschinellerLernver- fahren,sowie 5. WissensgenerierungimSinnevonKnowledgeDiscoveryinDatabases(KDD)durchIn- terpretation,VisualisierungundTabellierungderErgebnisse. Wir wollen auch das an der Freien Universität Berlin in den Jahren 2005–2008 durch- geführte kooperative Forschungsprojekt Global Business Intelligence Server (BussI) nicht Vorwort VII unerwähntlassen,dasvonderIBMDeutschlandGmbHundderForschungsgruppeder DaimlerChrysler, Berlin,finanziell, soft- undhardwaremäßig unterstützt wurde. Dessen Zielsetzungbestanddarin,ausgewähltemarktgängigeBI-Methoden,insbesonderederAn- bieter IBM, Microsoft, Oracle und SAP, zu testen bzw. anhand von Literatur zu sichten, wissenschaftlicheinzuordnenundaufmethodischeSoliditätzuuntersuchen.Diesgeschah getreudemMotto:„Rerumcognoscerecausas“(dt.„DieUrsachenderDingeerkennen“). DievomBussI-ProjektteamimRahmenvonForschungsberichten,Diplomarbeitenund DissertationengesammeltenErkenntnissehabenStrukturundteilweiseInhaltdiesesBu- chesmitgeprägt. DerersteAutorhatteersteinternationaleErfahrungenalsBI-BeraterimSiliconValley zu den Hochzeiten des Dot-Com-Booms1999 und2000 sammelndürfen.Ihm istnoch lebhafteinER-DiagrammmithundertenEntitätenbeieinemKundenvorAugen,daseine ganzeWandfüllte.DieMöglichkeitamGraduiertenkolleg Verteilte Informationssysteme (GKVI)zupromovieren–mit soinspirierendenProfessorenwie O.Günther sowieKol- legiaten wieM.SchaalundD.Asonov –hatihnnachhaltigwissenschaftlichgeprägt.Die ArbeitamEU-ProjektPARMENIDESmitM.SpiliopoulouundanderUniversitätTwente mitJ.vanHillegersbergsindweitereErfahrungsgrundlagenfürdiesesBuch. Den zweiten Autor haben drei internationale Workshopsnachhaltig beeinflusst, eine derBusinessIntelligenceangemesseneDenkweisezuerlernen.Einmalhandeltessichum denspäterberühmtgewordenenEdinburgh-WorkshopüberStatistikundKünstlicheIntel- ligenzEndederachtzigerJahre,veranstaltetvonD.HandundD.Spiegelhalter.Zumanderen sinddieimZwei-Jahres-RhythmusstattfindendenWorkshopsAIandStatisticsinFt.Lau- derdalezunennen,die1986vondenBellLabs,USA,initiiert wurden.Lastbutnotleast gehörthierzuauchdieFolgevonWorkshopsinUdine,Italien,diedieInternationalSchool fortheSynthesisofExpertKnowledge(ISSEK)allezweiJahredurchführteunddieunsere KollegenG.DellaRicciaundR.KruseinsLebenriefen. Abschließend sei uns noch eine Bemerkung zur Rolle von „Wissen“ und „Wissens- generierung“speziellimunternehmerischenUmfeldgestattet,dieindiesemBuchimVor- dergrundzustehenscheint.Alsindensechziger Jahrenamberühmten Institute forAd- vancedStudies,Princeton,A.EinsteinvonseinennaturwissenschaftlichenKollegen zum Slogan„KnowledgeisPower“befragtwurde,brachteerseineSichtaufdenPunktmitder Antwort„Phantasieistwichtiger alsWissen“.Demhabenwirnichtshinzuzufügen;denn Schumpeters Aussagen,ohnedieIdeenvonUnternehmern–imSinnevon„etwasunter- nehmen“– läuft die Wirtschaft nicht, gilt nach wie vor.Kurzum, Wissen wird nie allein Ersatzfürunternehmerische,d.h.menschlicheKreativitätsein[219,294].Soft-undHard- wareführennichtzu„intelligenten Maschinen“,sondernwaren,sindundbleibenfürdie Managerwertvolle,unverzichtbareAssistentenundRechenknechte.DennWissenalleinist zwar notwendig, aber bekanntlich nicht hinreichend für erfolgreiches (wirtschaftliches) Handeln. SchließenwirmitG.C.Lichtenberg,derdenAutorendiesesBuchesHoffnunggibt:„Die NeigungdesMenschen,kleineDingefürnützlichzuhalten,hatsehrvielGroßeshervor- gebracht.“ VIII Vorwort WirdankenvielenunsererKollegenfürkritischeHinweiseaufunklarformuliertePas- sagenimManuskript,insbesondereK.Lenz,F.KlawonnundM.Soeffky.Besondershervor- hebenwollenwirdieMitarbeiterundMitarbeiterinnenvomSpringerVerlag,Heidelberg, fürihrEngagement,unsjederzeitbehilflichzusein,undfürihreGeduldbeimWartendar- auf,dasswirdasManuskriptabliefern.WirwidmendiesesBuchKT undMHSfürderen VerständnisundUnterstützung. Berlin,Juni2013 RolandM.Müller Hans-J.Lenz Inhaltsverzeichnis Abkürzungs-undSymbolverzeichnis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XIII 1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 2 Datenbereitstellung:DataWarehousing . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.2 DataWarehouseArchitektur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.2.1 Architekturkomponenten . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.2.2 Architekturvarianten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.3 Datenintegration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.3.1 ETL-Prozess . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 2.3.2 Schemakonflikte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.3.3 Datenkonflikte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.4 Datenqualität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 2.4.1 KenngrößenderQualitätsmessung . . . . . . . . . . . . . . . . . . . . . 38 2.4.2 Qualitätssicherungsprozess. . . . . . . . . . . . . . . . . . . . . . . . . . . 48 2.4.3 Datenqualitätsberichte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 2.5 OnlineAnalyticalProcessing(OLAP) . . . . . . . . . . . . . . . . . . . . . . . . 50 2.5.1 AnforderungenanOLAPSysteme . . . . . . . . . . . . . . . . . . . . . . 50 2.5.2 FaktenundDimensionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 2.5.3 OLAPGrundoperationen. . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 2.5.4 Summierbarkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 2.5.5 Speicherarten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 2.6 MultidimensionaleDatenmodellierung . . . . . . . . . . . . . . . . . . . . . . . 59 2.6.1 MultidimensionaleModellierungssprachen. . . . . . . . . . . . . . . . 59 2.6.2 Star-Schema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 2.6.3 Snowflake-Schema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 2.6.4 Galaxie-Schema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 2.6.5 Fact-Constellation-Schema. . . . . . . . . . . . . . . . . . . . . . . . . . . 65 2.6.6 Historisierung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 2.6.7 VorgehensweisenfürdiemultidimensionaleModellierung . . . . . 68 IX
Description: