Table Of ContentModellierung Analytischer Informationssysteme:
Entwurf einer Methodik zur
multidimensionalen Datenstrukturierung
Von der Fakultät für Wirtschaftswissenschaften der
Rheinisch-Westfalischen Technischen Hochschule Aachen
zur Erlangung des akademischen Grades eines
Doktors der Wirtschafts-und Sozialwissenschaften
genehmigte Dissertation
vorgelegt von
Diplom-Informatiker Lorenz Determann
aus Mönchengladbach
Berichter: Universitätsprofessor Dr. rer. pol. habil. Michael Bastian
Universitätsprofessor Dr. rer. pol. habil. Michael Amberg
Tag der mündlichen Prüfung: 14.12.2001
"D 82 (Diss. RWTH Aachen)"
WI RTS CH AFTS INFO RM ATI K
Lorenz Determann
Modellierung Analytischer
Informationssysteme
Ein Konzept zur multidimensionalen
Datenstrukturierung
Mit einem Geleitwart van Praf. Dr. Michael Bastian
Springer Fachmedien Wiesbaden GmbH
DDiiee DDeeuuttsscchhee BBiibblliiootthheekk -- CCIIPP--EEiinnhheeiittssaauuffnnaahhmmee
EEiinn lliitteellddaatteennssaattzz ffOOrr ddiieessee PPuubblliikkaattiioonn iisstt bbeeii
DDeerr DDeeuuttsscchheenn BBiibblliiootthheekk eerrhhaallttlliicchh
DDiisssseerrttaattiioonn RRhheeiinniisscchh--WWeessttffaalliisscchhee TTeecchhnniisscchhee HHoocchhsscchhuullee AAaacchheenn,, 22000011
11.. AAuuffllaaggee SSeepptteemmbbeerr 22000022
AAllllee RReecchhttee vvoorrbbeehhaalltteenn
©© SSpprriinnggeerr FFaacchhmmeeddiieenn WWiieessbbaaddeenn 22000022
UUrrsspprruunngglliicchh eerrsscchhiieenniinn bbeeii DDeerr DDeeuuttsscchhee UUnniivveerrssiittăăttss--VVeerrllaagg 22000022
LLeekkttoorraatt:: UUttee WWrraassmmaannnn // AAnniittaa WWiillkkee
FFaacchhvveerrllaaggssggrruuppppee BBeerrtteellssmmaannnnSSpprriinnggeerr..
wwwwww..dduuvv..ddee
DDaass WWeerrkk eeiinnsscchhlliiee~~lliicchh aalllleerr sseeiinneerr TTeeiillee iisstt uurrhheebbeerrrreecchhttlliicchh ggeesscchhOOttzzll..
JJeeddee VVeerrwweerrttuunngg aauu~~eerrhhaallbb ddeerr eennggeenn GGrreennzzeenn ddeess UUrrhheebbeerrrreecchhttssggeesseettzzeess
iisstt oohhnnee ZZuussttiimmmmuunngg ddeess VVeerrllaa..99ss uunnzzuullaassssiigg uunndd ssttrraaffbbaarr.. DDaass ggiilltt iinnssbbee
ssoonnddeerree ffOOrr VVeerrvviieellffaallttiigguunnggeenn,, UUbbeerrsseettzzuunnggeenn,, MMiikkrroovveerrffiillmmuunnggeenn uunndd ddiiee
EEiinnssppeeiicchheerruunngg uunndd VVeerraarrbbeeiittuunngg iinn eelleekkttrroonniisscchheenn SSyysstteemmeenn..
DDiiee WWiieeddeerrggaabbee vvoonn GGeebbrraauucchhssnnaammeenn,, HHaannddeellssnnaammeenn,, WWaarreennbbeezzeeiicchhnnuunnggeenn uussww.. iinn ddiieesseemm
WWeerrkk bbeerreecchhttiiggtt aauucchh oohhnnee bbeessoonnddeerree KKeennnnzzeeiicchhnnuunngg nniicchhtt zzuu ddeerr AAnnnnaahhmmee,, ddaassss ssoollcchhee
NNaammeenn iimm SSiinnnnee ddeerr WWaarreennzzeeiicchheenn--uunndd MMaarrkkeennsscchhuuttzz--GGeesseettzzggeebbuunngg aallss ffrreeii zzuu bbeettrraacchhtteenn
wwaarreenn uunndd ddaahheerr vvoonn jjeeddeerrmmaannnn bbeennuuttzztt wweerrddeenn ddOOrrfftteenn..
UUmmsscchhllaaggggeessttaallttuunngg:: RReeggiinnee ZZiimmmmeerr,, DDiippll..--DDeessiiggnneerriinn,, FFrraannkkffuurrtt//MMaaiinn
GGeeddrruucckktt aauuff ssaauurreeffrreeiieemm uunndd cchhlloorrffrreeii ggeebblleeiicchhtteemm PPaappiieerr
IISSBBNN 997788--33--88224444--22115566--55 IISSBBNN 997788--33--666633--0077772244--44 ((eeBBooookk))
DDOOII 1100..11000077//997788--33--666633--0077772244--44
Geleitwort
Die Nutzung Analytischer Informationssysteme zur Versorgung des Managements mit
entscheidungsrelevanten Informationen hat sich in Großunternehmen bereits weitgehend
etabliert. Als technische Basis für das Data Warehouse dienen dabei entweder relationale oder
spezielle multidimensionale Datenbanken, wobei sich diese Alternative auch in den
marktgängigen Produkten manifestiert. Die Effizienz und Erweiterbarkeit eines Data
Warehouse hängt nun ganz wesentlich von einer geschickten DatenmodelIierung im Vorfeld
der Einführung ab. Insbesondere für relationaIe Datenbanken gibt es eine Fülle von
Publikationen, die sich mit geeigneten ModelIierungskonzepten für Data Warehouse
Anwendungen auseinandersetzen. Aus Gründen der Flexibilität erscheint es jedoch
wünschenswert, die Datenmodellierung zunächst unabhängig von der technischen Imple
mentierung in einem semantischen Datenmodell vorzunehmen. Dies ist im Bereich
transaktionsorientierter Datenbanken gang und gäbe, die Methoden für die semantische
ModelIierung eines Data Warehouse sind jedoch weit weniger ausgereift und bieten den
Ansatzpunkt für das in dieser Arbeit entwickelte Vorgehenskonzept.
Ausgehend von einer formalen Beschreibung der Struktur multidimensionaler Datenmodelle
werden zunächst die Defizite der bekannten Verfahren herausgearbeitet und der Bedarf nach
einer neuen Methodik wird motiviert.
Vor dem Hintergrund einer gelungenen Darstellung des Data Warehouse-Konzepts und von
OLAP entwickelt der Autor dann eine innovative Methodik zur semantischen Modellierung
multi dimensionaler Daten, deren Praktikabilität anhand eines Beispiels demonstriert wird.
Dabei beschränkt er sich nicht nur auf die ModelIierung der Beziehungen von Attributen
innerhalb einer Dimension sowie zwischen Dimensionen, sondern stellt auch Diagrarnmtypen
zur Dokumentation möglicher Aggregationspfade sowie zur Abschätzung des Speicherplatz
bedarfs bereit. Darüber hinaus wird ein Konzept für ein ModelIierungswerkzeug zur
Unterstützung der Methodik erarbeitet und ein Prototyp entwickelt.
Das Buch bietet eine klare Analyse des Themenbereichs sowie einen fundierten Leitfaden für
alle, die sich in Praxis, Forschung oder Lehre mit der Einführung von Data Warehouse
Systemen auseinandersetzen.
Prof. Dr. Michael Bastian
Vorwort
Die Idee für diese Arbeit entstand während meiner Tätigkeit am Lehrstuhl für Wirtschafts
informatik und Operations Research bei der Beschäftigung mit dem Thema Data Warehouse
allgemein und insbesondere bei der Durchführung von Seminaren, Diplomarbeiten und
Übungsveranstaltungen zu diesem Bereich. Hierbei zeigte sich an vielen Stellen, daß bei der
Entwicklung multidimensionaler Datenmodelle die Notwendigkeit besteht, in systematischer
Form und mit geeigneten Notationen die entsprechenden ModelIierungen auszuarbeiten und
zu dokumentieren. Dies gilt vor allem dann, wenn für die (oder auch nur einige der)
Beteiligten des ModelIierungsprozesses die multidimensionale Sichtweise auf Unternehmens
daten neu und ungewohnt ist; eine Situation, die nach meinen bisherigen Erfahrungen nicht
auf das universitäre Umfeld beschränkt ist, sondern bei eigentlich allen Data Warehouse
Initiativen auch in betrieblichen Umfeldern auftritt. Aus dieser Motivation heraus habe ich
publizierte Verfahren zur Entwicklung multidimensionaler Datenrnodelle auf ihre Stärken und
Schwächen hin untersucht, um so schließlich zu einer eigenen Methodik zu gelangen, die sich
als Synthese der Gestaltungsgrundsätze bekannter Verfahren versteht, und die um weitere
Modellelemente erweitert und um ein Vorgehensmodell ergänzt wurde.
Neben der Beschreibung der fachlichen Motivation für diese Arbeit möchte ich diesen Platz
vor allem auch nutzen, um den Personen zu danken, die mich bei der Erstellung der
Dissertation auf ganz unterschiedliche Weise unterstützt haben.
Mein Dank gilt an erster Stelle Herm Prof. Dr. Michael Bastian, der mir während meiner Zeit
als wissenschaftlicher Mitarbeiter an seinem Lehrstuhl stets Freiräume gelassen hat und der
durch seine vielfältigen fachlichen Anregungen und intensiven Diskussionen mit zu der
jetzigen Form der Arbeit beitrug. Ferner war und ist seine Art der Lehrstuhlleitung
verantwortlich für die unkomplizierte und angenehme Arbeitsatmosphäre, die ich in meiner
Promotionszeit erleben durfte.
Ich möchte mich auch bei Herrn Prof. Dr. Michael Amberg für die bereitwillige Übernahme
des Korreferats und bei Herm Prof. Dr. Harald Dyckhoff für die Übernahme des
Prüfungsvorsitzes der mündlichen Prüfung bedanken.
Der Fa. MicroStrategy und insbesondere Herrn Dr. Manfred Sauren danke ich für die
produktive und freundliche Kooperation, die wesentlich zu dem in meinen Augen
notwendigen Praxisbezug der Arbeit beigetragen haben.
VIII Vorwort
Während meiner Zeit als wissenschaftlicher Mitarbeiter habe ich die direkte und indirekte
Unterstützung sehr vieler Kolleginnen und Kollegen erfahren. Ihnen allen bin ich dafür sehr
dankbar. Hervorheben möchte ich aus meiner Zeit am Lehrstuhl für Unternehmenstheorie
Dr. Tom Gießler, Dr. Rolf Soukai und Roland Schreiber, von denen ich auf ganz unter
schiedliche Weise viel gelernt habe. Vom Lehrstuhl für Wirtschaftsinformatik und Operations
Research danke ich besonders Andreas (Tenni) Tenholte, der mir immer eine große Hilfe in
der Durchführung meiner Lehrstuhlaufgaben und der geeigneten Kommunikationsform mit
Kollegen war, Gilberto v. Sparr, der die gerade für unser Büro so wichtige technische
Infrastruktur am Laufen hielt, Karin und Gerd Hildebrandt, von denen ich in die Geheimnisse
der schnellen Küche eingeweiht worden bin, und Anja Uttich, die mit mir die Abneigung
gegen Flurverbotsschilder teilte.
Besonders wird mir die Zeit mit meinem Büronachbarn Dr. Guido Schryen positiv im
Gedächtnis bleiben, die alle Facetten von der ernsthaften fachlichen Diskussion über die
immer neuen Trends der multimedialen Unterhaltungstechnik bis hin zu den Abgründen des
Gütersloher Nachtlebens umfaßte, und den ich wahrscheinlich immer beim Age und nie bei
Badminton schlage werde.
Ein ganz besonderer Dank gilt meiner Familie, die mir stets im positiven Sinne alle
Entscheidungsfreiheiten gelassen und mich in allen Lebensphasen unterstützt hat.
Auch meinen Schwiegereltern Frau Anne Bertram und Herrn Hans-Dieter Bertram möchte
ich für die Unterstützung in allen turbulenten Zeiten danken.
Mein letzter und größter Dank gilt meiner Frau Barbara. Sie mußte meine Dissertation
- obgleich für sie eine nicht gerade spannende Lektüre - sogar zweimal Korrektur lesen. Vor
allen Dingen hat sie mir aber während meiner Studien- und Promotionszeit immer Halt und
Unterstützung gegeben, und das war für mich der größte und sicherlich wichtigste Beitrag
zum Gelingen dieser Promotion.
Lorenz Determann
Inhaltsverzeichnis
xv
Abbildungsverzeichnis .........................................................................................................
Tabellenverzeichnis ............................................................................................................. XIX
Abkürzungsverzeichnis ....................................................................................................... XXI
Symbolverzeichnis ............................................................................................................ XXIII
1 Einleitung ........................................................................................................................... 1
1.1 Einführung und Motivation .......................................................................................... 1
1.2 Zielsetzung der Arbeit .................................................................................................. 2
1.3 Vorgehensweise ............................................................................................................ 2
2 Data Warehouse-Konzept ................................................................................................. 5
2.1 Einordnung in die Landschaft betrieblicher Infonnationssysteme ............................... 5
2.2 Kemgedanken des Data Warehouse-Konzepts ............................................................ 8
2.2.1 Trennung operativer und analytischer Infonnationssysteme ............................ 8
2.2.2 Vereinheitlichung der Datenbasis ................................................................... 11
2.2.3 Analyseorientierte Datenstruktur .................................................................... 15
2.2.4 Fokus der Entscheidungsunterstützung .......................................................... 20
2.2.4.1 Entscheidungstypologien .................................................................. 21
2.2.4.2 Entscheidungsprozeß ........................................................................ 30
2.2.4.3 Unterstützungspotentiale eines Data Warehouse
für betriebliche Entscheidungen ....................................................... 32
2.2.5 Definitionsansätze .......................................................................................... 34
2.3 Referenzarchitektur eines Data W arehouse ............................................................... 36
2.3.1 Quellsysteme .................................................................................................. 36
2.3.2 Data Warehouse / Zentrale Datenbasis ........................................................... 38
2.3.3 Applikationsschicht ........................................................................................ 41
2.3.4 Präsentationsschicht... ..................................................................................... 45
2.4 Systemalternativen ..................................................................................................... 45
2.4.1 Trennungsgrad von den operativen Systemen ............................................... .46
x Inhaltsverzeichnis
2.4.1.1 Zentrales Data Warehouse ................................................................ 46
2.4.1.2 Getrennte Data Marts ...................................................................... .48
2.4.1.3 Virtuelles Data Warehouse ............................................................... 50
2.4.2 Verwendete Datenbanksysteme ...................................................................... 51
2.4.2.1 Darstellung der Systemaltemativen .................................................. 51
2.4.2.2 Vor-und Nachteile eingesetzter Datenbanksysteme ........................ 56
2.4.3 Anzahl getrennter schichten ........................................................................... 58
2.4.3.1 Ein-Tier Architektur ......................................................................... 59
2.4.3.2 Zwei-Tier Architektur ...................................................................... 59
2.4.3.3 Drei-Tier Architektur ....................................................................... 60
2.4.3.4 Multi-Tier Architekturen .................................................................. 60
2.5 Zugriffswerkzeuge auf ein Data Warehouse .............................................................. 62
2.5.1 Berichtssysteme .............................................................................................. 64
2.5.2 OLAP .............................................................................................................. 65
2.5.3 Data Mining .................................................................................................... 65
3 On-Line Analytical Processing (OLAP) ........................................................................ 69
3.1 Abgrenzung zwischen OLAP und Data Warehouse .................................................. 69
3.2 Charakterisierung eines OLAP-Systems .................................................................... 71
3.2.1 OLAP-Charakterisierung nach Codd .............................................................. 71
3.2.2 Erweiterungen des Anforderungskatalogs von Codd ..................................... 74
3.2.3 OLAP-Charakterisierung nach Pendse/Creeth (FASMl) ............................... 75
3.3 Struktur multidimensionaler Datenmodelle ............................................................... 77
3.3.1 Grundmodell ................................................................................................... 77
3.3.1.1 Dimensionen ..................................................................................... 78
3.3.1.2 Fakten ............................................................................................... 78
3.3.1.3 Attribute ............................................................................................ 79
3.3.1.4 Attributbeziehungen ......................................................................... 79
3.3.1.5 Hierarchien ....................................................................................... 81
3.3.1.6 Beispiel ............................................................................................. 83
3.3.1.7 Attributelemente ............................................................................... 86
3.3.1.8 Faktenwerte ...................................................................................... 87
3.3.1.9 Datenwürfel ...................................................................................... 88
Description:Zunehmende Datenvolumina in Unternehmen und Unternehmensbereichen erfordern die Entwicklung von entscheidungsunterstützenden Informationssystemen, die unter den Begriffen Data Warehouse oder Analytische Informationssysteme diskutiert werden. Lorenz Determann zeigt die Grundlagen des Data-Warehouse-