Table Of Content

Knowledge Discovery in Databases Springer-V erlag Berlin Heidelberg GmbH Martin Ester Jorg Sander Knowledge Discovery in Databases Techniken und Anwendungen Mit 150 Abbildungen i Springer Dr. Martin Ester Dr. J6rg Sander Ludwig-Maximilians-Universitiit Institut fur Informatik OettingenstraBe 67 80538 Munchen {ester, sander }@dbs.informatik.uni-muenchen.de http://www.dbs.informatik.uni-muenchen.de/-ester/ Die Deutsche Bibliothek - CIP-Einheitsaufnahme Ester, Martin: Knowledge discovery in databases: Techniken und Anwendungen / Martin Ester; Jorg Sander. - Berlin; Heidelberg; New York; Barcelona; Hongkong; London; Mailand; Paris; Singapur; Tokio: Springer, 2000 ISBN 978-3-540-67328-6 ISBN 978-3-642-58331-5 (eBook) DOI 10.1007/978-3-642-58331-5 Dieses Werk ist urheberrechtlich geschiitzt. Die dadurch begriindeten Rechte, insbeson dere die der Ubersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildun gen und Tabellen, der Funksendung, der Mikroverfilmung oder der Vervielfaltigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfâ.ltigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland vom 9. Sep tember 1965 in der jeweils geltenden Fassung zulassig. Sie ist grundsatzlich vergiitungs pflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des Urheberrechts gesetzes. © Springer-Verlag Berlin Heidelberg 2000 Urspriinglich erschienen bei Springer-Verlag Berlin Heidelberg New York 2000 Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dafi solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten waren und daher von jedermann benutzt werden diirften. Umschlaggestaltung: Kiinkel + Lopka, Heidelberg Satz: Belichtungsfertige Daten von den Autoren Gedruckt auf saurefreiem Papier - SPIN: 10765301 33/3142 GF-54321 O Vorwort KommerzielleGerateundwissenschaftlicheInstrumenteliefemtaglichimmergro Bere Mengen vonimmerkomplexerenDaten,die Hingstnichtmehrmanuellanaly siert werden konnen. Ziel des Knowledge Discovery in Databases ist deshalb die (semi-)automatischeExtraktionvongiiltigem,aberbisherunbekanntemundpoten tiell ntitzlichemWissenausgroBenDatenbanken. Dieses Buch richtet sich einerseits an Studentender Informatik und verwandter Facher, andererseits an Praktiker mit guten Informatikgrundlagen, die sich in das neueGebietdesKnowledgeDiscoveryinDatabaseseinarbeitenwollen. Diezentra len Aufgaben des Knowledge Discovery in Databases werden in jeweils eigenen Kapitelnbehandelt.DortwerdendiewichtigstenAlgorithmenmitden zugrundelie genden Konzepten sowie einige typische Anwendungen vorgestellt. Jedes Kapitel diskutiertKriterien, diebeiderAuswahleinesgeeignetenAlgorithmusfUreinege gebene Anwendung helfen sollen. DamitwirdderLeserindie Lage versetzt, Vor und Nachteile der verschiedenen Methoden einzuschatzenund fUr eigene Anwen dungenAlgorithmenauszuwahlen,einzusetzenbzw.selbstzuentwickeln. DasBuchistausunsererVorlesung"KnowledgeDiscoveryinDatabases"amIn stitutfUrInformatikderLudwig-Maximilians-Universitatentstanden.MarkusBreu nig hat die Ubungen zu dieser Lehrveranstaltung konzipiert und viele wertvolle Kommentare und Verbesserungsvorschlage zum Skriptbeigetragen. Auchden Ho rem unsererVorlesungverdankenwirzahlreicheKorrekturenundKlarstellungen. DieandereQuellediesesBuchessindunsereeigenenForschungsprojekteander Lehr-undForschungseinheitvonProfessorHans-PeterKriegel,demwirfUrdieaus gesprochen inspirierende Umgebung und seine langjahrige personliche Untersttit zungdankenmochten. Unsere Kollegen, insbesondereMihael AnkerstundMarkus Breunig, haben im Laufe der Jahre mit vielen intensiven Diskussionen und prakti schen Projekten zu unserem Verstandnis des Knowledge Discovery in Databases entscheidendbeigetragen. Besondersverdientgemacht urndieses Buchhaben sich Matthias GroB, der mit groBemEngagement Korrektur gelesen und am Stil gefeilt hat,undSusanneGrienberger,dieunsvorallembeideraufwendigenErstellungder vielenAbbildungenuntersttitzthat. Zum SchluB mochten wir Hermann Engesser und Gabriele Fischer yom Sprin ger-VerlagfUrdieguteKooperationbeiderPlanungundRealisierungdiesesBuches danken. VielFreudeundGewinnbeimLesen! Mtinchen,imJuli 2000 MartinEsterundJorgSander Vorwort • V • • Inhaltsverzeichnis Einleitung 1 1.1 Grundbegriffedes Knowledge Discoveryin Databases 1 1.2 TypischeKDD-Anwendungen 6 1.3 InhaltundAufbaudieses Buches l0 1.4 Literatur 12 Grundlagen 15 2.1 Datenbanksysteme 15 2.2 Statistik 29 2.3 Literatur 44 Clustering 45 3.1 Einleitung .45 3.2 Partitionierende Verfahren 51 3.3 Hierarchische Verfahren 76 3.4 DatenbanktechnikenzurLeistungssteigerung 85 3.5 Besondere AnforderungenundVerfahren 97 3.6 Zusammenfassung 103 3.7 Literatur 103 Klassifikation 107 4.1 Einleitung 108 4.2 Bayes-Klassifikatoren 111 4.3 Nachste-Nachbarn-Klassifikatoren 119 4.4 Entscheidungsbaum-Klassifikatoren 126 Inhaltsverzeichnis • VII • • 4.5 SkalierungfUr groBe Datenbanken 138 4.6 Zusammenfassung 156 4.7 Literatur 157 Assoziationsregeln 159 5.1 Einleitung 159 5.2 EinfacheAssoziationsregeln: DerApriori-Algorithmus 160 5.3 HierarchischeAssoziationsregelnbeztiglichItem-Taxonomien 169 5.4 QuantitativeAssoziationsregeln 178 5.5 Zusammenfassung 186 5.6 Literatur 187 Generalisierung 189 6.1 Einleitung 190 6.2 DataCubes 192 6.3 EffizienteAnfragebearbeitung inDataCubes 197 6.4 AttributorientierteInduktion 206 6.5 InkrementelleattributorientierteInduktion 215 6.6 Zusammenfassung 219 6.7 Literatur 220 Besondere Datentypenund Anwendungen 223 7.1 TemporalDataMining 223 7.2 Spatial DataMining 234 7.3 Text- undWeb-Mining 245 7.4 Literatur 261 Andere Paradigmen 263 8.1 Induktive Logik-Programmierung 263 8.2 GenetischeAlgorithmen 265 8.3 NeuronaleNetze 266 8.4 Selbstorganisierende Karten (KohonenMaps) 271 8.5 Literatur 273 Index 275 VIII • Inhaltsverzeichnis • • Einleitung 1merstenKapitel wirddas neueGebietdes KnowledgeDiscoveryinDatabasesan handder grundlegenden Begriffe sowie der wichtigsten Aufgaben eingefiihrt. Zur Motivation des Knowledge Discovery inDatabases werdendann typische Anwen dungen u.a. aus der Astronomie, den Erdwissenschaften, dem Marketing und dem ElectronicCommerce vorgestellt.1mdrittenAbschnittdes Kapitels wirdderInhalt undderAufbaudiesesBuchserlautert. 1.1GrundbegriffedesKnowledgeDiscoveryinDatabases KommerzielleGeratewieetwaScannerkassensowiewissenschaftlicheInstrumente wie z.B. Erdbeobachtungssatelliten oder Gensequenzierungsautomaten generieren immergroBereMengen von immerkomplexeren Daten. Diese Datenenthaltenpo tentiell wichtiges Wissen, ihre manuelle Analyse tibersteigtaber die menschlichen Kapazitatenbei weitem. Dasistdie Motivationdes neuenGebiets Knowledge Dis coveryinDatabases. KnowledgeDiscoveryinDatabases(KDD) [Fayyad,Piatetsky-Shapiro& Smyth 1996] ist der ProzeB der (semi-)automatischen Extraktion von Wissen aus Daten banken,das • giiZtig (imstatistischenSinne) • bisherunbekanntund • potentiellniitzlich(fiireinegegebeneAnwendung)ist. Knowledge Discovery in Databases ist ein stark interdisziplinares Thema an der Schnittstelle von Statistik, Maschinellem Lemen und Datenbanksystemen. Diese GebieteliefemverschiedeneBeitragewmneuenGebietdes KnowledgeDiscovery inDatabases: • Statistik: modellbasierteInferenzen,Schwerpunktaufnumerischen Daten. [Bert hold& Hand 1999]gibteineguteEinfiihrungdes KDDausSichtderStatistik. 1.1.Grundbegriffedes KnowledgeDiscoveryinDatabases • • M. Ester et al., Knowledge Discovery in Databases • © Springer-Verlag Berlin Heidelberg 2000 • Maschinelles Lemen: Suchverfahren, Schwerpunkt auf symbolischen Daten. [Mitchell 1997] behandeltdie wichtigsten Verfahrendes maschinellen Lernens, diezumgroBenTeilauchrelevantzum KDDsind. • Datenbanksysteme: Skalierbarkeit fur groBe Datenmengen, neue Datentypen (z.B. Webdaten), Integration mit kommerziellen Datenbanksystemen. Eine gute EinfUhrung in das Gebiet KDD aus Sicht der Datenbanksysteme findet sich in [Chen,Han& Yu 1996]. KDD ist ein iterativer ProzeB, bei dem sich die in Abb. 1-1 dargestellten Schritte identifizierenlassen: ~FOkU sicrcn Vorverar- TranS'1 ~a~a Evaluation bcitung fonnallon Mining ~ ~!EEJ =:::::>c:i1Jc::::::::> => c::::::> Datcnbank Mu.ter Wi sen Abb. 1-1 DieSchrittedesKDD-Prozesses Die einzelnen Schritte werden im folgenden kurz erIautert. Fureine genauere Be handlungdermeistenKDD-Schritteverweisenwirauf [Witten& Frank2000]. [Py le1999]behandeltsehrdetailliertdieSchrittederVorverarbeitungundderTransfor mation. Fokussieren 1merstenSchrittgehtesdarum,einVerstandnisderAnwendungunddesbereitsbe kannten Anwendungswissens zu gewinnen. Darauf aufbauend wird das Ziel des KDD aus Sichtdergegebenen Anwendungdefiniert, denn das gewunschteWissen solijabisherunbekanntundnutzlichfUrdieAnwendungsein.EsmuBfernerfestge legtwerden, inwekhenDatendasWissengesuchtwerdensoli undwiedieseDaten zu beschaffen sind. 1meinfachsten Fall kann man aufeine vorhandene Datenbank zuruckgreifen undeinenTeildavon alsGrundlagefUr das DataMiningselektieren. AndernfallsmussendieDatenerstdurchMessungen,durchFragebogenoderahnli cheMethodenerhobenwerden. Eine wichtige Frage bei diesemersten Schrittdes KDD istauch, wie die Daten verwaltet werden sollen. Aus historischen Grunden und aus Grunden der besseren PerformanzwerdendieDatenhaufiginspeziellfUrdasDataMiningangelegtenFi lesabgelegt. DadieDatenmeistsowiesoineinemkommerziellenDatenbanksystem verwaltet werden, entstehtbei diesem Ansatzjedoch Redundanz mit allen Proble men potentieller Inkonsistenzen. Datenbanksysteme bieten zudem eine etablierte Funktionalitatan, die fUraile Schrittedes KDDgewinnbringendeingesetztwerden kann: z.B. konnenfUr das FokussierenoderfUr die EvaluationTeilmengenderDa- 2 • I Einleitung • • tenbankeinfachundeffizientselektiertwerden.EswirddeshalbzunehmendeineIn tegration des KDD mit kommerziellen Datenbanksystemen gewtinscht [Chaudhuri 2000]. DasProblemdereffizientenIntegrationvon Data-Mining-AIgo rithmen mit Datenbanksystemen behandeln wir im Kontext des Clustering (Ab schnitt3.4),derEntscheidungsbaum-Klassifikatoren(Abschnitt4.4) unddes Spati alDataMining(Abschnitt7.2). Vorverarbeitung Ziel der Vorverarbeitung ist es, die benotigten Daten zu integrieren, konsistent zu machen und zu vervollstandigen. Obwohl diese Aufgaben meist keine konzeptio nellen Probleme bergen, betragt der Aufwand fUr die Vorverarbeitung in vielen KDD-ProjektendocheinengroBenTeildesGesamtaufwands. DerAufwandfUrdie Vorverarbeitungreduziertsichstark, wenn manaufeinData Warehouse (sieheAb schnitt6.2)zurtickgreifenkann, dasdie Datenbereits inintegrierterundkonsisten terFormzurVerfUgungstellt. Daten aus unterschiedlichen Quellen mtissen integriert werden, da sie im allge meinennachunterschiedlichenKonventionengewonnenwurden. VerschiedeneAb teilungeneinerFirmabenutzenz.B.haufigverschiedeneNamenfUrdieselben Attri buteeines Objektsoderaggregierendie Datentiber unterschiedliche Zeitraume. In einerAbteilung wirdetwaderUmsatztageweiseaggregiert,wahrendineinerande renAbteilungdieselbeInformationwochenweisegesammeltundgespeichertwird. Inkonsistenzen in den Daten wie etwa verschiedene Werte desselben Attributs oder Schreibfehler ftir Namen treten haufig auf und mtissen aufgelOst werden. Durch eine Messung kann sogenanntes Rauschen, d.h. ein zufalliges Muster, das sich den eigentlichen Mustern tiberiagert, erzeugt werden. Ein solches Rauschen soliebenfallsinderVorverarbeitungentferntwerden. In realen Datenbanken fehlt meist ein signifikanter Teil aller Attributwerte: es kann z.B.einMeBfehleraufgetretenseinodergewisseFragenineinemFragebogen wurdenabsiehtlieh niehtbeantwortet.Jenaeh verwendetemData-Mining-Algorith muskannesnotwendigwerden,jehlendeAttributwertegenauerzuspezifizieren,da diese Information fUr das Data Mining wichtig ist. Man kann etwa unterscheiden zwischen"MessungnichtdurchgefUhrt" und"MeBfehleraufgetreten". Ineinerme dizinischen Anwendung kann die Tatsache, daB ein bestimmter Test durchgefUhrt wurde, z.B. sehrsignifikantseinfUrdieKlassifikationeinesbestimmtenPatienten. Transformation In diesem Schritt werden die vorverarbeiteten Daten in eine fUr das Ziel des KDD geeignete Reprasentation transformiert. Typische Transformationen sind die Attri but-Selektion und die Diskretisierung von Attributen, die im folgenden diskutiert werden. 1m allgemeinen sind nicht aile bekannten Attribute der Daten relevant fUr die Data-Mining-Aufgabe. Obwohl viele Data-Mining-Algorithmen eine eigene Aus wahl derrelevantesten Attribute vornehmen, kann eine zu groBe Anzahl von Attri- 1.1.Grundbegriffedes Knowledge Discovery inDatabases • 3 • •

Knowledge Discovery in Databases: Techniken und Anwendungen PDF

283 Pages·2000·20.361 MB·German

by Dr. Martin Ester, Dr. Jörg Sander (auth.)

Checking for file health...

Save to my drive

Quick download

Download

Upgrade Premium

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Knowledge Discovery in Databases: Techniken und Anwendungen

See more

The list of books you might like

Upgrade Premium

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.