Do you know what K-Means …for your Business? Cluster-Analysen mit Oracle Harald Erb Oracle Business Analytics & Big Data Copyright © 2016, Oracle and/or its affiliates. All rights reserved. | DOAG 2016 Konferenz, Nürnberg Kontakt • Harald Erb • Principal Sales Consultant • Information Architect • Kontakt +49 (0)6103 397-403 • [email protected] Copyright © 2016, Oracle and/or its affiliates. All rights reserved. | DOAG 2016 Konferenz, Nürnberg K-Means Verfahren im Oracle-Kontext Intelligente Umsetzbare Handlungsrelevante Prozesse Erkenntnisse Informationen Unternehmens- daten (ERP, CRM, operative Daten) (Echtzeit-) Event Engine Data Data Factory Enterprise BI & Datenstrom Reservoir Information Store Analyse Externe strukturierte Daten “Tagesgeschäft” Innovation Line of Governance Discovery Events Output & Daten Data Lab Oracle White Paper - Information Management & Big Data, A Reference Architecture, 2014 Copyright © 2016, Oracle and/or its affiliates. All rights reserved. | DOAG 2016 Konferenz, Nürnberg 3 Cluster-Analysen mit k-Means Allgemeines, k-Means Algorithmen bzw. Erweiterungen • Cluster-Analyse: ̶ Oberbegriff für multivariate Methoden, die versuchen, Strukturen (Cluster) in den Daten zu finden ̶ Methoden basieren meist auf Berechnungen der Distanz der Beobachtungen im multidimensionalen Datenraum • Typische Fragestellungen: • Vor- und Nachteile ̶ Abnormale Datenpunkte innerhalb eines großen Data ̶ Einfache und schnelle Implementierung, gute Laufzeiten Sets finden ̶ Schwachstelle: Die gefundene Lösung hängt stark von den ̶ Cluster ähnlicher Textdokumente oder Kundensegmente gewählten Startpunkten ab ̶ Guter Einstieg in Datenanalysen, bevor Klassifikations- • Verschiedene k-Means Variationen, u.a.: oder Regressionsmethoden zum Einsatz kommen ̶ k-Medians: verwendet statt der euklidischen Distanz, u.a. • k-Means Clustering : die sog. „Manhattan-Distanz“ zur Abstandsberechnung ̶ gehört zu den Austauschverfahren und ist ein ̶ k-Means++-Algorithmus: wählt die Cluster-Schwerpunkte partitionierender Clustering Algorithmus nicht zufällig, sondern nach Vorschrift ̶ Unterscheidung. Algorithmus von Lloyd ("der" k-Means ̶ k-Medoids (PAM, Partitioning Around Medoids) minimiert Algorithmus) vs. MacQueen (führte mit dem Begriff "k- die Distanzen (statt der Summe der Varianzen bei k-Means) Means allerdings einen anderen Algorithmus ein) Copyright © 2016, Oracle and/or its affiliates. All rights reserved. | DOAG 2016 Konferenz, Nürnberg 4 Prinzip von k-Means Ablauf 1. Initialisierung 2. Klassifizierung 3. Cluster-Zentren (Mean) berechnen 4. Iteration n Durchgänge bis die Verschiebung der Cluster-Zentren ausreichend klein ist bzw. gegen 0 geht Copyright © 2016, Oracle and/or its affiliates. All rights reserved. | DOAG 2016 Konferenz, Nürnberg 5 Cluster-Analysen für alle Oracle Data Visualization Copyright © 2016, Oracle and/or its affiliates. All rights reserved. | DOAG 2016 Konferenz, Nürnberg 6 Oracle Data Visualization Desktop Tool-Überblick Datenquellen anbinden Daten visualisieren und übergreifend über alle Data Data Sets inspizieren, aufbereiten & Sets hinweg analysieren mit anderen Daten verknüpfen Copyright © 2016, Oracle and/or its affiliates. All rights reserved. | DOAG 2016 Konferenz, Nürnberg 7 Cluster-Analyse mit Oracle Data Visualization Desktop Out-of-the Box: Analytische Funktionen Für Ad-hoc Abfragen und im Data Visualization Tool Business bekommen Business Analysten mächtige aber leicht Analysts anwendbare Rechenfunktionen angeboten: 1. Trend Lines 2. Bin / Histogram Anwendung 3. Regression Analysis der neuen Analytics 4. Forecast Funktionen oder Custom R Scripts 5. Cluster 6. Outliers 7. Custom R scripts Neue Erkenntnisse erlangen Data Lab Copyright © 2016, Oracle and/or its affiliates. All rights reserved. | DOAG 2016 Konferenz, Nürnberg 8 Cluster-Analyse mit Oracle Data Visualization Desktop Verwendung: Analytics 1-Click-Funktionen Copyright © 2016, Oracle and/or its affiliates. All rights reserved. | DOAG 2016 Konferenz, Nürnberg 9 Cluster-Analyse mit Oracle Data Visualization Desktop Verwendung: cluster()-Funktion im Berechnungseditor Detailinformationen zur Cluster-Bildung sind abrufbar Verfügbare Methoden für K-Means: MacQueen, Lloyd, Hartigan-Wong, Forgy Copyright © 2016, Oracle and/or its affiliates. All rights reserved. | DOAG 2016 Konferenz, Nürnberg 10
Description: