ebook img

DATA CLUSTERING - Charu Aggarwal PDF

49 Pages·2013·0.75 MB·English
by  
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview DATA CLUSTERING - Charu Aggarwal

DATA CLUSTERING Algorithms and Applications Edited by Charu C. Aggarwal Chandan K. Reddy CRC Press Taylor & Francis Group 6000 Broken Sound Parkway NW, Suite 300 Boca Raton, FL 33487-2742 © 2014 by Taylor & Francis Group, LLC CRC Press is an imprint of Taylor & Francis Group, an Informa business No claim to original U.S. Government works Printed on acid-free paper Version Date: 20130508 International Standard Book Number-13: 978-1-4665-5821-2 (Hardback) This book contains information obtained from authentic and highly regarded sources. Reasonable efforts have been made to publish reliable data and information, but the author and publisher cannot assume responsibility for the valid- ity of all materials or the consequences of their use. The authors and publishers have attempted to trace the copyright holders of all material reproduced in this publication and apologize to copyright holders if permission to publish in this form has not been obtained. If any copyright material has not been acknowledged please write and let us know so we may rectify in any future reprint. Except as permitted under U.S. Copyright Law, no part of this book may be reprinted, reproduced, transmitted, or uti- lized in any form by any electronic, mechanical, or other means, now known or hereafter invented, including photocopy- ing, microfilming, and recording, or in any information storage or retrieval system, without written permission from the publishers. For permission to photocopy or use material electronically from this work, please access www.copyright.com (http:// www.copyright.com/) or contact the Copyright Clearance Center, Inc. (CCC), 222 Rosewood Drive, Danvers, MA 01923, 978-750-8400. CCC is a not-for-profit organization that provides licenses and registration for a variety of users. For organizations that have been granted a photocopy license by the CCC, a separate system of payment has been arranged. Trademark Notice: Product or corporate names may be trademarks or registered trademarks, and are used only for identification and explanation without intent to infringe. Library of Congress Cataloging‑in‑Publication Data Data clustering : algorithms and applications / [edited by] Charu C. Aggarwal, Chandan K. Reddy. pages cm. -- (Chapman & Hall/CRC data mining and knowledge discovery series) Includes bibliographical references and index. ISBN 978-1-4665-5821-2 (hardback) 1. Document clustering. 2. Cluster analysis. 3. Data mining. 4. Machine theory. 5. File organization (Computer science) I. Aggarwal, Charu C., editor of compilation. II. Reddy, Chandan K., 1980- editor of compilation. QA278.D294 2014 519.5’35--dc23 2013008698 Visit the Taylor & Francis Web site at http://www.taylorandfrancis.com and the CRC Press Web site at http://www.crcpress.com Contents Preface xxi EditorBiographies xxiii Contributors xxv 1 AnIntroductiontoClusterAnalysis 1 CharuC.Aggarwal 1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2 CommonTechniquesUsedinClusterAnalysis . . . . . . . . . . . . . . . . . . 3 1.2.1 FeatureSelectionMethods. . . . . . . . . . . . . . . . . . . . . . . . . 4 1.2.2 ProbabilisticandGenerativeModels . . . . . . . . . . . . . . . . . . . 4 1.2.3 Distance-BasedAlgorithms . . . . . . . . . . . . . . . . . . . . . . . . 5 1.2.4 Density-andGrid-BasedMethods. . . . . . . . . . . . . . . . . . . . . 7 1.2.5 LeveragingDimensionalityReductionMethods . . . . . . . . . . . . . 8 1.2.5.1 GenerativeModelsforDimensionalityReduction . . . . . . . 8 1.2.5.2 MatrixFactorizationandCo-Clustering . . . . . . . . . . . . 8 1.2.5.3 SpectralMethods . . . . . . . . . . . . . . . . . . . . . . . . 10 1.2.6 TheHighDimensionalScenario . . . . . . . . . . . . . . . . . . . . . . 11 1.2.7 ScalableTechniquesforClusterAnalysis . . . . . . . . . . . . . . . . . 13 1.2.7.1 I/OIssuesinDatabaseManagement . . . . . . . . . . . . . . 13 1.2.7.2 StreamingAlgorithms . . . . . . . . . . . . . . . . . . . . . 14 1.2.7.3 TheBigDataFramework . . . . . . . . . . . . . . . . . . . . 14 1.3 DataTypesStudiedinClusterAnalysis . . . . . . . . . . . . . . . . . . . . . . 15 1.3.1 ClusteringCategoricalData . . . . . . . . . . . . . . . . . . . . . . . . 15 1.3.2 ClusteringTextData . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.3.3 ClusteringMultimediaData . . . . . . . . . . . . . . . . . . . . . . . . 16 1.3.4 ClusteringTime-SeriesData . . . . . . . . . . . . . . . . . . . . . . . . 17 1.3.5 ClusteringDiscreteSequences. . . . . . . . . . . . . . . . . . . . . . . 17 1.3.6 ClusteringNetworkData . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.3.7 ClusteringUncertainData . . . . . . . . . . . . . . . . . . . . . . . . . 19 1.4 InsightsGainedfromDifferentVariationsofClusterAnalysis . . . . . . . . . . . 19 1.4.1 VisualInsights . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 1.4.2 SupervisedInsights . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 1.4.3 MultiviewandEnsemble-BasedInsights . . . . . . . . . . . . . . . . . 21 1.4.4 Validation-BasedInsights . . . . . . . . . . . . . . . . . . . . . . . . . 21 1.5 DiscussionandConclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 vii viii Contents 2 FeatureSelectionforClustering:AReview 29 SalemAlelyani,JiliangTang,andHuanLiu 2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.1.1 DataClustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 2.1.2 FeatureSelection. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 2.1.3 FeatureSelectionforClustering . . . . . . . . . . . . . . . . . . . . . . 33 2.1.3.1 FilterModel . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 2.1.3.2 WrapperModel . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.1.3.3 HybridModel . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.2 FeatureSelectionforClustering . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.2.1 AlgorithmsforGenericData . . . . . . . . . . . . . . . . . . . . . . . 36 2.2.1.1 SpectralFeatureSelection(SPEC) . . . . . . . . . . . . . . . 36 2.2.1.2 LaplacianScore(LS) . . . . . . . . . . . . . . . . . . . . . . 36 2.2.1.3 FeatureSelectionforSparseClustering . . . . . . . . . . . . 37 2.2.1.4 Localized Feature Selection Based on Scatter Separability (LFSBSS) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 2.2.1.5 MulticlusterFeatureSelection(MCFS) . . . . . . . . . . . . 39 2.2.1.6 FeatureWeightingk-Means. . . . . . . . . . . . . . . . . . . 40 2.2.2 AlgorithmsforTextData . . . . . . . . . . . . . . . . . . . . . . . . . 41 2.2.2.1 TermFrequency(TF) . . . . . . . . . . . . . . . . . . . . . . 41 2.2.2.2 InverseDocumentFrequency(IDF) . . . . . . . . . . . . . . 42 2.2.2.3 TermFrequency-InverseDocumentFrequency(TF-IDF) . . . 42 2.2.2.4 ChiSquareStatistic . . . . . . . . . . . . . . . . . . . . . . . 42 2.2.2.5 FrequentTerm-BasedTextClustering . . . . . . . . . . . . . 44 2.2.2.6 FrequentTermSequence . . . . . . . . . . . . . . . . . . . . 45 2.2.3 AlgorithmsforStreamingData . . . . . . . . . . . . . . . . . . . . . . 47 2.2.3.1 Text Stream Clustering Based on Adaptive Feature Selection (TSC-AFS) . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 2.2.3.2 High-DimensionalProjectedStreamClustering(HPStream) . 48 2.2.4 AlgorithmsforLinkedData . . . . . . . . . . . . . . . . . . . . . . . . 50 2.2.4.1 ChallengesandOpportunities. . . . . . . . . . . . . . . . . . 50 2.2.4.2 LUFS: An Unsupervised Feature Selection Framework for LinkedData . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 2.2.4.3 ConclusionandFutureWorkforLinkedData . . . . . . . . . 52 2.3 DiscussionsandChallenges . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 2.3.1 TheChickenortheEggDilemma . . . . . . . . . . . . . . . . . . . . . 53 2.3.2 ModelSelection:Kandl . . . . . . . . . . . . . . . . . . . . . . . . . 54 2.3.3 Scalability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 2.3.4 Stability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 3 ProbabilisticModelsforClustering 61 HongboDengandJiaweiHan 3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 3.2 MixtureModels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 3.2.1 Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 3.2.2 GaussianMixtureModel. . . . . . . . . . . . . . . . . . . . . . . . . . 64 3.2.3 BernoulliMixtureModel . . . . . . . . . . . . . . . . . . . . . . . . . 67 3.2.4 ModelSelectionCriteria . . . . . . . . . . . . . . . . . . . . . . . . . . 68 3.3 EMAlgorithmandItsVariations . . . . . . . . . . . . . . . . . . . . . . . . . . 69 3.3.1 TheGeneralEMAlgorithm . . . . . . . . . . . . . . . . . . . . . . . . 69 3.3.2 MixtureModelsRevisited . . . . . . . . . . . . . . . . . . . . . . . . . 73 Contents ix 3.3.3 LimitationsoftheEMAlgorithm . . . . . . . . . . . . . . . . . . . . . 75 3.3.4 ApplicationsoftheEMAlgorithm . . . . . . . . . . . . . . . . . . . . 76 3.4 ProbabilisticTopicModels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 3.4.1 ProbabilisticLatentSemanticAnalysis . . . . . . . . . . . . . . . . . . 77 3.4.2 LatentDirichletAllocation . . . . . . . . . . . . . . . . . . . . . . . . 79 3.4.3 VariationsandExtensions . . . . . . . . . . . . . . . . . . . . . . . . . 81 3.5 ConclusionsandSummary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 4 ASurveyofPartitionalandHierarchicalClusteringAlgorithms 87 ChandanK.ReddyandBhanukiranVinzamuri 4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 4.2 PartitionalClusteringAlgorithms . . . . . . . . . . . . . . . . . . . . . . . . . . 89 4.2.1 K-MeansClustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 4.2.2 MinimizationofSumofSquaredErrors. . . . . . . . . . . . . . . . . . 90 4.2.3 FactorsAffectingK-Means . . . . . . . . . . . . . . . . . . . . . . . . 91 4.2.3.1 PopularInitializationMethods . . . . . . . . . . . . . . . . . 91 4.2.3.2 EstimatingtheNumberofClusters . . . . . . . . . . . . . . . 92 4.2.4 VariationsofK-Means . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 4.2.4.1 K-MedoidsClustering . . . . . . . . . . . . . . . . . . . . . 93 4.2.4.2 K-MediansClustering . . . . . . . . . . . . . . . . . . . . . 94 4.2.4.3 K-ModesClustering . . . . . . . . . . . . . . . . . . . . . . 94 4.2.4.4 FuzzyK-MeansClustering . . . . . . . . . . . . . . . . . . . 95 4.2.4.5 X-MeansClustering. . . . . . . . . . . . . . . . . . . . . . . 95 4.2.4.6 IntelligentK-MeansClustering . . . . . . . . . . . . . . . . . 96 4.2.4.7 BisectingK-MeansClustering . . . . . . . . . . . . . . . . . 97 4.2.4.8 KernelK-MeansClustering . . . . . . . . . . . . . . . . . . . 97 4.2.4.9 MeanShiftClustering. . . . . . . . . . . . . . . . . . . . . . 98 4.2.4.10 WeightedK-MeansClustering . . . . . . . . . . . . . . . . . 98 4.2.4.11 GeneticK-MeansClustering . . . . . . . . . . . . . . . . . . 99 4.2.5 MakingK-MeansFaster . . . . . . . . . . . . . . . . . . . . . . . . . . 100 4.3 HierarchicalClusteringAlgorithms . . . . . . . . . . . . . . . . . . . . . . . . . 100 4.3.1 AgglomerativeClustering . . . . . . . . . . . . . . . . . . . . . . . . . 101 4.3.1.1 SingleandCompleteLink . . . . . . . . . . . . . . . . . . . 101 4.3.1.2 GroupAveragedandCentroidAgglomerativeClustering . . . 102 4.3.1.3 Ward’sCriterion . . . . . . . . . . . . . . . . . . . . . . . . 103 4.3.1.4 AgglomerativeHierarchicalClusteringAlgorithm . . . . . . . 103 4.3.1.5 Lance–WilliamsDissimilarityUpdateFormula . . . . . . . . 103 4.3.2 DivisiveClustering. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 4.3.2.1 IssuesinDivisiveClustering . . . . . . . . . . . . . . . . . . 104 4.3.2.2 DivisiveHierarchicalClusteringAlgorithm . . . . . . . . . . 105 4.3.2.3 MinimumSpanningTree-BasedClustering . . . . . . . . . . 105 4.3.3 OtherHierarchicalClusteringAlgorithms. . . . . . . . . . . . . . . . . 106 4.4 DiscussionandSummary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 5 Density-BasedClustering 111 MartinEster 5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 5.2 DBSCAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 5.3 DENCLUE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 5.4 OPTICS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 5.5 OtherAlgorithms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 x Contents 5.6 SubspaceClustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 5.7 ClusteringNetworks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 5.8 OtherDirections . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 5.9 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 6 Grid-BasedClustering 127 WeiCheng,WeiWang,andSandraBatista 6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 6.2 TheClassicalAlgorithms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 6.2.1 EarliestApproaches:GRIDCLUSandBANG . . . . . . . . . . . . . . 131 6.2.2 STINGandSTING+:TheStatisticalInformationGridApproach . . . . 132 6.2.3 WaveCluster:WaveletsinGrid-BasedClustering . . . . . . . . . . . . . 134 6.3 AdaptiveGrid-BasedAlgorithms . . . . . . . . . . . . . . . . . . . . . . . . . . 135 6.3.1 AMR:AdaptiveMeshRefinementClustering . . . . . . . . . . . . . . . 135 6.4 Axis-ShiftingGrid-BasedAlgorithms . . . . . . . . . . . . . . . . . . . . . . . 136 6.4.1 NSGC:NewShiftingGridClusteringAlgorithm . . . . . . . . . . . . . 136 6.4.2 ADCC:AdaptableDeflectandConquerClustering . . . . . . . . . . . . 137 6.4.3 ASGC:Axis-ShiftedGrid-Clustering . . . . . . . . . . . . . . . . . . . 137 6.4.4 GDILC:Grid-BasedDensity-IsoLineClusteringAlgorithm . . . . . . . 138 6.5 High-DimensionalAlgorithms . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 6.5.1 CLIQUE:TheClassicalHigh-DimensionalAlgorithm . . . . . . . . . . 139 6.5.2 VariantsofCLIQUE . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 6.5.2.1 ENCLUS:Entropy-BasedApproach . . . . . . . . . . . . . . 140 6.5.2.2 MAFIA:AdaptiveGridsinHighDimensions . . . . . . . . . 141 6.5.3 OptiGrid:Density-BasedOptimalGridPartitioning . . . . . . . . . . . 141 6.5.4 VariantsoftheOptiGridApproach . . . . . . . . . . . . . . . . . . . . 143 6.5.4.1 O-Cluster:AScalableApproach . . . . . . . . . . . . . . . . 143 6.5.4.2 CBF:Cell-BasedFiltering . . . . . . . . . . . . . . . . . . . 144 6.6 ConclusionsandSummary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 7 NonnegativeMatrixFactorizationsforClustering:ASurvey 149 TaoLiandChrisDing 7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 7.1.1 Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 7.1.2 NMFFormulations. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 7.2 NMFforClustering:TheoreticalFoundations . . . . . . . . . . . . . . . . . . . 151 7.2.1 NMFandK-MeansClustering. . . . . . . . . . . . . . . . . . . . . . . 151 7.2.2 NMFandProbabilisticLatentSemanticIndexing. . . . . . . . . . . . . 152 7.2.3 NMFandKernelK-MeansandSpectralClustering . . . . . . . . . . . . 152 7.2.4 NMFBoundednessTheorem . . . . . . . . . . . . . . . . . . . . . . . 153 7.3 NMFClusteringCapabilities . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 7.3.1 Examples. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 7.3.2 Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 7.4 NMFAlgorithms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 7.4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 7.4.2 AlgorithmDevelopment . . . . . . . . . . . . . . . . . . . . . . . . . . 155 7.4.3 PracticalIssuesinNMFAlgorithms. . . . . . . . . . . . . . . . . . . . 156 7.4.3.1 Initialization. . . . . . . . . . . . . . . . . . . . . . . . . . . 156 7.4.3.2 StoppingCriteria . . . . . . . . . . . . . . . . . . . . . . . . 156 7.4.3.3 ObjectiveFunctionvs.ClusteringPerformance . . . . . . . . 157 7.4.3.4 Scalability . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 Contents xi 7.5 NMFRelatedFactorizations . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 7.6 NMFforClustering:Extensions . . . . . . . . . . . . . . . . . . . . . . . . . . 161 7.6.1 Co-clustering. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 7.6.2 SemisupervisedClustering . . . . . . . . . . . . . . . . . . . . . . . . 162 7.6.3 SemisupervisedCo-Clustering . . . . . . . . . . . . . . . . . . . . . . 162 7.6.4 ConsensusClustering . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 7.6.5 GraphClustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164 7.6.6 OtherClusteringExtensions . . . . . . . . . . . . . . . . . . . . . . . . 164 7.7 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 8 SpectralClustering 177 JialuLiuandJiaweiHan 8.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 8.2 SimilarityGraph . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179 8.3 UnnormalizedSpectralClustering . . . . . . . . . . . . . . . . . . . . . . . . . 180 8.3.1 Notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180 8.3.2 UnnormalizedGraphLaplacian . . . . . . . . . . . . . . . . . . . . . . 180 8.3.3 SpectrumAnalysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 8.3.4 UnnormalizedSpectralClusteringAlgorithm . . . . . . . . . . . . . . . 182 8.4 NormalizedSpectralClustering . . . . . . . . . . . . . . . . . . . . . . . . . . . 182 8.4.1 NormalizedGraphLaplacian . . . . . . . . . . . . . . . . . . . . . . . 183 8.4.2 SpectrumAnalysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184 8.4.3 NormalizedSpectralClusteringAlgorithm . . . . . . . . . . . . . . . . 184 8.5 GraphCutView . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 8.5.1 RatioCutRelaxation. . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 8.5.2 NormalizedCutRelaxation . . . . . . . . . . . . . . . . . . . . . . . . 187 8.6 RandomWalksView . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188 8.7 ConnectiontoLaplacianEigenmap . . . . . . . . . . . . . . . . . . . . . . . . . 189 8.8 ConnectiontoKernelk-MeansandNonnegativeMatrixFactorization . . . . . . 191 8.9 LargeScaleSpectralClustering . . . . . . . . . . . . . . . . . . . . . . . . . . . 192 8.10 FurtherReading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194 9 ClusteringHigh-DimensionalData 201 ArthurZimek 9.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 9.2 The“CurseofDimensionality” . . . . . . . . . . . . . . . . . . . . . . . . . . . 202 9.2.1 DifferentAspectsofthe“Curse” . . . . . . . . . . . . . . . . . . . . . 202 9.2.2 Consequences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 9.3 ClusteringTasksinSubspacesofHigh-DimensionalData . . . . . . . . . . . . . 206 9.3.1 CategoriesofSubspaces . . . . . . . . . . . . . . . . . . . . . . . . . . 206 9.3.1.1 Axis-ParallelSubspaces . . . . . . . . . . . . . . . . . . . . 206 9.3.1.2 ArbitrarilyOrientedSubspaces . . . . . . . . . . . . . . . . . 207 9.3.1.3 SpecialCases . . . . . . . . . . . . . . . . . . . . . . . . . . 207 9.3.2 SearchSpacesfortheClusteringProblem. . . . . . . . . . . . . . . . . 207 9.4 FundamentalAlgorithmicIdeas . . . . . . . . . . . . . . . . . . . . . . . . . . 208 9.4.1 ClusteringinAxis-ParallelSubspaces . . . . . . . . . . . . . . . . . . . 208 9.4.1.1 ClusterModel . . . . . . . . . . . . . . . . . . . . . . . . . . 208 9.4.1.2 BasicTechniques . . . . . . . . . . . . . . . . . . . . . . . . 208 9.4.1.3 ClusteringAlgorithms . . . . . . . . . . . . . . . . . . . . . 210 9.4.2 ClusteringinArbitrarilyOrientedSubspaces . . . . . . . . . . . . . . . 215 9.4.2.1 ClusterModel . . . . . . . . . . . . . . . . . . . . . . . . . . 215 xii Contents 9.4.2.2 BasicTechniquesandExampleAlgorithms . . . . . . . . . . 216 9.5 OpenQuestionsandCurrentResearchDirections . . . . . . . . . . . . . . . . . 218 9.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219 10 ASurveyofStreamClusteringAlgorithms 231 CharuC.Aggarwal 10.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231 10.2 MethodsBasedonPartitioningRepresentatives . . . . . . . . . . . . . . . . . . 233 10.2.1 TheSTREAMAlgorithm . . . . . . . . . . . . . . . . . . . . . . . . . 233 10.2.2 CluStream:TheMicroclusteringFramework . . . . . . . . . . . . . . . 235 10.2.2.1 MicroclusterDefinition . . . . . . . . . . . . . . . . . . . . . 235 10.2.2.2 PyramidalTimeFrame . . . . . . . . . . . . . . . . . . . . . 236 10.2.2.3 OnlineClusteringwithCluStream . . . . . . . . . . . . . . . 237 10.3 Density-BasedStreamClustering . . . . . . . . . . . . . . . . . . . . . . . . . . 239 10.3.1 DenStream:Density-BasedMicroclustering . . . . . . . . . . . . . . . 240 10.3.2 Grid-BasedStreamingAlgorithms . . . . . . . . . . . . . . . . . . . . 241 10.3.2.1 D-StreamAlgorithm . . . . . . . . . . . . . . . . . . . . . . 241 10.3.2.2 OtherGrid-BasedAlgorithms . . . . . . . . . . . . . . . . . 242 10.4 ProbabilisticStreamingAlgorithms . . . . . . . . . . . . . . . . . . . . . . . . 243 10.5 ClusteringHigh-DimensionalStreams . . . . . . . . . . . . . . . . . . . . . . . 243 10.5.1 TheHPSTREAMMethod . . . . . . . . . . . . . . . . . . . . . . . . 244 10.5.2 OtherHigh-DimensionalStreamingAlgorithms . . . . . . . . . . . . . 244 10.6 ClusteringDiscreteandCategoricalStreams . . . . . . . . . . . . . . . . . . . . 245 10.6.1 ClusteringBinaryDataStreamswithk-Means . . . . . . . . . . . . . . 245 10.6.2 TheStreamCluCDAlgorithm . . . . . . . . . . . . . . . . . . . . . . . 245 10.6.3 Massive-DomainClustering . . . . . . . . . . . . . . . . . . . . . . . . 246 10.7 TextStreamClustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249 10.8 OtherScenariosforStreamClustering . . . . . . . . . . . . . . . . . . . . . . . 252 10.8.1 ClusteringUncertainDataStreams . . . . . . . . . . . . . . . . . . . . 253 10.8.2 ClusteringGraphStreams . . . . . . . . . . . . . . . . . . . . . . . . . 253 10.8.3 DistributedClusteringofDataStreams . . . . . . . . . . . . . . . . . . 254 10.9 DiscussionandConclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254 11 BigDataClustering 259 HanghangTongandUKang 11.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259 11.2 One-PassClusteringAlgorithms . . . . . . . . . . . . . . . . . . . . . . . . . . 260 11.2.1 CLARANS:FightingwithExponentialSearchSpace . . . . . . . . . . 260 11.2.2 BIRCH:FightingwithLimitedMemory . . . . . . . . . . . . . . . . . 261 11.2.3 CURE:FightingwiththeIrregularClusters . . . . . . . . . . . . . . . . 263 11.3 RandomizedTechniquesforClusteringAlgorithms . . . . . . . . . . . . . . . . 263 11.3.1 Locality-PreservingProjection . . . . . . . . . . . . . . . . . . . . . . 264 11.3.2 GlobalProjection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266 11.4 ParallelandDistributedClusteringAlgorithms . . . . . . . . . . . . . . . . . . . 268 11.4.1 GeneralFramework . . . . . . . . . . . . . . . . . . . . . . . . . . . . 268 11.4.2 DBDC:Density-BasedClustering . . . . . . . . . . . . . . . . . . . . . 269 11.4.3 ParMETIS:GraphPartitioning . . . . . . . . . . . . . . . . . . . . . . 269 11.4.4 PKMeans:K-MeanswithMapReduce . . . . . . . . . . . . . . . . . . 270 11.4.5 DisCo:Co-ClusteringwithMapReduce . . . . . . . . . . . . . . . . . . 271 11.4.6 BoW:SubspaceClusteringwithMapReduce . . . . . . . . . . . . . . . 272 11.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274 Contents xiii 12 ClusteringCategoricalData 277 BillAndreopoulos 12.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 278 12.2 GoalsofCategoricalClustering . . . . . . . . . . . . . . . . . . . . . . . . . . . 279 12.2.1 ClusteringRoadMap . . . . . . . . . . . . . . . . . . . . . . . . . . . 280 12.3 SimilarityMeasuresforCategoricalData . . . . . . . . . . . . . . . . . . . . . 282 12.3.1 TheHammingDistanceinCategoricalandBinaryData . . . . . . . . . 282 12.3.2 ProbabilisticMeasures . . . . . . . . . . . . . . . . . . . . . . . . . . . 283 12.3.3 Information-TheoreticMeasures . . . . . . . . . . . . . . . . . . . . . 283 12.3.4 Context-BasedSimilarityMeasures . . . . . . . . . . . . . . . . . . . . 284 12.4 DescriptionsofAlgorithms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284 12.4.1 Partition-BasedClustering . . . . . . . . . . . . . . . . . . . . . . . . . 284 12.4.1.1 k-Modes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284 12.4.1.2 k-Prototypes(MixedCategoricalandNumerical) . . . . . . . 285 12.4.1.3 Fuzzyk-Modes . . . . . . . . . . . . . . . . . . . . . . . . . 286 12.4.1.4 Squeezer . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286 12.4.1.5 COOLCAT . . . . . . . . . . . . . . . . . . . . . . . . . . . 286 12.4.2 HierarchicalClustering . . . . . . . . . . . . . . . . . . . . . . . . . . 287 12.4.2.1 ROCK . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287 12.4.2.2 COBWEB . . . . . . . . . . . . . . . . . . . . . . . . . . . . 288 12.4.2.3 LIMBO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 289 12.4.3 Density-BasedClustering . . . . . . . . . . . . . . . . . . . . . . . . . 289 12.4.3.1 Projected(Subspace)Clustering . . . . . . . . . . . . . . . . 290 12.4.3.2 CACTUS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 290 12.4.3.3 CLICKS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291 12.4.3.4 STIRR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291 12.4.3.5 CLOPE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292 12.4.3.6 HIERDENC:HierarchicalDensity-BasedClustering . . . . . 292 12.4.3.7 MULIC:MultipleLayerIncrementalClustering . . . . . . . . 293 12.4.4 Model-BasedClustering . . . . . . . . . . . . . . . . . . . . . . . . . . 296 12.4.4.1 BILCOMEmpiricalBayesian(MixedCategoricalandNumer- ical) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 296 12.4.4.2 AutoClass(MixedCategoricalandNumerical) . . . . . . . . 296 12.4.4.3 SVMClustering(MixedCategoricalandNumerical) . . . . . 297 12.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298 13 DocumentClustering:TheNextFrontier 305 DavidC.Anastasiu,AndreaTagarelli,andGeorgeKarypis 13.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 306 13.2 ModelingaDocument . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 306 13.2.1 Preliminaries . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 306 13.2.2 TheVectorSpaceModel . . . . . . . . . . . . . . . . . . . . . . . . . . 307 13.2.3 AlternateDocumentModels . . . . . . . . . . . . . . . . . . . . . . . . 309 13.2.4 DimensionalityReductionforText . . . . . . . . . . . . . . . . . . . . 309 13.2.5 CharacterizingExtremes . . . . . . . . . . . . . . . . . . . . . . . . . . 310 13.3 GeneralPurposeDocumentClustering . . . . . . . . . . . . . . . . . . . . . . . 311 13.3.1 Similarity/Dissimilarity-BasedAlgorithms . . . . . . . . . . . . . . . . 311 13.3.2 Density-BasedAlgorithms. . . . . . . . . . . . . . . . . . . . . . . . . 312 13.3.3 Adjacency-BasedAlgorithms . . . . . . . . . . . . . . . . . . . . . . . 313 13.3.4 GenerativeAlgorithms . . . . . . . . . . . . . . . . . . . . . . . . . . . 313 13.4 ClusteringLongDocuments . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315 xiv Contents 13.4.1 DocumentSegmentation . . . . . . . . . . . . . . . . . . . . . . . . . . 315 13.4.2 ClusteringSegmentedDocuments . . . . . . . . . . . . . . . . . . . . . 317 13.4.3 SimultaneousSegmentIdentificationandClustering . . . . . . . . . . . 321 13.5 ClusteringShortDocuments . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323 13.5.1 GeneralMethodsforShortDocumentClustering . . . . . . . . . . . . . 323 13.5.2 ClusteringwithKnowledgeInfusion . . . . . . . . . . . . . . . . . . . 324 13.5.3 ClusteringWebSnippets . . . . . . . . . . . . . . . . . . . . . . . . . . 325 13.5.4 ClusteringMicroblogs . . . . . . . . . . . . . . . . . . . . . . . . . . . 326 13.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 328 14 ClusteringMultimediaData 339 Shen-FuTsai,Guo-JunQi,ShiyuChang,Min-HsuanTsai,andThomasS.Huang 14.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 340 14.2 ClusteringwithImageData . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 340 14.2.1 VisualWordsLearning. . . . . . . . . . . . . . . . . . . . . . . . . . . 341 14.2.2 FaceClusteringandAnnotation . . . . . . . . . . . . . . . . . . . . . . 342 14.2.3 PhotoAlbumEventRecognition . . . . . . . . . . . . . . . . . . . . . 343 14.2.4 ImageSegmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344 14.2.5 Large-ScaleImageClassification . . . . . . . . . . . . . . . . . . . . . 345 14.3 ClusteringwithVideoandAudioData . . . . . . . . . . . . . . . . . . . . . . . 347 14.3.1 VideoSummarization . . . . . . . . . . . . . . . . . . . . . . . . . . . 348 14.3.2 VideoEventDetection . . . . . . . . . . . . . . . . . . . . . . . . . . . 349 14.3.3 VideoStoryClustering. . . . . . . . . . . . . . . . . . . . . . . . . . . 350 14.3.4 MusicSummarization . . . . . . . . . . . . . . . . . . . . . . . . . . . 350 14.4 ClusteringwithMultimodalData . . . . . . . . . . . . . . . . . . . . . . . . . . 351 14.5 SummaryandFutureDirections . . . . . . . . . . . . . . . . . . . . . . . . . . 353 15 Time-SeriesDataClustering 357 DimitriosKotsakos,GoceTrajcevski,DimitriosGunopulos,andCharuC. Aggarwal 15.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 358 15.2 TheDiverseFormulationsforTime-SeriesClustering . . . . . . . . . . . . . . . 359 15.3 OnlineCorrelation-BasedClustering . . . . . . . . . . . . . . . . . . . . . . . . 360 15.3.1 SelectiveMusclesandRelatedMethods. . . . . . . . . . . . . . . . . . 361 15.3.2 SensorSelectionAlgorithmsforCorrelationClustering . . . . . . . . . 362 15.4 SimilarityandDistanceMeasures . . . . . . . . . . . . . . . . . . . . . . . . . 363 15.4.1 UnivariateDistanceMeasures . . . . . . . . . . . . . . . . . . . . . . . 363 15.4.1.1 L Distance . . . . . . . . . . . . . . . . . . . . . . . . . . . 363 p 15.4.1.2 DynamicTimeWarpingDistance . . . . . . . . . . . . . . . 364 15.4.1.3 EDITDistance . . . . . . . . . . . . . . . . . . . . . . . . . 365 15.4.1.4 LongestCommonSubsequence . . . . . . . . . . . . . . . . 365 15.4.2 MultivariateDistanceMeasures . . . . . . . . . . . . . . . . . . . . . . 366 15.4.2.1 MultidimensionalL Distance . . . . . . . . . . . . . . . . . 366 p 15.4.2.2 MultidimensionalDTW. . . . . . . . . . . . . . . . . . . . . 367 15.4.2.3 MultidimensionalLCSS . . . . . . . . . . . . . . . . . . . . 368 15.4.2.4 MultidimensionalEditDistance . . . . . . . . . . . . . . . . 368 15.4.2.5 MultidimensionalSubsequenceMatching . . . . . . . . . . . 368 15.5 Shape-BasedTime-SeriesClusteringTechniques . . . . . . . . . . . . . . . . . 369 15.5.1 k-MeansClustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . 370 15.5.2 HierarchicalClustering . . . . . . . . . . . . . . . . . . . . . . . . . . 371 15.5.3 Density-BasedClustering . . . . . . . . . . . . . . . . . . . . . . . . . 372

Description:
made to publish reliable data and information, but the author and publisher Data clustering : algorithms and applications / [edited by] Charu C. Aggarwal,
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.