Kernel Methods for Remote Sensing Data Analysis Kernel Methods for Remote Sensing Data Analysis Editedby Gustavo Camps-Valls UniversityofVale`ncia,Spain Lorenzo Bruzzone UniversityofTrento,Italy Thiseditionfirstpublished2009 ©2009,JohnWiley&Sons,Ltd Registeredoffice JohnWiley&SonsLtd,TheAtrium,SouthernGate,Chichester,WestSussex,PO198SQ,UnitedKingdom Fordetailsofourglobaleditorialoffices,forcustomerservicesandforinformationabouthowtoapplyfor permission to reuse the copyright material in this book please see our website at www.wiley.com. Therightoftheauthortobeidentifiedastheauthorofthisworkhasbeenassertedinaccordancewiththe Copyright,DesignsandPatentsAct1988. Allrightsreserved.Nopartofthispublicationmaybereproduced,storedinaretrievalsystem,ortransmitted,in anyformorbyanymeans,electronic,mechanical,photocopying,recordingorotherwise,exceptaspermittedbythe UKCopyright,DesignsandPatentsAct1988,withoutthepriorpermissionofthepublisher. Wileyalsopublishesitsbooksinavarietyofelectronicformats.Somecontentthatappearsinprintmaynotbe availableinelectronicbooks. Designationsusedbycompaniestodistinguishtheirproductsareoftenclaimedastrademarks.Allbrandnamesand productnamesusedinthisbookaretradenames,servicemarks,trademarksorregisteredtrademarksoftheir respectiveowners.Thepublisherisnotassociatedwithanyproductorvendormentionedinthisbook.This publicationisdesignedtoprovideaccurateandauthoritativeinformationinregardtothesubjectmattercovered.It issoldontheunderstandingthatthepublisherisnotengagedinrenderingprofessionalservices.Ifprofessional adviceorotherexpertassistanceisrequired,theservicesofacompetentprofessionalshouldbesought. MATLAB®MATLABandanyassociatedtrademarksusedinthisbookaretheregisteredtrademarksofThe MathWorks,Inc. ForMATLAB®productinformation,pleasecontact: TheMathWorks,Inc. 3AppleHillDrive Natick,MA,01760-2098USA Tel:508-647-7000 Fax:508-647-7001 E-mail:[email protected] Web:www.mathworks.com LibraryofCongressCataloguing-in-PublicationData Camps-Valls,Gustavo,1972- Kernelmethodsforremotesensing1:dataanalysis2/GustavoCamps-VallsandLorenzoBruzzone. p.cm. Includesbibliographicalreferencesandindex. ISBN978-0-470-72211-4(cloth) 1. Remotesensing.I.Bruzzone,Lorenzo.II.Title.III.Title:Kernelmethodsforremotesensingone. G70.4.C362009 621.36’780285631–dc22 2009015958 AcataloguerecordforthisbookisavailablefromtheBritishLibrary. ISBN:978-0-470-72211-4(Hbk) Setin10/12ptTimesbyThomsonDigital,Noida,India PrintedinSingaporebyMarkonoPrintMediaPteLtd Contents Abouttheeditors xiii Listofauthors xv Preface xix Acknowledgments xxiii Listofsymbols xxv Listofabbreviations xxvii I Introduction 1 1 Machinelearningtechniquesinremotesensingdataanalysis 3 Bjo¨rnWaske,MathieuFauvel,JonAtliBenediktssonandJocelynChanussot 1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.1.1 Challengesinremotesensing . . . . . . . . . . . . . . . . . . . . . . . 3 1.1.2 Generalconceptsofmachinelearning . . . . . . . . . . . . . . . . . . . 4 1.1.3 Paradigmsinremotesensing. . . . . . . . . . . . . . . . . . . . . . . . 6 1.2 Supervisedclassification:algorithmsandapplications . . . . . . . . . . . . . . 10 1.2.1 Bayesianclassificationstrategy . . . . . . . . . . . . . . . . . . . . . . 10 1.2.2 Neuralnetworks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.2.3 SupportVectorMachines(SVM) . . . . . . . . . . . . . . . . . . . . . 13 1.2.4 Useofmultipleclassifiers . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 Acknowledgments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2 Anintroductiontokernellearningalgorithms 25 PeterV.GehlerandBernhardScho¨lkopf 2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.2 Kernels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.2.1 Measuringsimilaritywithkernels . . . . . . . . . . . . . . . . . . . . . 26 2.2.2 Positivedefinitekernels . . . . . . . . . . . . . . . . . . . . . . . . . . 27 vi CONTENTS 2.2.3 ConstructingthereproducingkernelHilbertspace . . . . . . . . . . . . 29 2.2.4 OperationsinRKHS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 2.2.5 Kernelconstruction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 2.2.6 Examplesofkernels . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.3 Therepresentertheorem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 2.4 Learningwithkernels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.4.1 Supportvectorclassification . . . . . . . . . . . . . . . . . . . . . . . . 38 2.4.2 Supportvectorregression . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.4.3 Gaussianprocesses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.4.4 Multiplekernellearning . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.4.5 Structuredpredictionusingkernels . . . . . . . . . . . . . . . . . . . . 42 2.4.6 Kernelprincipalcomponentanalysis . . . . . . . . . . . . . . . . . . . 43 2.4.7 Applicationsofsupportvectoralgorithms . . . . . . . . . . . . . . . . . 44 2.4.8 Availablesoftware . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 2.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 II Supervisedimageclassification 49 3 TheSupportVectorMachine(SVM)algorithmforsupervisedclassification ofhyperspectralremotesensingdata 51 J.AnthonyGualtieri 3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 3.2 Aspectsofhyperspectraldataanditsacquisition . . . . . . . . . . . . . . . . . 53 3.3 Hyperspectralremotesensingandsupervisedclassification . . . . . . . . . . . 56 3.4 Mathematicalfoundationsofsupervisedclassification . . . . . . . . . . . . . . 57 3.4.1 Empiricalriskminimization . . . . . . . . . . . . . . . . . . . . . . . . 58 3.4.2 Generalboundsforanewriskminimizationprinciple . . . . . . . . . . 58 3.4.3 Structuralriskminimization . . . . . . . . . . . . . . . . . . . . . . . . 61 3.5 Fromstructuralriskminimizationtoasupportvectormachinealgorithm . . . . 63 3.5.1 SRMforhyperplanebinaryclassifiers . . . . . . . . . . . . . . . . . . . 63 3.5.2 SVMalgorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 3.5.3 Kernelmethod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 3.5.4 Hyperparameters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 3.5.5 Atoyexample . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 3.5.6 Multi-classclassifiers . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 3.5.7 Datacentring . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 3.6 Benchmarkhyperspectraldatasets . . . . . . . . . . . . . . . . . . . . . . . . 70 3.6.1 The4classsubsetscene . . . . . . . . . . . . . . . . . . . . . . . . . . 70 3.6.2 The16classscene . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 3.6.3 The9classscene . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 3.7 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 3.7.1 SVMimplementation . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 3.7.2 Effectofhyperparameterd. . . . . . . . . . . . . . . . . . . . . . . . . 72 3.7.3 Measureofaccuracyofresults. . . . . . . . . . . . . . . . . . . . . . . 73 3.7.4 Classifierresultsforthe4classsubsetsceneandthe16classfullscene . 74 CONTENTS vii 3.7.5 Resultsforthe9classsceneandcomparisonofSVM withotherclassifiers . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 3.7.6 Effectoftrainingsetsize . . . . . . . . . . . . . . . . . . . . . . . . . 75 3.7.7 Effectofsimulatednoisydata . . . . . . . . . . . . . . . . . . . . . . 75 3.8 Usingspatialcoherence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 3.9 WhydoSVMsperformbetterthanothermethods? . . . . . . . . . . . . . . . 78 3.10 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 4 OntrainingandevaluationofSVMforremotesensingapplications 85 GilesM.Foody 4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 4.2 Classificationforthematicmapping . . . . . . . . . . . . . . . . . . . . . . . 86 4.3 OverviewofclassificationbyaSVM . . . . . . . . . . . . . . . . . . . . . . 88 4.4 Trainingstage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 4.4.1 Generalrecommendationsonsamplesize . . . . . . . . . . . . . . . . 91 4.4.2 TrainingaSVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 4.4.3 Summaryontraining . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 4.5 Testingstage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 4.5.1 Generalissuesintesting . . . . . . . . . . . . . . . . . . . . . . . . . 98 4.5.2 SpecificissuesforSVMclassification . . . . . . . . . . . . . . . . . . 103 4.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 Acknowledgments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 5 KernelFisher’sDiscriminantwithheterogeneouskernels 111 M.MuratDundarandGlennFung 5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 5.2 LinearFisher’sDiscriminant. . . . . . . . . . . . . . . . . . . . . . . . . . . 112 5.3 KernelFisherDiscriminant . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 5.3.1 Mathematicalprogrammingformulation . . . . . . . . . . . . . . . . . 114 5.4 KernelFisher’sDiscriminantwithheterogeneouskernels . . . . . . . . . . . 116 5.5 AutomatickernelselectionKFDalgorithm . . . . . . . . . . . . . . . . . . . 118 5.6 Numericalresults . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 5.6.1 Datasetused:PurdueCampusdata . . . . . . . . . . . . . . . . . . . . 119 5.6.2 Classifierdesign . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 5.6.3 Analysisoftheresults . . . . . . . . . . . . . . . . . . . . . . . . . . 121 5.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 6 Multi-temporalimageclassificationwithkernels 125 JordiMun˜oz-Mar´ı,LuisGo´mez-Chova,ManelMart´ınez-Ramo´n, Jose´ LuisRojo-A´lvarez,JavierCalpe-MaravillaandGustavoCamps-Valls 6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 6.1.1 Multi-temporalclassificationmethods . . . . . . . . . . . . . . . . . . 126 6.1.2 Changedetectionmethods . . . . . . . . . . . . . . . . . . . . . . . . 127 6.1.3 Theproposedkernel-basedframework . . . . . . . . . . . . . . . . . . 128 viii CONTENTS 6.2 Multi-temporalclassificationandchangedetectionwithkernels . . . . . . . . . 129 6.2.1 Problemstatementandnotation . . . . . . . . . . . . . . . . . . . . . . 129 6.2.2 Mercer’skernelsproperties . . . . . . . . . . . . . . . . . . . . . . . . 130 6.2.3 Compositekernelsformulti-temporalclassification . . . . . . . . . . . 131 6.2.4 Compositekernelsforchangedetection . . . . . . . . . . . . . . . . . . 133 6.3 Contextualandmulti-sourcedatafusionwithkernels . . . . . . . . . . . . . . 134 6.3.1 Compositekernelsforintegratingcontextualinformation . . . . . . . . 134 6.3.2 Compositekernelsfordealingwithmulti-sourcedata . . . . . . . . . . 134 6.3.3 Remarks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 6.4 Multi-temporal/-sourceurbanmonitoring . . . . . . . . . . . . . . . . . . . . 135 6.4.1 Modeldevelopmentandfreeparameterselection . . . . . . . . . . . . . 135 6.4.2 Datacollectionandfeatureextraction . . . . . . . . . . . . . . . . . . . 135 6.4.3 Multi-temporalimageclassification . . . . . . . . . . . . . . . . . . . . 138 6.4.4 Changedetection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 6.4.5 Classificationmaps . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 6.5 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 Acknowledgments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 7 Targetdetectionwithkernels 147 NasserM.Nasrabadi 7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 7.2 Kernellearningtheory . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 7.3 Linearsubspace-basedanomalydetectorsandtheirkernelversions . . . . . . . 150 7.3.1 Principalcomponentanalysis . . . . . . . . . . . . . . . . . . . . . . . 151 7.3.2 KernelPCAsubspace-basedanomalydetection . . . . . . . . . . . . . . 152 7.3.3 Fisherlineardiscriminantanalysis. . . . . . . . . . . . . . . . . . . . . 154 7.3.4 Kernelfisherdiscriminantanalysis . . . . . . . . . . . . . . . . . . . . 154 7.3.5 Eigenspaceseparationtransform . . . . . . . . . . . . . . . . . . . . . 156 7.3.6 Kerneleigenspaceseparationtransform . . . . . . . . . . . . . . . . . . 157 7.3.7 RXalgorithm. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 7.3.8 KernelRXalgorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 7.4 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 7.4.1 Simulatedtoydata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 7.4.2 Hyperspectralimagery . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 7.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 8 One-classSVMsforhyperspectralanomalydetection 169 AmitBanerjee,PhilippeBurlinaandChrisDiehl 8.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169 8.2 DerivingtheSVDD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172 8.2.1 ThelinearSVDD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172 8.2.2 Thekernel-basedSVDD . . . . . . . . . . . . . . . . . . . . . . . . . . 173