Data Analysis Edited by Gérard Govaert This page intentionally left blank Data Analysis This page intentionally left blank Data Analysis Edited by Gérard Govaert First published in France in 2003 by Hermes Science/Lavoisier entitled: Analyse des données © LAVOISIER, 2003 First published in Great Britain and the United States in 2009 by ISTE Ltd and John Wiley & Sons, Inc. Apart from any fair dealing for the purposes of research or private study, or criticism or review, as permitted under the Copyright, Designs and Patents Act 1988, this publication may only be reproduced, stored or transmitted, in any form or by any means, with the prior permission in writing of the publishers, or in the case of reprographic reproduction in accordance with the terms and licenses issued by the CLA. Enquiries concerning reproduction outside these terms should be sent to the publishers at the undermentioned address: ISTE Ltd John Wiley & Sons, Inc. 27-37 St George’s Road 111 River Street London SW19 4EU Hoboken, NJ 07030 UK USA www.iste.co.uk www.wiley.com © ISTE Ltd, 2009 The rights of Gérard Govaert to be identified as the author of this work have been asserted by him in accordance with the Copyright, Designs and Patents Act 1988. Library of Congress Cataloging-in-Publication Data Analyse des données. English. Data analysis / edited by Gérard Govaert. p. cm. Includes bibliographical references and index. ISBN 978-1-84821-098-1 1. Mathematical statistics. I. Govaert, Gérard. II. Title. QA276.D325413 2009 519.5--dc22 2009016228 British Library Cataloguing-in-Publication Data A CIP record for this book is available from the British Library ISBN: 978-1-84821-098-1 Printed and bound in Great Britain by CPI/Antony Rowe, Chippenham and Eastbourne. Contents Preface . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xiii Chapter 1. Principal Component Analysis: Application to Statistical ProcessControl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 GilbertSAPORTA,NdèyeNIANG 1.1.Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2.Datatableandrelatedsubspaces . . . . . . . . . . . . . . . . . . . . . . 2 1.2.1.Dataandtheircharacteristics . . . . . . . . . . . . . . . . . . . . . 2 1.2.2.Thespaceofstatisticalunits . . . . . . . . . . . . . . . . . . . . . 5 1.2.3.Variablesspace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.3.Principalcomponentanalysis . . . . . . . . . . . . . . . . . . . . . . . . 8 1.3.1.Themethod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.3.2.Principalfactorsandprincipalcomponents . . . . . . . . . . . . . 8 1.3.3.Principalfactorsandprincipalcomponentsproperties . . . . . . . 10 1.4.InterpretationofPCAresults . . . . . . . . . . . . . . . . . . . . . . . . 11 1.4.1.Qualityofrepresentationsontoprincipalplanes . . . . . . . . . . 11 1.4.2.Axisselection. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.4.3.Internalinterpretation . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.4.4.Externalinterpretation:supplementaryvariablesandindividuals . 15 1.5.Applicationtostatisticalprocesscontrol . . . . . . . . . . . . . . . . . . 18 1.5.1.Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.5.2.ControlchartsandPCA . . . . . . . . . . . . . . . . . . . . . . . . 20 1.6.Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 1.7.Bibliography . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 Chapter2.CorrespondenceAnalysis: ExtensionsandApplicationstothe StatisticalAnalysisofSensoryData . . . . . . . . . . . . . . . . . . . . . . . 25 JérômePAGÈS 2.1.Correspondenceanalysis. . . . . . . . . . . . . . . . . . . . . . . . . . . 25 vi DataAnalysis 2.1.1.Data,example,notations. . . . . . . . . . . . . . . . . . . . . . . . 25 2.1.2.Questions:independencemodel . . . . . . . . . . . . . . . . . . . 26 2.1.3. Intensity, significance and nature of a relationship between two qualitativevariables . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.1.4.Transformationofthedata . . . . . . . . . . . . . . . . . . . . . . 28 2.1.5.Twoclouds . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.1.6.FactorialanalysisofX. . . . . . . . . . . . . . . . . . . . . . . . . 30 2.1.7.Aidtointerpretation . . . . . . . . . . . . . . . . . . . . . . . . . . 32 2.1.8.Someproperties . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.1.9.Relationshipstothetraditionalpresentation . . . . . . . . . . . . . 35 2.1.10.Example:recognitionofthreefundamentaltastes . . . . . . . . . 36 2.2.Multiplecorrespondenceanalysis. . . . . . . . . . . . . . . . . . . . . . 39 2.2.1.Data,notationsandexample . . . . . . . . . . . . . . . . . . . . . 39 2.2.2.Aims . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 2.2.3.MCAandCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 2.2.4.Spaces,cloudsandmetrics . . . . . . . . . . . . . . . . . . . . . . 42 2.2.5.PropertiesofthecloudsinCAoftheCDT . . . . . . . . . . . . . 43 2.2.6.Transitionformulae . . . . . . . . . . . . . . . . . . . . . . . . . . 45 2.2.7.Aidforinterpretation . . . . . . . . . . . . . . . . . . . . . . . . . 45 2.2.8.Example:relationshipbetweentwotastethresholds . . . . . . . . 46 2.3.AnexampleofapplicationatthecrossroadsofCAandMCA . . . . . . 50 2.3.1.Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 2.3.2.Questions:constructionoftheanalyzedtable . . . . . . . . . . . . 51 2.3.3.PropertiesoftheCAoftheanalyzedtable. . . . . . . . . . . . . . 53 2.3.4.Results. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 2.4.Conclusion:twootherextensions. . . . . . . . . . . . . . . . . . . . . . 63 2.4.1.Internalcorrespondenceanalysis . . . . . . . . . . . . . . . . . . . 63 2.4.2.Multiplefactoranalysis(MFA) . . . . . . . . . . . . . . . . . . . . 63 2.5.Bibliography . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 Chapter3.ExploratoryProjectionPursuit . . . . . . . . . . . . . . . . . . . 67 HenriCAUSSINUS,AnneRUIZ-GAZEN 3.1.Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 3.2.Generalprinciples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 3.2.1.Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 3.2.2.Whatisaninterestingprojection? . . . . . . . . . . . . . . . . . . 69 3.2.3.Lookingforaninterestingprojection. . . . . . . . . . . . . . . . . 70 3.2.4.Inference . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 3.2.5.Outliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 3.3.Someindexesofinterest:presentationanduse . . . . . . . . . . . . . . 71 3.3.1.Projectionindexesbasedonentropymeasures . . . . . . . . . . . 71 3.3.2.ProjectionindexesbasedonL2distances . . . . . . . . . . . . . . 73 3.3.3.Chi-squaredtypeindexes . . . . . . . . . . . . . . . . . . . . . . . 75 Contents vii 3.3.4.Indexesbasedonthecumulativeempiricalfunction . . . . . . . . 75 3.4.Generalizedprincipalcomponentanalysis . . . . . . . . . . . . . . . . . 76 3.4.1.Theoreticalbackground . . . . . . . . . . . . . . . . . . . . . . . . 76 3.4.2.Practice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 3.4.3.Someprecisions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 3.5.Example . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 3.6.Furthertopics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 3.6.1.Otherindexes,otherstructures . . . . . . . . . . . . . . . . . . . . 86 3.6.2.Unsupervisedclassification . . . . . . . . . . . . . . . . . . . . . . 86 3.6.3.Discretedata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 3.6.4.Relatedtopics. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 3.6.5.Computation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 3.7.Bibliography . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 Chapter4.TheAnalysisofProximityData . . . . . . . . . . . . . . . . . . . 93 GerardD’AUBIGNY 4.1.Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 4.2.Representationofproximitydatainametricspace . . . . . . . . . . . . 97 4.2.1.Fourillustrativeexamples . . . . . . . . . . . . . . . . . . . . . . . 97 4.2.2.Definitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 4.3.Isometricembeddingandprojection . . . . . . . . . . . . . . . . . . . . 103 4.3.1.Anexampleofcomputations . . . . . . . . . . . . . . . . . . . . . 105 4.3.2.Theadditiveconstantproblem . . . . . . . . . . . . . . . . . . . . 106 4.3.3.Thecaseofobserveddissimilaritymeasuresblurredbynoise . . . 108 4.4.Multidimensionalscalingandapproximation . . . . . . . . . . . . . . . 108 4.4.1.TheparametricMDSmodel. . . . . . . . . . . . . . . . . . . . . . 109 4.4.2.TheShepardfoundingheuristics . . . . . . . . . . . . . . . . . . . 111 4.4.3.Themajorizationapproach . . . . . . . . . . . . . . . . . . . . . . 114 4.4.4.ExtendingMDStoasemi-parametricsetting . . . . . . . . . . . . 119 4.5.Afieldedapplication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 4.5.1.Principalcoordinatesanalysis. . . . . . . . . . . . . . . . . . . . . 122 4.5.2.Dimensionalityfortherepresentationspace . . . . . . . . . . . . . 123 4.5.3.Thescreetest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 4.5.4.Recoursetosimulations . . . . . . . . . . . . . . . . . . . . . . . . 127 4.5.5.Validationofresults . . . . . . . . . . . . . . . . . . . . . . . . . . 127 4.5.6. The use of exogenous information for interpreting the output configuration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 4.5.7.IntroductiontostochasticmodelinginMDS . . . . . . . . . . . . 137 4.6.Bibliography . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 Chapter5.StatisticalModelingofFunctionalData . . . . . . . . . . . . . . 149 PhilippeBESSE,HervéCARDOT 5.1.Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 viii DataAnalysis 5.2.Functionalframework . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 5.2.1.Functionalrandomvariable . . . . . . . . . . . . . . . . . . . . . . 152 5.2.2.Smoothnessassumption . . . . . . . . . . . . . . . . . . . . . . . . 153 5.2.3.Smoothingsplines . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 5.3.Principalcomponentsanalysis . . . . . . . . . . . . . . . . . . . . . . . 156 5.3.1.Modelandestimation . . . . . . . . . . . . . . . . . . . . . . . . . 156 5.3.2.Dimensionandsmoothingparameterselection . . . . . . . . . . . 158 5.3.3.Somecommentsondiscretizationeffects . . . . . . . . . . . . . . 159 5.3.4.PCAofclimatictimeseries . . . . . . . . . . . . . . . . . . . . . . 160 5.4.Linearregressionmodelsandextensions. . . . . . . . . . . . . . . . . . 161 5.4.1.Functionallinearmodels . . . . . . . . . . . . . . . . . . . . . . . 162 5.4.2.Principalcomponentsregression . . . . . . . . . . . . . . . . . . . 163 5.4.3.Roughnesspenaltyapproach . . . . . . . . . . . . . . . . . . . . . 163 5.4.4.Smoothingparametersselection . . . . . . . . . . . . . . . . . . . 164 5.4.5.Somenotesonasymptotics . . . . . . . . . . . . . . . . . . . . . . 165 5.4.6.Generalizedlinearmodelsandextensions . . . . . . . . . . . . . . 165 5.4.7. Land use estimation with the temporal evolution of remote sensingdata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 5.5.Forecasting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169 5.5.1.Functionalautoregressiveprocess . . . . . . . . . . . . . . . . . . 169 5.5.2.SmoothARH(1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 5.5.3.LocallyARH(1)processes . . . . . . . . . . . . . . . . . . . . . . 172 5.5.4.Selectingsmoothingparameters . . . . . . . . . . . . . . . . . . . 173 5.5.5.Someasymptoticresults . . . . . . . . . . . . . . . . . . . . . . . . 173 5.5.6.Predictionofclimatictimeseries . . . . . . . . . . . . . . . . . . . 173 5.6.Concludingremarks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176 5.7.Bibliography . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 Chapter6.DiscriminantAnalysis . . . . . . . . . . . . . . . . . . . . . . . . . 181 GillesCELEUX 6.1.Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 6.2.Mainstepsinsupervisedclassification . . . . . . . . . . . . . . . . . . . 182 6.2.1.Theprobabilisticframework . . . . . . . . . . . . . . . . . . . . . 182 6.2.2.Samplingschemes . . . . . . . . . . . . . . . . . . . . . . . . . . . 183 6.2.3.Decisionfunctionestimationstrategies . . . . . . . . . . . . . . . 184 6.2.4.Variablesselection . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 6.2.5.Assessingthemisclassificationerrorrate . . . . . . . . . . . . . . 187 6.2.6.Modelselectionandresamplingtechniques . . . . . . . . . . . . . 189 6.3.Standardmethodsinsupervisedclassification . . . . . . . . . . . . . . . 190 6.3.1.Lineardiscriminantanalysis . . . . . . . . . . . . . . . . . . . . . 191 6.3.2.Logisticregression . . . . . . . . . . . . . . . . . . . . . . . . . . . 192 6.3.3.TheK nearestneighborsmethod . . . . . . . . . . . . . . . . . . . 195 6.3.4.Classificationtrees . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
Description: