ebook img

Discrete Data Analysis with R Visualization and Modeling Techniques for Categorical and Count Data PDF

544 Pages·2015·6.77 MB·English
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Discrete Data Analysis with R Visualization and Modeling Techniques for Categorical and Count Data

Discrete Data Analysis with R Visualization and Modeling Techniques for Categorical and Count Data Michael Friendly David Meyer YorkUniversity UASTechnikumWien April5,2015 y 100 20 80 40 60 Discrete 60 40 80 20 x 1z00 100 80 60 40 20 Admit: Admitted 1198 557 e Data der: Male er: Femal n d e n G e G 1493 1278 Admit: Rejected Analysis i Discrete Data Analysis with R Visualization and Modeling Techniques for Categorical and Count Data Michael Friendly David Meyer YorkUniversity UASTechnikumWien withcontributionsby Achim Zeilleis UniversitätInsbruck 1Introduc- 2Working tion with Categorical Data 3Discrete Distribu- tions I.Geting Started 7Logistic Regression 8Polyto- Models mous Responses III. Discrete 9Loglinear Model- Data andLogit building Analysis Models Methods with R 10 Extending Loglinear 11 Models Generalized Linear Models II. Exploratory 4Two-way Methods Contin- gency Tables 6Corre- 5Mosaic spondence Displays Analysis ii Contents Preface ix I GettingStarted 1 1 Introduction 3 1.1 Datavisualizationandcategoricaldata: Overview . . . . . . . . . . . . . . . . . 3 1.2 Whatiscategoricaldata? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.2.1 Caseformvs.frequencyform . . . . . . . . . . . . . . . . . . . . . . . . 5 1.2.2 Frequencydatavs.countdata . . . . . . . . . . . . . . . . . . . . . . . . 6 1.2.3 Univariate,bivariate,andmultivariatedata . . . . . . . . . . . . . . . . . 7 1.2.4 Explanatoryvs.Responsevariables . . . . . . . . . . . . . . . . . . . . . 7 1.3 Strategiesforcategoricaldataanalysis . . . . . . . . . . . . . . . . . . . . . . . . 8 1.3.1 Hypothesistestingapproaches . . . . . . . . . . . . . . . . . . . . . . . . 8 1.3.2 Modelbuildingapproaches . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.4 Graphicalmethodsforcategoricaldata . . . . . . . . . . . . . . . . . . . . . . . 13 1.4.1 Goalsanddesignprinciplesforvisualdatadisplay . . . . . . . . . . . . . 13 1.4.2 Categoricaldatarequiredifferentgraphicalmethods . . . . . . . . . . . . 16 1.4.3 Effectorderingandrenderingfordatadisplay . . . . . . . . . . . . . . . . 17 1.4.4 Interactiveanddynamicgraphics . . . . . . . . . . . . . . . . . . . . . . 20 1.4.5 Visualization=Graphing+Fitting+Graphing... . . . . . . . . . . . . . 22 1.4.6 The80-20rule . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 1.5 Chaptersummary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 1.6 Furtherreading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 1.7 Labexercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2 WorkingwithCategoricalData 29 2.1 WorkingwithRdata: vectors,matrices,arraysanddataframes . . . . . . . . . . 30 2.1.1 Vectors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.1.2 Matrices. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 2.1.3 Arrays. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.1.4 dataframes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.2 Formsofcategoricaldata: caseform,frequencyformandtableform . . . . . . . . 37 2.2.1 Caseform . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.2.2 Frequencyform . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 2.2.3 Tableform . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.3 Orderedfactorsandreorderedtables . . . . . . . . . . . . . . . . . . . . . . . . . 41 2.4 Generatingtables: tableandxtabs . . . . . . . . . . . . . . . . . . . . . . . . . . 42 2.4.1 table() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 2.4.2 xtabs() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 2.5 Printingtables: structableandftable . . . . . . . . . . . . . . . . . . . . . . . . . 45 2.5.1 Textoutput . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 iii iv Contents 2.6 Subsettingdata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 2.6.1 Subsettingtables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 2.6.2 Subsettingstructables . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 2.6.3 Subsettingdataframes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 2.7 Collapsingtables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 2.7.1 Collapsingovertablefactors . . . . . . . . . . . . . . . . . . . . . . . . . 48 2.7.2 Collapsingtablelevels . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 2.8 Convertingamongfrequencytablesanddataframes . . . . . . . . . . . . . . . . 51 2.8.1 Tableformtofrequencyform . . . . . . . . . . . . . . . . . . . . . . . . 51 2.8.2 Caseformtotableform . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 2.8.3 Tableformtocaseform . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 2.8.4 PublishingtablestoLATEXorHTML . . . . . . . . . . . . . . . . . . . . . 54 2.9 Acomplexexample: TVviewingdata(cid:63) . . . . . . . . . . . . . . . . . . . . . . . 56 2.9.1 Creatingdataframesandarrays . . . . . . . . . . . . . . . . . . . . . . . 56 2.9.2 Subsettingandcollapsing . . . . . . . . . . . . . . . . . . . . . . . . . . 57 2.10 Labexercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 3 FittingandGraphingDiscreteDistributions 63 3.1 Introductiontodiscretedistributions . . . . . . . . . . . . . . . . . . . . . . . . . 64 3.1.1 Binomialdata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 3.1.2 Poissondata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 3.1.3 Type-tokendistributions . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 3.2 Characteristicsofdiscretedistributions . . . . . . . . . . . . . . . . . . . . . . . 71 3.2.1 Thebinomialdistribution. . . . . . . . . . . . . . . . . . . . . . . . . . . 72 3.2.2 ThePoissondistribution . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 3.2.3 Thenegativebinomialdistribution . . . . . . . . . . . . . . . . . . . . . . 80 3.2.4 Thegeometricdistribution . . . . . . . . . . . . . . . . . . . . . . . . . . 83 3.2.5 Thelogarithmicseriesdistribution . . . . . . . . . . . . . . . . . . . . . . 84 3.2.6 Powerseriesfamily . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 3.3 Fittingdiscretedistributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 3.3.1 Rtoolsfordiscretedistributions . . . . . . . . . . . . . . . . . . . . . . . 87 3.3.2 Plotsofobservedandfittedfrequencies . . . . . . . . . . . . . . . . . . . 91 3.4 Diagnosingdiscretedistributions: Ordplots . . . . . . . . . . . . . . . . . . . . . 93 3.5 Poissonnessplotsandgeneralizeddistributionplots . . . . . . . . . . . . . . . . . 97 3.5.1 FeaturesofthePoissonnessplot . . . . . . . . . . . . . . . . . . . . . . . 98 3.5.2 Plotconstruction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 3.5.3 Thedistplotfunction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 3.5.4 Plotsforotherdistributions. . . . . . . . . . . . . . . . . . . . . . . . . . 100 3.6 Fittingdiscretedistributionsasgeneralizedlinearmodels(cid:63) . . . . . . . . . . . . . 103 3.6.1 Covariates,overdispersionandexcesszeros . . . . . . . . . . . . . . . . . 106 3.7 Chaptersummary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 3.8 Labexercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 II ExploratoryandHypothesis-testingMethods 111 4 Two-wayContingencyTables 113 4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 4.2 Testsofassociationfortwo-waytables . . . . . . . . . . . . . . . . . . . . . . . 118 4.2.1 Notationandterminology . . . . . . . . . . . . . . . . . . . . . . . . . . 118 4.2.2 2by2tables: Oddsandoddsratios . . . . . . . . . . . . . . . . . . . . . 119 4.2.3 Largertables: Overallanalysis . . . . . . . . . . . . . . . . . . . . . . . . 122 4.2.4 Testsforordinalvariables . . . . . . . . . . . . . . . . . . . . . . . . . . 123 4.2.5 SampleCMHProfiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 4.3 Stratifiedanalysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 4.3.1 Computingstrata-wisestatistics . . . . . . . . . . . . . . . . . . . . . . . 126 4.3.2 Assessinghomogeneityofassociation . . . . . . . . . . . . . . . . . . . . 127 4.4 Fourfolddisplayfor2x2tables . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 4.4.1 Confidenceringsforoddsratio . . . . . . . . . . . . . . . . . . . . . . . . 131 4.4.2 Stratifiedanalysisfor2×2×ktables . . . . . . . . . . . . . . . . . . . . 131 4.5 Sievediagrams . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 4.5.1 Two-waytables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 4.5.2 Largertables: Thestrucplotframework . . . . . . . . . . . . . . . . . . . 138 4.6 Associationplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 Contents v 4.7 Observeragreement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 4.7.1 Measuringagreement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 4.7.2 ObserverAgreementChart . . . . . . . . . . . . . . . . . . . . . . . . . . 148 4.7.3 Observerbiasinagreement. . . . . . . . . . . . . . . . . . . . . . . . . . 151 4.8 Trilinearplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 4.9 Chaptersummary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 4.10 Labexercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156 5 MosaicDisplaysforn-wayTables 159 5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 5.2 Two-waytables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 5.2.1 Shadinglevels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164 5.2.2 Interpretationandreordering . . . . . . . . . . . . . . . . . . . . . . . . . 164 5.3 Thestrucplotframework . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 5.3.1 Componentsoverview . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 5.3.2 Shadingschemes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168 5.4 Three-wayandlargertables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174 5.4.1 Aprimeronloglinearmodels . . . . . . . . . . . . . . . . . . . . . . . . 175 5.4.2 Fittingmodels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178 5.5 Modelandplotcollections . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182 5.5.1 Sequentialplotsandmodels . . . . . . . . . . . . . . . . . . . . . . . . . 182 5.5.2 Causalmodels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 5.5.3 Partialassociation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187 5.6 Mosaicmatricesforcategoricaldata . . . . . . . . . . . . . . . . . . . . . . . . . 195 5.6.1 Mosaicmatricesforpairwiseassociations . . . . . . . . . . . . . . . . . . 196 5.6.2 Generalizedmosaicmatricesandpairsplots . . . . . . . . . . . . . . . . . 199 5.7 3Dmosaics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 5.8 Visualizingthestructureofloglinearmodels . . . . . . . . . . . . . . . . . . . . 203 5.8.1 Mutualindependence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 5.8.2 Jointindependence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 5.9 Relatedvisualizationmethods . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208 5.9.1 Doubledeckerplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 5.9.2 Generalizedoddsratios(cid:63) . . . . . . . . . . . . . . . . . . . . . . . . . . . 210 5.10 Chaptersummary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 5.11 Labexercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 6 CorrespondenceAnalysis 219 6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219 6.2 Simplecorrespondenceanalysis . . . . . . . . . . . . . . . . . . . . . . . . . . . 220 6.2.1 Notationandterminology . . . . . . . . . . . . . . . . . . . . . . . . . . 220 6.2.2 Geometricandstatisticalproperties . . . . . . . . . . . . . . . . . . . . . 222 6.2.3 Rsoftwareforcorrespondenceanalysis . . . . . . . . . . . . . . . . . . . 222 6.2.4 Corespondenceanalysisandmosaicdisplays . . . . . . . . . . . . . . . . 229 6.3 Multi-waytables: Stackingandothertricks . . . . . . . . . . . . . . . . . . . . . 230 6.3.1 InteractivecodinginR . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231 6.3.2 Marginaltablesandsupplementaryvariables . . . . . . . . . . . . . . . . 236 6.4 Multiplecorrespondenceanalysis . . . . . . . . . . . . . . . . . . . . . . . . . . 237 6.4.1 BivariateMCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238 6.4.2 TheBurtmatrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241 6.4.3 MultivariateMCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241 6.5 Biplotsforcontingencytables . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245 6.5.1 CAbilinearbiplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246 6.5.2 Biadditivebiplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 250 6.6 Chaptersummary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252 6.7 Labexercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252 III Model-buildingMethods 255 vi Contents 7 LogisticRegressionModels 257 7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257 7.2 Thelogisticregressionmodel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259 7.2.1 Fittingalogisticregressionmodel . . . . . . . . . . . . . . . . . . . . . . 261 7.2.2 Modeltestsforsimplelogisticregression . . . . . . . . . . . . . . . . . . 263 7.2.3 Plottingabinaryresponse . . . . . . . . . . . . . . . . . . . . . . . . . . 263 7.2.4 Groupedbinomialdata . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266 7.3 Multiplelogisticregressionmodels . . . . . . . . . . . . . . . . . . . . . . . . . 268 7.3.1 Conditionalplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 270 7.3.2 Full-modelplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272 7.3.3 Effectplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274 7.4 Casestudies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276 7.4.1 Morecomplexmodels: Modelselectionandvisualization . . . . . . . . . 291 7.5 Influenceanddiagnosticplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299 7.5.1 Residualsandleverage . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299 7.5.2 Influencediagnostics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 300 7.5.3 Otherdiagnosticplots(cid:63) . . . . . . . . . . . . . . . . . . . . . . . . . . . 309 7.6 Chaptersummary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316 7.7 Labexercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 318 8 ModelsforPolytomousResponses 321 8.1 Ordinalresponse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322 8.1.1 Latentvariableinterpretation . . . . . . . . . . . . . . . . . . . . . . . . . 323 8.1.2 Fittingtheproportionaloddsmodel . . . . . . . . . . . . . . . . . . . . . 324 8.1.3 Testingtheproportionaloddsassumption . . . . . . . . . . . . . . . . . . 325 8.1.4 Graphicalassessmentofproportionalodds . . . . . . . . . . . . . . . . . 327 8.1.5 Visualizingresultsfortheproportionaloddsmodel . . . . . . . . . . . . . 329 8.1.6 Full-modelplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329 8.1.7 Effectplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 330 8.2 Nesteddichotomies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333 8.3 Generalizedlogitmodel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 340 8.4 Chaptersummary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344 8.5 Labexercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344 9 LoglinearandLogitModelsforContingencyTables 347 9.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 347 9.2 Loglinearmodelsforfrequencies . . . . . . . . . . . . . . . . . . . . . . . . . . 348 9.2.1 LoglinearmodelsasANOVAmodelsforfrequencies . . . . . . . . . . . . 348 9.2.2 Loglinearmodelsforthree-waytables . . . . . . . . . . . . . . . . . . . . 349 9.2.3 LoglinearmodelsasGLMsforfrequencies . . . . . . . . . . . . . . . . . 350 9.3 Fittingandtestingloglinearmodels . . . . . . . . . . . . . . . . . . . . . . . . . 351 9.3.1 Modelfittingfunctions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351 9.3.2 Goodness-of-fittests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352 9.3.3 Residualsforloglinearmodels . . . . . . . . . . . . . . . . . . . . . . . . 354 9.3.4 Usingloglm() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355 9.3.5 Usingglm() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357 9.4 Equivalentlogitmodels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 360 9.5 Zerofrequencies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365 9.6 Chaptersummary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 369 9.7 Labexercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 370 10 ExtendingLoglinearModels 371 10.1 Modelsforordinalvariables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 372 10.1.1 Loglinearmodelsforordinalvariables . . . . . . . . . . . . . . . . . . . . 372 10.1.2 Log-multiplicative(RC)models . . . . . . . . . . . . . . . . . . . . . . . 377 10.2 Squaretables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384 10.2.1 Quasi-independence,symmetry,quasi-symmetryandtopologicalmodels . 384 10.2.2 Ordinalsquaretables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391 10.3 Three-wayandhigher-dimensionaltables . . . . . . . . . . . . . . . . . . . . . . 394 10.4 Multivariateresponses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 398 10.4.1 Bivariate,binaryresponsemodels . . . . . . . . . . . . . . . . . . . . . . 400 10.4.2 Morecomplexmodels . . . . . . . . . . . . . . . . . . . . . . . . . . . . 409 10.5 Chaptersummary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 419 Contents vii 10.6 Labexercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 420 11 GeneralizedLinearModels 423 11.1 ComponentsofGeneralizedLinearModels . . . . . . . . . . . . . . . . . . . . . 424 11.1.1 Variancefunctions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425 11.1.2 Hypothesistestsforcoefficients . . . . . . . . . . . . . . . . . . . . . . . 426 11.1.3 Goodness-of-fittests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 427 11.1.4 Comparingnon-nestedmodels . . . . . . . . . . . . . . . . . . . . . . . . 428 11.2 GLMsforcountdata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 429 11.3 Modelsforoverdispersedcountdata . . . . . . . . . . . . . . . . . . . . . . . . . 438 11.3.1 Thequasi-Poissonmodel . . . . . . . . . . . . . . . . . . . . . . . . . . . 438 11.3.2 Thenegative-binomialmodel . . . . . . . . . . . . . . . . . . . . . . . . 439 11.3.3 Visualizingthemean–variancerelation . . . . . . . . . . . . . . . . . . . 440 11.3.4 Testingoverdispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 442 11.3.5 Visualizinggoodness-of-fit . . . . . . . . . . . . . . . . . . . . . . . . . . 443 11.4 Modelsforexcesszerocounts . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444 11.4.1 Zero-inflatedmodels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 445 11.4.2 Hurdlemodels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 447 11.4.3 Visualizingzerocounts . . . . . . . . . . . . . . . . . . . . . . . . . . . . 448 11.5 Casestudies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 449 11.5.1 Codparasites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 450 11.5.2 Demandformedicalcarebytheelderly . . . . . . . . . . . . . . . . . . . 462 11.6 Diagnosticplotsformodelchecking . . . . . . . . . . . . . . . . . . . . . . . . . 474 11.6.1 DiagnosticmeasuresandresidualsforGLMs . . . . . . . . . . . . . . . . 475 11.6.2 Quantile-quantileandhalf-normalplots . . . . . . . . . . . . . . . . . . . 480 11.7 MultivariateresponseGLMmodels . . . . . . . . . . . . . . . . . . . . . . . . . 483 11.8 Chaptersummary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 494 11.9 Labexercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 495 References 499 AuthorIndex 513 ExampleIndex 517 SubjectIndex 519 viii Contents Preface Thegreatestvalueofapictureiswhenitforcesustonoticewhatweneverexpectedto see. Tukey(1977,p.vi) Data analysis and graphics This book stems from the conviction that data analysis and statistical graphics should go hand- in-handintheprocessofunderstandingandcommunicatingstatisticaldata. Statisticalsummaries compress a data set into a few numbers, the result of an hypothesis test, or coefficients in a fitted statisticalmodel,whilegraphicalmethodshelptoexplorepatternsandtrends,seetheunexpected, identifyproblemsinananalysisandcommunicateresultsandconclusionsinprincipledandeffective ways. This interplay between analysis and visualization has long been a part of statistical practice for quantitative data. Indeed, the origin of correlation, regression and linear models (regression, ANOVA) can arguably be traced to Francis Galton’s (1886) visual insight from a scatterplot of heights of children and their parents on which he overlaid smoothed contour curves of roughly equalbivariatefrequenciesandlinesforthemeansofY |X andX|Y (describedinFriendlyand Denis(2005),Friendlyetal.(2013)). Theanalysisofdiscretedataisamuchmorerecentarrival, beginninginthe1960sandgiving rise to a few seminal books in the 1970s (Bishop et al., 1975, Haberman, 1974, Goodman, 1978, Fienberg,1980). Agresti(2013,Chapter17)presentsabriefhistoricaloverviewofthedevelopment ofthesemethodsfromtheirearlyrootsaroundthebeginningofthe20thCentury. Yetcuriously,associatedgraphicalmethodsforcategoricaldataweremuchslowertodevelop. Thisbegantochangeasitwasrecognizedthatcounts,frequenciesanddiscretevariablesrequired different schemes for mapping numbers into useful visual representations (Friendly, 1995, 1997), some quite novel. The special nature of discrete variables and frequency data vis-a-vis statistical graphics is now more widely accepted, and many of these new graphical methods (e.g., mosaic displays, fourfold plots, diagnostic plots for generalized linear models) have become, if not main stream,thenatleastmorewidelyusedinresearch,teachingandcommunication. Muchofwhathadbeendevelopedthroughthe1990sforgraphicalmethodsfordiscretedatawas describedinthebookVisualizingCategoricalData(Friendly,2000)andwasimplementedinSAS® ix

See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.