Table Of Contenti
IBM SPSS Data Preparation 21
Note: Beforeusingthisinformationandtheproductitsupports,readthegeneralinformation
under Notices on p. 143.
ThiseditionappliestoIBM®SPSS®Statistics21andtoallsubsequentreleasesandmodifications
untilotherwise indicatedinneweditions.
Adobeproductscreenshot(s)reprintedwithpermissionfromAdobeSystemsIncorporated.
Microsoftproductscreenshot(s)reprintedwithpermissionfromMicrosoftCorporation.
LicensedMaterials-PropertyofIBM
©CopyrightIBMCorporation1989,2012.
U.S.GovernmentUsersRestrictedRights-Use,duplicationordisclosurerestrictedbyGSAADP
Schedule Contract with IBMCorp.
Preface
IBM®SPSS®Statisticsisacomprehensivesystemforanalyzingdata. TheDataPreparation
optionaladd-onmoduleprovidestheadditionalanalytictechniquesdescribedinthismanual.
TheDataPreparationadd-onmodulemustbeusedwiththeSPSSStatisticsCoresystemandis
completelyintegratedintothatsystem.
About IBM Business Analytics
IBMBusinessAnalyticssoftwaredeliverscomplete,consistentandaccurateinformationthat
decision-makerstrusttoimprovebusinessperformance. Acomprehensiveportfolioofbusiness
intelligence,predictiveanalytics,financialperformanceandstrategymanagement,andanalytic
applicationsprovidesclear,immediateandactionableinsightsintocurrentperformanceandthe
abilitytopredictfutureoutcomes. Combinedwithrichindustrysolutions,provenpracticesand
professionalservices,organizationsofeverysizecandrivethehighestproductivity,confidently
automatedecisionsanddeliverbetterresults.
Aspartofthisportfolio,IBMSPSSPredictiveAnalyticssoftwarehelpsorganizationspredict
futureeventsandproactivelyactuponthatinsighttodrivebetterbusinessoutcomes. Commercial,
governmentandacademiccustomersworldwiderelyonIBMSPSStechnologyasacompetitive
advantageinattracting,retainingandgrowingcustomers,whilereducingfraudandmitigating
risk. ByincorporatingIBMSPSSsoftwareintotheirdailyoperations,organizationsbecome
predictiveenterprises–abletodirectandautomatedecisionstomeetbusinessgoalsandachieve
measurablecompetitiveadvantage. Forfurtherinformationortoreacharepresentativevisit
http://www.ibm.com/spss.
Technical support
Technicalsupportisavailabletomaintenancecustomers. CustomersmaycontactTechnical
Support for assistance in using IBM Corp. products or for installation help for one of the
supportedhardwareenvironments. ToreachTechnicalSupport,seetheIBMCorp. website
athttp://www.ibm.com/support. Bepreparedtoidentifyyourself,yourorganization,andyour
supportagreementwhenrequestingassistance.
Technical Support for Students
If you’re a student using a student, academic or grad pack version of any IBM
SPSS software product, please see our special online Solutions for Education
(http://www.ibm.com/spss/rd/students/) pages for students. If you’re a student using a
university-suppliedcopyoftheIBMSPSSsoftware, please contact theIBMSPSSproduct
coordinator at your university.
Customer Service
Ifyouhaveanyquestionsconcerningyourshipmentoraccount,contactyourlocaloffice. Please
haveyourserialnumberreadyforidentification.
©CopyrightIBMCorporation1989,2012. iii
Training Seminars
IBMCorp. providesbothpublicandonsitetrainingseminars. Allseminarsfeaturehands-on
workshops. Seminarswillbeofferedinmajorcitiesonaregularbasis. Formoreinformationon
theseseminars,gotohttp://www.ibm.com/software/analytics/spss/training.
iv
Contents
Part I: User's Guide
1 Introduction to Data Preparation 1
UsageofDataPreparationProcedures... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 1
2 Validation Rules 2
LoadPredefinedValidationRules . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 2
DefineValidationRules... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 3
DefineSingle-VariableRules. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 3
DefineCross-VariableRules . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 6
3 Validate Data 8
ValidateDataBasicChecks .. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 11
ValidateDataSingle-VariableRules .. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 13
ValidateDataCross-VariableRules .. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 14
ValidateDataOutput . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 15
ValidateDataSave .. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 16
4 Automated Data Preparation 18
ToObtainAutomaticDataPreparation ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 19
ToObtainInteractiveDataPreparation... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 20
FieldsTab ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 21
SettingsTab.. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 21
PrepareDates&Times .. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 22
ExcludeFields... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 23
AdjustMeasurement ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 24
ImproveDataQuality ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 25
RescaleFields .. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 26
TransformFields . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 27
SelectandConstruct ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 28
FieldNames.. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 29
ApplyingandSavingTransformations ... ... ... ... ... ... ... ... ... ... ... ... ... ... 30
©CopyrightIBMCorporation1989,2012. v
AnalysisTab . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 31
FieldProcessingSummary .. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 33
Fields ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 34
ActionSummary . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 36
PredictivePower ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 37
FieldsTable.. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 38
FieldDetails . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 39
ActionDetails ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 41
BacktransformScores ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 44
5 Identify Unusual Cases 45
IdentifyUnusualCasesOutput ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 48
IdentifyUnusualCasesSave.. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 49
IdentifyUnusualCasesMissingValues... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 50
IdentifyUnusualCasesOptions... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 51
DETECTANOMALYCommandAdditionalFeatures. ... ... ... ... ... ... ... ... ... ... ... ... 52
6 Optimal Binning 53
OptimalBinningOutput... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 55
OptimalBinningSave. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 56
OptimalBinningMissingValues .. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 57
OptimalBinningOptions.. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 58
OPTIMALBINNINGCommandAdditionalFeatures... ... ... ... ... ... ... ... ... ... ... ... 59
Part II: Examples
7 Validate Data 61
ValidatingaMedicalDatabase... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 61
PerformingBasicChecks. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 61
CopyingandUsingRulesfromAnotherFile .. ... ... ... ... ... ... ... ... ... ... ... ... 64
DefiningYourOwnRules . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 74
Cross-VariableRules. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 80
vi
CaseReport.. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 81
Summary. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 81
RelatedProcedures .. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 82
8 Automated Data Preparation 83
UsingAutomatedDataPreparationInteractively.. ... ... ... ... ... ... ... ... ... ... ... ... 83
ChoosingBetweenObjectives... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 83
FieldsandFieldDetails .. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 91
UsingAutomatedDataPreparationAutomatically. ... ... ... ... ... ... ... ... ... ... ... ... 94
PreparingtheData .. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 94
BuildingaModelontheUnpreparedData... ... ... ... ... ... ... ... ... ... ... ... ... 97
BuildingaModelonthePreparedData.. ... ... ... ... ... ... ... ... ... ... ... ... .. 100
ComparingthePredictedValues . ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. 101
BacktransformingthePredictedValues.. ... ... ... ... ... ... ... ... ... ... ... ... .. 103
Summary. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. 105
9 Identify Unusual Cases 106
IdentifyUnusualCasesAlgorithm. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. 106
IdentifyingUnusualCasesinaMedicalDatabase. ... ... ... ... ... ... ... ... ... ... ... .. 106
RunningtheAnalysis. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. 107
CaseProcessingSummary .. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. 111
AnomalyCaseIndexList . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. 112
AnomalyCasePeerIDList... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. 113
AnomalyCaseReasonList... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. 114
ScaleVariableNorms ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. 115
CategoricalVariableNorms.. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. 116
AnomalyIndexSummary. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. 117
ReasonSummary. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. 118
ScatterplotofAnomalyIndexbyVariableImpact. ... ... ... ... ... ... ... ... ... ... .. 118
Summary. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. 120
RelatedProcedures .. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. 121
10 Optimal Binning 122
TheOptimalBinningAlgorithm ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. 122
vii
UsingOptimalBinningtoDiscretizeLoanApplicantData . ... ... ... ... ... ... ... ... ... .. 122
RunningtheAnalysis. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. 122
DescriptiveStatistics. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. 126
ModelEntropy... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. 127
BinningSummaries.. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. 127
BinnedVariables. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. 131
ApplyingSyntaxBinningRules... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. 131
Summary. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. 133
Appendices
A Sample Files 134
B Notices 143
Bibliography 146
Index 147
viii
Part I:
User's Guide