Statistics for the Humanities Published by: British Academy 10-11 Carlton House Terrace London SW1Y 5AH +44(0)20 7969 5200 www.britac.ac.uk ISBN: To be confirmed (cid:13)cJohn Canning (2013) First published: 2013 A website accompanying this book is available at: www.statisticsforhumanities.net This version is for review only. Please email observations, comments or corrections to the author [email protected] Contents Contents i Preface vii 0 The mathematics behind statistics 1 0.1 Numbers and types of data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 0.2 Calculating percentages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 0.3 Basic arithmetic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 0.4 Positive and negative numbers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 0.5 Algebra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 0.6 Squares and Square roots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 0.7 Rounding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 0.8 Greek symbols . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 0.9 Brackets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 0.10 Greater than and less than . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 0.11 Putting it all together . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 0.12 Coefficients and variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 0.13 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1 Introduction 15 1.1 Why use statistics in the humanities? . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.2 Types of Quantitative data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.3 Where do statistics come from? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.4 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2 How many and how big? 21 2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.2 Why count? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.3 Problems in counting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.4 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.5 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3 Summarising data 27 3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 3.2 Mean. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 i ii CONTENTS 3.3 Median . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 3.4 Mode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 3.5 Making sense of averages. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 3.6 Case study: Life expectancy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 3.7 The five figure summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 3.8 Calculating the median . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3.9 Calculating the Upper and lower quartiles . . . . . . . . . . . . . . . . . . . . . . . . 32 3.10 Presenting the five figure summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3.11 Dealing with data in classes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 3.12 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 4 Measuring spread 39 4.1 The standard deviation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 4.2 Stem and leaf plots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 4.3 The normal distribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 4.4 Non-normal distributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 4.5 Skew and kurtosis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 4.6 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 5 Sampling 53 5.1 Defining terms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 5.2 Why we take a sample . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 5.3 A convenience sample . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 5.4 Random sampling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 5.5 Stratified sample . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 5.6 Important considerations when sampling . . . . . . . . . . . . . . . . . . . . . . . . . 57 5.7 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 6 Measuring change 61 6.1 Calculating percentage change. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 6.2 Calculate percentage change in terms of real numbers . . . . . . . . . . . . . . . . . 63 6.3 Year on year changes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 6.4 Interpreting changes over long periods of time . . . . . . . . . . . . . . . . . . . . . . 65 6.5 Differences between countries and regions within countries . . . . . . . . . . . . . . . 68 6.6 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 7 Drawing conclusions from statistics 73 7.1 Conclusions through evidence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 7.2 Introducing probability theory . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 7.3 Why probability theory matters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 7.4 Dice throws and coin tosses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 7.5 A real life example . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 7.6 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 8 Key concepts in statistics 81 8.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 8.2 The null hypothesis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 CONTENTS iii 8.3 Confidence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 8.4 Significance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 8.5 Critical values . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 8.6 Degrees of freedom . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 8.7 One and two tail tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 8.8 Two types of error . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 8.9 p-values, alpha, beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 8.10 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 9 Using statistics intelligently 91 9.1 Try to understand the purpose of the test . . . . . . . . . . . . . . . . . . . . . . . . 91 9.2 Work through the tests manually . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 9.3 Don’t suspend your understanding of your subject . . . . . . . . . . . . . . . . . . . 91 9.4 Don’t confuse significance with importance . . . . . . . . . . . . . . . . . . . . . . . 92 9.5 Garbage In Garbage Out (GIGO) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 9.6 Using data imaginatively. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 9.7 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 10 Comparison between groups 95 10.1 Different groups, difference choices? . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 10.2 The Chi-square test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 10.3 Advantages of using chi-square . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 10.4 Cautions when using chi-square . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 10.5 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 11 Comparing two groups: the Student’s t-test 103 11.1 Calculating an independent sample t-test: worked example . . . . . . . . . . . . . . 105 11.2 A paired t-test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 11.3 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 12 Comparing two or more samples: Analysis of Variance 113 12.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 12.2 Calculating the Analysis of Variance (ANOVA): A worked example of the F test . . 113 12.3 Tukey Honestly Significant Difference (or Tukey HSD) . . . . . . . . . . . . . . . . . 118 12.4 Four or more samples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 12.5 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 12.6 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 13 Understanding Relationships 121 13.1 Making connections . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 13.2 Calculating the Pearson product-moment correlation coefficient . . . . . . . . . . . . 122 13.3 Interpreting r . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 13.4 Critical values of r . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 13.5 Things to remember . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 13.6 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 14 Predicting new observations from known data 129 iv CONTENTS 14.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 14.2 Predicting reign length of British monarchs . . . . . . . . . . . . . . . . . . . . . . . 129 14.3 Prediction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 14.4 Simple linear regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 14.5 Finding the regression line . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 14.6 The limitations of simple linear regression . . . . . . . . . . . . . . . . . . . . . . . . 134 14.7 How reliable is our equation? Calculating r2 . . . . . . . . . . . . . . . . . . . . . . . 138 14.8 Results summary for predicting monarch reign . . . . . . . . . . . . . . . . . . . . . 139 14.9 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 15 Ranking data 143 15.1 Examples include . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 15.2 The Mann-Whitney U-test. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 15.3 Calculating the Spearman’s rank correlation coefficient . . . . . . . . . . . . . . . . . 146 15.4 Cautions with with ranking data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 15.5 Combining ranking and non-ranking data . . . . . . . . . . . . . . . . . . . . . . . . 151 15.6 Gini coefficient of income inequality . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 15.7 Cautions about the Gini co-efficient . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 15.8 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 16 Everything happens somewhere: Spatial data 157 16.1 Geographical aspects of data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 16.2 Spatial Patterns . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 16.3 Nearest Neighbour Analysis:a worked example. . . . . . . . . . . . . . . . . . . . . . 158 16.4 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 17 Having confidence in data 165 17.1 Introducing confidence intervals . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 17.2 Estimating population characteristics from a sample . . . . . . . . . . . . . . . . . . 165 17.3 Confidence intervals and the standard error . . . . . . . . . . . . . . . . . . . . . . . 166 17.4 Interpreting the Standard Error . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 17.5 Correction for finite population . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 17.6 Presenting confidence limits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168 17.7 Cautions with confidence intervals . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168 17.8 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169 18 Association, causation and effect 173 18.1 Smoking and causes of lung cancer . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 18.2 Association, causation and effect in the humanities . . . . . . . . . . . . . . . . . . . 174 18.3 Identifying cause and effect . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176 18.4 Cautions of cause and effect . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178 18.5 Direction of cause and effect . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178 18.6 Co-incidence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178 18.7 Missing variables/ Simpson’s paradox . . . . . . . . . . . . . . . . . . . . . . . . . . 178 18.8 Fallacies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179 18.9 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 CONTENTS v 19 Collecting your own data 183 19.1 Designing a questionnaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183 19.2 Why do we use questionnaires? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183 19.3 Types of questionnaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183 19.4 Issues with questionnaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184 19.5 Things to think about when designing a questionnaire . . . . . . . . . . . . . . . . . 185 19.6 Advantages of questionnaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 19.7 Questions about questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 19.8 Possible limitations of questionnaires . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 19.9 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188 20 Presenting data 189 20.1 Everyday data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189 20.2 Data Cleaning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189 20.3 Ways of presenting data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191 20.4 Representing data graphically . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192 20.5 Bar charts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192 20.6 Pie charts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192 20.7 Histograms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193 20.8 The boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195 20.9 Scatterplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195 20.10Logarithmic scales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195 20.11Graphics and pictures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199 20.12Issues in data presentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200 20.13Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202 20.14Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204 20.15Further reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205 21 The next steps 207 21.1 Developing understanding of statistics . . . . . . . . . . . . . . . . . . . . . . . . . . 207 21.2 Software . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207 21.3 Further reading in statistics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207 A Dealing with non-decimal units 211 A.1 Feet and inches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211 A.2 Stones and pounds . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212 A.3 Pre-decimal currency . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212 B Signs and Symbols 215 C Critical values of F 217 D Critical values of Q 221 E Critical values of T 223 F Critical values for Pearson’ Product moment correlation Co-efficient r 225 vi CONTENTS G Critical values of U 229 H Critical values of Chi-square 231 I Z scores 233 J Random numbers 235 K Displaying statistics in word processing programmes 237 K.1 Option 1: Insert equation as an image. . . . . . . . . . . . . . . . . . . . . . . . . . . 237 K.2 Option 2: Word precessing compatible equation editors . . . . . . . . . . . . . . . . 238 K.3 Option3: CopyandpasteMathMLorLATEXcodefromanycomparableonlineLatex equation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239 L Displaying equations online 241 L.1 The easiest way . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241 L.2 The better (though much harder way) . . . . . . . . . . . . . . . . . . . . . . . . . . 241 M Software packages for statistical analysis 243 M.1 MS Excel and other spreadsheet software (e.g. Open Office Calc) . . . . . . . . . . . 243 M.2 Minitab and SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244 M.3 R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244 N Copyright and Creative Commons attributions and permissions 245