Cuadernos Metodológicos 45 Análisis de datos con Stata 2.ª edición revisada Modesto Escobar Mercado Enrique Fernández Macías Fabrizio Bernardi 0000__PPRRIIMMEERRAASS PPAAGGIINNAASS..iinndddd 11 1188//0066//1122 1122::3311 Consejo Editorial de la colección Cuadernos Metodológicos DIRECTOR Félix Requena Santos, Presidente del CIS CONSEJEROS Franciso Alvira Martín, Universidad Complutense de Madrid. M.ª Ángeles Cea D’Ancona, Universidad Complutense de Madrid. Jesús M. de Miguel Rodríguez, Universidad de Barcelona. Modesto Escobar Mercado, Universidad de Salamanca. J. Sebastián Fernández Prados, Universidad de Almería. Juan Ignacio Martínez Pastor, Universidad Nacional de Educación a Distancia. SECRETARIA M.ª Paz Cristina Rodríguez Vela, Directora del Departamento de Publicaciones y Fomento de la Investigación, CIS Las normas editoriales y las instrucciones para los autores pueden consultarse en: http://www.cis.es/publicaciones/CM/ Todos los derechos reservados. Prohibida la reproducción total o parcial de esta obra por cualquier procedimiento (ya sea gráfico, electrónico, óptico, químico, mecánico, fotocopia, etc.) y el almacenamiento o transmisión de sus contenidos en soportes magnéticos, sonoros, visuales o de cualquier otro tipo sin permiso expreso del editor. COLECCIÓN «CUADERNOS METODOLÓGICOS», NÚM. 45 Catálogo de Publicaciones de la Administración General del Estado http://publicacionesoficiales.boe.es Primera edición, diciembre de 2009 Segunda edición, mayo de 2012 © CENTRO DE INVESTIGACIONES SOCIOLÓGICAS Montalbán, 8. 28014 Madrid © Modesto Escobar Mercado. © Enrique Fernández Macías. © Fabrizio Bernardi. DERECHOS RESERVADOS CONFORME A LA LEY Impreso y hecho en España Printed and made in Spain NIPO: 004-12-004-0 ISBN: 978-84-7476-588-5 Depósito legal: M. 19.130-2012 Fotocomposición e impresión: Efca, S. A. Parque Industrial “Las Monjas” Verano, 28 28850 Torrejón de Ardoz (Madrid) El papel utilizado para la impresión de este libro es 100% reciclado y totalmente libre de cloro. 100% reciclado 0000__PPRRIIMMEERRAASS PPAAGGIINNAASS..iinndddd 22 1188//0066//1122 1122::3311 Índice Págs. 1. INTRODUCCIÓN ........................................................................... 9 2. PRIMEROS PASOS CON STATA .................................................. 17 2.1. La información en los archivos de Stata ........................... 17 2.2. La interfaz de Stata ............................................................. 20 2.3. Las ventanas de Stata .......................................................... 25 2.4. Modos de trabajo en Stata .................................................. 33 2.5. El fichero de resultados ....................................................... 40 2.6. Las variables de la matriz de datos .................................... 43 2.7. Ejercicios .............................................................................. 56 3. INTRODUCCIÓN DE DATOS ....................................................... 59 3.1. Introducción manual de datos ............................................ 59 3.2. Lectura de datos con Stata .................................................. 64 3.3. Fusión de ficheros ................................................................ 78 3.4. Ejercicios .............................................................................. 82 4. ESTADÍSTICAS DE UNA SOLA VARIABLE ................................. 85 4.1. Clasificación de variables .................................................... 85 4.2. La tabla de distribución de frecuencias .............................. 87 4.3. Estadísticos resúmenes de distribuciones ........................... 90 4.4. Obtención de las medidas características de una distribución ........................................................................... 96 4.5. La ponderación de los datos ................................................ 99 4.6. El error típico ........................................................................ 105 4.7. Ejercicios ............................................................................... 114 5. MANIPULACIÓN Y MODIFICACIÓN DE DATOS ....................... 117 5.1. Manipulación de datos ......................................................... 117 0000__PPRRIIMMEERRAASS PPAAGGIINNAASS..iinndddd 33 1188//0066//1122 1122::3311 4 CUADERNOS METODOLÓGICOS 45 Págs. 5.2. Generación y modificación de variables ........................... 128 5.3. Características e instrucciones especiales ......................... 141 5.4. Ejercicios .............................................................................. 147 6. GRÁFICOS CON STATA ................................................................ 149 6.1. Características de los gráficos de Stata ............................. 150 6.2. Gráficos unidimensionales ................................................. 153 6.3. Gráficos bidimensionales .................................................... 169 6.4. Componentes de los gráficos .............................................. 184 6.5. Esquemas ............................................................................. 186 6.6. El editor de gráficos ............................................................ 190 6.7. Ejercicios .............................................................................. 194 7. LA PRUEBA ESTADÍSTICA Y LAS COMPARACIONES ............ 195 7.1. Pruebas de una sola variable .............................................. 197 7.2. Comparación de dos variables ........................................... 204 7.3. Comparaciones de dos muestras (independientes) .......... 213 7.4. Comparaciones de k muestras independientes ................. 219 7.5. Comparaciones de k muestras dependientes .................... 229 7.6. Ejercicios .............................................................................. 236 8. CONFECCIÓN Y ANÁLISIS DE TABLAS CON STATA .............. 237 8.1. Tablas de contingencia de dos variables............................ 238 8.2. Más de dos variables ........................................................... 255 8.3. Otras tablas especiales ........................................................ 258 8.4. Las tablas de respuesta múltiple ........................................ 265 8.5. Ejercicios .............................................................................. 274 9. LA REGRESIÓN ............................................................................ 277 9.1. Nube de puntos, varianza y correlación entre dos variables .. 278 9.2. La regresión simple ............................................................. 283 9.3. Bondad del ajuste de la regresión ...................................... 289 9.4. Inferencias en la regresión simple ..................................... 293 9.5. Regresión múltiple .............................................................. 297 9.6. Regresión con variables ficticias ........................................ 304 9.7. Regresiones con interacción ............................................... 311 9.8. Otras relaciones funcionales de la regresión .................... 318 9.9. Ejercicios .............................................................................. 328 0000__PPRRIIMMEERRAASS PPAAGGIINNAASS..iinndddd 44 1188//0066//1122 1122::3311 ANÁLISIS DE DATOS CON STATA 5 Págs. 10. DIAGNÓSTICO DE LA REGRESIÓN ......................................... 331 10.1. Supuestos de la regresión lineal ....................................... 331 10.2. Análisis de los casos en la regresión ................................ 344 10.3. Regresiones especiales ...................................................... 353 10.4. Regresión robusta .............................................................. 361 10.5. Regresión de cuantiles ...................................................... 368 10.6. Regresión por bandas ....................................................... 372 10.7. Ejercicios ............................................................................ 373 11. LA REGRESIÓN LOGÍSTICA ...................................................... 375 11.1. El modelo estadístico ........................................................ 375 11.2. Estimación del modelo ..................................................... 382 11.3. Diagnóstico del modelo..................................................... 388 11.4. Comparación de modelos ................................................. 400 11.5. Interpretación del modelo ................................................ 406 11.6. Ejercicios ............................................................................ 420 12. REGRESIÓN LOGÍSTICA PARA VARIABLE ORDINAL Y MULTINOMIAL ......................................................................... 421 12.1. El modelo estadístico del logit ordinal ............................ 421 12.2. Estimación e interpretación del modelo ......................... 425 12.3. El supuesto de regresiones paralelas o razones proporcionales ................................................................... 430 12.4. Regresión logística para variable dependiente nominal .............................................................................. 433 12.5. Estimación e interpretación del modelo ......................... 435 12.6. El supuesto de independencia de alternativas irrelevantes ......................................................................... 440 12.7. Ejercicios ............................................................................ 442 13. EL ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS CON STATA .................................................................................... 445 13.1. Qué es y cómo funciona el AHA ...................................... 445 13.2. El AHA con Stata: instrucciones para definir los datos... 451 13.3. La función de supervivencia ............................................. 456 13.4. Modelos de la tasa de transición con tiempo continuo ... 458 13.5. Ejercicios ............................................................................ 467 0000__PPRRIIMMEERRAASS PPAAGGIINNAASS..iinndddd 55 1188//0066//1122 1122::3311 6 CUADERNOS METODOLÓGICOS 45 Págs. 14. ANÁLISIS DE DATOS DE ENCUESTA CON STATA ................. 469 14.1. Ajustes en el análisis de muestras complejas .................. 470 14.2. Ponderaciones, estratos y conglomerados ....................... 471 14.3. Un ejemplo práctico con Stata. Las órdenes svy ............ 476 14.4. Ejercicios ............................................................................ 486 15. BIBLIOGRAFÍA COMENTADA .................................................... 487 16. ÍNDICE DE INSTRUCCIONES .................................................... 495 17. ÍNDICE DE CUADROS ................................................................. 499 18. ÍNDICE DE ILUSTRACIONES .................................................... 501 19. ÍNDICE DE GRÁFICOS ................................................................ 511 0000__PPRRIIMMEERRAASS PPAAGGIINNAASS..iinndddd 66 1188//0066//1122 1122::3311 A María José Echeverría, Judit Balbás y Marta Fraile 0000__PPRRIIMMEERRAASS PPAAGGIINNAASS..iinndddd 77 1188//0066//1122 1122::3311 0000__PPRRIIMMEERRAASS PPAAGGIINNAASS..iinndddd 88 1188//0066//1122 1122::3311 1 Introducción Es innegable que la estadística se ha convertido en una herramienta funda- mental para la investigación en las ciencias sociales. Aunque nadie niegue tampoco que puedan realizarse estudios sobre el mundo humano que reco- jan y analicen datos sin necesidad de operaciones matemáticas, una parte considerable de análisis necesita aplicar conocimientos de esta rama del saber —aun siendo sólo de modo básico para contar ocurrencias o para extrapolar los resultados de una muestra al conjunto de elementos que se desea investigar. Hace cincuenta años todos los instrumentos que se disponían para las operaciones estadísticas eran el papel, el lápiz o bolígrafo y, en el mejor de los casos, una calculadora que había que enchufar a la red eléctrica y, sólo en los modelos más exclusivos, capaz de calcular raíces cuadradas. Desde entonces, dos desarrollos casi paralelos han cambiado las posibilidades de aplicación de la estadística a la investigación. Por un lado, el desarrollo de la informática, que ha puesto a disposición del bolsillo de los particulares la adquisición de un ordenador con capacidades de cálculo que antaño sólo estaban a disposición de multinacionales y organismos públicos, y, por el otro, la aparición de programas especializados en tareas estadísticas, que han permitido la ejecución de tareas de enorme complejidad a personas con escasos conocimientos matemáticos. De acuerdo con este panorama, este libro pretende ser un manual que permita a quien lo trabaje un uso aplicado y racional de las herramientas estadísticas usadas en la investigación social y, por extensión, a la investiga- ción biosanitaria o epidemiológica. Aunque el objetivo central de estas pági- nas es enseñar a utilizar un programa estadístico determinado —no muy distinto de otros que existen en el mercado—, esta obra también explica cuá- les son los requerimientos, los procedimientos y, ante todo, la interpretación de los resultados de aplicar técnicas estadísticas a un conjunto de datos. Por ello, los autores han pretendido conjuntar lo que sería una introducción a la estadística aplicada con un manual de iniciación a Stata. Stata es una aplicación estadística nacida en el año 1985 en el entorno Unix, e inmediatamente trasladada al sistema operativo DOS, Windows y, 0011__iinnttrroodduucccciióónn..iinndddd 99 1188//0066//1122 1122::3311