INTRODUCCiÓN AL ANÁLISIS DE REGRESiÓN LINEAL INTRODUCCiÓN AL ANÁLISIS DE REGRESiÓN LINEAL TERCERA EDICIÓN EN INGLÉS (PRIMERA EDICIÓN EN ESPAÑOL) DOUGLAS C. MONTGOMERY Arizona State University ELIZABETH A. PECK The Coca Cola Company G. GEOFFREY VINING Virginia Tech TERCERA REIMPRESIÓN MÉXICO, 2006 COMPAÑÍA EDITORIAL CONTINENTAL Para establecer comunicación con nosotros puede hacerlo por: correo: Renacimiento 180, Col. San Juan / Tlihuaca, Azcapotzalco, 02400, México, D.F. / fax pedidos: (01 55) 5561 4063' 5561 5231 e-mail: [email protected] home page: www.patriacultural.com.mx Título original de la obra: IllIroduclioll lo linear regression analysis / Douglas C. Montgomery Copyright @ 200 I Jolm Wiley & Sons, Inc. AII rights reserved ISBN 0-471-31565-6 Dirección editorial: Javier Enrique Callejas Coordinadora de edición: Elisa Pecina Rosas Diseño de interiores: Guillermo Rodríguez Luna Diseño de portada: Enrique Román Esnaurrízar Traducción: Ing. Virgilio González Pozo Perito traductor Revisión técnica: Ph. D. César Acosta Mejía Profesor titular Departamento de Ingeniería Industrial, ITAM II/Iroducción al análisis de regresión lineal Derechos reservados respecto a la primera edición en español: © 2002, Douglas C. Montgomery / Elizabeth A. Peck / G. Geoffrey Vining © 2002, GRUPO PATRIA CULTURAL, S.A. DE C.V. bajo el sello de Compañía Editorial Continental Renacimiento 180, Colonia San Juan Tlihuaca, Delegación AzcapotzaJco, Código Postal 02400, México, D.F. Miembro de la Cámara Nacional de la Industria Editorial Registro núm. 43 ISBN 970-24-0327-8 Queda prohibida la reproducción o transmisión total o parcial del contenido de la presente obra en cualesquiera formas, sean electrónicas o mecánicas, sin el consentimiento previo y por escrito del editor. Impreso en México Printed in Mexico Primera edición: 2002 Segunda reimpresión: 2005 Tercera reimpresión: 2006 CONTENIDO Prefacio xiii 1. Introducción 1 1.1 Regresión y formación de modelos 1 1.2 Recolección de datos 6 1.3 Usos de la regresión 9 1.4 El papel de la computadora 10 2. Regresión lineal simple 13 2.1 Modelo de regresión lineal simple 13 2.2 Estimación de los parámetros por mínimos cuadrados 13 2.2.1 Estimación de f3u y f31 14 2.2.2 Propiedades de los estimadores por mínimos cuadrados y el modelo ajustado de regresión 19 2.2.3 Estimación de ()2 21 2.2.4 Una forma alterna del modelo 23 2.3 Prueba de hipótesis de la peildiente y de la ordenada al origen 23 2.3.1 Uso de pruebas t 24 2.3.2 Prueba del significado de la regresión 25 2.3.3 Análisis de varianza 27 2 4 Estimación de intervalo en la regresión lineal simple 30 2.4.1 Iutervalos de confianza de f3o, f31 y ()2 30 2.4.2 Estimación de intervalos de la respuesta media 32 2.5 Predicción de nuevas observaciones 35 2.6 Coeficiente de determinación 37 2.7 Algunas consideraciones sobre el uso de la regresión 38 2.8 Regresión por el origen 41 2.9 Estimación por máxima verosimilitud 46 2.10 Caso en el que el regresor x es aleatorio 48 2.10.1 Distribución conjunta de x y y 48 2.10.2 Distribución normal conjunta de x y y: el modelo de correlación 49 Problemas 54 v vi CONTENIDO 3. Regresión lineal múltiple 61 3.1 Modelo de regresión múltiple 61 3.2 Estimación de los modelos del parámetro 65 3.2.1 Estimación de los coeficientes de regresión por mínimos cuadrados 65 3.2.2 Interpretación geométrica de mínimos cuadrados 72 3.2.3 Propiedades de los estimadores de mínimos cuadrados 74 3.2.4 Estimación de (j2 74 3.2.5 Inadecuación de los diagramas de dispersión en regresión múltiple 76 3.2.6 Estimación de máxima posibilidad 77 3.3 Prueba de hipótesis en regresión lineal múltiple 78 3.3.1 Pruebas de la significancia de la regresión 79 3.3.2 Pruebas sobre coeficientes individuales de regresión 82 li 3.3.3 Caso especial de columnas ortogonales en X 87 .1 3.3.4 Prueba de la hipótesis general lineal 89 3.4 Intervalos de confianza en regresión múltiple 92 3.4.l Intervalos simultáneos de confianza para coeficientes de regresión 92 3.4.2 Estimación del intervalo de confianza de la respuesta media 93 3.4.3 Intervalos de confianza simultáneos de coeficientes de regresión 94 3.5 Predicción de nuevas observaciones 98 3.6 Extrapolación oculta en la regresión múltiple 99 3.7 Coeficientes normalizados de regresión 102 3.8 Multicolinealidad 106 3.9 ¿Por qué los coeficientes de regresión tienen signo incorrecto? 108 Problemas 111 4. Comprobación de la adecuación del modelo 117 4.1 Introducción 117 4.2 Análisis de residuales 117 4.2.1 Definición de residuales 117 4.2.2 Métodos para escalar residuales 118 4.2.3 Gráficas de residuales 122 4.2.4 Gráficas de regresión parcial y de residuales parciales 131 4.2.5 Otras gráficas de residuales y métodos de análisis 133 4.3 La estadística PRESS 136 4.4 Detección y tratamiento de puntos atípicos 137 4.5 Falta de ajuste del modelo de regresión 141 4.5.1 Una prueba formal de falta de ajuste 141 4.5.2 Estimación del error puro a partir de vecinos próximos 145 Problemas 148 vii CONTENIDO 61 5. Transformaciones y ponderación para corregir inadecuaciones del modelo 155 61 5.1 Introducción 155 65 5.2 Transformaciones estabilizadoras de la varianza 156 5.3 Transformaciones para linealizar el modelo 159 65 5.4 Métodos analíticos para seleccionar una transformación 166 72 5.4.1 Transformaciones de y: el método de Box-Cox 166 74 5.4.2 Transformaciones de las variables regresoras 170 74 5.5 Mínimos cuadrados generalizados y ponderados 172 5.5.1 Mínimos cuadrados generalizados 173 76 5.5.2 Mínimos cuadrados ponderados 174 77 5.5.3 Algunos asuntos prácticos 175 78 Problemas 179 79 82 6. Diagnóstico para balanceo e influencia 185 87 6.1 Importancia de detectar observaciones influyentes 185 89 6.2 Balanceo 186 92 6.3 Medidas de influencia: La D de Cook 188 92 6.4 Medidas de influencia: DFFITS yDFBETAS 191 93 6.5 Una medida de eficiencia del modelo 193 94 6.6 Detección de grupos de observaciones influyentes 194 98 6.7 Tratamiento de observaciones influyentes 195 99 Problemas 195 102 106 7. Modelos polinomiales de regresión 197 108 7.1 Introducción 197 111 7.2 Modelos polinomiales en una variable 197 117 7.2.1 Principios básicos 197 117 7.2.2 Ajuste polinomial por segmentos (SPLINE) 203 117 7.2.3 Términos polinomiales y trigonométricos 211 117 7.3 Regresión no paramétrica 211 118 7.3.1 Regresión Kemel 212 122 7.3.2 Regresión ponderada localmente (Loess) 213 131 7.3.3 Precauciones finales 217 133 7.4 Modelos polinomiales con dos o más variables 217 136 7.5 Polinomios ortogonales 226 137 Problemas 230 141 141 8. Variables indicadoras 237 145 8.1 El concepto general de las variables indicadoras 237 148 viii CONTENIDO 8.2 Comentarios sobre el uso de variables indicadoras 249 8.2.1 Variables indicadoras en función de la regresión con códigos asignados 249 8.2.2 Variables indicadoras como sustitutos de un regresor cuantitativo 250 8.3 Método de regresión para análisis de varianza 251 Problemas 256 9. Selección de variable y formación el modelo 261 C).1 Introducción 261 9.1.1 El problema de la constrl'cción del modelo 261 9.1.2 Consecuencias de la mala especificación del modelo 262 9.1.3 Criterios para evaluar modelos de regresión con subconjuntos de variables 265 9.2 Técnicas computacionales para seleccionar variables 271 9.2 . .!. Todas las regresiones posibles 271 9.2.2 Métodos de regresión por segmentos 277 9.3 Algunas recomendaciones finales para la práctica 284 Problemas 285 10. Multicclinealidad 291 10.1 Introducción 291 10.2 Fuentes de multicolinealidad 291 10.3 Efectos de la multicolinealidad 294 10.4 Diagnóstico de multicolinealidad 299 10.4.1 Examen de la matriz de conelación 299 10.4.2 Factores de inflación de varianza 302 10.4.3 Análisis del eigensistema de X'X 303 10.4.4 Otros diagnósticos 307 10.5 Mét0dos de manejar la multicolinealidad 308 10.5.1 Recolección de datos adicionales 309 10.5.2 Reespecifir:ación del modelo 309 10.5.3 Regresión Ridge 311 10.5.4 Otros métodos 327 10.5.5 Comparación y evaluación de estimadores sesgados 337 Problemas 339 11. Regresión robusta 343 11.1 La necesidad de una regresión robusta 343 11.2 Estimadores M 346 11.3 Fropiedades de' los estimadores robustos 359