Regresión y Análisis de Varianza V. NúñezAntón y F. Tusell1 18deseptiembrede2007 1 c F.TusellyV.Núñez.Laúltimaversióndeestedocumento,quizáposterioraésta,puede (cid:13) habitualmente encontrarse en http://www.et.bs.ehu.es/ etptupaf.Estas notas, o la versión más moderna en la ubicación citada, pueden reproducirse libremente por alumnos deEstadistica:ModelosLineales(P33)parasuusoprivado.Todaotrareproducciónrequiereel consentimientoprevioyporescritodelosautores. II Índice general Introducción XI I RegresiónLineal 1 1. Elmodeloderegresiónlineal. 3 1.1. Planteamientodelproblema. . . . . . . . . . . . . . . . . . . . . . . 3 1.2. Notación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.3. Supuestos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.4. MCOcomoaproximaciónvectorial . . . . . . . . . . . . . . . . . . 7 1.5. Proyecciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2. Estimaciónmínimocuadrática. 15 2.1. Estimacióndelosparámetros. . . . . . . . . . . . . . . . . . . . . . 15 2.2. Propiedadesdelestimadormínimocuadrático. . . . . . . . . . . . . . 18 2.3. Estimacióndelavarianzadelaperturbación. . . . . . . . . . . . . . 20 2.4. ElcoeficienteR2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.5. Algunoslemassobreproyecciones.. . . . . . . . . . . . . . . . . . . 23 3. Identificación.Estimacióncondicionada. 31 3.1. Modelosconmatrizdediseñoderangodeficiente.. . . . . . . . . . . 31 3.2. Estimacióncondicionada. . . . . . . . . . . . . . . . . . . . . . . . . 33 4. Regresiónconperturbacionesnormales. 39 4.1. Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 4.2. Contrastedehipótesislineales. . . . . . . . . . . . . . . . . . . . . . 45 4.2.1. Contrastesobrecoeficientesβ aislados. . . . . . . . . . . . . 48 i 4.2.2. Contrastedesignificaciónconjuntadelaregresión. . . . . . . 48 4.3. Intervalosdeconfianzaparalapredicción . . . . . . . . . . . . . . . 51 5. Especificacióninadecuadadelmodelo 53 5.1. Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 5.2. Inclusiónderegresoresirrelevantes. . . . . . . . . . . . . . . . . . . 53 5.3. Omisiónderegresoresrelevantes. . . . . . . . . . . . . . . . . . . . 55 5.4. Consecuenciasdeordenpráctico . . . . . . . . . . . . . . . . . . . . 56 III IV ÍNDICEGENERAL 6. Inferenciasimultánea. 59 6.1. Problemasqueplanteaelcontrastarmúltipleshipótesissimultáneas . 59 6.1.1. Evidenciacontraunahipótesis . . . . . . . . . . . . . . . . . 59 6.1.2. ¿Cómode“raro”hadeseralgoparaserrealmente“raro”? . . 60 6.1.3. Análisisexploratorioeinferencia . . . . . . . . . . . . . . . 61 6.1.4. Inferenciasimultáneaymodeloderegresiónlinealordinario . 61 6.2. DesigualdaddeBonferroni. . . . . . . . . . . . . . . . . . . . . . . . 63 6.3. Intervalosdeconfianzabasadosenlamáximat. . . . . . . . . . . . . 63 6.4. MétodoSdeScheffé. . . . . . . . . . . . . . . . . . . . . . . . . . . 64 6.5. Empleodemétodosdeinferenciasimultánea. . . . . . . . . . . . . . 68 7. Multicolinealidad. 71 7.1. Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 7.2. Caracterizacióndeformaslinealesestimables. . . . . . . . . . . . . . 72 7.3. Varianzaenlaestimacióndeunaformalineal. . . . . . . . . . . . . . 73 7.4. Elecciónóptimadeobservacionesadicionales∗. . . . . . . . . . . . . 74 7.5. Deteccióndelamulticolinealidadaproximada . . . . . . . . . . . . . 77 8. Regresiónsesgada. 79 8.1. Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 8.2. Regresiónridge. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 8.2.1. Errorcuadráticomediodelestimadormínimocuadráticoordi- nario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 8.2.2. Clasedeestimadoresridge . . . . . . . . . . . . . . . . . . . 80 8.2.3. Eleccióndek . . . . . . . . . . . . . . . . . . . . . . . . . . 83 8.2.4. Comentariosadicionales . . . . . . . . . . . . . . . . . . . . 84 8.3. Regresiónencomponentesprincipales.. . . . . . . . . . . . . . . . . 86 8.3.1. Descripcióndelestimador . . . . . . . . . . . . . . . . . . . 86 8.3.2. Estrategiasdeseleccióndecomponentesprincipales . . . . . 88 8.3.3. Propiedadesdelestimadorencomponentesprincipales . . . . 89 8.4. Regresiónenraíceslatentes∗. . . . . . . . . . . . . . . . . . . . . . . 93 9. Evaluacióndelajuste.Diagnósticos. 99 9.1. Análisisderesiduos. . . . . . . . . . . . . . . . . . . . . . . . . . . 99 9.1.1. Residuosinternamentestudentizados. . . . . . . . . . . . . . 100 9.1.2. Residuosexternamentestudentizados. . . . . . . . . . . . . . 101 9.1.3. ResiduosBLUS. . . . . . . . . . . . . . . . . . . . . . . . . 102 9.1.4. Residuosborrados. . . . . . . . . . . . . . . . . . . . . . . . 102 9.2. Análisisdeinfluencia.. . . . . . . . . . . . . . . . . . . . . . . . . . 103 9.2.1. Lacurvadeinfluenciamuestral. . . . . . . . . . . . . . . . . 105 9.2.2. DistanciadeCook. . . . . . . . . . . . . . . . . . . . . . . . 106 9.2.3. DFFITS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 9.2.4. DFBETAS. . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 9.3. Análisisgráficoderesiduos . . . . . . . . . . . . . . . . . . . . . . . 107 9.3.1. Gráficosderesiduosfrenteaíndicedeobservación(i,ǫˆ) . . . 107 i 9.3.2. Gráficosderesiduosfrenteavariablesincluidas(x ,ˆǫ ) . . . 107 ij i 9.3.3. Gráficosderesiduosfrenteavariablesexcluidas(x∗ ,ǫˆ) . . . 107 ij i 9.3.4. Gráficosdevariableañadida(ǫˆ ,ˆǫ ) . . . . . . . . 107 Y|X−j Xj|X−j 9.3.5. Gráficosdenormalidadderesiduos . . . . . . . . . . . . . . 108 9.3.6. Gráficosderesiduosordinariosfrentearesiduosborrados(d ,ǫˆ)110 i i ÍNDICEGENERAL V 10.Seleccióndemodelos. 111 10.1.Criteriosparalacomparación. . . . . . . . . . . . . . . . . . . . . . 111 2 10.1.1. MaximizacióndeR . . . . . . . . . . . . . . . . . . . . . . . 111 p 10.1.2. CriterioC deMallows. . . . . . . . . . . . . . . . . . . . . 113 p 10.1.3. CriterioAIC . . . . . . . . . . . . . . . . . . . . . . . . . . 115 10.1.4. Residuosborradosyvalidacióncruzada . . . . . . . . . . . . 115 10.1.5. Complejidadestocásticaylongituddedescripciónmínima∗ . 117 10.2.Seleccióndevariables. . . . . . . . . . . . . . . . . . . . . . . . . . 117 10.2.1. Regresiónsobretodoslossubconjuntosdevariables. . . . . . 118 10.2.2. Regresiónescalonada(stepwiseregression). . . . . . . . . . . 118 10.3.Modelosbienestructuradosjerárquicamente . . . . . . . . . . . . . . 119 11.Transformaciones 123 11.1.Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 11.2.Transformacionesdelosregresores. . . . . . . . . . . . . . . . . . . 123 11.2.1. Gráficosderesiduosfrentearegresores . . . . . . . . . . . . 124 11.2.2. TransformacionesdeBox-Tidwell . . . . . . . . . . . . . . . 124 11.3.Transformacionesdelavariablerespuesta . . . . . . . . . . . . . . . 125 11.3.1. Generalidades. . . . . . . . . . . . . . . . . . . . . . . . . . 125 11.3.2. LatransformacióndeBox-Cox. . . . . . . . . . . . . . . . . 126 12.Regresiónconrespuestacualitativa 129 12.1.Elmodelologit. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 12.1.1. Interpretacióndeloscoeficientes. . . . . . . . . . . . . . . . 131 12.1.2. Laimportanciadeldiseñomuestral . . . . . . . . . . . . . . 132 12.1.3. Estimación . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 12.1.4. Contrastesyseleccióndemodelos . . . . . . . . . . . . . . . 133 II Análisisde Varianza 141 13.Análisisdevarianzaconefectosfijos. 143 13.1.Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 13.2.Análisisdevarianzaequilibradoconuntratamiento.. . . . . . . . . . 144 13.2.1. Contrastedehipótesis. . . . . . . . . . . . . . . . . . . . . . 148 13.2.2. Distribucióndelrecorridostudentizado. . . . . . . . . . . . . 149 13.2.3. Búsquedadediferenciassignificativas. . . . . . . . . . . . . 149 13.3.Aleatorización.Factoresdebloque . . . . . . . . . . . . . . . . . . . 151 14.Análisisdevarianzacondosytrestratamientos. 157 14.1.Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 14.2.Modeloaditivo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 14.3.Modeloconinteracción. . . . . . . . . . . . . . . . . . . . . . . . . 159 14.4.Aleatorizacióndelaexperimentación . . . . . . . . . . . . . . . . . 164 14.5.Análisisdevarianzaequilibradocontrestratamientos. . . . . . . . . 164 VI ÍNDICEGENERAL 15.Otrosdiseños. 171 15.1.Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 15.2.Modelosnocompletos.Cuadradoslatinos. . . . . . . . . . . . . . . . 171 15.3.Modelosdeordensuperior. . . . . . . . . . . . . . . . . . . . . . . . 173 15.4.Modelosanidados. . . . . . . . . . . . . . . . . . . . . . . . . . . . 174 15.5.Modelosdebloquesaleatorizados. . . . . . . . . . . . . . . . . . . . 175 15.6.Otrosmodelos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 A. AlgunosresultadosenAlgebraLineal. 179 B. Algunosprerrequisitosestadísticos. 181 B.1. Distribucionesχ2y descentradas . . . . . . . . . . . . . . . . . . 181 F B.2. Estimaciónmáximoverosímil . . . . . . . . . . . . . . . . . . . . . 182 B.3. Contrasterazóngeneralizadadeverosimilitudes . . . . . . . . . . . . 182 C. RegresiónenS-PLUSyR. 185 C.1. ElsistemaestadísticoygráficoS-PLUS . . . . . . . . . . . . . . . . 185 C.2. ElsistemaestadísticoygráficoR . . . . . . . . . . . . . . . . . . . . 185 C.2.1. Lafunciónlsfit. . . . . . . . . . . . . . . . . . . . . . . . 187 C.2.2. Lafunciónleaps. . . . . . . . . . . . . . . . . . . . . . . . 188 C.2.3. Lafunciónhat. . . . . . . . . . . . . . . . . . . . . . . . . 188 C.2.4. Dataframes. . . . . . . . . . . . . . . . . . . . . . . . . . . 188 C.2.5. Lafunciónlm. . . . . . . . . . . . . . . . . . . . . . . . . . 189 C.2.6. Lafunciónlm.influence. . . . . . . . . . . . . . . . . . 190 C.2.7. Lafunciónls.diag. . . . . . . . . . . . . . . . . . . . . . 190 C.3. CorrespondenciadefuncionespararegresiónyANOVAenS-PLUSyR 191 D. Procedimientosdecálculo. 193 D.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193 D.2. Transformacionesortogonales. . . . . . . . . . . . . . . . . . . . . . 193 D.3. FactorizaciónQR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196 D.4. Bibliografía . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198 Índice de figuras 1.1. OldFaithfulGeyser:datosde272erupciones. . . . . . . . . . . . . . 4 1.2. Elvector~a eslaproyecciónde~b sobreM. . . . . . . . . . . . . . . 8 2.1. Xβˆeslaproyecciónde~y sobreM.R2 =cos2α . . . . . . . . . . . 21 2.2. Enunajustesintérminoconstante,lapendientedependedelaelección arbitrariadelorigen . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 3.1. RegresiónenelcasodematrixX derangodeficiente. . . . . . . . . . 32 8.1. TrazasridgeyGVCparalosdatoslongley . . . . . . . . . . . . . 87 9.1. Una observación como a tiene residuo borrado muy grande, y gran influenciaenlapendientedelarectaderegresión. . . . . . . . . . . . 104 9.2. Gráficosparacontrastedenormalidad . . . . . . . . . . . . . . . . . 109 2 10.1.ValoresdeC yR para141modelosajustadosalosdatosUScrime 120 p 11.1.Disposiciónderesiduossugiriendounatransformacióncuadráticadel regresorX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 i D.1. VisualizacióndelatransformacióndeHouseholder. . . . . . . . . . . 195 VII VIII ÍNDICEDEFIGURAS Índice de cuadros 13.1.Análisisdevarianzaconuntratamiento. . . . . . . . . . . . . . . . . 150 14.1.AnálisisdeVarianzacondostratamientosreplicados(modeloaditivo). 160 14.2.AnálisisdeVarianzaequilibradocondostratamientosreplicados(mo- deloconinteracción) . . . . . . . . . . . . . . . . . . . . . . . . . . 163 14.3.AnálisisdeVarianzaequilibradocontrestratamientosreplicados(mo- delonoaditivodesegundoorden) . . . . . . . . . . . . . . . . . . . 166 14.4.AnálisisdeVarianzaequilibradocontrestratamientosreplicados(mo- delonoaditivodesegundoorden).Continuación. . . . . . . . . . . . 167 15.1.AnálisisdeVarianza.CuadradoLatino. . . . . . . . . . . . . . . . . 173 15.2.AnálisisdeVarianza.BloquesAleatorizados. . . . . . . . . . . . . . 176 C.1. EquivalenciadefuncionespararegresiónyANOVAenS-PLUSyR. . 191 IX X ÍNDICEDECUADROS
Description: