Modelos de Regress~ao Clarice Garcia Borges Dem(cid:19)etrio Departamento de Ci^encias Exatas, ESALQ, USP Caixa Postal 9 13418-900 Piracicaba, SP Email: [email protected] Fax: 019 34294346 S(cid:19)(cid:16)lvio Sandoval Zocchi Departamento de Ci^encias Exatas, ESALQ, USP Caixa Postal 9 13418-900 Piracicaba, SP Email: [email protected] Fax: 019 34294346 29 de mar(cid:24)co de 2011 ii Clarice G.B. Dem(cid:19)etrio & Silvio S. Zocchi Pref(cid:19)acio Estas notas s~ao resultantes de v(cid:19)arios anos de lecionamento da disciplina LCE Regress~ao e Covari^ancia, Agradecimentos Oa autores agradecem a todos que direta ou indiretamente contribu(cid:19)(cid:16)ram para a realiza(cid:24)c~ao desse texto. Sum(cid:19)ario 1 Conceitos gerais 1 1.1 Natureza das vari(cid:19)aveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1.1 Rela(cid:24)c~oes entre tipos de vari(cid:19)aveis e tipos de erros . . . . . . . . . . . . . . 2 1.1.2 Fun(cid:24)c~oes lineares e n~ao lineares (especi(cid:12)ca(cid:24)c~ao da fun(cid:24)c~ao f(.)) . . . . . . . 4 1.1.3 Tipos de modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.2 Diagramas de dispers~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.3 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.4 Exerc(cid:19)(cid:16)cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2 Regress~ao linear simples 19 2.1 Introdu(cid:24)c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.2 Modelo estat(cid:19)(cid:16)stico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.3 Estima(cid:24)c~ao dos par^ametros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.4 Uma forma alternativa para o modelo de regress~ao linear simples { Vari(cid:19)avel X centrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.5 An(cid:19)alise de vari^ancia e teste F . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 2.6 Estima(cid:24)c~ao por intervalo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 2.7 Testes de hip(cid:19)oteses para os par^ametros . . . . . . . . . . . . . . . . . . . . . . . 42 2.8 Exemplo de aplica(cid:24)c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 2.9 Regress~ao linear por anamorfose . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 2.10 Teste para falta de ajuste (ou teste de linearidade) . . . . . . . . . . . . . . . . . 48 2.11 Coe(cid:12)ciente de determina(cid:24)c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 2.12 Exerc(cid:19)(cid:16)cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 3 Regress~ao Linear Mu(cid:19)ltipla 69 3.1 Modelo estat(cid:19)(cid:16)stico - Nota(cid:24)c~ao matricial . . . . . . . . . . . . . . . . . . . . . . . 69 3.2 Estima(cid:24)c~ao dos par^ametros { M(cid:19)etodo dos quadrados m(cid:19)(cid:16)nimos . . . . . . . . . . 71 3.3 Nota(cid:24)c~ao matricial alternativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 3.4 An(cid:19)alise de vari^ancia e teste F . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 iii iv Clarice G.B. Dem(cid:19)etrio & Silvio S. Zocchi 3.5 Coe(cid:12)ciente de Determina(cid:24)c~ao Mu(cid:19)ltiplo . . . . . . . . . . . . . . . . . . . . . . . . 91 3.6 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 3.7 Exerc(cid:19)(cid:16)cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 4 An(cid:19)alise de Res(cid:19)(cid:16)duos e Diagn(cid:19)osticos 103 4.1 Introdu(cid:24)c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 4.2 Tipos de res(cid:19)(cid:16)duos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 4.3 Estat(cid:19)(cid:16)sticas para diagn(cid:19)osticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 4.4 Tipos de gr(cid:19)a(cid:12)cos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 4.5 Exemplo - Regress~ao linear simples . . . . . . . . . . . . . . . . . . . . . . . . . 114 4.6 Exemplo - Regress~ao linear mu(cid:19)ltipla . . . . . . . . . . . . . . . . . . . . . . . . . 118 4.7 Fam(cid:19)(cid:16)lia Box-Cox de tranforma(cid:24)c~oes . . . . . . . . . . . . . . . . . . . . . . . . . 118 4.8 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 4.9 Transforma(cid:24)c~ao e fun(cid:24)c~ao de liga(cid:24)c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . 133 4.10 Exerc(cid:19)(cid:16)cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 5 Correla(cid:24)c~oes lineares simples e parciais 143 5.1 Correla(cid:24)c~ao linear simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 5.1.1 Introdu(cid:24)c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 5.1.2 Distribui(cid:24)c~ao normal bidimensional . . . . . . . . . . . . . . . . . . . . . . 144 5.1.3 Momentos da distribui(cid:24)c~ao normal bivariada . . . . . . . . . . . . . . . . 146 5.1.4 Correla(cid:24)c~ao linear simples na popula(cid:24)c~ao . . . . . . . . . . . . . . . . . . . 147 5.1.5 Estima(cid:24)c~ao dos par^ametros da distribui(cid:24)c~ao normal bivariada . . . . . . . 148 5.1.6 Correla(cid:24)c~ao linear simples na amostra . . . . . . . . . . . . . . . . . . . . 148 5.1.7 Testes de hip(cid:19)oteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 5.1.8 Intervalo de con(cid:12)an(cid:24)ca para ρ. . . . . . . . . . . . . . . . . . . . . . . . . 151 5.2 Correla(cid:24)c~oes parciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 5.2.1 Introdu(cid:24)c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 5.2.2 De(cid:12)ni(cid:24)c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 5.2.3 Estimativa do coe(cid:12)ciente de correla(cid:24)c~ao parcial . . . . . . . . . . . . . . . 155 5.2.4 Testes de hip(cid:19)oteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156 5.3 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156 5.4 Exerc(cid:19)(cid:16)cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 6 M(cid:19)etodos de Sele(cid:24)c~ao de Vari(cid:19)aveis 171 6.1 Introdu(cid:24)c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 6.2 Crit(cid:19)erios usados na sele(cid:24)c~ao de vari(cid:19)aveis . . . . . . . . . . . . . . . . . . . . . . . 172 6.3 M(cid:19)etodos de sele(cid:24)c~ao de vari(cid:19)aveis . . . . . . . . . . . . . . . . . . . . . . . . . . . 174 Modelos de Regress~ao v 6.4 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176 6.5 Exerc(cid:19)(cid:16)cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179 7 Polin^omios Ortogonais 187 7.1 Introdu(cid:24)c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187 7.2 Constru(cid:24)c~ao dos polin^omios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189 7.3 An(cid:19)alise de Vari^ancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192 7.4 Dados com repeti(cid:24)c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193 7.5 Dados n~ao equidistantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194 7.6 Equival^encia das f(cid:19)ormulas obtidas e as usadas por Pimentel Gomes (2000) . . 194 7.7 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195 7.8 Exerc(cid:19)(cid:16)cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197 Cap(cid:19)(cid:16)tulo 1 Conceitos gerais 1.1 Natureza das vari(cid:19)aveis Um problema comum em Estat(cid:19)(cid:16)stica (cid:19)e o estudo da rela(cid:24)c~ao entre duas vari(cid:19)aveis X e Y, isto (cid:19)e, procura-se uma fun(cid:24)c~ao de X que explique Y X,Y → Y ≃ f(X). Em geral, a rela(cid:24)c~ao n~ao (cid:19)e perfeita. Os pontos n~ao se situam perfeitamente sobre a fun(cid:24)c~ao que relaciona as duas vari(cid:19)aveis. Mesmo se existe uma rela(cid:24)c~ao exata entre as vari(cid:19)aveis comotemperaturaepress~ao,(cid:13)utua(cid:24)c~oesemtornodacurvaaparecer~aodevidoaerrosdemedidas. Frequ(cid:127)entemente, o tipo de curva a ser ajustada (cid:19)e sugerido por evid^encia emp(cid:19)(cid:16)rica ou por argumentos te(cid:19)oricos. O modelo a ser adotado depende de v(cid:19)arios fatores, por exemplo, natureza das vari(cid:19)aveis, rela(cid:24)c~ao linear ou n~ao, homogeneidade de vari^ancias ou n~ao, tipos de erros, independ^encia dos erros etc. A natureza das vari(cid:19)aveis X e Y pode variar, isto (cid:19)e, elas podem ser (cid:12)xas (ou contro- ladas) ou aleat(cid:19)orias. Al(cid:19)em disso, ambas podem ser medidas com ou sem erro (de mensura(cid:24)c~ao). De forma esquem(cid:19)atica, tem-se: { com erro (cid:12)xa sem erro X { com erro aleat(cid:19)oria sem erro { com erro (cid:12)xa sem erro Y { com erro aleat(cid:19)oria sem erro 1 2 Clarice G.B. Dem(cid:19)etrio & Silvio S. Zocchi o que sugere 16 combinac(cid:24)~oes poss(cid:19)(cid:16)veis entre X e Y. Assim, por exemplo, se • X representa a vari(cid:19)avel sexo, ela (cid:19)e uma vari(cid:19)avel de classi(cid:12)ca(cid:24)c~ao, (cid:12)xa, medida sem erro, que pode assumir o valor 0, se feminino, ou 1 se masculino ou vice-versa; • X representa um nu(cid:19)mero ((cid:12)xado) de frutos (2, 3, 4) por ramo em um determinado ano e Y, o nu(cid:19)mero de gemas (cid:13)or(cid:19)(cid:16)feras nos mesmos ramos no ano seguinte, tem-se que X (cid:19)e (cid:12)xa, sem erro e Y (cid:19)e aleat(cid:19)oria, sem erro de mensura(cid:24)c~ao; • X representa as quantidades 30, 60 e 90kg de nitrog^enio/ha colocadas no solo, ela (cid:19)e (cid:12)xa, possivelmente, medida com erro; • X representa quantidades de nitrog^enio no solo e Y quantidades de nitrog^enio na planta, ambas s~ao aleat(cid:19)orias, possivelmente, medidas com erro. Pode-se, por(cid:19)em, controlar X por meio da especi(cid:12)ca(cid:24)c~ao de determinadas caracter(cid:19)(cid:16)sticas do solo. 1.1.1 Rela(cid:24)c~oes entre tipos de vari(cid:19)aveis e tipos de erros (i) Considerando-se X (cid:12)xa (ou controlada), tem-se: X = X +e CE CS X sendo X : X controlada, medida com erro CE X : X controlada, medida sem erro CS e : erro de medida em X. X Como exemplos, t^em-se doses de pesticidas, de adubos etc. (ii) Considerando-se Y (cid:12)xa (ou controlada), tem-se Y = Y +e CE CS Y sendo Y : Y controlada, medida com erro CE Y : Y controlada, medida sem erro CS e : erro de medida em Y. Y Modelos de Regress~ao 3 (iii) Considerando-se que X (cid:19)e uma vari(cid:19)avel aleat(cid:19)oria com distribui(cid:24)c~ao de m(cid:19)edia µ , tem-se: X X = µ +ε AS X X e X = µ +ε +e = X +e AE X X X AS X sendo X : X aleat(cid:19)oria, medida com erro AE X : X aleat(cid:19)oria, medida sem erro AS ε (cid:19)e erro aleat(cid:19)orio X e (cid:19)e erro de mensura(cid:24)c~ao. X Como exemplos, t^em-se quantidades de nutrientes encontradas no solo. (iv) Considerando-se que Y (cid:19)e uma vari(cid:19)avel aleat(cid:19)oria com distribui(cid:24)c~ao de m(cid:19)edia µ , tem-se: Y Y = µ +ε AS Y Y e Y = µ +ε +e = Y +e AE Y Y Y AS Y sendo Y : Y aleat(cid:19)oria, medida com erro AE Y : Y aleat(cid:19)oria, medida sem erro AS ε (cid:19)e erro aleat(cid:19)orio Y e (cid:19)e erro de mensura(cid:24)c~ao. Y Como exemplos, t^em-se quantidades de nutrientes encontradas na planta, medidas de comprimento, peso, volume etc. Na maior parte dos casos, tanto X como Y s~ao medidas com erros e o que se pro- cura fazer (cid:19)e tornar esses erros desprez(cid:19)(cid:16)veis. Apenas como exemplos, sejam alguns casos das 16 combina(cid:24)c~oes poss(cid:19)(cid:16)veis entre X e Y. Caso 1: Y vs X (Y controlado sem erro versus X controlado sem erro). CS CS Esse (cid:19)e um problema matem(cid:19)atico (modelo determin(cid:19)(cid:16)stico) em que Y = f(X). Como exemplo, tem-se a lei f(cid:19)(cid:16)sica: E = rJ 4 Clarice G.B. Dem(cid:19)etrio & Silvio S. Zocchi sendo E, tens~ao, J, intensidade da corrente e r, resist^encia. Se, por(cid:19)em, forem observados n pares de valores E, J, as medidas observadas depen- der~ao da precis~ao dos equipamentos, estando, portanto, sujeitas a erros, e pode-se estimar r por meio de uma equa(cid:24)c~ao de regress~ao que passa pela origem. Caso 2: Y vs X (Y controlada com erro versus X controlada sem erro). CE CS Nesse caso, a vari(cid:19)avel Y est(cid:19)a afetada por apenas um tipo de erro, isto (cid:19)e, Y = f(X )+e . CE CS Y Em geral, considera-se que E(e ) = 0, e portanto, Y E(Y ) = f(X ). CE CS Caso 3: Y vs X (Y aleat(cid:19)oria sem erro versus X controlada sem erro). AS CS Nesse caso, tamb(cid:19)em, a vari(cid:19)avel Y est(cid:19)a afetada por apenas um tipo de erro, isto (cid:19)e, Y = f(X )+ε = µ +ε . AS CS Y Y Y Caso 4: Y vs X (Y aleat(cid:19)oria com erro versus X controlada sem erro). AE CS Nesse caso, a vari(cid:19)avel Y est(cid:19)a afetada por dois tipos de erros, isto (cid:19)e, Y = f(X )+ε +e = µ +ε +e AE CS Y Y Y Y Y se a fun(cid:24)c~ao f(.) for conhecida. Se f(.) n~ao (cid:19)e conhecida, ou quando Y (cid:19)e afetada por k vari(cid:19)aveis, isto (cid:19)e, Y = g(X,X ,X ,··· ,X )+ε +e 1 2 k Y Y sendo g(X,X ,X ,··· ,X ) = f(X)+h(X ,X ,··· ,X ), pode-se ter 1 2 k 1 2 k Y = f(X )+ξ +ε +e = µ +ξ +ε +e CS Y Y Y Y Y Y Y em que ξ (cid:19)e o erro devido (cid:18)a n~ao considera(cid:24)c~ao de todas as vari(cid:19)aveis que afetam Y, isto(cid:19)e, tem-se, Y tamb(cid:19)em, um erro de especi(cid:12)ca(cid:24)c~ao do modelo. 1.1.2 Fun(cid:24)c~oes lineares e n~ao lineares (especi(cid:12)ca(cid:24)c~ao da fun(cid:24)c~ao f(.)) Nosestudosderegress~aobusca-serelacionarumavari(cid:19)avelaleat(cid:19)oriaY comumaoumaisvari(cid:19)aveis X’s, especi(cid:12)cando-se a fun(cid:24)c~ao f(.). Quando Y depende apenas de uma vari(cid:19)avel X, isto (cid:19)e, Y = f(X,β ,β ,··· ,β )+ε 0 1 k Y tem-se que f(.) (cid:19)e linear nos par^ametros β ,β ,··· ,β se 0 1 k ∂f = h(X),i = 0,1,··· ,k, ∂β i Modelos de Regress~ao 5 sendo h(X) dependente apenas de X. Outro caso comum (cid:19)e considerar Y = f(X ,X ,··· ,X ,β ,β ,··· ,β )+ε 1 2 k 0 1 k Y que (cid:19)e linear nos par^ametros se ∂f = h(X ,X ,··· ,X ), 1 2 k ∂β i ∂f isto (cid:19)e, h(.) depende apenas de X ,X ,··· ,X . Se pelo menos uma das derivadas parciais 1 2 k ∂β i depende de pelo menos um dos par^ametros, ent~ao, f(.)(cid:19)e uma fun(cid:24)c~ao n~ao linear dos par^ametros. Como exemplos de fun(cid:24)c~oes lineares, t^em-se: ∂f (i) f(X,β ) = β , pois, = 1, 0 0 ∂β 0 ∂f ∂f (ii) f(X,β ,β ) = β +β X, pois, = 1 e = X, 0 1 0 1 ∂β ∂β 0 1 1 ∂f ∂f 1 (iii) f(X,β ,β ) = β +β , pois, = 1 e = , 0 1 0 1 X ∂β ∂β X 0 1 (iv) f(X ,X ,X ,β ,β ,β ,β ) = β +β X +β X +β X , 1 2 3 0 1 2 3 0 1 1 2 2 3 3 ∂f ∂f ∂f ∂f pois, = 1, = X , = X e = X , 1 2 3 ∂β ∂β ∂β ∂β 0 1 2 3 (v) f(X,β ,β ,β ,β ) = β +β X +β X2 +β X3, 0 1 2 3 0 1 2 3 ∂f ∂f ∂f ∂f pois, = 1, = X, = X2 e = X3 ∂β ∂β ∂β ∂β 0 1 2 3 ∂f ∂f (vi) f(X,β ,β ) = β +β log(X), pois, = 1 e = log(X). 0 1 0 1 ∂β ∂β 0 1 Como exemplos de fun(cid:24)c~oes n~ao lineares, podem ser citadas: (i) f(X,β ,β ,β ) = β sen(β X +β ), 0 1 2 0 1 2 ∂f ∂f ∂f pois, = sen(β X +β ), = β Xcos(β X +β ) e = β cos(β X +β ), 1 2 0 1 2 0 1 2 ∂β ∂β ∂β 0 1 2 (ii) f(X,β ,β ,β ) = β +β e(cid:12)2X, 0 1 2 0 1 ∂f ∂f ∂f pois, = 1, = e(cid:12)2X e = β Xe(cid:12)2X 1 ∂β ∂β ∂β 0 1 2 β +β X 0 1 (iii) f(X,β ,β ,β ) = , 0 1 2 1+β X 2 ∂f 1 ∂f X ∂f (β +β X)X pois, = , = e = − 0 1 . ∂β 1+β X ∂β 1+β X ∂β (1+β X)2 0 2 1 2 2 2
Description: