An´alise de dados longitudinais Vers˜ao parcial preliminar junho 2018 Julio M. Singer Juvˆencio S. Nobre Francisco Marcelo M. Rocha Departamento de Estat´ıstica Universidade de S˜ao Paulo Rua do Mata˜o, 1010 Sa˜o Paulo, SP 05508-090 Brasil Conteu´do 1 Introdu¸c˜ao 1 1.1 Conceitos ba´sicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.3 Ana´lise descritiva e medidas resumo . . . . . . . . . . . . . . . . . . . 24 1.3.1 An´alise do comportamento de perfis . . . . . . . . . . . . . . . 29 1.3.2 An´alise de desfecho . . . . . . . . . . . . . . . . . . . . . . . . 30 1.3.3 An´alise da a´rea sob a curva . . . . . . . . . . . . . . . . . . . 32 1.4 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 2 Modelos lineares para dados gaussianos 39 2.1 Introdu¸ca˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.2 Modelos para a estrutura de covariaˆncia . . . . . . . . . . . . . . . . 42 2.3 Inferˆencia por ma´xima verossimilhan¸ca . . . . . . . . . . . . . . . . . 46 2.4 Solu¸ca˜o das equac¸˜oes de estima¸c˜ao . . . . . . . . . . . . . . . . . . . 54 2.5 Diagno´stico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 2.5.1 An´alise de res´ıduos . . . . . . . . . . . . . . . . . . . . . . . . 64 2.5.2 An´alise de influˆencia global . . . . . . . . . . . . . . . . . . . 67 2.5.3 An´alise de influˆencia local . . . . . . . . . . . . . . . . . . . . 73 2.6 Notas de cap´ıtulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 2.7 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 3 Modelos para dados n˜ao gaussianos 77 3.1 Modelos elipticamente sim´etricos e assim´etricos . . . . . . . . . . . . 77 3.2 Modelos lineares generalizados mistos (GLMM) . . . . . . . . . . . . 82 ´ ´ CONTEUDO CONTEUDO 3.3 Modelos baseados em equa¸co˜es de estimac¸˜ao generalizadas (GEE) . . 89 3.4 Modelos para dados categorizados . . . . . . . . . . . . . . . . . . . . 93 3.5 Modelos n˜ao param´etricos para ana´lise de perfis . . . . . . . . . . . . 93 3.5.1 O modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 3.6 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 3.7 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 4 T´opicos especiais 105 4.1 Dados omissos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 4.2 Planejamento e tamanho de amostras . . . . . . . . . . . . . . . . . . 105 4.3 Modelos n˜ao-lineares . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 5 An´alise de dados 107 5.1 Estrat´egias de ana´lise . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 5.2 Implementa¸c˜ao computacional . . . . . . . . . . . . . . . . . . . . . . 110 5.3 Estudos pr´e-teste/p´os-teste . . . . . . . . . . . . . . . . . . . . . . . . 113 5.4 Ana´lise de perfis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 5.5 Ana´lise de medidas repetidas . . . . . . . . . . . . . . . . . . . . . . . 141 5.6 Ajuste de curvas de crescimento . . . . . . . . . . . . . . . . . . . . . 151 5.7 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 A Matrizes e espa¸cos vetoriais 161 A.1 Matrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 A.1.1 Opera¸co˜es ba´sicas . . . . . . . . . . . . . . . . . . . . . . . . . 162 A.1.2 Tipos especiais de matrizes . . . . . . . . . . . . . . . . . . . . 164 A.1.3 Submatrizes e matrizes particionadas . . . . . . . . . . . . . . 165 A.1.4 Independˆencia linear e espa¸co coluna . . . . . . . . . . . . . . 166 A.1.5 Determinante de uma matriz . . . . . . . . . . . . . . . . . . . 167 A.1.6 Inversa˜o de matrizes . . . . . . . . . . . . . . . . . . . . . . . 168 A.1.7 Tra¸co de uma matriz . . . . . . . . . . . . . . . . . . . . . . . 170 A.1.8 Soma direta e produto de Kronecker . . . . . . . . . . . . . . 170 A.1.9 Operadores vec e vech . . . . . . . . . . . . . . . . . . . . . . 172 Singer&Nobre&Rocha-maio/2018 ´ ´ CONTEUDO CONTEUDO ´ A.2 T´opicos de Algebra Linear . . . . . . . . . . . . . . . . . . . . . . . . 173 A.3 Formas lineares, bilineares e quadra´ticas . . . . . . . . . . . . . . . . 179 A.4 Decomposic¸˜ao de matrizes . . . . . . . . . . . . . . . . . . . . . . . . 180 A.5 Derivadas de vetores e matrizes . . . . . . . . . . . . . . . . . . . . . 181 A.6 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190 B O m´etodo Delta 195 B.1 O caso univariado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195 B.2 O caso multivariado . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196 C An´alise de Regress˜ao 199 C.1 Introdu¸ca˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199 C.2 M´etodo de m´ınimos quadrados . . . . . . . . . . . . . . . . . . . . . . 210 C.3 M´etodo de m´axima verossimilhan¸ca . . . . . . . . . . . . . . . . . . . 215 C.4 Parti¸ca˜o da soma de quadrados . . . . . . . . . . . . . . . . . . . . . 216 C.5 Diagn´ostico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218 C.5.1 Ana´lise de res´ıduos . . . . . . . . . . . . . . . . . . . . . . . . 219 C.5.2 Ana´lise da suposi¸ca˜o de normalidade . . . . . . . . . . . . . . 222 C.5.3 Ana´lise de sensibilidade . . . . . . . . . . . . . . . . . . . . . 226 C.5.4 Ana´lise da suposi¸ca˜o de correla¸ca˜o nula . . . . . . . . . . . . . 233 C.5.5 Multicolinearidade . . . . . . . . . . . . . . . . . . . . . . . . 243 C.6 Parametriza¸ca˜o de modelos lineares . . . . . . . . . . . . . . . . . . . 244 C.7 Regress˜ao log´ıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249 C.8 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260 C.9 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265 Bibliografia 287 Singer&Nobre&Rocha-junho/2018 Cap´ıtulo 1 Introdu¸c˜ao Neste cap´ıtulo caracterizamos estudos com estrutura longitudinal contrastando-os comoutrostipos, identificamososconceitosquepermeiamessamodalidadedeinves- tiga¸ca˜o, introduzimos uma nota¸c˜ao apropriada para a descri¸ca˜o dos dados coletados sob esse molde, descrevemos diversos exemplos, identificando suas peculiaridades dentro desse contexto e, finalmente, consideramos alguns m´etodos b´asicos para sua ana´lise. Mais especificamente, na Se¸ca˜o 1.1 ocupamo-nos da mencionada caracte- riza¸ca˜o, salientando a dependˆencia entre as observa¸co˜es que distingue esse tipo de estudo e damos os primeiros passos no estabelecimento da nota¸ca˜o empregada no texto. Na Se¸ca˜o 1.2 descrevemos um conjunto de exemplos com complexidade cres- cente, apontando suas particularidades e relacionando-as com os conceitos descritos na se¸ca˜o anterior. Finalmente, na Se¸ca˜o 1.3, apresentamos algumas t´ecnicas simples para a descric¸˜ao e an´alise de dados longitudinais. 1.1 Conceitos b´asicos Em muitas situa¸co˜es pra´ticas, ha´ interesse em modelar o comportamento de uma ou mais vari´aveis respostas medidas nas unidades de uma ou mais popula¸co˜es ao longo de alguma dimens˜ao ordenada. Um exemplo simples envolve a modelagem da varia¸ca˜o di´aria da press˜ao sangu´ınea de indiv´ıduos normais ou hipertensos du- rante um certo per´ıodo. Num campo diferente, um estudo cujo objetivo´e estimar as concentrac¸˜oes de part´ıculas em suspensa˜o em diferentes distaˆncias de uma fonte po- luidora constitui um segundo exemplo. Com objetivo simplificador, referir-nos-emos a essa escala ordenada ao longo da qual se fazem as medidas repetidas como tempo. Embora o caso geral possa envolver mu´ltiplas vari´aveis respostas, concentraremos nossa aten¸ca˜o no caso univariado. Neste contexto, podemos identificar duas grandes estrat´egias para coleta de da- 2 1.1 CONCEITOSBA´SICOS dos. A primeira envolve uma u´nica observa¸ca˜o (realizada num instante especificado) davaria´velrespostaparacadaelemento(pacientes, porexemplo)deumaamostrade cada populac¸˜ao de interesse (de indiv´ıduos normais ou hipertensos, por exemplo). A segunda estrat´egia envolve duas ou mais observa¸c˜oes (realizadas em instantes diferentes) da varia´vel resposta em cada unidade amostral sob investiga¸ca˜o. No pri- meiro caso, dizemos que o estudo tem um planejamento transversal e no segundo, referimo-nos ao planejamento como longitudinal. Em Bioestat´ıstica, esta u´ltima forma de coleta de dados tamb´em ´e conhecida como coorte, ao passo que em ou- tros campos do conhecimento, como Sociologia, Economia ou Administra¸ca˜o, ela ´e cognominada painel. Conv´em esclarecer que os problemas nos quais temos interesse diferem daqueles usualmente conhecidos sob a denomina¸c˜ao de s´eries de tempo ou s´eries cro- nolo´gicas na medida em que nestes, em geral, uma u´nica unidade amostral ´e avali- ada em muitos (200 ou mais, por exemplo) instantes enquanto que naqueles, v´arias (5 ou mais, por exemplo) unidades amostrais s˜ao observadas em poucas (2 a 20, por exemplo) ocasi˜oes. Para contrastar os dois tipos de estudo, podemos considerar de um lado, a investiga¸ca˜o sobre o regime di´ario de chuvas numa determinada regi˜ao nos u´ltimos 50 anos, e de outro, a pesquisa sobre os padro˜es mensais de crescimento derec´em-nascidosnoprimeiroanodevida. Leitoresinteressadoseman´alisedes´eries cronolo´gicas podem consultar Morettin & Toloi (2006), entre outros. Estudos longitudinais constituem um caso especial daqueles conhecidos sob a denomina¸ca˜o de medidas repetidas, que englobam os planejamentos com lotes subdivididos (split-plot) e com intercˆambio (crossover). Planejamentos do tipo split-plot envolvem dois fatores; as unidades experimen- tais (whole-plots) s˜ao aleatoriamente alocadas aos diferentes n´ıveis do primeiro fator e os n´ıveis do segundo fator s˜ao aplicados a unidades observacionais (split-plots). Num estudo para avaliar o efeito da temperatura e do tipo de mat´eria prima na consistˆencia de um tipo de bolo, as unidades experimentais (whole-plots) s˜ao ban- dejas em que os bolos s˜ao colocados para serem levados ao forno e as unidades observacionais (split-plots) sa˜o bolos com tamanho padronizado. As bandejas sa˜o aleatoriamente tratadas sob os diferentes n´ıveis do fator Temperatura e os diferen- tes n´ıveis do fator Mat´eria prima sa˜o aleatoriamente atribu´ıdos aos bolos de cada bandeja. O caso mais simples de planejamento com intercˆambio (dois tratamentos em dois per´ıodos) envolve dois grupos de unidades experimentais; o primeiro ´e submetido a umtratamentoAnoprimeiroper´ıodoeaumtratamentoB nosegundoper´ıodo; para as unidades experimentais do segundo grupo, a ordem dos tratamentos ´e invertida (tratamento B no primeiro per´ıodo e tratamento A no segundo per´ıodo). Tanto no caso de experimentos do tipo split-plot quanto no caso de experimen- Singer&Nobre&Rocha-maio/2018 1. INTRODUC¸A˜O 3 tos com intercˆambio, os tratamentos intraunidades experimentais s˜ao alocados ale- atoriamente a`s unidades observacionais. A caracter´ıstica que distingue os estudos longitudinais ´e a dimens˜ao ordenada ao longo da qual as medidas intraunidades ex- perimentais sa˜o repetidas. A ana´lise de dados longitudinais tem uma longa hist´oria na literatura estat´ıstica e tem sido objeto de inu´meros textos, dentre os quais desta- camos Goldstein (1979), Duncan & Kalton (1987), Crowder & Hand (1990), Jones (1993), Lindsey (1999), Diggle, Heagerty, Liang & Zeger (2002), Baltagi (1995), Vonesh & Chinchilli (1997), Brunner, Domhof & Langer (2002), Molenberghs & Verbeke (2000), Molenberghs & Verbeke (2005) e Demidenko (2013), entre outros. O leitor interessado em planejamentos do tipo split-plot ou em planejamentos com intercaˆmbio podera´ consultar Cochran & Cox (1992), Cox (1992) ou Ratkowsky, Aldredge & Evans (1992), por exemplo. Estudos longitudinais tˆem interesse especial quando o objetivo ´e avaliar tanto mudanc¸as globais quanto individuais ao longo do tempo. Em primeiro lugar, eles permitem que a vari´avel resposta seja observada em unidades amostrais sob n´ıveis constantes de outras covaria´veis que podem influencia´-la. No exemplo descrito acima, varia¸co˜es temporais na pressa˜o sangu´ınea medida num esquema longitudinal deveriam estar (pelo menos parcialmente) livres da influˆencia dos ha´bitos de vida dos pacientes selecionados; isso n˜ao aconteceria num estudo transversal, em que as flutua¸co˜es cronolo´gicas da press˜ao sa˜o avaliadas com base em diferentes indiv´ıduos. Esta caracter´ıstica ´e de especial interesse nos casos em que a variabilidade inte- runidades amostrais ´e maior do que a variabilidade intraunidades amostrais. Em segundo lugar, planejamentos longitudinais proveem informa¸co˜es sobre variac¸˜oes in- dividuais nos n´ıveis da varia´vel resposta. Finalmente,´e importante notar que alguns paraˆmetros dos modelos estat´ısticos subjacentes podem ser estimados de forma mais eficiente sob planejamentos longitudinais do que sob planejamentos transversais com o mesmo nu´mero de observa¸co˜es. Consideremos uma situac¸˜ao em que o interesse recai na compara¸c˜ao dos valores esperados de uma certa varia´vel resposta sob duas condic¸˜oes diferentes, por exem- plo, na compara¸ca˜o das frequˆencias card´ıacas m´edias de indiv´ıduos em condi¸co˜es normais e sob estresse. Sejam X e Y, respectivamente, essas frequˆencias card´ıacas e suponhamos que ambas seguem distribui¸co˜es normais com uma variˆancia comum σ2. Num contexto transversal, a compara¸ca˜o de interesse seria baseada nos dados de duasamostrasindependentesdeindiv´ıduoscomnunidadesamostraiscada, digamos (X ,...,X ) e (Y ,...,Y ). A estat´ıstica adequada para testar a igualdade dos valo- 1 n 1 n (cid:112) resesperadosseriat = (X−Y)/s 2/n, emqueX eY denotamasm´ediasamostrais de X e Y, respectivamente, e s2 representa a variaˆncia amostral combinada (pooled). Num contexto longitudinal, a compara¸ca˜o seria baseada na observa¸c˜ao da res- posta nas mesmas n unidades amostrais, antes (X) e depois (Y) de elas serem Singer&Nobre&Rocha-junho/2018 4 1.1 CONCEITOSBA´SICOS submetidas ao est´ımulo estressante. Para essa finalidade, utilizar-se-ia a conhecida (cid:112) estat´ıstica t-pareada, t = (X−Y)/s 1/n, em que s2 denota a variˆancia amostral d d d de D = X − Y, uma estimativa na˜o-enviesada da variˆancia 2σ2 − 2σ , com σ XY XY representando a covariˆancia entre X e Y. Quando σ ´e positiva, esperamos que o XY denominador de t seja menor que o de t e, consequentemente, que o teste corres- d pondente seja mais poderoso para detectar diferen¸cas entre as respostas esperadas 1 correspondentes `as popula¸co˜es sob investiga¸c˜ao. A maior desvantagem dos estudos longitudinais est´a relacionada com seu custo, pois em muitas situa¸co˜es exige-se um grande esfor¸co para garantir a observa¸ca˜o das unidades amostrais nos instantes pr´e-determinados, e em outras, o per´ıodo de ob- servac¸˜aopodesermuitolongo. Emmuitosensaioscl´ınicos, porexemplo,´enecessa´rio acompanhar os pacientes com extremo cuidado para que cumpram o protocolo ex- perimental e na˜o abandonem o estudo. Os aspectos t´ecnicos tamb´em podem ser considerados como uma desvantagem, pois a ana´lise estat´ıstica de dados obtidos sob esse tipo de planejamento ´e, em geral, mais dif´ıcil que a an´alise de dados obtidos sob esquemas transversais. Essencialmente, os problemas com que nos deparamos no contexto de estudos longitudinaissa˜osimilaresa`quelescomquenosdefrontamosemestudostransversais. Para dados com distribui¸co˜es normais, eles podem ser classificados como problemas de Ana´lise de Variˆancia (ANOVA) ou An´alise de Regress˜ao (linear ou na˜o linear). A diferen¸ca b´asica entre eles reside numa poss´ıvel dependˆencia (estat´ıstica) entre as observa¸co˜es intraunidades amostrais, presente apenas nos dados provenientes de estudos longitudinais. A consequˆencia pr´atica desse tipo de dependˆencia reflete-se a`s vezes num fenˆomeno conhecido como trilhamento (tracking), segundo o qual, unidades amostrais com n´ıveis de resposta mais altos (ou mais baixos) no in´ıcio da coleta de observa¸co˜es tendem a manter suas posic¸˜oes relativas ao longo de todo o estudo. Oesfor¸coadicionalrequeridonaan´alisededadoslongitudinaisrelativamente a`quele exigido em estudos transversais concentra-se praticamente na modelagem dessa estrutura de dependˆencia estat´ıstica. Em estudos longitudinais, os dados associados a cada unidade amostral podem ser expressos na forma de um vetor cujos elementos sa˜o os valores da varia´vel res- posta (pressa˜o sangu´ınea, por exemplo) em cada instante de observa¸ca˜o e de uma matriz cujos elementos correspondem aos valores das vari´aveis explicativas (ou in- dependentes) que podem ter uma natureza classificat´oria (tratamento, gˆenero, por exemplo) ou n˜ao (tempo, temperatura, etc.). Dentre essas, algumas podem variar entre unidades amostrais (tratamento, gˆenero, por exemplo) e outras podem ter variac¸˜ao intraunidades amostrais (ha´bitos tabagistas, exposi¸ca˜o `a poluentes etc.); 1Narealidadeotestetpareadopodeserempregadoemsitua¸c˜oesmaisgeraisemqueX eY tˆem variˆancias σ2 e σ2, respectivamente, n˜ao necessariamente iguais. Nesse caso s2 ´e um estimador X Y d n˜ao-enviesado da variˆancia de D =X−Y, nomeadamente σ2 +σ2 −2σ . X Y XY Singer&Nobre&Rocha-maio/2018
Description: