ebook img

Análise de dados longitudinais PDF

312 Pages·2017·1.78 MB·Portuguese
by  
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Análise de dados longitudinais

An´alise de dados longitudinais Vers˜ao parcial preliminar junho 2018 Julio M. Singer Juvˆencio S. Nobre Francisco Marcelo M. Rocha Departamento de Estat´ıstica Universidade de S˜ao Paulo Rua do Mata˜o, 1010 Sa˜o Paulo, SP 05508-090 Brasil Conteu´do 1 Introdu¸c˜ao 1 1.1 Conceitos ba´sicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.3 Ana´lise descritiva e medidas resumo . . . . . . . . . . . . . . . . . . . 24 1.3.1 An´alise do comportamento de perfis . . . . . . . . . . . . . . . 29 1.3.2 An´alise de desfecho . . . . . . . . . . . . . . . . . . . . . . . . 30 1.3.3 An´alise da a´rea sob a curva . . . . . . . . . . . . . . . . . . . 32 1.4 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 2 Modelos lineares para dados gaussianos 39 2.1 Introdu¸ca˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.2 Modelos para a estrutura de covariaˆncia . . . . . . . . . . . . . . . . 42 2.3 Inferˆencia por ma´xima verossimilhan¸ca . . . . . . . . . . . . . . . . . 46 2.4 Solu¸ca˜o das equac¸˜oes de estima¸c˜ao . . . . . . . . . . . . . . . . . . . 54 2.5 Diagno´stico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 2.5.1 An´alise de res´ıduos . . . . . . . . . . . . . . . . . . . . . . . . 64 2.5.2 An´alise de influˆencia global . . . . . . . . . . . . . . . . . . . 67 2.5.3 An´alise de influˆencia local . . . . . . . . . . . . . . . . . . . . 73 2.6 Notas de cap´ıtulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 2.7 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 3 Modelos para dados n˜ao gaussianos 77 3.1 Modelos elipticamente sim´etricos e assim´etricos . . . . . . . . . . . . 77 3.2 Modelos lineares generalizados mistos (GLMM) . . . . . . . . . . . . 82 ´ ´ CONTEUDO CONTEUDO 3.3 Modelos baseados em equa¸co˜es de estimac¸˜ao generalizadas (GEE) . . 89 3.4 Modelos para dados categorizados . . . . . . . . . . . . . . . . . . . . 93 3.5 Modelos n˜ao param´etricos para ana´lise de perfis . . . . . . . . . . . . 93 3.5.1 O modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 3.6 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 3.7 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 4 T´opicos especiais 105 4.1 Dados omissos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 4.2 Planejamento e tamanho de amostras . . . . . . . . . . . . . . . . . . 105 4.3 Modelos n˜ao-lineares . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 5 An´alise de dados 107 5.1 Estrat´egias de ana´lise . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 5.2 Implementa¸c˜ao computacional . . . . . . . . . . . . . . . . . . . . . . 110 5.3 Estudos pr´e-teste/p´os-teste . . . . . . . . . . . . . . . . . . . . . . . . 113 5.4 Ana´lise de perfis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 5.5 Ana´lise de medidas repetidas . . . . . . . . . . . . . . . . . . . . . . . 141 5.6 Ajuste de curvas de crescimento . . . . . . . . . . . . . . . . . . . . . 151 5.7 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 A Matrizes e espa¸cos vetoriais 161 A.1 Matrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 A.1.1 Opera¸co˜es ba´sicas . . . . . . . . . . . . . . . . . . . . . . . . . 162 A.1.2 Tipos especiais de matrizes . . . . . . . . . . . . . . . . . . . . 164 A.1.3 Submatrizes e matrizes particionadas . . . . . . . . . . . . . . 165 A.1.4 Independˆencia linear e espa¸co coluna . . . . . . . . . . . . . . 166 A.1.5 Determinante de uma matriz . . . . . . . . . . . . . . . . . . . 167 A.1.6 Inversa˜o de matrizes . . . . . . . . . . . . . . . . . . . . . . . 168 A.1.7 Tra¸co de uma matriz . . . . . . . . . . . . . . . . . . . . . . . 170 A.1.8 Soma direta e produto de Kronecker . . . . . . . . . . . . . . 170 A.1.9 Operadores vec e vech . . . . . . . . . . . . . . . . . . . . . . 172 Singer&Nobre&Rocha-maio/2018 ´ ´ CONTEUDO CONTEUDO ´ A.2 T´opicos de Algebra Linear . . . . . . . . . . . . . . . . . . . . . . . . 173 A.3 Formas lineares, bilineares e quadra´ticas . . . . . . . . . . . . . . . . 179 A.4 Decomposic¸˜ao de matrizes . . . . . . . . . . . . . . . . . . . . . . . . 180 A.5 Derivadas de vetores e matrizes . . . . . . . . . . . . . . . . . . . . . 181 A.6 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190 B O m´etodo Delta 195 B.1 O caso univariado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195 B.2 O caso multivariado . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196 C An´alise de Regress˜ao 199 C.1 Introdu¸ca˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199 C.2 M´etodo de m´ınimos quadrados . . . . . . . . . . . . . . . . . . . . . . 210 C.3 M´etodo de m´axima verossimilhan¸ca . . . . . . . . . . . . . . . . . . . 215 C.4 Parti¸ca˜o da soma de quadrados . . . . . . . . . . . . . . . . . . . . . 216 C.5 Diagn´ostico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218 C.5.1 Ana´lise de res´ıduos . . . . . . . . . . . . . . . . . . . . . . . . 219 C.5.2 Ana´lise da suposi¸ca˜o de normalidade . . . . . . . . . . . . . . 222 C.5.3 Ana´lise de sensibilidade . . . . . . . . . . . . . . . . . . . . . 226 C.5.4 Ana´lise da suposi¸ca˜o de correla¸ca˜o nula . . . . . . . . . . . . . 233 C.5.5 Multicolinearidade . . . . . . . . . . . . . . . . . . . . . . . . 243 C.6 Parametriza¸ca˜o de modelos lineares . . . . . . . . . . . . . . . . . . . 244 C.7 Regress˜ao log´ıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249 C.8 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260 C.9 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265 Bibliografia 287 Singer&Nobre&Rocha-junho/2018 Cap´ıtulo 1 Introdu¸c˜ao Neste cap´ıtulo caracterizamos estudos com estrutura longitudinal contrastando-os comoutrostipos, identificamososconceitosquepermeiamessamodalidadedeinves- tiga¸ca˜o, introduzimos uma nota¸c˜ao apropriada para a descri¸ca˜o dos dados coletados sob esse molde, descrevemos diversos exemplos, identificando suas peculiaridades dentro desse contexto e, finalmente, consideramos alguns m´etodos b´asicos para sua ana´lise. Mais especificamente, na Se¸ca˜o 1.1 ocupamo-nos da mencionada caracte- riza¸ca˜o, salientando a dependˆencia entre as observa¸co˜es que distingue esse tipo de estudo e damos os primeiros passos no estabelecimento da nota¸ca˜o empregada no texto. Na Se¸ca˜o 1.2 descrevemos um conjunto de exemplos com complexidade cres- cente, apontando suas particularidades e relacionando-as com os conceitos descritos na se¸ca˜o anterior. Finalmente, na Se¸ca˜o 1.3, apresentamos algumas t´ecnicas simples para a descric¸˜ao e an´alise de dados longitudinais. 1.1 Conceitos b´asicos Em muitas situa¸co˜es pra´ticas, ha´ interesse em modelar o comportamento de uma ou mais vari´aveis respostas medidas nas unidades de uma ou mais popula¸co˜es ao longo de alguma dimens˜ao ordenada. Um exemplo simples envolve a modelagem da varia¸ca˜o di´aria da press˜ao sangu´ınea de indiv´ıduos normais ou hipertensos du- rante um certo per´ıodo. Num campo diferente, um estudo cujo objetivo´e estimar as concentrac¸˜oes de part´ıculas em suspensa˜o em diferentes distaˆncias de uma fonte po- luidora constitui um segundo exemplo. Com objetivo simplificador, referir-nos-emos a essa escala ordenada ao longo da qual se fazem as medidas repetidas como tempo. Embora o caso geral possa envolver mu´ltiplas vari´aveis respostas, concentraremos nossa aten¸ca˜o no caso univariado. Neste contexto, podemos identificar duas grandes estrat´egias para coleta de da- 2 1.1 CONCEITOSBA´SICOS dos. A primeira envolve uma u´nica observa¸ca˜o (realizada num instante especificado) davaria´velrespostaparacadaelemento(pacientes, porexemplo)deumaamostrade cada populac¸˜ao de interesse (de indiv´ıduos normais ou hipertensos, por exemplo). A segunda estrat´egia envolve duas ou mais observa¸c˜oes (realizadas em instantes diferentes) da varia´vel resposta em cada unidade amostral sob investiga¸ca˜o. No pri- meiro caso, dizemos que o estudo tem um planejamento transversal e no segundo, referimo-nos ao planejamento como longitudinal. Em Bioestat´ıstica, esta u´ltima forma de coleta de dados tamb´em ´e conhecida como coorte, ao passo que em ou- tros campos do conhecimento, como Sociologia, Economia ou Administra¸ca˜o, ela ´e cognominada painel. Conv´em esclarecer que os problemas nos quais temos interesse diferem daqueles usualmente conhecidos sob a denomina¸c˜ao de s´eries de tempo ou s´eries cro- nolo´gicas na medida em que nestes, em geral, uma u´nica unidade amostral ´e avali- ada em muitos (200 ou mais, por exemplo) instantes enquanto que naqueles, v´arias (5 ou mais, por exemplo) unidades amostrais s˜ao observadas em poucas (2 a 20, por exemplo) ocasi˜oes. Para contrastar os dois tipos de estudo, podemos considerar de um lado, a investiga¸ca˜o sobre o regime di´ario de chuvas numa determinada regi˜ao nos u´ltimos 50 anos, e de outro, a pesquisa sobre os padro˜es mensais de crescimento derec´em-nascidosnoprimeiroanodevida. Leitoresinteressadoseman´alisedes´eries cronolo´gicas podem consultar Morettin & Toloi (2006), entre outros. Estudos longitudinais constituem um caso especial daqueles conhecidos sob a denomina¸ca˜o de medidas repetidas, que englobam os planejamentos com lotes subdivididos (split-plot) e com intercˆambio (crossover). Planejamentos do tipo split-plot envolvem dois fatores; as unidades experimen- tais (whole-plots) s˜ao aleatoriamente alocadas aos diferentes n´ıveis do primeiro fator e os n´ıveis do segundo fator s˜ao aplicados a unidades observacionais (split-plots). Num estudo para avaliar o efeito da temperatura e do tipo de mat´eria prima na consistˆencia de um tipo de bolo, as unidades experimentais (whole-plots) s˜ao ban- dejas em que os bolos s˜ao colocados para serem levados ao forno e as unidades observacionais (split-plots) sa˜o bolos com tamanho padronizado. As bandejas sa˜o aleatoriamente tratadas sob os diferentes n´ıveis do fator Temperatura e os diferen- tes n´ıveis do fator Mat´eria prima sa˜o aleatoriamente atribu´ıdos aos bolos de cada bandeja. O caso mais simples de planejamento com intercˆambio (dois tratamentos em dois per´ıodos) envolve dois grupos de unidades experimentais; o primeiro ´e submetido a umtratamentoAnoprimeiroper´ıodoeaumtratamentoB nosegundoper´ıodo; para as unidades experimentais do segundo grupo, a ordem dos tratamentos ´e invertida (tratamento B no primeiro per´ıodo e tratamento A no segundo per´ıodo). Tanto no caso de experimentos do tipo split-plot quanto no caso de experimen- Singer&Nobre&Rocha-maio/2018 1. INTRODUC¸A˜O 3 tos com intercˆambio, os tratamentos intraunidades experimentais s˜ao alocados ale- atoriamente a`s unidades observacionais. A caracter´ıstica que distingue os estudos longitudinais ´e a dimens˜ao ordenada ao longo da qual as medidas intraunidades ex- perimentais sa˜o repetidas. A ana´lise de dados longitudinais tem uma longa hist´oria na literatura estat´ıstica e tem sido objeto de inu´meros textos, dentre os quais desta- camos Goldstein (1979), Duncan & Kalton (1987), Crowder & Hand (1990), Jones (1993), Lindsey (1999), Diggle, Heagerty, Liang & Zeger (2002), Baltagi (1995), Vonesh & Chinchilli (1997), Brunner, Domhof & Langer (2002), Molenberghs & Verbeke (2000), Molenberghs & Verbeke (2005) e Demidenko (2013), entre outros. O leitor interessado em planejamentos do tipo split-plot ou em planejamentos com intercaˆmbio podera´ consultar Cochran & Cox (1992), Cox (1992) ou Ratkowsky, Aldredge & Evans (1992), por exemplo. Estudos longitudinais tˆem interesse especial quando o objetivo ´e avaliar tanto mudanc¸as globais quanto individuais ao longo do tempo. Em primeiro lugar, eles permitem que a vari´avel resposta seja observada em unidades amostrais sob n´ıveis constantes de outras covaria´veis que podem influencia´-la. No exemplo descrito acima, varia¸co˜es temporais na pressa˜o sangu´ınea medida num esquema longitudinal deveriam estar (pelo menos parcialmente) livres da influˆencia dos ha´bitos de vida dos pacientes selecionados; isso n˜ao aconteceria num estudo transversal, em que as flutua¸co˜es cronolo´gicas da press˜ao sa˜o avaliadas com base em diferentes indiv´ıduos. Esta caracter´ıstica ´e de especial interesse nos casos em que a variabilidade inte- runidades amostrais ´e maior do que a variabilidade intraunidades amostrais. Em segundo lugar, planejamentos longitudinais proveem informa¸co˜es sobre variac¸˜oes in- dividuais nos n´ıveis da varia´vel resposta. Finalmente,´e importante notar que alguns paraˆmetros dos modelos estat´ısticos subjacentes podem ser estimados de forma mais eficiente sob planejamentos longitudinais do que sob planejamentos transversais com o mesmo nu´mero de observa¸co˜es. Consideremos uma situac¸˜ao em que o interesse recai na compara¸c˜ao dos valores esperados de uma certa varia´vel resposta sob duas condic¸˜oes diferentes, por exem- plo, na compara¸ca˜o das frequˆencias card´ıacas m´edias de indiv´ıduos em condi¸co˜es normais e sob estresse. Sejam X e Y, respectivamente, essas frequˆencias card´ıacas e suponhamos que ambas seguem distribui¸co˜es normais com uma variˆancia comum σ2. Num contexto transversal, a compara¸ca˜o de interesse seria baseada nos dados de duasamostrasindependentesdeindiv´ıduoscomnunidadesamostraiscada, digamos (X ,...,X ) e (Y ,...,Y ). A estat´ıstica adequada para testar a igualdade dos valo- 1 n 1 n (cid:112) resesperadosseriat = (X−Y)/s 2/n, emqueX eY denotamasm´ediasamostrais de X e Y, respectivamente, e s2 representa a variaˆncia amostral combinada (pooled). Num contexto longitudinal, a compara¸ca˜o seria baseada na observa¸c˜ao da res- posta nas mesmas n unidades amostrais, antes (X) e depois (Y) de elas serem Singer&Nobre&Rocha-junho/2018 4 1.1 CONCEITOSBA´SICOS submetidas ao est´ımulo estressante. Para essa finalidade, utilizar-se-ia a conhecida (cid:112) estat´ıstica t-pareada, t = (X−Y)/s 1/n, em que s2 denota a variˆancia amostral d d d de D = X − Y, uma estimativa na˜o-enviesada da variˆancia 2σ2 − 2σ , com σ XY XY representando a covariˆancia entre X e Y. Quando σ ´e positiva, esperamos que o XY denominador de t seja menor que o de t e, consequentemente, que o teste corres- d pondente seja mais poderoso para detectar diferen¸cas entre as respostas esperadas 1 correspondentes `as popula¸co˜es sob investiga¸c˜ao. A maior desvantagem dos estudos longitudinais est´a relacionada com seu custo, pois em muitas situa¸co˜es exige-se um grande esfor¸co para garantir a observa¸ca˜o das unidades amostrais nos instantes pr´e-determinados, e em outras, o per´ıodo de ob- servac¸˜aopodesermuitolongo. Emmuitosensaioscl´ınicos, porexemplo,´enecessa´rio acompanhar os pacientes com extremo cuidado para que cumpram o protocolo ex- perimental e na˜o abandonem o estudo. Os aspectos t´ecnicos tamb´em podem ser considerados como uma desvantagem, pois a ana´lise estat´ıstica de dados obtidos sob esse tipo de planejamento ´e, em geral, mais dif´ıcil que a an´alise de dados obtidos sob esquemas transversais. Essencialmente, os problemas com que nos deparamos no contexto de estudos longitudinaissa˜osimilaresa`quelescomquenosdefrontamosemestudostransversais. Para dados com distribui¸co˜es normais, eles podem ser classificados como problemas de Ana´lise de Variˆancia (ANOVA) ou An´alise de Regress˜ao (linear ou na˜o linear). A diferen¸ca b´asica entre eles reside numa poss´ıvel dependˆencia (estat´ıstica) entre as observa¸co˜es intraunidades amostrais, presente apenas nos dados provenientes de estudos longitudinais. A consequˆencia pr´atica desse tipo de dependˆencia reflete-se a`s vezes num fenˆomeno conhecido como trilhamento (tracking), segundo o qual, unidades amostrais com n´ıveis de resposta mais altos (ou mais baixos) no in´ıcio da coleta de observa¸co˜es tendem a manter suas posic¸˜oes relativas ao longo de todo o estudo. Oesfor¸coadicionalrequeridonaan´alisededadoslongitudinaisrelativamente a`quele exigido em estudos transversais concentra-se praticamente na modelagem dessa estrutura de dependˆencia estat´ıstica. Em estudos longitudinais, os dados associados a cada unidade amostral podem ser expressos na forma de um vetor cujos elementos sa˜o os valores da varia´vel res- posta (pressa˜o sangu´ınea, por exemplo) em cada instante de observa¸ca˜o e de uma matriz cujos elementos correspondem aos valores das vari´aveis explicativas (ou in- dependentes) que podem ter uma natureza classificat´oria (tratamento, gˆenero, por exemplo) ou n˜ao (tempo, temperatura, etc.). Dentre essas, algumas podem variar entre unidades amostrais (tratamento, gˆenero, por exemplo) e outras podem ter variac¸˜ao intraunidades amostrais (ha´bitos tabagistas, exposi¸ca˜o `a poluentes etc.); 1Narealidadeotestetpareadopodeserempregadoemsitua¸c˜oesmaisgeraisemqueX eY tˆem variˆancias σ2 e σ2, respectivamente, n˜ao necessariamente iguais. Nesse caso s2 ´e um estimador X Y d n˜ao-enviesado da variˆancia de D =X−Y, nomeadamente σ2 +σ2 −2σ . X Y XY Singer&Nobre&Rocha-maio/2018

Description:
Análise de dados longitudinais. Vers˜ao parcial preliminar junho 2018. Julio M. Singer. Juvêncio S. Nobre. Francisco Marcelo M. Rocha.
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.