Table Of Content

Análise de dados longitudinais Versão parcial preliminar junho 2018 Julio M. Singer Juvêncio S. Nobre Francisco Marcelo M. Rocha Departamento de Estat´ıstica Universidade de São Paulo Rua do Mataõ, 1010 Saõ Paulo, SP 05508-090 Brasil Conteu´do 1 Introdu¸cão 1 1.1 Conceitos ba´sicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.3 Ana´lise descritiva e medidas resumo . . . . . . . . . . . . . . . . . . . 24 1.3.1 Análise do comportamento de perfis . . . . . . . . . . . . . . . 29 1.3.2 Análise de desfecho . . . . . . . . . . . . . . . . . . . . . . . . 30 1.3.3 Análise da a´rea sob a curva . . . . . . . . . . . . . . . . . . . 32 1.4 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 2 Modelos lineares para dados gaussianos 39 2.1 Introdu¸caõ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.2 Modelos para a estrutura de covariaˆncia . . . . . . . . . . . . . . . . 42 2.3 Inferência por ma´xima verossimilhan¸ca . . . . . . . . . . . . . . . . . 46 2.4 Solu¸caõ das equações de estima¸cão . . . . . . . . . . . . . . . . . . . 54 2.5 Diagno´stico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 2.5.1 Análise de res´ıduos . . . . . . . . . . . . . . . . . . . . . . . . 64 2.5.2 Análise de influência global . . . . . . . . . . . . . . . . . . . 67 2.5.3 Análise de influência local . . . . . . . . . . . . . . . . . . . . 73 2.6 Notas de cap´ıtulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 2.7 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 3 Modelos para dados não gaussianos 77 3.1 Modelos elipticamente simétricos e assimétricos . . . . . . . . . . . . 77 3.2 Modelos lineares generalizados mistos (GLMM) . . . . . . . . . . . . 82 ´ ´ CONTEUDO CONTEUDO 3.3 Modelos baseados em equa¸co˜es de estimação generalizadas (GEE) . . 89 3.4 Modelos para dados categorizados . . . . . . . . . . . . . . . . . . . . 93 3.5 Modelos não paramétricos para ana´lise de perfis . . . . . . . . . . . . 93 3.5.1 O modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 3.6 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 3.7 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 4 Tópicos especiais 105 4.1 Dados omissos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 4.2 Planejamento e tamanho de amostras . . . . . . . . . . . . . . . . . . 105 4.3 Modelos não-lineares . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 5 Análise de dados 107 5.1 Estratégias de ana´lise . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 5.2 Implementa¸cão computacional . . . . . . . . . . . . . . . . . . . . . . 110 5.3 Estudos pré-teste/pós-teste . . . . . . . . . . . . . . . . . . . . . . . . 113 5.4 Ana´lise de perfis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 5.5 Ana´lise de medidas repetidas . . . . . . . . . . . . . . . . . . . . . . . 141 5.6 Ajuste de curvas de crescimento . . . . . . . . . . . . . . . . . . . . . 151 5.7 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 A Matrizes e espa¸cos vetoriais 161 A.1 Matrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 A.1.1 Opera¸co˜es ba´sicas . . . . . . . . . . . . . . . . . . . . . . . . . 162 A.1.2 Tipos especiais de matrizes . . . . . . . . . . . . . . . . . . . . 164 A.1.3 Submatrizes e matrizes particionadas . . . . . . . . . . . . . . 165 A.1.4 Independência linear e espa¸co coluna . . . . . . . . . . . . . . 166 A.1.5 Determinante de uma matriz . . . . . . . . . . . . . . . . . . . 167 A.1.6 Inversaõ de matrizes . . . . . . . . . . . . . . . . . . . . . . . 168 A.1.7 Tra¸co de uma matriz . . . . . . . . . . . . . . . . . . . . . . . 170 A.1.8 Soma direta e produto de Kronecker . . . . . . . . . . . . . . 170 A.1.9 Operadores vec e vech . . . . . . . . . . . . . . . . . . . . . . 172 Singer&Nobre&Rocha-maio/2018 ´ ´ CONTEUDO CONTEUDO ´ A.2 Tópicos de Algebra Linear . . . . . . . . . . . . . . . . . . . . . . . . 173 A.3 Formas lineares, bilineares e quadra´ticas . . . . . . . . . . . . . . . . 179 A.4 Decomposição de matrizes . . . . . . . . . . . . . . . . . . . . . . . . 180 A.5 Derivadas de vetores e matrizes . . . . . . . . . . . . . . . . . . . . . 181 A.6 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190 B O método Delta 195 B.1 O caso univariado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195 B.2 O caso multivariado . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196 C Análise de Regressão 199 C.1 Introdu¸caõ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199 C.2 Método de m´ınimos quadrados . . . . . . . . . . . . . . . . . . . . . . 210 C.3 Método de máxima verossimilhan¸ca . . . . . . . . . . . . . . . . . . . 215 C.4 Parti¸caõ da soma de quadrados . . . . . . . . . . . . . . . . . . . . . 216 C.5 Diagnóstico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218 C.5.1 Ana´lise de res´ıduos . . . . . . . . . . . . . . . . . . . . . . . . 219 C.5.2 Ana´lise da suposi¸caõ de normalidade . . . . . . . . . . . . . . 222 C.5.3 Ana´lise de sensibilidade . . . . . . . . . . . . . . . . . . . . . 226 C.5.4 Ana´lise da suposi¸caõ de correla¸caõ nula . . . . . . . . . . . . . 233 C.5.5 Multicolinearidade . . . . . . . . . . . . . . . . . . . . . . . . 243 C.6 Parametriza¸caõ de modelos lineares . . . . . . . . . . . . . . . . . . . 244 C.7 Regressão log´ıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249 C.8 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260 C.9 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265 Bibliografia 287 Singer&Nobre&Rocha-junho/2018 Cap´ıtulo 1 Introdu¸cão Neste cap´ıtulo caracterizamos estudos com estrutura longitudinal contrastando-os comoutrostipos, identificamososconceitosquepermeiamessamodalidadedeinves- tiga¸caõ, introduzimos uma nota¸cão apropriada para a descri¸caõ dos dados coletados sob esse molde, descrevemos diversos exemplos, identificando suas peculiaridades dentro desse contexto e, finalmente, consideramos alguns métodos básicos para sua ana´lise. Mais especificamente, na Se¸caõ 1.1 ocupamo-nos da mencionada caracte- riza¸caõ, salientando a dependência entre as observa¸co˜es que distingue esse tipo de estudo e damos os primeiros passos no estabelecimento da nota¸caõ empregada no texto. Na Se¸caõ 1.2 descrevemos um conjunto de exemplos com complexidade cres- cente, apontando suas particularidades e relacionando-as com os conceitos descritos na se¸caõ anterior. Finalmente, na Se¸caõ 1.3, apresentamos algumas técnicas simples para a descrição e análise de dados longitudinais. 1.1 Conceitos básicos Em muitas situa¸co˜es pra´ticas, ha´ interesse em modelar o comportamento de uma ou mais variáveis respostas medidas nas unidades de uma ou mais popula¸co˜es ao longo de alguma dimensão ordenada. Um exemplo simples envolve a modelagem da varia¸caõ diária da pressão sangu´ınea de indiv´ıduos normais ou hipertensos du- rante um certo per´ıodo. Num campo diferente, um estudo cujo objetivoé estimar as concentrações de part´ıculas em suspensaõ em diferentes distaˆncias de uma fonte po- luidora constitui um segundo exemplo. Com objetivo simplificador, referir-nos-emos a essa escala ordenada ao longo da qual se fazem as medidas repetidas como tempo. Embora o caso geral possa envolver mu´ltiplas variáveis respostas, concentraremos nossa aten¸caõ no caso univariado. Neste contexto, podemos identificar duas grandes estratégias para coleta de da- 2 1.1 CONCEITOSBA´SICOS dos. A primeira envolve uma uńica observa¸caõ (realizada num instante especificado) davaria´velrespostaparacadaelemento(pacientes, porexemplo)deumaamostrade cada população de interesse (de indiv´ıduos normais ou hipertensos, por exemplo). A segunda estratégia envolve duas ou mais observa¸cões (realizadas em instantes diferentes) da varia´vel resposta em cada unidade amostral sob investiga¸caõ. No primeiro caso, dizemos que o estudo tem um planejamento transversal e no segundo, referimo-nos ao planejamento como longitudinal. Em Bioestat´ıstica, esta u´ltima forma de coleta de dados também é conhecida como coorte, ao passo que em outros campos do conhecimento, como Sociologia, Economia ou Administra¸caõ, ela é cognominada painel. Convém esclarecer que os problemas nos quais temos interesse diferem daqueles usualmente conhecidos sob a denomina¸cão de séries de tempo ou séries cronolo´gicas na medida em que nestes, em geral, uma uńica unidade amostral é avali- ada em muitos (200 ou mais, por exemplo) instantes enquanto que naqueles, várias (5 ou mais, por exemplo) unidades amostrais são observadas em poucas (2 a 20, por exemplo) ocasiões. Para contrastar os dois tipos de estudo, podemos considerar de um lado, a investiga¸caõ sobre o regime diário de chuvas numa determinada região nos u´ltimos 50 anos, e de outro, a pesquisa sobre os padro˜es mensais de crescimento derecém-nascidosnoprimeiroanodevida. Leitoresinteressadosemanálisedeséries cronolo´gicas podem consultar Morettin & Toloi (2006), entre outros. Estudos longitudinais constituem um caso especial daqueles conhecidos sob a denomina¸caõ de medidas repetidas, que englobam os planejamentos com lotes subdivididos (split-plot) e com intercâmbio (crossover). Planejamentos do tipo split-plot envolvem dois fatores; as unidades experimentais (whole-plots) são aleatoriamente alocadas aos diferentes n´ıveis do primeiro fator e os n´ıveis do segundo fator são aplicados a unidades observacionais (split-plots). Num estudo para avaliar o efeito da temperatura e do tipo de matéria prima na consistência de um tipo de bolo, as unidades experimentais (whole-plots) são bandejas em que os bolos são colocados para serem levados ao forno e as unidades observacionais (split-plots) saõ bolos com tamanho padronizado. As bandejas saõ aleatoriamente tratadas sob os diferentes n´ıveis do fator Temperatura e os diferentes n´ıveis do fator Matéria prima saõ aleatoriamente atribu´ıdos aos bolos de cada bandeja. O caso mais simples de planejamento com intercâmbio (dois tratamentos em dois per´ıodos) envolve dois grupos de unidades experimentais; o primeiro é submetido a umtratamentoAnoprimeiroper´ıodoeaumtratamentoB nosegundoper´ıodo; para as unidades experimentais do segundo grupo, a ordem dos tratamentos é invertida (tratamento B no primeiro per´ıodo e tratamento A no segundo per´ıodo). Tanto no caso de experimentos do tipo split-plot quanto no caso de experimen- Singer&Nobre&Rocha-maio/2018 1. INTRODUÇAÕ 3 tos com intercâmbio, os tratamentos intraunidades experimentais são alocados aleatoriamente a`s unidades observacionais. A caracter´ıstica que distingue os estudos longitudinais é a dimensão ordenada ao longo da qual as medidas intraunidades experimentais saõ repetidas. A ana´lise de dados longitudinais tem uma longa história na literatura estat´ıstica e tem sido objeto de inu´meros textos, dentre os quais desta- camos Goldstein (1979), Duncan & Kalton (1987), Crowder & Hand (1990), Jones (1993), Lindsey (1999), Diggle, Heagerty, Liang & Zeger (2002), Baltagi (1995), Vonesh & Chinchilli (1997), Brunner, Domhof & Langer (2002), Molenberghs & Verbeke (2000), Molenberghs & Verbeke (2005) e Demidenko (2013), entre outros. O leitor interessado em planejamentos do tipo split-plot ou em planejamentos com intercaˆmbio podera´ consultar Cochran & Cox (1992), Cox (1992) ou Ratkowsky, Aldredge & Evans (1992), por exemplo. Estudos longitudinais têm interesse especial quando o objetivo é avaliar tanto mudanças globais quanto individuais ao longo do tempo. Em primeiro lugar, eles permitem que a variável resposta seja observada em unidades amostrais sob n´ıveis constantes de outras covaria´veis que podem influencia´-la. No exemplo descrito acima, varia¸co˜es temporais na pressaõ sangu´ınea medida num esquema longitudinal deveriam estar (pelo menos parcialmente) livres da influência dos ha´bitos de vida dos pacientes selecionados; isso não aconteceria num estudo transversal, em que as flutua¸co˜es cronolo´gicas da pressão saõ avaliadas com base em diferentes indiv´ıduos. Esta caracter´ıstica é de especial interesse nos casos em que a variabilidade inte- runidades amostrais é maior do que a variabilidade intraunidades amostrais. Em segundo lugar, planejamentos longitudinais proveem informa¸co˜es sobre variações individuais nos n´ıveis da varia´vel resposta. Finalmente,é importante notar que alguns paraˆmetros dos modelos estat´ısticos subjacentes podem ser estimados de forma mais eficiente sob planejamentos longitudinais do que sob planejamentos transversais com o mesmo nu´mero de observa¸co˜es. Consideremos uma situação em que o interesse recai na compara¸cão dos valores esperados de uma certa varia´vel resposta sob duas condições diferentes, por exemplo, na compara¸caõ das frequências card´ıacas médias de indiv´ıduos em condi¸co˜es normais e sob estresse. Sejam X e Y, respectivamente, essas frequências card´ıacas e suponhamos que ambas seguem distribui¸co˜es normais com uma variância comum σ2. Num contexto transversal, a compara¸caõ de interesse seria baseada nos dados de duasamostrasindependentesdeindiv´ıduoscomnunidadesamostraiscada, digamos (X ,...,X ) e (Y ,...,Y ). A estat´ıstica adequada para testar a igualdade dos valo- 1 n 1 n (cid:112) resesperadosseriat = (X−Y)/s 2/n, emqueX eY denotamasmédiasamostrais de X e Y, respectivamente, e s2 representa a variaˆncia amostral combinada (pooled). Num contexto longitudinal, a compara¸caõ seria baseada na observa¸cão da resposta nas mesmas n unidades amostrais, antes (X) e depois (Y) de elas serem Singer&Nobre&Rocha-junho/2018 4 1.1 CONCEITOSBA´SICOS submetidas ao est´ımulo estressante. Para essa finalidade, utilizar-se-ia a conhecida (cid:112) estat´ıstica t-pareada, t = (X−Y)/s 1/n, em que s2 denota a variância amostral d d d de D = X − Y, uma estimativa naõ-enviesada da variância 2σ2 − 2σ , com σ XY XY representando a covariância entre X e Y. Quando σ é positiva, esperamos que o XY denominador de t seja menor que o de t e, consequentemente, que o teste corres- d pondente seja mais poderoso para detectar diferen¸cas entre as respostas esperadas 1 correspondentes às popula¸co˜es sob investiga¸cão. A maior desvantagem dos estudos longitudinais está relacionada com seu custo, pois em muitas situa¸co˜es exige-se um grande esfor¸co para garantir a observa¸caõ das unidades amostrais nos instantes pré-determinados, e em outras, o per´ıodo de ob- servaçãopodesermuitolongo. Emmuitosensaioscl´ınicos, porexemplo,énecessa´rio acompanhar os pacientes com extremo cuidado para que cumpram o protocolo ex- perimental e naõ abandonem o estudo. Os aspectos técnicos também podem ser considerados como uma desvantagem, pois a ana´lise estat´ıstica de dados obtidos sob esse tipo de planejamento é, em geral, mais dif´ıcil que a análise de dados obtidos sob esquemas transversais. Essencialmente, os problemas com que nos deparamos no contexto de estudos longitudinaissaõsimilaresa`quelescomquenosdefrontamosemestudostransversais. Para dados com distribui¸co˜es normais, eles podem ser classificados como problemas de Ana´lise de Variância (ANOVA) ou Análise de Regressão (linear ou naõ linear). A diferen¸ca básica entre eles reside numa poss´ıvel dependência (estat´ıstica) entre as observa¸co˜es intraunidades amostrais, presente apenas nos dados provenientes de estudos longitudinais. A consequência prática desse tipo de dependência reflete-se a`s vezes num fenômeno conhecido como trilhamento (tracking), segundo o qual, unidades amostrais com n´ıveis de resposta mais altos (ou mais baixos) no in´ıcio da coleta de observa¸co˜es tendem a manter suas posições relativas ao longo de todo o estudo. Oesfor¸coadicionalrequeridonaanálisededadoslongitudinaisrelativamente a`quele exigido em estudos transversais concentra-se praticamente na modelagem dessa estrutura de dependência estat´ıstica. Em estudos longitudinais, os dados associados a cada unidade amostral podem ser expressos na forma de um vetor cujos elementos saõ os valores da varia´vel resposta (pressaõ sangu´ınea, por exemplo) em cada instante de observa¸caõ e de uma matriz cujos elementos correspondem aos valores das variáveis explicativas (ou in- dependentes) que podem ter uma natureza classificatória (tratamento, gênero, por exemplo) ou não (tempo, temperatura, etc.). Dentre essas, algumas podem variar entre unidades amostrais (tratamento, gênero, por exemplo) e outras podem ter variação intraunidades amostrais (ha´bitos tabagistas, exposi¸caõ à poluentes etc.); 1Narealidadeotestetpareadopodeserempregadoemsitua¸cõesmaisgeraisemqueX eY têm variâncias σ2 e σ2, respectivamente, não necessariamente iguais. Nesse caso s2 é um estimador X Y d não-enviesado da variância de D =X−Y, nomeadamente σ2 +σ2 −2σ . X Y XY Singer&Nobre&Rocha-maio/2018

Description:

Análise de dados longitudinais. Vers˜ao parcial preliminar junho 2018. Julio M. Singer. Juvêncio S. Nobre. Francisco Marcelo M. Rocha.

Análise de dados longitudinais PDF

312 Pages·2017·1.78 MB·Portuguese

Checking for file health...

Save to my drive

Quick download

Download

Upgrade Premium

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Análise de dados longitudinais

Description:

Análise de dados longitudinais. Vers˜ao parcial preliminar junho 2018. Julio M. Singer. Juvêncio S. Nobre. Francisco Marcelo M. Rocha.

See more

The list of books you might like

Upgrade Premium

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.