Universidade Estadual de Campinas Instituto de Matem´atica, Estat´ıstica e Computa¸c˜ao Cient´ıfica - IMECC Departamento de Estat´ıstica Inferˆencia e diagn´ostico em modelos para † dados de contagem com excesso de zeros Disserta¸c˜ao de Mestrado Alejandro Guillermo Monz´on Montoya [email protected] Orientador: Prof. Dr. V´ıctor Hugo Lachos D´avila 20 de mar¸co de 2009 Campinas - SP † Este trabalho contou com apoio financeiro da CAPES i ii . ´ FICHA CATALOGRAFICA ELABORADA PELA BIBLIOTECA DO IMECC DA UNICAMP Bibliotec´aria: Maria Ju´lia Milani Rodrigues - CRB8a 2116 Monz´on Montoya, Alejandro Guillermo M769i Inferˆencia e diagn´ostico em modelos para dados de contagem com excesso de zeros / Alejandro Guillermo Monz´on Montoya – Campinas, [S.P.:s.n.], 2009. Orientador: Victor Hugo Lachos D´avila Disserta¸c˜ao (mestrado) - Universidade Estadual de Campinas, Instituto de Matem´atica, Estat´ıstica e Computa¸c˜ao Cient´ıfica. 1. Dados de contagem. 2. An´alise de regress˜ao. 3. Influˆencia local. 4. Res´ıduos. I. Lachos D´avila, Victor Hugo. II. Universidade Estadual de Campinas. Instituto de Matem´atica, Estat´ıstica e Computa¸c˜ao Cient´ıfica. III. T´ıtulo. T´ıtulo em inglˆes: Inference and diagnostic in zero-inflated count data models Palavras-chave em inglˆes (keywords): 1. Count data. 2. Regression analysis. 3. Local influence. 4. Residues. ´ Area de concentra¸ca˜o: Modelos de regress˜ao Titula¸ca˜o: Mestre em Estat´ıstica Banca examinadora: 1. Prof. Dr. Victor Hugo Lachos D´avila (IMECC-UNICAMP) 2. Prof. Dr. M´ario de Castro Andrade Filho (ICMC-USP) 3. Profa. Dra. Hildete Prisco Pinheiro (IMECC-UNICAMP) 4. Prof. Dr. Edwin Moises Marcos Ortega (ESALQ-USP) 5. Profa. Dra. Mariana Rodrigues Motta (IMECC-UNICAMP) Data da defesa: 20/03/2009 Programa de p´os-gradua¸c˜ao: Mestrado em Estat´ıstica iii ´ DEDICATORIA ADEUS,pelapresen¸caconstanteemminha vida e por ter me dado for¸ca e esperan¸ca nos momentos dif´ıceis desta caminhada. Ao MANOLITO, meu campe˜ao, que com seus escassos cinco anos me deu tantas li¸c˜oes de vida. ` A ALESSANDRITA, minha princesa, for¸ca constante em minha vida. ` A JENNY, minha outra metade. Aos meus pais, OLINDA (in Memoriam) e LEANDRO, e minha irm˜a LIDIA, porque sempre me apoiarem em minhas escolhas. v Agradecimentos ` A Coordena¸ca˜o de Aperfei¸coamento de Pessoal de N´ıvel Superior (CAPES) pelo apoio financeiro concedido durante o per´ıodo de mar¸co de 2007 a fevereiro de 2009, sem o qual n˜ao seria poss´ıvel a realiza¸c˜ao de meus estudos de Mestrado em Estat´ıstica. A meu orientador e amigo, Prof. Victor Hugo Lachos D´avila, por sua ajuda constante, n˜ao s´o na parte acadˆemica. Aos professores M´ario de Castro, Hildete Prisco Pinheiro e Mariana Rodrigues Motta, pelas corre¸co˜es e sugest˜oes. Aos professores do departamento de Estat´ıstica do IMECC, especialmente `a Professora Marina Vachkovskaia, ao Prof. Jesu´s Enrique Garc´ıa e ao Prof. Mauricio Zevallos. Aos funcion´arios do IMECC, particularmente `a Tˆania, Cidinha e Ednaldo, a aten¸ca˜o, o carinho e a amizade. Aos colegas e amigos do IMECC, pela amizade, incentivo e por fazer-me sentir como em casa, em especial a Cristiano, Simoni, Lu´cia, Rodrigo Basso, Bruno, Rafael e o Aldo. Ao Brasil, minha gratid˜ao eterna. vii Resumo Em an´alise de dados, muitas vezes encontramos dados de contagem onde a quantidade de zeros excede aquela esperada sob uma determinada distribui¸ca˜o, tal que n˜ao ´e poss´ıvel fazer uso dos modelos de regress˜ao usuais. Al´em disso, o excesso de zeros pode fazer com que exista sobredispers˜ao nos dados. Neste trabalho s˜ao apresentados quatro tipos de modelos para dados de contagem inflacionados de zeros: o modelo Binomial (ZIB), o modelo Poisson (ZIP), o modelo binomial negativa (ZINB) e o modelo beta-binomial (ZIBB). Usa-se o algoritmo EM para obter estimativas de m´axima verossimilhan¸ca dos parˆametros do modelo e usando a fun¸c˜ao de log-verossimilhan¸ca dos dados completos obtemos medidas de influˆencia local baseadas na metodologia proposta por Zhu e Lee (2001) e Lee e Xu (2004). Tamb´em propomos como construir res´ıduos para os modelos ZIB e ZIP. Finalmente, as metodologias descritas s˜ao ilustradas pela an´alise de dados reais. Palavras-chave: Dadosdecontagem; An´alisederegress˜ao; Influˆencialocal; Res´ıduos. ix Abstract When analyzing count data sometimes a high frequency of extra zeros is observed and the usual regression analysis is not applicable. This feature may be accounted for by over-dispersion in the data set. In this work, four types of models for zero inflated count data are presented: viz., the zero-inflated Binomial (ZIB), the zero-inflated Poisson (ZIP), the zero-inflated Negative Binomial (ZINB) and the zero-inflated Beta-Binomial (ZIBB) regression models. We use the EM algorithm to obtain maximum likelihood estimates of the parameter of the proposed models and by using the complete data likelihood function we develop local influence measures following the approach of Zhu and Lee (2001) and Lee and Xu (2004). We also discuss the calculation of residuals for the ZIB and ZIP regression models with the aim of identifying atypical observations and/or model misspecification. Finally, results obtained for two real data sets are reported, illustrating the usefulness of the proposed methodology. Key-words: Count data; Regression analysis; Local influence; Residues. xi Sum´ario Agradecimentos vii Resumo ix Abstract xi Lista de Figuras xvi Introdu¸c˜ao xvii 1 Modelos Lineares Generalizados 1 1.1 A Fun¸ca˜o de Log-Verossimilhanc¸a . . . . . . . . . . . . . . . . . . . . . . . 3 1.2 Estat´ıstica Suficiente e Liga¸ca˜o Canˆonica . . . . . . . . . . . . . . . . . . . 4 1.3 Estima¸c˜ao dos Parˆametros . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 (cid:98) 1.4 Propriedades e Distribui¸ca˜o de β . . . . . . . . . . . . . . . . . . . . . . . 8 1.5 Diagn´ostico de Influˆencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.5.1 Crit´erios de sele¸ca˜o de modelos . . . . . . . . . . . . . . . . . . . . 15 2 Modelos para Dados de Contagem 17 2.1 Introdu¸c˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.1.1 O Modelo Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.1.2 O Modelo Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.1.3 O Modelo Binomial Negativa . . . . . . . . . . . . . . . . . . . . . 19 2.1.4 O Modelo Beta-Binomial . . . . . . . . . . . . . . . . . . . . . . . . 20 2.2 Modelos para Dados Inflacionados de Zeros . . . . . . . . . . . . . . . . . . 22 2.3 Modelos de Regress˜ao para Dados Inflacionados de Zeros . . . . . . . . . . 25 2.3.1 Modelo Binomial Inflacionado de Zeros (ZIB) . . . . . . . . . . . . 27 2.3.2 Modelo Poisson Inflacionado de Zeros (ZIP) . . . . . . . . . . . . . 28 xiii xiv Sum´ario 2.3.3 Modelo Binomial Negativa Inflacionado de Zeros (ZINB) . . . . . . 28 2.3.4 Modelo Beta–Binomial Inflacionado de Zeros (ZIBB) . . . . . . . . 29 2.4 Estima¸c˜ao por M´axima Verossimilhan¸ca . . . . . . . . . . . . . . . . . . . 30 2.5 Teste Escore nos Modelos Inflacionados de Zeros . . . . . . . . . . . . . . . 36 2.5.1 Casos Particulares . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 3 An´alise de Diagn´ostico 47 3.1 Res´ıduos em Modelos de Regress˜ao Inflacionados de Zeros . . . . . . . . . 48 3.2 Influˆencia Local . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 3.2.1 Influˆencia Local nos Modelos de Regress˜ao Inflacionados de Zeros . 51 4 Aplica¸c˜oes 61 4.1 Estudo de Simula¸ca˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 4.2 Aplica¸c˜oes a Dados Reais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 4.2.1 Exemplo 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 4.2.2 Exemplo 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 5 Conclus˜oes 81 5.1 Considera¸c˜oes finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 5.2 Trabalhos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 A Apˆendices 83 A.1 Programas implementados no software R . . . . . . . . . . . . . . . . . . . 83 A.1.1 Algoritmo EM para os modelos Inflacionados de Zeros . . . . . . . 83 A.1.2 Programas geradores de dados inflacionados de zeros . . . . . . . . 87 A.1.3 Programas geradores de envelopes para modelos de regress˜ao infla- cionados de zeros . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 Referˆencias Bibliogr´aficas 90
Description: