ebook img

Análise de Dados Amostrais Complexos PDF

170 Pages·2003·1 MB·Portuguese
by  
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Análise de Dados Amostrais Complexos

AnÆlise de Dados Amostrais Complexos Djalma Galvªo Carneiro Pessoa (Consultor)- IBGE Pedro Luis do Nascimento Silva (Pesquisador)- IBGE 17 de Mar(cid:231)o de 1998 2 Índice 0.1 PrefÆcio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 0.2 Agradecimentos . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1 Introdução 9 1.1 Motiva(cid:231)ªo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.2 Estrutura do Livro . . . . . . . . . . . . . . . . . . . . . . . . 14 2 Referencial para Inferência 17 2.1 Modelagem - Primeiras IdØias . . . . . . . . . . . . . . . . . . 17 2.1.1 Abordagem 1 - Modelagem ClÆssica . . . . . . . . . . 17 2.1.2 Abordagem 2 - Amostragem Probabil(cid:237)stica . . . . . . 19 2.1.3 Discussªo das Abordagens 1 e 2 . . . . . . . . . . . . . 19 2.1.4 Abordagem 3 - Modelagem de Superpopula(cid:231)ªo . . . . 22 2.2 Fontes de Varia(cid:231)ªo . . . . . . . . . . . . . . . . . . . . . . . . 24 2.3 Modelos de Superpopula(cid:231)ªo . . . . . . . . . . . . . . . . . . . 25 2.4 Planejamento Amostral . . . . . . . . . . . . . . . . . . . . . 28 2.5 Planos Amostrais Informativos e IgnorÆveis . . . . . . . . . . 29 3 Estimação Baseada no Plano Amostral 33 3.1 Estima(cid:231)ªo de Totais . . . . . . . . . . . . . . . . . . . . . . . 33 3.2 Por que Estimar Vari(cid:226)ncias . . . . . . . . . . . . . . . . . . . 37 3.3 Lineariza(cid:231)ªo de Taylor para Estimar Vari(cid:226)ncias . . . . . . . . 39 3.4 MØtodo do Conglomerado PrimÆrio . . . . . . . . . . . . . . . 42 3.5 MØtodos de Replica(cid:231)ªo . . . . . . . . . . . . . . . . . . . . . . 43 4 Efeitos do Plano Amostral 47 4.1 Introdu(cid:231)ªo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 4.2 Efeito do Plano Amostral (EPA) de Kish . . . . . . . . . . . 48 4.3 Efeito do Plano Amostral Ampliado . . . . . . . . . . . . . . 51 4.4 Intervalos de Con(cid:222)an(cid:231)a e Testes de Hip(cid:243)teses . . . . . . . . . 61 3 4 ÍNDICE 4.5 Efeitos Multivariados de Plano Amostral . . . . . . . . . . . . 64 5 Ajuste de Modelos Paramétricos 71 5.1 Introdu(cid:231)ªo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 5.2 MØtodo de MÆxima Verossimilhan(cid:231)a (MV) . . . . . . . . . . . 73 5.3 Pondera(cid:231)ªo de Dados Amostrais . . . . . . . . . . . . . . . . 74 5.4 MØtodo de MÆxima Pseudo-Verossimilhan(cid:231)a . . . . . . . . . . 78 5.5 Robustez do Procedimento MPV . . . . . . . . . . . . . . . . 83 5.6 Desvantagens da InferŒncia Baseada em Aleatoriza(cid:231)ªo . . . . 84 6 Modelos de Regressão 87 6.1 Modelo de Regressªo Linear Normal . . . . . . . . . . . . . . 87 6.1.1 Especi(cid:222)ca(cid:231)ªo do Modelo . . . . . . . . . . . . . . . . . 87 6.1.2 Pseudo-par(cid:226)metros do Modelo . . . . . . . . . . . . . 88 6.1.3 Estimadores de MPV dos Par(cid:226)metros do Modelo . . . 90 6.1.4 Estima(cid:231)ªo da Vari(cid:226)ncia de Estimadores de MPV . . . 91 6.2 Modelo de Regressªo Log(cid:237)stica . . . . . . . . . . . . . . . . . 92 6.3 Teste de Hip(cid:243)teses . . . . . . . . . . . . . . . . . . . . . . . . 100 7 Testes de Qualidade de Ajuste 103 7.1 Introdu(cid:231)ªo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 7.2 Teste para uma Propor(cid:231)ªo . . . . . . . . . . . . . . . . . . . . 104 7.2.1 Corre(cid:231)ªo de Estat(cid:237)sticas ClÆssicas . . . . . . . . . . . 104 7.2.2 Estat(cid:237)stica de Wald . . . . . . . . . . . . . . . . . . . 108 7.3 Teste para VÆrias Propor(cid:231)ıes . . . . . . . . . . . . . . . . . . 109 7.3.1 Estat(cid:237)stica de Wald Baseada no Plano Amostral . . . 110 7.3.2 Situa(cid:231)ıes InstÆveis . . . . . . . . . . . . . . . . . . . . 110 7.3.3 Estat(cid:237)stica de Pearson com Ajuste de Rao-Scott . . . 111 8 Testes em Tabelas de Duas entradas 119 8.1 Introdu(cid:231)ªo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 8.2 Tabelas 2x2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 8.2.1 Teste de IndependŒncia . . . . . . . . . . . . . . . . . 120 8.2.2 Teste de Homogeneidade . . . . . . . . . . . . . . . . . 121 8.2.3 Efeitos de Plano Amostral nas Celas . . . . . . . . . . 121 8.3 Tabelas de Duas Entradas (Caso Geral) . . . . . . . . . . . . 123 8.3.1 Teste de Homogeneidade . . . . . . . . . . . . . . . . . 123 8.3.2 Teste de IndependŒncia . . . . . . . . . . . . . . . . . 127 8.3.3 Estat(cid:237)stica de Wald Baseada no Plano Amostral . . . 128 8.3.4 Estat(cid:237)stica de Pearson com Ajuste de Rao-Scott . . . 129 ÍNDICE 5 9 Agregação vs. Desagregação 135 9.1 Introdu(cid:231)ªo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 9.2 Modelagem da Estrutura Populacional . . . . . . . . . . . . . 136 9.3 Modelos HierÆrquicos. . . . . . . . . . . . . . . . . . . . . . . 139 9.4 AnÆlise Desagregada: Pr(cid:243)s e Contras . . . . . . . . . . . . . . 151 10 Pacotes para Análise de Dados Amostrais 155 10.1 Introdu(cid:231)ªo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 10.2 Pacotes Computacionais . . . . . . . . . . . . . . . . . . . . . 155 6 ÍNDICE 0.1 Prefácio Uma preocupa(cid:231)ªo bÆsica de todainstitui(cid:231)ªoprodutorade informa(cid:231)ıes esta- t(cid:237)sticasØcomautiliza(cid:231)ªo(cid:148)correta(cid:148)deseusdados. Issopodeserintrepretado devÆriasformas,algumasdelascomre(cid:223)exosatØnacon(cid:222)an(cid:231)adopœblicoena pr(cid:243)pria sobrevivŒncia do (cid:243)rgªo. Do nosso ponto de vista, como tØcnicos da Ærea de metodologia do IBGE, enfatizamos um aspecto tØcnico particular, mas nem por isso menos importante para os usuÆrios dos dados. Arevolu(cid:231)ªodainformÆticacomaresultantefacilidadedeacessoaocom- putador,crioucondi(cid:231)ıesextremamentefavorÆveis(cid:224)utiliza(cid:231)ªodedadosesta- t(cid:237)sticos,produzidospor(cid:243)rgªoscomooIBGE.Algumasvezesessesdadossªo utilizados para (cid:222)ns puramente descritivos. Outras vezes, porØm, sua utili- za(cid:231)ªoØfeitapara(cid:222)nsanal(cid:237)ticos, envolvendoaconstru(cid:231)ªodemodelos, quan- do o objetivo Ø extrair conclusıes aplicÆveis tambØm a popula(cid:231)ıes distintas daquela da qual se extraiu a amostra. Neste caso, Ø comum empregar, sem grandes preocupa(cid:231)ıes, pacotes computacionais padrıes dispon(cid:237)veis para a sele(cid:231)ªo e ajuste de modelos. (cid:201) neste ponto que entra a nossa preocupa(cid:231)ªo com o uso adequado dos dados produzidos pelo IBGE. O que torna tais dados especiais para quem pretende usÆ-los para (cid:222)ns anal(cid:237)ticos? Esta Ø a questªo bÆsica que serÆ amplamente discutida ao lon- go deste texto. A mensagem principal que pretendemos transmitir Ø que certos cuidados precisam ser tomados para utiliza(cid:231)ªo correta dos dados de pesquisas amostrais como as que o IBGE realiza. O que torna especiais dados como os produzidos pelo IBGE Ø que estes sªo obtidos atravØs de pesquisas amostrais complexas de popula(cid:231)ıes (cid:222)nitas que envolvem: probabilidades distintas de seleção, estratificação e conglomeração das unidades, ajustes paracompensar não-resposta e outros ajustes. Os pacotes tradicionais de anÆlise ignoram estes aspec- tos, podendo produzir estimativas incorretas tanto dos par(cid:226)metros como para as vari(cid:226)ncias destas estimativas. Quando utilizamos a amostra para estudos anal(cid:237)ticos, as op(cid:231)ıes dispon(cid:237)veis nos pacotes estat(cid:237)sticos usuais para levar em conta os pesos distintos das observa(cid:231)ıes sªo apropriadas somente para observa(cid:231)ıes independentes e identicamente distribu(cid:237)das (IID). AlØm disso, a variabilidade dos pesos produz impactos tanto na estima(cid:231)ªo pon- tual quanto na estima(cid:231)ªo das vari(cid:226)ncias dessas estimativas, que sofre ainda in(cid:223)uŒncia da estrati(cid:222)ca(cid:231)ªo e conglomera(cid:231)ªo. O objetivo deste livro Ø analisar o impacto das simpli(cid:222)ca(cid:231)ıes feitas ao utilizar procedimentos e pacotes usuais de anÆlise de dados, e apresentar os ajustes necessÆrios desses procedimentos de modo a incorporar na anÆ- lise, de forma apropriada, os aspectos aqui ressaltados. Para isto serªo 0.2. AGRADECIMENTOS 7 apresentados exemplos de anÆlises de dados obtidos em pesquisas amostrais complexas, usando pacotes clÆssicos e tambØm pacotes estat(cid:237)sticos especia- lizados. A compara(cid:231)ªo dos resultados das anÆlises feitas das duas formas permitirÆavaliaroimpactodeignoraroplanoamostralnaanÆlisedosdados resultantes de pesquisas amostrais complexas. 0.2 Agradecimentos A elabora(cid:231)ªo de um texto como esse nªo se faz sem a colabora(cid:231)ªo de mui- tas pessoas. Em primeiro lugar, agradecemos (cid:224) Comissªo Organizadora do SINAPE por ter propiciado a oportunidade ao selecionar nossa proposta de minicurso. Agradecemos tambØm ao IBGE por ter proporcionado as con- di(cid:231)ıeseosmeiosusados paraaprodu(cid:231)ªodamonogra(cid:222)a, bemcomooacesso aos dados detalhados e identi(cid:222)cados que utilizamos em vÆrios exemplos. No plano pessoal, agradecemos a ZØlia Bianchini pela revisªo do ma- nuscrito e sugestıes que o aprimoraram. Agradecemos a Marcos Paulo de Freitas e Renata Duarte pela ajuda com a computa(cid:231)ªo de vÆrios exemplos. Agradecemos a Waldecir Bianchini, Luiz Pessoa e Marinho Persiano pela colabora(cid:231)ªo na utiliza(cid:231)ªo do processador de textos. Aos demais colegas do Departamento de Metodologia do IBGE, agradecemos o companheirismo e solidariedade nesses meses de trabalho na prepara(cid:231)ªo do manuscrito. Finalmente, agradecemos a nossas fam(cid:237)lias pela aceita(cid:231)ªo resignada de nossas ausŒncias e pelo incentivo (cid:224) conclusªo da empreitada. 8 ÍNDICE Capítulo 1 Introdução 1.1 Motivação Este livro trata de problema de grande import(cid:226)ncia para os usuÆrios de dados obtidos atravØs de pesquisas amostrais por agŒncias produtoras de informa(cid:231)ıes estat(cid:237)sticas. Tais dados sªo comumente utilizados em anÆlises descritivas envolvendo o cÆlculo de estimativas para totais, propor(cid:231)ıes, mØ- dias e razıes, nas quais, em geral, sªo devidademente considerados os pesos distintos das observa(cid:231)ıes e o planejamento da amostra que lhes deu origem. Outro uso destes dados, denominado secundÆrio, Ø a constru(cid:231)ªo de mo- delos, feitageralmenteporanalistasquetrabalhamforadasagŒnciasprodu- torasdosdados. Neste caso, ofocoØ, essencialmente, estabeleceranatureza de rela(cid:231)ıes ou associa(cid:231)ıes entre variÆveis. Para isto, a estat(cid:237)stica clÆssica conta com um arsenal de ferramentas de anÆlise, jÆ incorporado aos princi- paispacotesestat(cid:237)sticosdispon(cid:237)veis. Ousodestespacotessefaz, entretanto, sob condi(cid:231)ıes que nªo re(cid:223)etem a complexidade usualmente envolvida nas pesquisas amostrais de popula(cid:231)ıes (cid:222)nitas. Em geral, partem de hip(cid:243)teses bÆsicas que s(cid:243) sªo vÆlidas quando os dados sªo obtidos atravØs de amostras aleat(cid:243)rias simples com reposi(cid:231)ªo (AASC). Tais pacotes estat(cid:237)sticos nªo con- sideram os seguintes aspectos relevantes no caso de amostras complexas: i) probabilidades distintas de seleção das unidades; ii) conglomeração das unidades; iii) estratificação; iv) não-resposta e outros ajustes. 9 10 CAPÍTULO 1. INTRODUÇÃO As estimativas pontuais de par(cid:226)metros da popula(cid:231)ªo sªo in(cid:223)uenciadas por pesos distintos das observa(cid:231)ıes. AlØm disso, as estimativas de vari(cid:226)ncia sªo in(cid:223)uenciadas pela conglomera(cid:231)ªo, estrati(cid:222)ca(cid:231)ªo e pesos. Ao ignorar estesaspectos,ospacotestradicionaisdeanÆlisepodemproduzirestimativas incorretas das vari(cid:226)ncias das estimativas pontuais. Aseguirvamosapresentarumexemplodeusodedadosdeumapesquisa amostral real para ilustrar como os pontos i) a iv) mencionados afetam a inferŒncia sobre quantidades descritivas populacionais tais como mØdias, propor(cid:231)ıes, razıes e totais. Exemplo 1.1 Distribui(cid:231)ªo dos pesos da amostra da PPV Osdadosdesteexemplosªorelativos(cid:224)distribui(cid:231)ªodospesosnaamostra da Pesquisa Domiciliar sobre Padrıes de Vida (PPV), realizada pelo IBGE nas Regiıes Nordeste e Sudeste do Brasil nos anos 96-97. Segundo Albieri e Bianchini(1997), (cid:148)A Pesquisa Domiciliar sobre Padrıes de Vida (PPV) foi realizada nas Regiıes Nordeste e Sudeste do Pa(cid:237)s, considerando 10 estratos geogrÆ(cid:222)cos, a saber: Regiªo Metropolitana de Fortaleza, Regiªo Metropoli- tana de Recife, Regiªo Metropolitana de Salvador, restante da Ærea urbana do Nordeste, restante da Ærea rural do Nordeste, Regiªo Metropolitana de Belo Horizonte, Regiªo Metropolitana do Rio de Janeiro, Regiªo Metropo- litana de Sªo Paulo, restante da Ærea urbana do Sudeste e restante da Ærea rural do Sudeste. O plano amostral foi de dois estÆgios, com estrati(cid:222)ca(cid:231)ªo das unidades primÆriaseprobabilidadedesele(cid:231)ªoproporcionalaotamanhoesele(cid:231)ªoalea- t(cid:243)riadasunidades de segundoestÆgio. Aunidade primÆriaØ osetordabase geogrÆ(cid:222)ca do Censo DemogrÆ(cid:222)co de 91 e a unidade do segundo estÆgio Ø o domic(cid:237)lio. O tamanho da amostra para cada estrato geogrÆ(cid:222)co foi (cid:222)xado em480 domic(cid:237)lios. Em cadaestrato geogrÆ(cid:222)co foi (cid:222)xadoem 60 onœmerode setores a serem selecionados e 8 domic(cid:237)lios em cada setor, com exce(cid:231)ªo para os estratos que correspondem ao restante da Ærea rural de cada Regiªo onde (cid:222)xou-se em 30 o nœmero de setores e em 16 o nœmero de domic(cid:237)lios a serem selecionados por setor, em fun(cid:231)ªo da di(cid:222)culdade de acesso a esses setores, o que implicaria em aumento de custo(cid:148). Ossetoresdecadaumdos10estratosgeogrÆ(cid:222)cosforamsubdivididosem 3estratosdeacordocomarendamØdiamensaldochefedafam(cid:237)liaporsetor, perfazendo um total de 30 estratos geogrÆ(cid:222)cos versus renda. Em seguida foi feitaumaaloca(cid:231)ªo proporcional, com base nonœmero de domic(cid:237)lios particu- lares permanentes ocupados do estratode rendanouniversode cada estrato geogrÆ(cid:222)co, obtidos pelo Censo de 91. No (cid:222)nal foram obtidos 554 setores na amostra, distribu(cid:237)dos tal como revela a Tabela 1.1.

Description:
apresentados exemplos de análises de dados obtidos em pesquisas amostrais complexas, usando pacotes clássicos e também pacotes estatísticos
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.