Análise da Variância (ANOVA) 1 ANOVA Análise da Variância (ANOVA) é um método para testar a igualdade de três ou mais médias populacionais, baseado na análisedas variânciasamostrais. Os dados amostrais são separados em grupos segundo uma característica(fator). Fator (ou tratamento): é uma característica que permite distinguir diferentes populações umas das outras. Cada fator contém dois ou mais grupos (classificações). 2 Exemplos: (1) amostras do consumo de combustível para 3 tipos de carros, de fábricas (marcas) diferentes. Neste caso temos amostras de 3 populaçõesde carros. Temos um único fator: A marca. Este fator se separa em 3 tratamentos, cada uma das marcas. (2)Amostras do consumo de combustível para 3 tamanhos de motor (1,5 L, 2,2 L e 2,5 L) e tipo de transmissão (manual ou automática). Temos dois fatores: - O fator tamanho do motor, que contém três categorias: 1,5 L, 2,2 L e 2,5 L. - O fator tipo de transmissão, que contém duas categorias: manual e automática. 3 ANOVA de um critério (um fator) SUPOSIÇÕES: • Populações normalmente distribuida • Populações tem mesma variância (ou mesmo desvio padrão). • Amostras são aleatórias e mutuamente independentes. • As diferentes amostras são obtidas de populações classificadas em apenas uma categoria. 4 O estatístico George E. P. Box mostrou que os resultados são confiáveis desde que o tamanho das amostras são iguais (ou quase iguais), a diferença entre as variâncias podem ser de tal ordem que a maior seja nove vez a menor. Se a distribuições são fortemente não normais devemos utilizar outros métodos, por exemplo, o teste de Kruskal-Wallis. 5 Hipóteses do ANOVA de um critério HIPÓTESE NULA: a média de todas as populações são iguais,ou seja, o tratamento (fator) não tem efeito (nenhuma variação em média entre os grupos). HIPÓTES ALTERNATIVA:nem todas a médias populacionais são iguais, ou seja: Pelo menos uma média é diferente, isto é, existe efeito do tratamento. Não quer dizer que todas as médias são diferentes (alguns pares podem ser iguais) H : μ μ μ ...μ 0 1 2 3 k H : Nem todas as médias populacionais são iguais. 1 6 ANOVA de um fator H :μ μ μ ...μ 0 1 2 3 k H :Nem todos os μ são iguais 1 k Todas a médias são iguais: Ho é verdadeira (Sem efeito do tratamento) μ μ μ 1 2 3 7 ANOVA de um fator H :μ μ μ ...μ 0 1 2 3 k H :Nem todos os μ são iguais 1 k Ao menos uma média é diferente: Ho NÃO é verdadeira (Existe efeito do tratamento) or μ μ μ μ μ μ 1 2 3 1 2 3 8 Exemplo: Para k amostras (tratamentos) amostra 1 amostra 2 amostra 3 ... amostra k observação 1 x x x ... x 11 12 13 1k observação 2 x x x ... x 21 22 23 2k observação 3 x x x ... x 31 32 33 3k . . . . . . . . . . . . observação n x x x x k n11 n22 n33 ... nkk média amostral x x x ... x 1 2 3 k variância amostral s 2 s 2 s 2 ... s 2 1 2 3 k n x n x ...n x x 1 1 2 2 k k média sobre todos o valores amostrais (grande média) n n ...n 1 2 k x x ...x para amostras de tamanhos iguais: x 1 2 k k 9 Note que o livro texto define as amostras (tratamentos) em linhas e as observações em colunas Correspondência de notação entre livro texto e slides livro texto slides observações y x ij ij média das observações k y x k k grande média y x 10 A ideia básica de ANOVA: partição da variabilidade Variabilidade dos grupos (entre grupos) Variabilidade total Variabilidade devido a outros fatores (dentro dos grupos) 11 Decomposição das observações em contribuições de diferentes fontes: Observação = grande média + desvio devido ao tratamento + resíduo x x (x x) (x x ) ij j ij j 12 Exemplo Foram selecionadosvários automóveisde 3 modelos diferentese nelescolocadosa mod. 1 mod. 2 mod. 3 mesmaquantidadede gasolina. A 254 234 200 tabelaao ladomostraa quilometragemobtidapelos 263 218 222 automóveis. Existe diferençaentre 241 235 197 de distânciamédiapercorrida pelos 237 206 diferentestiposde automóveis? 1 – 251 Fator(tratamento): tipo de atutomóvel Níveis: modelo1, modelo 2, modelo 3 1133 Temos: modelo 1: x 249.2 1 modelo 2: x 229 2 modelo 3: x 206.25 3 n x n x n x 5.249,23.2294.206,25 grande média: x 1 1 2 2 3 3 229,833 n n n 534 1 2 3 Por exemplo: o elemento da amostra 1 x 241 31 pode ser decomposto assim: x x (x x) (x x ) 31 1 31 1 241 229.83 (249.2-229.83)(241249.2)229.8319.3678.2 14 Para o nosso exemplo: Observações = grande média + efeitos do tratamento + resíduos 254 234 200 229.83 229.83 229.83 19.367 -0.83 -23.58 4.8 5 200 263 218 222 229.83 229.83 229.83 19.367 -0.83 -23.58 13.8 11 222 241 235 197229.83 229.83 229.8319.367 -0.83 -23.588.2 6 197 237 206 229.83 229.83 19.367 -23.58 12.2 206 251 229.83 19.367 1.8 15 Medida de variação: variância amostral 2 x x i S2 i (que depende de uma soma de quadrados) n1 Variação total= variação entreas amostras + variação dentrodas amostras Em símbolos: SQ(total) = SQ(entre amostras)+SQ(dentro das amostras) SQ(total) ou soma total de quadrados: é uma medida da variação total (em torno de x) em todos os dados amostrais combinados. SQ(entre): é uma medida da variação entre as médias amostrais combinados. Também conhecida como SQ(tratamento). SQ(dentro) ou SQ(erro): soma de quadrados que representa a variabilidade comum a todas a populações em consideração. 16 Variação total SQ(total) = SQ(dentro) + SQ(entre) k nj SQ(total) (X X)2 ij j1 i1 Onde: k = número de amostras (tratamentos) n = número de observações na amostra j j X = i-ésima observação da amostra j ij X = média de todos os valores (grande média) 17 Variação entre amostras SQ(total) = SQ(entre) + S(dentro) k SQ(entre) n (X X)2 j j j1 Onde: k = número de amostras n = número de elementos da amostra j j X = média da amostra j j X = grande média 18 Variação entre amostras k SQ(entre) n (X X)2 j j j1 SQ(entre) Variação devido a QM(entre) diferença entre amostras. k 1 Quadrado médio entre = SQ(entre)/graus de liberdade i j 19 Variação dentro das amostras SQ(total) = SQ(entre) + SQ(dentro) k nj SQ(dentro) (X X )2 j ij j1 i1 Onde: k = número de amostras n = número de elementos da amostra j j X = média da amostra j j X = i-ésima observação na amostra j ij 20
Description: