Susana Margarida Ferreira de Sa´ Faria Modelos de Mistura: Aplica¸co˜es em An´alise de Regress˜ao Dissertac¸˜ao apresentada `a Faculdade de Engenharia da Universidade do Porto para a obtenc¸˜ao do grau de Doutor em Ciˆencias de Engenharia Orientac¸˜ao: Prof. Doutor Francisco Jos´e Lage Campelo Calheiros Co-orientac¸˜ao: Prof. Doutora Gilda Maria De Carvalho Fernandes Soromenho Pereira Faculdade de Engenharia da Universidade do Porto 2006 O trabalho de investigac¸˜ao apresentado nesta dissertac¸˜ao foi parcialmente financiado pelo PRODEP III - Ac¸c˜ao 5.3 - Formac¸˜ao Avan¸cada no Ensino Superior - Concurso no2/5.3/PRODEPIII/2001 e pelo FCT e FSE no ˆambito do III Quadro Comunit´ario de Apoio. Resumo Nesta disserta¸c˜ao s˜ao estudados os Modelos de Mistura no dom´ınio da An´alise de Re- gress˜ao, em particular, os modelos de regress˜ao em misturas de distribui¸c˜oes e os modelos de mistura de regress˜oes lineares. Relativamente aos modelos de regress˜ao em misturas de distribuic¸˜oes, pretende-se ana- lisar qual o modelo de regress˜ao adequado em misturas de distribuic¸˜oes de componentes normaisbidimensionais. Comesseobjectivo,estudam-seosvaloresesperadoscondicionaise as variˆancias condicionais no par aleat´orio mistura de componentes normais bidimensionais e conclui-se que a linearidade do modelo de regress˜ao nem sempre ´e verificada. Prop˜oe- se ainda a aplica¸c˜ao de um m´etodo para estimar o modelo de regress˜ao nestas misturas. Os estudos num´ericos efectuados mostram-nos resultados encorajadores na aplica¸c˜ao deste m´etodonaestimac¸˜aodacurvaderegress˜aonestasmisturas,comparandocomoutrom´etodo existente para estimar uma curva de regress˜ao. No entanto, estes estudos evidenciam cla- ramente que quando se ajusta um modelo linear a cada componente da mistura se obt´em um melhor ajustamento aos dados. Relativamente aos modelos de mistura de regress˜oes lineares abordamos o problema da sua estimac¸˜ao e da detec¸c˜ao de observa¸c˜oes inconsistentes nestes modelos. Emboraom´etododam´aximaverosimilhan¸carecorrendoaoalgoritmoExpectationMaxi- mization(EM)tenhasidoom´etodomaisaplicadonaestimac¸˜aodosparˆametrosdemisturas de regress˜oes lineares, neste trabalho ´e proposto um novo procedimento que utiliza o al- goritmo Classification Expectation Maximization (CEM) para determinar as estimativas de m´axima verosimilhan¸ca dos parˆametros dessas misturas. O estudo efectuado leva-nos a considerar a aplicac¸˜ao do algoritmo CEM como uma alternativa de interesse para a esti- ma¸c˜ao dos parˆametros destas misturas, em especial nas situac¸˜oes em que as verdadeiras rectas de regress˜ao componentes da mistura s˜ao paralelas entre si. Uma vez que a detecc¸˜ao de observac¸˜oes que parecem inconsistentes com o modelo de regress˜ao estimado tem desempenhado um papel primordial em an´alise de regress˜ao, desenvolve-se um novo teste para identificar observac¸˜oes outliers em misturas de regress˜oes lineares. Este teste tem como objectivo identificar se novas observa¸c˜oes entretando obtidas podem ser consideradas outliers ao modelo estimado a partir do conjunto de observa¸c˜oes iniciais. A sua aplica¸c˜ao permite concluir que´e um teste adequado para identificar se novas observac¸˜oes constituem outliers ao modelo estimado de misturas de regress˜oes lineares. Abstract In this thesis we study Mixture Models in a Regression Analysis Context. In particular, regression models in mixture distributions and the mixture of linear regression models. Concerning regression models in mixture distributions, we study the regression model in bivariate Gaussian mixture models. For doing so, we find the expected value and the variance of bivariate Gaussian mixture in conditional distributions. At the end we conclude that the linearity of this regression model is not always verified. The application of a method for fitting a curve of regression in these mixtures is also proposed. When comparing the results obtained by this method with those obtained by anothermethodforfittingaregressioncurve, whenbothareappliedtoasetofcasestudies, the results obtained are particularly encouraging for further developments in the area. However, these studies clearly evidence that the best-fit regression model is obtained when a linear model is fitted to each component of the mixture. Concerning the models of mixture of linear regressions this work concentrates on the fitting of these models and on the detection of outliers. In most applications the parameters of a mixture of linear regression models are estima- tedbymaximizingthelikelihood,theEMalgorithmbeingthemostpopulartooltoestimate the maximum likelihood in mixtures of regression models. In this work, we develop a new procedure for fitting these models using a Classification EM algorithm and compare it to the EM approach. The results of the simulation suggest that the CEM algorithm performs well, especially when the true regression lines are parallel. The detention of observations that seem inconsistent with the fitted regression model has played a primordial role in regression analysis. In this work we develop a new test for outlier detection from a mixture of linear regressions, when the CEM algorithm is used to estimate the maximum likelihood of the mixture of parameters. The objective of this test is to identify if a new observation is as an outlier from the fitted regression model. The good performance of the test shows that it is suitable for detecting if new observations are outliers of the estimated model of mixtures of linear regressions. Agradecimentos Em primeiro lugar quero expressar os mais profundos agradecimentos aos meus orien- tadores cient´ıficos, o Professor Doutor Francisco Calheiros e a Professora Doutora Gilda Soromenho, pela orienta¸c˜ao, ajuda e amizade prestada durante a elaborac¸˜ao desta disser- ta¸c˜ao. Agrade¸coaoProfessorFranciscoCalheiroscomquemtiveoprivil´egiodetrabalhardesde que iniciei os meus estudos em Estat´ıstica e que me motivou para o desenvolvimento do tema deste trabalho. Agrade¸coigualmente`aProfessoraGildaSoromenhopelasuadisponibilidadeeconfian¸ca demonstrada, a quem ficarei eternamente agradecida. N˜ao posso deixar de agradecer, Aos meus colegas do Departamento de Matem´atica para a Ciˆencia e Tecnologia da Universidade do Minho, em especial, `a Professora Doutora Estelita Vaz, pelo apoio sempre demonstrado e pelos bons momentos de conv´ıvio e descontracc¸˜ao. Ao S´ergio Reis Cunha, pela sua disponibilidade e apoio sempre manifestados `as minhas solicitac¸˜oes. A` Concei¸c˜ao, pelo constante encorajamento, apoio e amizade sempre presentes ao longo do tempo. A` Teresa,pelaenergia,oˆanimoeadisponibilidadequesempremeofereceu,emespecial, nos momentos mais dif´ıceis ocorridos durante a elabora¸c˜ao desta disserta¸c˜ao. A` Ana, pela ajuda? E´ pouco! Pela disponibilidade? E´ insuficiente! Pelo apoio? N˜ao chega! Ent˜ao?... Agrade¸co a nossa Enorme Amizade. Ao Paulo, pelo optimismo, pela confianc¸a e pela compreens˜ao sempre demonstradas. ii Aos meus pais e irm˜a que estiveram sempre presentes, me apoiaram nos momentos mais dif´ıceis, pela paciˆencia que sempre tiveram, pelo incentivo que sempre manifestaram e pelo bom ambiente que proporcionaram. Finalmente, a duas pessoas que infelizmente j´a n˜ao se encontram entre n´os, os meus av´os Maria da Piedade e Normando, pelo carinho dedicado e pelos princ´ıpios transmitidos que me ajudam a ser o que hoje sou. A todos os amigos mencionados e a todos que n˜ao o foram, mas que de algum modo contribu´ıram para que eu pudesse realizar este trabalho, os meus sinceros e profundos agradecimentos. ´ Indice 1 Introdu¸c˜ao 1 1.1 Tema e objectivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2 Estrutura da dissertac¸˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2 Modelos de Mistura de Distribui¸c˜oes 7 2.1 No¸c˜oes preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.2 M´etodos de estima¸c˜ao de misturas de distribuic¸˜oes . . . . . . . . . . . . . . 12 2.2.1 M´etodo dos momentos . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.2.2 M´etodo da m´axima verosimilhan¸ca . . . . . . . . . . . . . . . . . . . 13 2.2.3 M´etodos gr´aficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.2.4 M´etodo da distˆancia m´ınima . . . . . . . . . . . . . . . . . . . . . . 17 2.2.5 M´etodos bayesianos . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.3 Algoritmo EM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.3.1 Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.3.2 Desvantagem do algoritmo . . . . . . . . . . . . . . . . . . . . . . . 20 2.3.3 Estrat´egias para obtenc¸˜ao de solu¸c˜oes iniciais . . . . . . . . . . . . . 21 2.4 M´etodos para identificar o nu´mero de componentes da mistura . . . . . . . 22 2.5 Coment´arios finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3 MCLUST 27 3.1 An´alise de clusters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 3.1.1 Constru¸c˜ao dos clusters . . . . . . . . . . . . . . . . . . . . . . . . . 28 3.1.2 M´etodos hier´arquicos. . . . . . . . . . . . . . . . . . . . . . . . . . . 28 3.1.3 M´etodos de partic¸˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 3.2 M´odulo inform´atico Mclust . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3.2.1 Func¸˜ao EMclust . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 3.3 Coment´arios finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 iii iv ´INDICE 4 Momentos de Misturas de Distribui¸c˜oes 39 4.1 Introdu¸c˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 4.2 Coeficiente de assimetria e coeficiente de achatamento . . . . . . . . . . . . 40 4.3 Distribui¸c˜oes puras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 4.4 Mistura bin´aria de distribui¸c˜oes . . . . . . . . . . . . . . . . . . . . . . . . . 42 4.4.1 Valor esperado e variˆancia . . . . . . . . . . . . . . . . . . . . . . . . 43 4.4.2 Coeficiente de assimetria e coeficiente de achatamento . . . . . . . . 49 4.5 Generalizac¸˜ao a misturas n˜ao bin´arias . . . . . . . . . . . . . . . . . . . . . 58 4.5.1 Estudo de dados simulados . . . . . . . . . . . . . . . . . . . . . . . 58 4.6 Aplica¸c˜ao a dados reais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 4.7 Coment´arios finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 5 An´alise de Regress˜ao em Misturas de Normais Bidimensionais 63 5.1 Introdu¸c˜ao `a An´alise de Regress˜ao . . . . . . . . . . . . . . . . . . . . . . . 63 5.1.1 Modelo de regress˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 5.1.2 M´etodos de estima¸c˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . 65 5.1.3 Curva de regress˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 5.2 Regress˜ao em normais bidimensionais . . . . . . . . . . . . . . . . . . . . . 68 5.3 Regress˜ao em misturas de normais bidimensionais. . . . . . . . . . . . . . . 70 5.3.1 Estima¸c˜ao do modelo de regress˜ao em misturas de normais bidimen- sionais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 5.3.2 Regress˜ao linear em misturas de normais bidimensionais . . . . . . . 84 5.4 Estudo de simulac¸˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 5.4.1 Descri¸c˜ao do estudo . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 5.4.2 Misturas de duas componentes normais bidimensionais: resultados . 94 5.4.3 Misturas de trˆes componentes normais bidimensionais: resultados . . 99 5.5 Aplica¸c˜ao de misturas de normais bidimensionais `a estimac¸˜ao de uma curva de regress˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 5.5.1 Descri¸c˜ao do m´etodo . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 5.5.2 Descri¸c˜ao do estudo de simula¸c˜ao . . . . . . . . . . . . . . . . . . . . 107 5.6 Coment´arios finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 6 Modelos de Mistura de Regress˜oes Lineares 111 6.1 Introdu¸c˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 6.2 Modelo de mistura de regress˜oes . . . . . . . . . . . . . . . . . . . . . . . . 115 6.3 Estimac¸˜ao de misturas de regress˜oes lineares. . . . . . . . . . . . . . . . . . 116
Description: