Modelagem Bayesiana semi-paramétrica via misturas
Autor: | Nívea Bispo da Silva |
---|---|
Přispěvatelé: | Marcos Oliveira Prates, Flavio Bambirra Goncalves, Rosangela Helena Loschi, Vinicius Diniz Mayrink, Dani Gamerman, Celso Rômulo Barbosa Cabral |
Jazyk: | portugalština |
Rok vydání: | 2017 |
Předmět: | |
Zdroj: | Repositório Institucional da UFMG Universidade Federal de Minas Gerais (UFMG) instacron:UFMG |
Popis: | A modelagem estatística baseada em misturas nitas de distribuições é uma área de pesquisa em crescente ascensão. Devido à sua exibilidade e ao avanço de métodos computacionais nas duas últimas décadas, esse tipo de modelagem tem se tornado bastante atrativo tanto do ponto de vista prático quanto teórico, pois permite que densidades com estruturas complexas sejam aproximadas usando uma estrutura mais simples.Além disso, os modelos estatísticos baseados em misturas conseguem capturar propriedades especícas dos dados como multimodalidade, assimetria, cauda pesada e heterogeneidade decorrente de fatores não-observados. Há na literatura inúmeros trabalhos sobre modelagem estatística baseada em misturas nitas de distribuições normais e muitos autores mostraram que esse tipo de mistura fornece uma base simples e ecaz para estimação de densidades e modelagem de populações heterogêneas. Entretanto,em problemas práticos onde há a presença de outliers nos dados, a distribuição normal pode ter suas estimativas para média e variância seriamente afetadas. Neste sentido há uma recente propagação de modelos baseados em misturas com componentes não-normais onde as distribuições assumidas para os componentes da mistura são, por exemplo, t de Student, Slash, Skew-Normal, Skew-t, dentre outras. Neste trabalho uma modelagem semi-paramétrica baseada em misturas nitas de distribuições t de Student será introduzida. A especicação do modelo proposto considera estruturas separadas para as modas e o comportamento de cauda, o que exibiliza a estimação de densidades. Além disso, a estrutura de cauda na abordagem apresentada será estimada sem que haja a necessidade de se estimar parâmetros de grau de liberdade, cuja estimação é conhecida por ser difícil e custosa computacionalmente. Uma extensão do modelo no contexto de regressão linear também é apresentada para as situações onde os erros do modelo possuem multimodalidade, assimetria e caudas pesadas. A abordagem proposta é avaliada através de estudos de simulação e aplicações a conjuntos de dados reais, onde um algoritmoMCMCépropostoeimplementadoparaamostrardasdistribuiçõesa posteriori Statistical modeling based on nite mixture distributions is a growing research area. Due to its exibility and the advance of computational methods in the last two decades, this type of modeling has become quite attractive both from a practical and a theoretical point of view, since it allows densities with complex structures to be approximated using a simpler structure. In addition, statistical models based on nite mixtures can capture specic data properties such as multimodality, asymmetry, heavy tail and heterogeneity due to unobserved factors. Numerous studies on statistical modeling based on nite mixtures of normal distributions have been published in the literature, and many authors have shown that this type of mixture provides a simple and eective basis for estimating densities and modeling heterogeneous populations. However, in practical problems where there are outliers in the data, the normal distribution may have its estimates for mean and variance severely aected. In this sense there is a recent propagation of models based on mixtures withnon-normalcomponents where the assumed distributions for the components of the mixture are, for example, Student-t, Slash, Skew-Normal, Skew-t, among others. In this work a semi-parametric model based on nite mixtures of t distributions will be introduced. The proposed model specication considers separate structures for the modes and tail behavior, which makes density estimation more exible. In addition, the tail structure in the presented approach will be estimated without the need to estimate degree of freedom parameters, whose estimation is known to be dicult and computationally costly. An extension of the model in the linear regression context is also presented for situations where model errors have multimodality, asymmetry and heavy tails. The proposed approach is evaluated through simulation studies and applications to real data sets, where an MCMC algorithm is proposed and implemented to sample from the posterior distributions |
Databáze: | OpenAIRE |
Externí odkaz: |