Estimação não parametrica aplicada a problemas de classificação via Bagging e Boosting
Autor: | Rubesam, Alexandre |
---|---|
Přispěvatelé: | Dias, Ronaldo, 1959, Von Zuben, Fernando José, Stern, Julio Michael, Garcia, Jesus Enrique, Universidade Estadual de Campinas. Instituto de Matemática, Estatística e Computação Científica, Programa de Pós-Graduação em Estatística, UNIVERSIDADE ESTADUAL DE CAMPINAS |
Rok vydání: | 2021 |
Předmět: | |
Zdroj: | Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) Universidade Estadual de Campinas (UNICAMP) instacron:UNICAMP |
DOI: | 10.47749/t/unicamp.2004.302661 |
Popis: | Orientador: Ronaldo Dias Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Matematica, Estatistica e Computação Cientifica Resumo: Alguns dos métodos mais modernos e bem sucedidos de classificação são bagging, boosting e SVM (Support Vector M achines ). B agging funciona combinando classificadores ajustados em amostras bootstrap dos dados; boosting funciona aplicando-se seqüencialmente um algoritmo de classificação a versões reponderadas do conjunto de dados de treinamento, dando maior peso às observações classificadas erroneamente no passo anterior, e SVM é um método que transforma os dados originais de maneira não linear para um espaço de dimensão maior, e procura um hiperplano separador neste espaço transformado. N este trabalho estudamos os métodos descritos acima, e propusemos dois métodos de classificação, um baseado em regressão não paramétrica por Hsplines (também proposto aqui) e boosting, e outro que é uma modificação de um algoritmo de boosting baseado no algoritmo MARS. Os métodos foram aplicados em dados simulados e em dados reais Abstract: Some of the most modern and well succeeded classification methods are bagging, boosting and SVM (Support Vector Machines). Bagging combines classifiers fitted to bootstrap samples of the training data; boosting sequentially applies a classification algorithm to reweighted versions of the training data, increasing in each step the weights of the observations that were misclassified in the previous step, and SVM is a method that transforms the data in a nonlinear way to a space of greater dimension than that of the original data, and searches for a separating hyperplane in this transformed space. In this work we have studied the methods described above. We propose two classification methods: one of them is based on a nonparametric regression method via H-splines (also proposed here) and boosting, and the other is a modification of a boosting algorithm, based on the MARS algorithm. The methods were applied to both simulated and real data Mestrado Mestre em Estatística |
Databáze: | OpenAIRE |
Externí odkaz: |