Novas abordagens de aprendizado semisupervisionado por conectividade ótima

Autor: Amorim, Willian Paraguassu
Přispěvatelé: Carvalho, Marcelo Henriques de, Falcão, Alexandre Xavier, Ponte Junior, Moacir, Miyazawa, Flávio Keidi, Pistori, Hemerson, Matsubara, Edson Takashi
Jazyk: portugalština
Rok vydání: 2016
Předmět:
Zdroj: Biblioteca Digital de Teses e Dissertações da UFGD
Universidade Federal da Grande Dourados (UFGD)
instacron:UFGD
Popis: Submitted by Alison Souza (alisonsouza@ufgd.edu.br) on 2020-04-27T12:40:09Z No. of bitstreams: 1 UFMS - WillianParaguassuAmorim.pdf: 5875892 bytes, checksum: 1f671d439082a1e48511bd0b0a3f5127 (MD5) Made available in DSpace on 2020-04-27T12:40:09Z (GMT). No. of bitstreams: 1 UFMS - WillianParaguassuAmorim.pdf: 5875892 bytes, checksum: 1f671d439082a1e48511bd0b0a3f5127 (MD5) Previous issue date: 2016-12-19 A anotação de grandes bases de dados por um classificador é um problema cujo desafio aumenta à medida que o número de amostras supervisionadas usadas para treinar o clas-sificador reduz em comparação com o número de amostras não supervisionadas. Neste contexto, métodos de aprendizagem semisupervisionados visam a descoberta e propagação de rótulos para amostras informativas entre as não supervisionadas, de tal forma que a sua adição à classe correta no conjunto de treinamento possa melhorar o desempenho de classificação. Esta tese de doutorado apresenta uma série de novas abordagens de apren-dizado semisupervisionado com base na metodologia adotada por Floresta de Caminhos Ótimos (OPF). Esta metodologia interpreta o problema de reconhecimento de padrões como um problema de busca em grafo, onde os nós são amostras de treinamento, os ar-cos são definidos por uma dada relação de adjacência, e os caminhos são avaliados por alguma função de conectividade. Nós protótipos são identificados entre as amostras de treinamento e a competição entre eles faz com que cada amostra seja conquistada (rotu-lada) pelo protótipo que lhe oferece um caminho ótimo. O resultado é um classificador —floresta de caminhos ótimos enraizado no conjunto de protótipos. Classificadores podem ser criados por uma ou múltiplas execuções do algoritmo OPF para diferentes grafos e funções de conectividade. Apresentamos duas abordagens (OPFSEMI e OPFSEMI,„„t) para o problema de rótulo único, que diferem entre si em relação aos protótipos finais e ao número de execuções do algoritmo OPF. Também propomos uma abordagem semi-supervisionada mais adequada para o problema multirótulos do que as anteriores. Este é um problema desafiador, especialmente quando a solução adota a transformação de dados de multirótulos em dados de rótulo único, o que pode afetar o desempenho na fronteira entre classes. Para resolver este problema, melhoramos a atribuição de multitótulos adici-onando uma etapa final no processo de treinamento de OPFSEMI.d. O método, chamado OPFSEMI„,d+L.„„, cria uma floresta de caminhos ótimos enraizada nos máximos de uma função de densidade de probabilidade, estimada a partir de um grafo k-NN. Finalmente, propomos uma abordagem de aprendizagem ativa baseada em OPFSEMI„,d (OPFSEMI). O método seleciona amostras informativas para a supervisão de especialistas, de modo que o número de iterações no aprendizado ativo (esforço do usuário) é reduzido. The annotation of large data sets by a classifier is a problem whose challenge increases as the number of supervised samples available to train the classifier reduces in comparison to the number of unsupervised samples. In this context, semi-supervised learning methods aim at discovering and propagating labels to informative samples among the unsupervised ones, such that their addition to the correct class in the training set can improve the classification performance. This PhD thesis presents a series of novel semi-supervised learning approaches based on the Optimum-Path Forest (OPF) methodology. This methodology interprets the pattern recognition problem as a graph search problem, where the nodes are the training samples, the arcs are defined by a given adjacency relation, and the paths are assessed by some connectivity function. It identifies key nodes (prototypes) among the training samples and performs a competition process among them, such that each sample is conquered by the prototype that offers an optimum path to it. The result is a classifier — optimum-path forest rooted at the prototype set — which assigns labels to new samples by assessing extended paths to them. Classifiers can be created by one or multiple executions of the OPF algorithm for different graphs and connectivity functions. We present two approaches (OPFSEMI and its optimized version, OPFSEMImst) for the single-label problem, which differ from one another with respect to the final prototypes and number of executions of the OPF algorithm. We also propose a semi-supervised approach more suitable for the multi-label problem than the previous ones. This is a challenging problem, especially when it relies on the transformation of multi-label data into single-label data, which might affect performance at the boundary between classes. To resolve this problem, we improve the multi-label assignment by adding a final step in the training process of OPFSEMImst. The method, called OPFSEMImst+knn, creates an optimum-path forest rooted at the maxima of a probability density function, as estimated from a k-NN graph. Finally, we propose an active learning approach based on OPFSEMImst (OPFSEMI). The method selects informative samples for expert supervision, such that the number of active learning iterations (user effort) is reduced.
Databáze: OpenAIRE