[pt] APRENDIZADO COM RESTRIÇÃO DE TEMPO: PROBLEMAS DE CLASSIFICAÇÃO

Autor: FRANCISCO SERGIO DE FREITAS FILHO
Jazyk: portugalština
Rok vydání: 2023
Předmět:
Druh dokumentu: TEXTO
DOI: 10.17771/PUCRio.acad.63896
Popis: [pt] Com a crescente quantidade de dados sendo gerados e coletados, torna-se mais comum cenários em que se dispõe de dados rotulados em larga escala, mas com recursos computacionais limitados, de modo que não seja possível treinar modelos preditivos utilizando todas as amostras disponíveis. Diante dessa realidade, adotamos o paradigma de Machine Teaching como uma alternativa para obter modelos eficazes utilizando um subconjunto representativo dos dados disponíveis. Inicialmente, consideramos um problema central da área de Machine Teaching que consiste em encontrar o menor conjunto de amostras necessário para obter uma dada hipótese alvo h(asterisco). Adotamos o modelo de ensino black-box learner introduzido em (DASGUPTA et al., 2019), em que o ensino é feito interativamente sem qualquer conhecimento sobre o algoritmo do learner e sua classe de hipóteses, exceto que ela contém a hipótese alvo h(asterisco). Refinamos alguns resultados existentes para esse modelo e estudamos variantes dele. Em particular, estendemos um resultado de (DASGUPTA et al., 2019) para o cenário mais realista em que h(asterisco) pode não estar contido na classe de hipóteses do learner e, portanto, o objetivo do teacher é fazer o learner convergir para a melhor aproximação disponível de h(asterisco). Também consideramos o cenário com black-box learners não adversários e mostramos que podemos obter melhores resultados para o tipo de learner que se move para a próxima hipótese de maneira suave, preferindo hipóteses que são mais próximas da hipótese atual. Em seguida, definimos e abordamos o problema de Aprendizado com Restrição de Tempo considerando um cenário em que temos um enorme conjunto de dados e um limite de tempo para treinar um dado learner usando esse conjunto. Propomos o método TCT, um algoritmo para essa tarefa, desenvolvido com base nos princípios de Machine Teaching. Apresentamos um estudo experimental envolvendo 5 diferentes learners e 20 datasets no qual mostramos que TCT supera métodos alternativos considerados. Finalmente, provamos garantias de aproximação para uma versão simplificada do TCT.
[en] With the growing amount of data being generated and collected, it becomes increasingly common to have scenarios where there are large-scale labeled data but limited computational resources, making it impossible to train predictive models using all available samples. Faced with this reality, we adopt the Machine Teaching paradigm as an alternative to obtain effective models using a representative subset of available data. Initially, we consider a central problem of the Machine Teaching area which consists of finding the smallest set of samples necessary to obtain a given target hypothesis h(asterisk). We adopt the black-box learner teaching model introduced in (DASGUPTA et al., 2019), where teaching is done interactively without any knowledge about the learner s algorithm and its hypothesis class, except that it contains the target hypothesis h(asterisk). We refine some existing results for this model and study its variants. In particular, we extend a result from (DASGUPTA et al., 2019) to the more realistic scenario where h(asterisk) may not be contained in the learner s hypothesis class, and therefore, the teacher s objective is to make the learner converge to the best available approximation of h(asterisk). We also consider the scenario with non-adversarial black-box learners and show that we can obtain better results for the type of learner that moves to the next hypothesis smoothly, preferring hypotheses that are closer to the current hypothesis. Next, we address the Time-Constrained Learning problem, considering a scenario where we have a huge dataset and a time limit to train a given learner using this dataset. We propose the TCT method, an algorithm for this task, developed based on Machine Teaching principles. We present an experimental study involving 5 different learners and 20 datasets in which we show that TCT outperforms alternative methods considered. Finally, we prove approximation guarantees for a simplified version of TCT.
Databáze: Networked Digital Library of Theses & Dissertations