Automatic relationship extraction from noisy data
Autor: | Sardinha, Diorge Brognara |
---|---|
Přispěvatelé: | Cerri, Ricardo |
Jazyk: | portugalština |
Rok vydání: | 2020 |
Předmět: | |
Zdroj: | Repositório Institucional da UFSCAR Universidade Federal de São Carlos (UFSCAR) instacron:UFSCAR |
Popis: | Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) Relationship extraction is a task performed in text-based continuous learning systems, aiming to find semantic relationships between categories or entities. NELL is such a system, which suffers from supervised labeling in its relationship extraction. One of the algorithms attempting to solve this task for NELL is OntExt, but it does not handle noisy input very well, and is computationally expensive. However this algorithm has interesting properties in the context of NELL’s application, not available in other methods. In this work, it is proposed a variant of the algorithm to reduce the impact of its flaws, using a graph-based representation, which is flexible in the handling of outliers. This new method has a comparable precision and higher recall, compared to the existing method. It is also shown an efficient way to represent the problem using sparse structures, reducing the computational cost from minutes to seconds. Extração de relações é uma tarefa realizada em sistemas de aprendizado contínuo a partir de fontes textuais, com o objetivo de encontrar relações semânticas entre categorias ou entidades. A NELL é um sistema desse tipo, que encontra problemas na extração de relações devido a suas propriedades de supervisionamento e rotulação. Um dos algoritmos para essa tarefa desenvolvidos para a NELL é o OntExt, que apresenta dificuldades de execução devido a entradas ruidosas e ao seu custo computacional. No entanto, o algoritmo possui propriedades interessantes para o contexto da aplicação, que não estão presentes em outros métodos. Neste trabalho, é proposta uma variante do algoritmo a fim de aliviar as principais deficiências identificadas, que utiliza uma estrutura de grafo, e é flexível para tratamento de outliers. O novo método proposto possui precisão comparável ao existente, e uma revocação maior. Também é apresentada uma forma eficiente de representar o problema através de uma estrutura esparsa, reduzindo o custo computacional da ordem de minutos para segundos. CAPES: Código de Financiamento 001 |
Databáze: | OpenAIRE |
Externí odkaz: |