[en] MEMORY AUGMENTED NEURAL NETWORKS FOR RELATION EXTRACTION FROM TEXT

Autor: CRISTIAN ENRIQUE MUNOZ VILLALOBOS
Jazyk: portugalština
Rok vydání: 2023
Předmět:
Druh dokumentu: TEXTO
DOI: 10.17771/PUCRio.acad.62002
Popis: [pt] A crescente disponibilidade de grandes corpora – conjunto de corpus de texto – cria a expectativa de sintetizar, organizar e inferir uma quantidade de informação sem precedentes. A extração de conhecimento automática (ECA), área que está no cerne do Processamento de Linguagem Natural (PLN) e da Inteligência Artificial (IA), aponta para o uso de técnicas de aquisição de conhecimento estruturado a partir de dados não estruturados, como os documentos de texto. A ECA compreende essencialmente duas tarefas: o reconhecimento de entidades nomeadas (REN) ou objetos do mundo real, e a extração de relações (ER). Recentemente, as soluções propostas para essas tarefas, em sua maioria, são modelos de aprendizado profundo (AP). Atualmente, os modelos conseguem extrair com boa acurácia informação existente em texto do tamanho de um resumo. Neste trabalho, aborda-se a criação de mecanismos e estruturas de AP que permitam a expansão da capacidade de armazenamento de informação de forma a reconhecer com uma alta eficiência longas dependências entre entidades. Este trabalho tem como objetivo o desenvolvimento, implementação e avaliação de técnicas de AP para aplicações de PLN como o RCE e a ER a partir de um documento de texto. Portanto, exploram-se modelos baseados em estruturas Transformer, que otimizam o processamento de sequências, juntamente com mecanismos que se assemelham ao controle de bancos de memória, com a finalidade de incrementar o nível de raciocínio destes modelos. O treinamento dos modelos parte de um conjunto de textos rotulados – anotações – indicando a presença de tipos de entidades ou relações que existem entre elas. O modelo recebe como entrada um texto e deve aprender a reconhecer as entidades e as relações lá contidas. Os resultados obtidos demonstram efetividade dos modelos propostos quando comparados aos baseados em redes neurais já existentes.
[en] The increasing availability of large corpora – a set of text corpus – creates the expectation of synthesizing, organizing and inferring an unprecedented amount of information. Automatic Knowledge Extraction (AKE), an area that is at the heart of Natural Language Processing (NLP) and Artificial Intelligence (AI), aims at using structured knowledge acquisition techniques from unstructured data such as text documents. In essence, AKE is comprised of two tasks: Named Entity Recognition and Classification (NERC) and Relation Extraction (RE). Recently, the solutions proposed for these tasks are mostly deep learning (DL) approaches. Today, models can accurately extract relation information between entities in different sentences. This work deals with the creation of DL mechanisms that allow increasing the extracted information storage capacity in order to recognize more complex patterns. This work aims to develop, implement and evaluate DL techniques for NLP applications such as NERC and RE from a raw text. Therefore, models based on Transformer structures, that optimize sequence processing, are explored together with mechanisms based on memory networks, in order to increase the reasoning capacity of these models. The training dataset is based on a set of labeled texts – annotations – indicating the presence of entity types or relationships between them. The model receives text as its input and must learn to recognize the entities and relationships contained therein. Results show the effectiveness of the proposed models when compared to those based on existing neural networks approaches.
Databáze: Networked Digital Library of Theses & Dissertations