Aplicación de técnicas de Deep Learning para la extracción de términos en dominios específicos
Autor: | Guasp Alburquerque, Lucía |
---|---|
Přispěvatelé: | Corcho García, Óscar, Rico Almodóvar, Mariano, Corcho, Oscar |
Jazyk: | Spanish; Castilian |
Rok vydání: | 2020 |
Předmět: | |
Zdroj: | Archivo Digital UPM Universidad Politécnica de Madrid |
Popis: | En este Trabajo de Fin de Máster se aborda el problema de la extracción automática de términos en dominios específicos mediante algoritmos de aprendizaje automático supervisado, en particular, modelos basados en redes neuronales artificiales y aprendizaje profundo. Para resolver esta tarea, se han implementado dos modelos cuya estructura principal consiste en redes bidireccionales LSTM (Long Short Term Memory), puesto que permiten capturar el contexto y las dependencias de las palabras en ambas direcciones. Asimismo, se han empleado representaciones vectoriales de las palabras (word embeddings), en concreto, se ha usado el modelo de representación de Glove, que simboliza el significado de las palabras en base al contexto en el que se encuentran. Los modelos se han entrenado con el dataset público INSPEC, sobre el cual también se ha realizado un proceso de validación, con la finalidad de verificar que son capaces de generalizar la extracción de términos sobre documentos distintos a aquellos empleados en el entrenamiento. Igualmente, el uso del dataset INSPEC etiquetado con una terminología ha permitido evaluar los resultados obtenidos mediante las métricas de precisión, recall y F1. Los rendimientos obtenidos con los modelos implementados en este trabajo han permitido verificar que se han alcanzado los resultados del estado del arte relativos a modelos basados en redes BiLSTM con representaciones vectoriales fijas, como Glove. Adicionalmente, uno de los modelos desarrollados en este trabajo ha superado el rendimiento de los modelos equivalentes de la literatura científica (basados en redes BiLSTM y representaciones fijas), hasta donde se tiene constancia. La mejora consiste en un aumento de la métrica F1 en torno a un 5 % y del recall alrededor de un 10 %, principalmente gracias al empleo de una arquitectura neuronal con una mayor profundidad. Tras el proceso de implementación y evaluación, se han usado los modelos desarrollados para la extracción de terminología de corpus no anotados. La finalidad de la extracción de estos términos consiste en su posible futura incorporación a una herramienta de búsqueda llamada KeyQ, desarrollada en el AI.nnovation Space de la Universidad Politécnica de Madrid. Esta herramienta utiliza estos términos para hacer una búsqueda por palabra clave más eficaz que las búsquedas tradicionales. En concreto, se han empleado los modelos para la extracción de términos de un corpus formado por documentos técnicos de Airbus, así como para la extracción de la terminología de un corpus relativo a la COVID-19, compuesto por artículos científicos sobre esta enfermedad.---ABSTRACT---This Final Master Project addresses the problem of automatic terms extraction in specific domains by supervised machine learning algorithms, in particular, models based on artificial neural networks and Deep Learning. To solve this task, two models have been implemented whose main structure consists of bidirectional LSTM networks (Long Short Term Memory), since they allow to capture the context and dependencies of words in both directions. Likewise, vector representations of words have been used (word embeddings), specifically, the representation model of Glove, which expresses the meaning of the words based on the context in which they are found. The models have been trained with the public INSPEC dataset, on which the validation process has also been carried out, in order to verify that they are capable of generalizing the extraction on terms on different documents than those used in the training. Likewise, the use of the INSPEC dataset labeled with a terminology has allowed to evaluate the results obtained by means of the precision, recall, and F1 metrics. The performance obtained with the models implemented in this work has allowed to verify that the results of the state of the art regarding models based on BiLSTM networks with fixed vector representations, such as Glove, have been achieved. In addition, one of the models developed in this work has outperformed equivalent models in the scientific literature (based on BiLSTM networks and fixed word embeddings) as far as we know. The improvement consists in an increase of the F1 metric by about 5 % and of the recall by about 10 %, mainly thanks to the use of a neural architecture with a greater depth. After the implementation and evaluation process, the models developed have been used for the terminology extraction of terms in unannotated corpus. The purpose of the extraction of these terms is their possible future incorporation to a search tool called KeyQ, developed in the AI.nnovation Space of the Polytechnic University of Madrid. This tool uses these terms to make a more efficient keyword search than traditional searches. In particular, the models have been used to extract terms from a corpus formed by Airbus technical documents, as well as to extract the terminology from a corpus related to COVID-19, which is comprised of scientific articles on this topic. |
Databáze: | OpenAIRE |
Externí odkaz: |