Reconeixement d'entitats nomenades i categorització de textos periodístics

Autor: Bernabeu Pérez, Pablo
Jazyk: Spanish; Castilian
Rok vydání: 2022
Předmět:
Zdroj: RiuNet. Repositorio Institucional de la Universitat Politécnica de Valéncia
instname
Popis: [CA] L’automatització de la tasca de classificació de textos en un conjunt de categories predeterminat i de la tasca de detecció d’entitats anomenades són temes de gran interés en diversos camps d’aplicació de l’àrea del Processament del Llenguatge Natural. Un d’eixos camps d’aplicació és el treball dels documentalistes sobre textos periodístics en un mitjà de comunicació audiovisual. La proposta d’aquest treball sorgeix de la col·laboració amb la Corporació Valenciana de Mitjans de Comunicació i té un doble objectiu. En primer lloc, el treball consistirà en la construcció i comparació de diversos sistemes basats en xarxes neuronals de classificació de textos periodístics d’un mitjà de comunicació en català. En segon lloc, el treball durà a terme l’entrenament de diversos models de reconeixement d’entitats anomenades que seran comparats entre ells i amb altres sistemes. Després es realitzarà un estudi del comportament d’aquests models sobre textos periodístics del mateix mitjà de comunicació, pel fet que s’han entrenat sobre un domini distint. [ES] La automatización de la tarea de clasificación de textos en un conjunto de categorías predeterminado y de la tarea de detección de entidades nombradas son temas de gran interés en diversos campos de aplicación del área del Procesamiento del Lenguaje Natural. Uno de esos campos de aplicación es el trabajo de los documentalistas sobre textos periodísticos en un medio de comunicación audiovisual. La propuesta de este trabajo surge de la colaboración con la Corporació Valenciana de Mitjans de Comunicació y tiene un doble objetivo. En primer lugar, el trabajo consistirá en la construcción y comparación de diversos sistemas basados en redes neuronales de clasificación de textos periodísticos de un medio de comunicación en catalán. En segundo lugar, el trabajo llevará a cabo el entrenamiento de varios modelos de reconocimiento de entidades nombradas que serán comparados entre ellos y con otros sistemas. Después se realizará un estudio del comportamiento de estos modelos sobre textos periodísticos del mismo medio de comunicación, debido a que se han entrenado sobre un dominio distinto. [EN] The automation of the task of classifying texts into a predetermined set of categories and of the task of named entity recognition are topics of great interest in various fields of application in the area of Natural Language Processing. One of these fields of application is the work of documentalists on journalistic texts in an audiovisual media. The proposal of this project arises from the collaboration with the Corporació Valenciana de Mitjans de Comunicació and has a double objective. Firstly, the work will consist of the construction and comparison of different systems based on neural networks for the classification of journalistic texts of a media in catalan. Secondly, the work will carry out the training of several named entity recognition models that will be compared among them and with other systems. Then, a study of the behavior of these models on journalistic texts of the same media will be carried out, due to the fact that they have been trained on a different domain.
Databáze: OpenAIRE