Aprendizaje multi-vista para la detección jerárquica de temas en corpus de documentos

Autor: Calero Espinosa, Juan Camilo
Přispěvatelé: Niño Vasquez, Luis Fernando, LABORATORIO DE INVESTIGACIÓN EN SISTEMAS INTELIGENTES - LISI
Jazyk: angličtina
Rok vydání: 2021
Předmět:
Zdroj: Repositorio UN
Universidad Nacional de Colombia
instacron:Universidad Nacional de Colombia
Popis: diagramas, ilustraciones a color, tablas Topic detection on a large corpus of documents requires a considerable amount of computational resources, and the number of topics increases the burden as well. However, even a large number of topics might not be as specific as desired, or simply the topic quality starts decreasing after a certain number. To overcome these obstacles, we propose a new methodology for hierarchical topic detection, which uses multi-view clustering to link different topic models extracted from document named entities and part of speech tags. Results on three different datasets evince that the methodology decreases the memory cost of topic detection, improves topic quality and allows the detection of more topics. La detección de temas en grandes colecciones de documentos requiere una considerable cantidad de recursos computacionales, y el número de temas también puede aumentar la carga computacional. Incluso con un elevado nùmero de temas, estos pueden no ser tan específicos como se desea, o simplemente la calidad de los temas comienza a disminuir después de cierto número. Para superar estos obstáculos, proponemos una nueva metodología para la detección jerárquica de temas, que utiliza agrupamiento multi-vista para vincular diferentes modelos de temas extraídos de las partes del discurso y de las entidades nombradas de los documentos. Los resultados en tres conjuntos de documentos muestran que la metodología disminuye el costo en memoria de la detección de temas, permitiendo detectar màs temas y al mismo tiempo mejorar su calidad. Maestría Magíster en Ingeniería – Sistemas y Computación Procesamiento de lenguaje natural
Databáze: OpenAIRE