Aprendizaje multi-vista para la detección jerárquica de temas en corpus de documentos
Autor: | Calero Espinosa, Juan Camilo |
---|---|
Přispěvatelé: | Niño Vasquez, Luis Fernando, LABORATORIO DE INVESTIGACIÓN EN SISTEMAS INTELIGENTES - LISI |
Jazyk: | angličtina |
Rok vydání: | 2021 |
Předmět: |
Automatic indexing
Indexación automática Entidades nombradas Named entities Agrupamiento multi-vista Recuperación de información Aprendizaje multi-vista Multi-view clustering Information processing Graph fusion Multi-view learning Topic detection 000 - Ciencias de la computación información y obras generales Fusión de grafos |
Zdroj: | Repositorio UN Universidad Nacional de Colombia instacron:Universidad Nacional de Colombia |
Popis: | diagramas, ilustraciones a color, tablas Topic detection on a large corpus of documents requires a considerable amount of computational resources, and the number of topics increases the burden as well. However, even a large number of topics might not be as specific as desired, or simply the topic quality starts decreasing after a certain number. To overcome these obstacles, we propose a new methodology for hierarchical topic detection, which uses multi-view clustering to link different topic models extracted from document named entities and part of speech tags. Results on three different datasets evince that the methodology decreases the memory cost of topic detection, improves topic quality and allows the detection of more topics. La detección de temas en grandes colecciones de documentos requiere una considerable cantidad de recursos computacionales, y el número de temas también puede aumentar la carga computacional. Incluso con un elevado nùmero de temas, estos pueden no ser tan específicos como se desea, o simplemente la calidad de los temas comienza a disminuir después de cierto número. Para superar estos obstáculos, proponemos una nueva metodología para la detección jerárquica de temas, que utiliza agrupamiento multi-vista para vincular diferentes modelos de temas extraídos de las partes del discurso y de las entidades nombradas de los documentos. Los resultados en tres conjuntos de documentos muestran que la metodología disminuye el costo en memoria de la detección de temas, permitiendo detectar màs temas y al mismo tiempo mejorar su calidad. Maestría Magíster en Ingeniería – Sistemas y Computación Procesamiento de lenguaje natural |
Databáze: | OpenAIRE |
Externí odkaz: |