Text anomaly detection based on Natural Language Models

Autor: Herrera Cancelado, Catalina
Přispěvatelé: Alvarado Valencia, Jorge Andrés, Beltrán Cortés, Ana María, García Díaz, Juan Carlos
Jazyk: Spanish; Castilian
Rok vydání: 2021
Předmět:
Zdroj: Repositorio Universidad Javeriana
Pontificia Universidad Javeriana
instacron:Pontificia Universidad Javeriana
Popis: La rápida evolución de los modelos de lenguaje natural y la posibilidad de utilizarlos como predictores de palabras y oraciones dentro de su contexto los convierten en herramientas útiles para detectar la presencia de anomalías en términos dentro de un documento. Este estudio propone utilizar BERT como modelo generativo para tareas de detección de anomalías, analizando los tipos de anomalías identificadas tanto en un corpus con lenguaje “estándar” como en uno con errores gramaticales para encontrar las capacidades y limitaciones de la metodología propuesta, así como caracterizar los tipos de anomalías encontradas. La evaluación de 5 modelos no supervisados mostró las particularidades de BERT en el manejo de puntuación, nombres propios y fragmentos de palabras resultando estas en scores particularmente altos, y la complejidad de detectar errores a partir de anomalías dada la estructura secuencial y parafraseada del lenguaje. Finalmente, los resultados de la evaluación en el corpus de aprendizaje REALEC abren la posibilidad de utilizar técnicas de detección de anomalías en conjunto con variables adicionales como base para tareas de corrección de errores gramaticales. The rapid evolution of natural language models and the possibility of using them as predictors of words and sentences within their context make them useful tools to detect the presence of anomalous terms within a document. This study proposes using BERT as a generative model for anomaly detection tasks, analyzing the types of anomalies identified both in a corpus with “standard” language and in one with grammatical errors to find the capabilities and limitations of the proposed methodology, as well as the characterization of the anomalous terms. The evaluation of 5 unsupervised models showed the particularities of BERT handling punctuation, proper nouns, and fragments of words which tend to have particularly high scores, and the complexity of detecting anomaly-based errors given the sequential and paraphrasing structure of language. Finally, the evaluation results of these models in the REALEC learning corpus open the possibility of using anomaly detection techniques along with additional features as a basis for grammatical error correction tasks. Magíster en Analítica para la Inteligencia de Negocios Maestría
Databáze: OpenAIRE