Minería de opinión: un análisis en tiempo real de tweets para Zacatecas

Autor: Reveles Gómez, Luis Carlos, César Alberto Collazos Ordóñez, Pedro Daniel Alaniz Lumbreras, Julián González Trinidad
Přispěvatelé: Huizilopoztli Luna García, José María Celaya Padilla
Jazyk: Spanish; Castilian
Rok vydání: 2021
Předmět:
Zdroj: Universidad Autónoma de Zacatecas
UAZ
Repositorio Institucional Caxcán
Popis: The Twitter social network has become an excellent tool to know in real time the opinions that users express on a great variety of topics. The formal analysis of the texts in tweets is the subject of numerous studies, derived from them, the emergence of emerging technologies such as Opinion Mining, where sentiment analysis is inert; which refers to the use of natural language processing to identify and extract subjective information from the texts [1]. By definition, sentiment analysis seeks to generate automatic tools capable of extracting subjective information to create structured and actionable knowledge [2]. In other words, this is a bulk document classification task automatically, depending on the positive or negative connotation of the language used in the document. This work focuses on performing sentiment analysis of Twitter comments georeferenced to the city of Zacatecas, such as a ranking of tweets tagged with their polarity, cleaning up the text of tweets, as well as extracting characteristics typical of the text don positive and negative polarity, using machine learning especially supervised learning algorithms to perform the classification. From the algorithms used it was obtained that Random Forest had a better accuracy by having 0.977, then Decision Trees with 0.9735 and SVM with 0.9551. With the results obtained it can be concluded that the improvement of the accuracy was achieved thanks to the features that were added, in addition it is shown that the supervised learning algorithms are classifying the tweets appropriately given the results obtained. La red social Twitter se ha convertido en una excelente herramienta para conocer en tiempo real las opiniones que los usuarios expresan sobre una gran variedad de temas. El análisis formal de los textos en los tweets es objeto de numerosos estudios, derivado de ellos, se ha impulsado la aparición de tecnologías emergentes como la Minería de Opinión, donde está inerte el análisis de sentimientos; el cual se refiere al uso del procesamiento del lenguaje natural para identificar y extraer información subjetiva de los textos [1]. Por definición, el análisis de sentimientos busca generar herramientas automáticas capaces de extraer información subjetiva para crear conocimiento estructurado y procesable [2]. En otras palabras, se trata de una tarea de clasificación masiva de documentos de manera automática, en función de la connotación positiva o negativa del lenguaje utilizado en el documento. Este trabajo se centra en realizar análisis de sentimientos de comentarios de Twitter georreferenciado a la ciudad de Zacatecas, como una clasificación de los tweets etiquetados con su polaridad, realizando una limpieza del texto de los tweets, así como la extracción de características propias del texto como polaridad positiva y negativa, utilizando el machine learning en especial los algoritmos de aprendizaje supervisado para realizar la clasificación. De los algoritmos utilizados se obtuvo que Random Forest tuvo un mejor accuracy al tener 0.977, después Arboles de Decisión con 0.9735 y SVM con 0.9551. Con los resultados obtenidos se puede concluir que la mejora del accuracy se logró gracias a las características que se fueron agregando, además se demuestra que los algoritmos de aprendizaje supervisado están clasificando los tweets de manera adecuada dado los resultados obtenidos.
Databáze: OpenAIRE