SentiElection: análise de sentimento no twitter baseada em centralidade de palavras

Autor: George Narita Vilarinho
Přispěvatelé: Evandro Eduardo Seron Ruiz, Livy Maria Real Coelho, Zhao Liang, Thiago Alexandre Salgueiro Pardo
Rok vydání: 2019
Zdroj: Biblioteca Digital de Teses e Dissertações da USP
Universidade de São Paulo (USP)
instacron:USP
DOI: 10.11606/d.59.2019.tde-16082019-215233
Popis: As redes sociais,a exemplo doTwitter,são um fenômeno que atraíram rapidamente milhões de usuários ativos. O uso destas redes permite que diariamente sejam trocadas milhões de postagens referentes a uma innidade de tópicos. Toda esta pletora de textos tem motivado várias pesquisas na área de Processamento de Língua Natural, principalmente no tópico de análise de sentimento (AS) que busca extrair, analisar e quanticar a opinião do usuário sobre um determinado assunto. Devido ao alto custo envolvido no processo de extração e análise manual desses dados, diversos estudos têm focado na busca de soluções para a automatização dessa tarefa. Esta pesquisa propõe uma nova metodologia de AS sobre tweets baseada na Teoria de Grafos chamada SentiElection. Nossa hipótese é que textos positivos e textos negativos guardam, entre si, semelhanças no encadeamento de palavras. Calculamos essa importância através do uso de medidas de centralidade de vértices em grafos de palavras, sendo assim, a classe a qual determinado texto obtiver o maior valor de importância corresponderá a seu sentimento. O SentiElection é uma medida composta pelas medidas de centralidade de autovetor, Katz e PageRank. Em nossos experimentos o SentiElection apresentou resultados competitivos em relação a métodos tradicionais de AS, atingindo valores de acurácia e medida-F superiores a 70%. Além disso, nesses mesmos experimentos, o método aqui proposto obteve desempenho superior à técnica que o inspirou, a qual também faz uso de similaridade de grafos para a classicação de sentimentos Social networks, like Twitter, are a phenomenon that has quickly attracted millions of active users. The use of these social networks allows millions of posts to be exchanged daily on a multitude of topics. This plethora of texts has motivated several research topics in the area of Natural Language Processing, mainly in the topic of sentiment analysis (SA). SA seeks to extract, analyze, and quantify the users opinion on a particular subject. Due to the high cost involved in the manual extraction and analysis of social network data, several studies have focused on nding solutions to automate this task. This research proposes a new SA methodology over tweets based on Graph Theory analysis called SentiElection. We hypothesize that positive and negative tweet texts are similar in their own class if these messages are compared based on the sequence of words in a sentence. Vertex centrality measures are applied to word graphs to measure how an incoming tweets relates either to a positive set of tweets or to a negative one. SentiElection is a compilation of centrality measures, such as, eigenvector, Katz similarity and PageRank. In our experiments, the SentiElection presented competitive results compared to traditional SA methods, reaching accuracy and F-measurement values higher than 70%. Moreover, in these same experiments, the method proposed here obtained superior performance to the technique that inspired it, which makes use of graph similarity for sentiment classication
Databáze: OpenAIRE