Popis: |
A popularização das redes sociais tem contribuído para o aumento da quantidade de informações compartilhadas diariamente, tornando estas redes uma fonte de informação sobre eventos diversos. Porém essas informações são de difícil compreensão, uma vez que há uma diversidade contextual sobre esses eventos e o custo de processar uma elevada massa de dados, tornam desafiador o processo de reconhecimento de informações relevantes. Neste contexto, este trabalho propõe uma abordagem para caracterização de informações relevantes de eventos, através da extração de tópicos em dados compartilhados no Twitter, onde utilizamos como cenário de estudo as fases da operação Lava Jato em 2016. Deste modo, avaliamos o desempenho de três métodos de aprendizagem de máquina (K-means, LDA e NMF) e comparamos técnicas de préprocessamento para limpeza dos textos com o intuito de observar se há melhora no desempenho dos algoritmos. Além disso, utilizamos a técnica Silhouette para estimar um valor de cluster sobre uma determinada amostra de dados, eliminando a necessidade de classificar quais tópicos são relevantes. Em nossos resultados demonstramos que nossa abordagem é capaz de monitorar redes sociais com o intuito de caracterizar eventos quando utilizamos o NMF combinado com reconhecimento de entidade nomeada. |