Uma abordagem de redes neurais convolucionais para an?lise de sentimento multi-lingual

Autor: Becker, Willian Eduardo
Jazyk: portugalština
Rok vydání: 2017
Předmět:
Zdroj: Biblioteca Digital de Teses e Dissertações da PUC_RSPontifícia Universidade Católica do Rio Grande do SulPUC_RS.
Druh dokumentu: masterThesis
Popis: Submitted by PPG Ci?ncia da Computa??o (ppgcc@pucrs.br) on 2018-09-03T14:11:33Z No. of bitstreams: 1 WILLIAN EDUARDO BECKER_DIS.pdf: 2142751 bytes, checksum: e6501a586bb81f7cbad7fa5ef35d32f2 (MD5)
Approved for entry into archive by Sheila Dias (sheila.dias@pucrs.br) on 2018-09-04T14:43:25Z (GMT) No. of bitstreams: 1 WILLIAN EDUARDO BECKER_DIS.pdf: 2142751 bytes, checksum: e6501a586bb81f7cbad7fa5ef35d32f2 (MD5)
Made available in DSpace on 2018-09-04T14:57:29Z (GMT). No. of bitstreams: 1 WILLIAN EDUARDO BECKER_DIS.pdf: 2142751 bytes, checksum: e6501a586bb81f7cbad7fa5ef35d32f2 (MD5) Previous issue date: 2017-11-24
Nowadays, the use of social media has become a daily activity of our society. The huge and uninterrupt flow of information in these spaces opens up the possibility of exploring this data in different ways. Sentiment Analysis (SA) is a task that aims to obtain knowledge about the polarity of a given text relying on several techniques of Natural Language Processing, with most of solutions dealing with only one language at a time. However, approaches that are not restricted to explore only one language are more related to extract the whole knowledge and possibilities of these data. Recent approaches based on Machine Learning propose to solve SA by using mainly Deep Learning Neural Networks have obtained good results in this task. In this work is proposed three Convolutional Neural Network architectures that deal with multilingual Twitter data of four languages. The first and second proposed models are characterized by the fact they require substantially less learnable parameters than other considered baselines while are more accurate than several other Deep Neural architectures. The third proposed model is able to perform a multitask classification by identifying the polarity of a given sentences and also its language. This model reaches an accuracy of 74.43% for SA and 98.40% for Language Identification in the four-language multilingual dataset. Results confirm that proposed model is the best choice for both sentiment and language classification by outperforming the considered baselines.
A utiliza??o de redes sociais tornou-se uma atividade cotidiana na sociedade atual. Com o enorme, e ininterrupto, fluxo de informa??es geradas nestes espa?os, abre-se a possibilidade de explorar estes dados de diversas formas. A An?lise de Sentimento (AS) ? uma tarefa que visa obter conhecimento sobre a polaridade das mensagens postadas, atrav?s de diversas t?cnicas de Processamento de Linguagem Natural, onde a maioria das solu??es lida com somente um idioma de cada vez. Entretanto, abordagens que n?o restringem se a explorar somente uma l?ngua, est?o mais pr?ximas de extra?rem todo o conhecimento e possibilidades destes dados. Abordagens recentes baseadas em Aprendizado de M?quina prop?em-se a resolver a AS apoiando-se principalmente nas Redes Neurais Profundas (Deep Learning), as quais obtiveram bons resultados nesta tarefa. Neste trabalho s?o propostas tr?s arquiteturas de Redes Neurais Convolucionais que lidam com dados multi-linguais extra?dos do Twitter contendo quatro l?nguas. Os dois primeiros modelos propostos caracterizam-se pelo fato de possu?rem um total de par?metros muito menor que os demais baselines considerados, e ainda assim, obt?m resultados superiores com uma boa margem de diferen?a. O ?ltimo modelo proposto ? capaz de realizar uma classifica??o multitarefa, identificando a polaridade das senten?as e tamb?m a l?ngua. Com este ?ltimo modelo obt?m-se uma acur?cia de 74.43% para AS e 98.40% para Identifica??o da L?ngua em um dataset com quatro l?nguas, mostrando-se a melhor escolha entre todos os baselines analisados.
Databáze: Networked Digital Library of Theses & Dissertations