ОЦІНКА ЕФЕКТИВНОСТІ МЕТОДІВ СЕНТИМЕНТ-АНАЛІЗУ ПОВІДОМЛЕНЬ СОЦІАЛЬНИХ МЕРЕЖ

Autor: Borysova, Natalia Volodymyrivna, Melnyk, Karina Volodymyrivna
Jazyk: angličtina
Rok vydání: 2019
Předmět:
sentiment analysis
social networks messages analysis
machine learning
text classification
naïve Bayesian classification
recurrent neural network
efficiency estimation
сентимент-аналіз
аналіз повідомлень соціальних мереж
машинне навчання
класифікація текстів
наївний байєсівський класифікатор
рекурентна нейронна мережа
оцінка ефективності
сентимент-анализ
анализ сообщений социальных сетей
машинное обучение
классификация текстов
наивный байесовский классификатор
рекуррентная нейронная сеть
оценка эффективности
Zdroj: Вісник Національного технічного університету «ХПІ». Серія: Системний аналiз, управління та iнформацiйнi технологiї; № 2 (2019); 76-81
Вестник Национального технического университета "ХПИ". Серия: Системный анализ, управление и информационные технологии; № 2 (2019); 76-81
Bulletin of National Technical University "KhPI". Series: System Analysis, Control and Information Technologies; № 2 (2019); 76-81
ISSN: 2079-0023
2410-2857
Popis: The results of effectiveness evaluating of machine learning methods for sentiment analysis of social network messages are presented in this paper. The importance of the sentiment analysis problem as one of the important tasks of natural language processing in general and textual information processing in particular is substantiated. A review of existing methods and software for sentiment analysis are made. The choice of classifiers for sentiment analysis of texts for this research is substantiated. The principles of functioning of a Naïve Bayesian Classifier and classifier based on a recurrent neural network are described. Classifiers were sequentially trained in two corpuses: first, in the RuTweetCorp corpus, the corpus of short messages from the social network Twitter, and then on the Slang corpus, the corpus of messages from social networks Facebook and Instagram and posts from the Pikabu website, second corpus have been marked up the tonality of slang words. Information about the tonality of slang words was taken from the youth slang dictionary obtained as a result of the survey of users. The separation of texts by tonality was carried out into three classes: positive, negative and neutral. The efficiency of these classifiers was evaluated. Efficiency evaluation was carried out according to standard metrics Recall, Precision, F-measure, Accuracy. For the naive Bayesian classifier, after training on the first corpus, the following metric values were obtained: Recall = 0,853; Precision = 0,869; F-measure = 0,861; Accuracy = 0,855; and after training on the second corpus such values were obtained: Recall = 0,948; Precision = 0,975; F-measure = 0,961; Accuracy = 0,960. For the classifier based on a recurrent neural network, after training on the first corpus, the following metric values were obtained: Recall = 0,870; Precision = 0,878; F-measure = 0,874; Accuracy = 0,861; and after training on the second corpus such values were obtained: Recall = 0,965; Precision = 0,982; F-measure = 0,973; Accuracy = 0,973. These results prove that additional training on the second corpus increased the efficiency of classifiers by 10–11%.
В работе представлены результаты оценки эффективности методов машинного обучения для сентимент-анализа сообщений социальных сетей. Обоснована актуальность задачи сентимент-анализа как одной из важных задач обработки естественного языка вообще и обработки текстовой информации в частности. Проведен обзор существующих методов сентимент-анализа и программных продуктов, решающих эту задачу. Обоснован выбор классификаторов для сентимент-анализа текстов в рамках исследования. Описаны принципы работы наивного байесовского классификатора и классификатора на основе рекуррентной нейронной сети. Классификаторы были последовательно обучены на двух корпусах: сначала на корпусе RuTweetCorp – корпусе коротких сообщений социальной сети Twitter, а затем на корпусе Slang corpus – корпусе сообщений социальных сетей Facebook и Instagram и постов с сайта Pikabu, в котором размечена тональность сленговых слов. Информация о тональности сленговых слов была взята из словаря молодежного сленга, полученного в результате опроса пользователей. Разделение текстов по тональности осуществлялось на три класса: позитивные, негативные и нейтральные. Проведена оценка эффективности работы этих классификаторов. Оценка эффективности осуществлялась по стандартным метрикам Recall, Precision, F-measure, Accuracy. Для наивного байесовского классификатора после обучения на первом корпусе были получены следующие значения метрик: Recall = 0,853; Precision = 0,869; F-measure = 0,861; Accuracy = 0,855; а после обучения на втором корпусе такие значения: Recall = 0,948; Precision = 0,975; F-measure = 0,961; Accuracy = 0,960. Для классификатора на основе рекуррентной нейронной сети после обучения на первом корпусе были получены следующие значения метрик: Recall = 0,870; Precision = 0,878; F-measure = 0,874; Accuracy = 0,861; а после обучения на втором корпусе такие значения: Recall = 0,965; Precision = 0,982; F-measure = 0,973; Accuracy = 0,973 Полученные результаты доказывают, что дополнительное обучение на втором корпусе повысило эффективность работы классификаторов на 10–11%.
У роботі представлено результати оцінки ефективності методів машинного навчання для сентимент-аналізу повідомлень соціальних мереж. Обґрунтовано актуальність задачі сентимент-аналізу як однієї з важливих задач обробки природної мови взагалі та обробки текстової інформації зокрема. Проведено огляд існуючих методів сентимент-аналізу та програмних продуктів, що вирішують цю задачу. Обґрунтовано вибір класифікаторів для сентимент-аналізу текстів у межах дослідження. Описано принципи роботи наївного байєсівського класифікатора та класифікатора на основі рекурентної нейронної мережі. Класифікатори було послідовно навчено на двох корпусах: спочатку на корпусі RuTweetCorp – корпусі коротких повідомлень соціальної мережі Twitter, а потім на корпусі Slang corpus – корпусі повідомлень соціальних мереж Facebook та Instagram і постів з сайту Pikabu, у якому розмічено тональність сленгових слів. Інформацію про тональність сленгових слів було взято із словника молодіжного сленгу, отриманого у результаті опитування користувачів. Розподіл текстів за тональністю здійснювався на три класи: позитивні, негативні й нейтральні. Проведено оцінку ефективності роботи цих класифікаторів. Оцінка ефективності здійснювалась за стандартними метриками Recall, Precision, F-measure, Accuracy. Для наївного байєсівського класифікатора після навчання на першому корпусі були отримані наступні значення метрик: Recall = 0,853; Precision = 0,869; F-measure = 0,861; Accuracy = 0,855; а після навчання на другому корпусі такі значення: Recall = 0,948; Precision = 0,975; F-measure = 0,961; Accuracy = 0,960. Для класифікатора на основі рекурентної нейронної мережі після навчання на першому корпусі були отримані наступні значення метрик: Recall = 0,870; Precision = 0,878; F-measure = 0,874; Accuracy = 0,861; а після навчання на другому корпусі такі значення: Recall = 0,965; Precision = 0,982; F-measure = 0,973; Accuracy = 0,973 Отримані результати довели, що додаткове навчання на другому корпусі підвищило ефективність роботи класифікаторів на 10–11%.
Databáze: OpenAIRE