Доповнення даних контентом на іноземних мовах в текстовій класи- фікації з використанням машинного навчання
Autor: | Oliinyk, V., Osadcha, K. |
---|---|
Jazyk: | angličtina |
Rok vydání: | 2020 |
Předmět: |
Sentiment analysis
text classification representative data data processing data augmentation machine learning MLP анализ тональности текста классификация текста репрезентативные данные обработка данных увеличение данных машинное обучение аналіз тональності тексту класифікація тексту репрезента- тивні дані обробка даних збільшення даних машинне навчання |
Zdroj: | Adaptive systems of automatic control; Том 1, № 36 (2020): Adaptive Systems of Automatic Control; 51-59 Адаптивные системы автоматического управления; Том 1, № 36 (2020): Адаптивные системы автоматического управления; 51-59 Адаптивні системи автоматичного управління; Том 1, № 36 (2020): Адаптивні системи автоматичного управління; 51-59 |
ISSN: | 1560-8956 2522-9575 |
Popis: | The object of research is the data augmentation method in text classificationproblems using machine learning methods. The method is considered on the example of sentiment analysis of visitor reviews of hotels. It is shown that datasets with insufficient volume or representativeness requires special methods for increasing the amount of data in it.The aim of the work is to improve the accuracy of the neural network in thetasks of text classification by increasing the amount of data. To achieve the goal, it was proposed to use text data written in languages of other families, which will be translated into the target language using Google translator. Russian was chosen as the target language. To level the effect of the model on the results, a simple neural network is used - a multilayer perceptron with variations in the parameters of its structure.The article investigated the influence of the considered data augmentationmethod on the resulting accuracy of the network. According to experimental results, the expediency of using this method in a number of tasks is shown.Ref. 7, pic. 3, tab. 3 Объектом исследования является метод аугментации данных в задаче кла-ссификации текстового контента с помощью методов машинного обучения. Метод рассматривается на примере задачи определения тональности отзывов посетителей об отелях. Показана необходимость применения методов искусственного увеличения количества данных при недостаточном объеме или репрезентативности датасета.Целью работы является улучшение точности работы нейронной сети в за-даче классификации текстов за счет увеличения объема данных. Для достижения цели было предложено использование текстовых данных написанных на языках других семейств, которые будут переводится на целевой язык с помощью Google переводчика, в качестве целевого языка был выбран русский язык. Для нивелирования влияния модели на результаты используется простая нейронная сеть – многослойный персептрон с вариациями параметров его структуры.В статье исследовалось влияние рассматриваемого метода аугментацииданных на результаты точности работы сети. По результатам работы показана целесообразность использования данного метода в ряде задач.Библ. 7, ил. 3, табл. 3 Об'єктом дослідження є метод аугментації даних в задачі класифікації те-кстового контенту за допомогою методів машинного навчання. Метод розглядається на прикладі задачі визначення тональності відгуків відвідувачів про готелі. Показана необхідність застосування методів штучного збільшення кількості даних при недостатньому обсязі або репрезентативності датасету. Метою роботи є поліпшення точності роботи нейронної мережі в задачі класифікації текстів за рахунок збільшення обсягу даних. Для досягнення мети було запропоновано використання текстових даних, написаних на мовах інших сімейств, які будуть перекладається на цільову мову за допомогою Google перекладача, кінцевою мовою перекладу була обрана російська. Для нівелювання впливу моделі на результати використовується проста нейронна мережа - багатошаровий персептрон з варіаціями параметрів його структури. У статті досліджувався вплив даного методу аугментації даних на результати точності роботи мережі. За результатами роботи показана доцільність використання даного методу в ряді задач.Бібл. 7, іл. 3, табл. 3 |
Databáze: | OpenAIRE |
Externí odkaz: |