Popis: |
Переключение кода — это явление, при котором в одном и том же сообщении используются два или более языка. В настоящее время в социальных сетях, дискурсе IT-специалистов и билингвов довольно часто можно встретить сообщения на смешанных языках. Этот языковой феномен представляет собой проблему для ряда задач обработки естественного языка, включая анализ настроений. В данной статье изучается согласованность разметки тональности текстов с переключением на латиницу экспертами с помощью инструментов, которые показали высокую эффективность в междисциплинарных исследованиях. К числу таких методов относится 2B-PLS, обеспечивающий дополнительные возможности для анализа современных экспериментов в нейролингвистике, психофизиологии и других областях наук. Для примера был выбран роман Сергея Минаева «The Телки. Повесть о ненастоящей любви», который был издан в 2008 году. Были выбраны 100 предложений, как из речи автора, так и из диалогов персонажей, содержащие в себе слова, написанные на латинице. Из предложений был собран и размечен датасет в формате CSV для дальнейшего построения модели. Параметрами для 2B-PLS анализа послужили результаты экспертной оценки тональности выбранных предложений: количество сущностей на латинице и всего во фразе соответственно, согласованность в оценках экспертов позитивной, негативной и нейтральной тональностей, признаки категорий сущностей на латинице Локация, Персона, Время/Дата, Бренд, Организация, Модель, незначащая сущность соответственно. 2B-PLS анализ показал возможность анализа согласованности оценок тональность фразы экспертами в зависимости от знаний, извлеченных из предложений: именованных сущностей и другой статистики. На согласованность оценок экспертов влияет не только сама категория сущностей, но и тональность фразы, а также общее количество сущностей и сущностей на латинице во фразе. Полученные результаты соотносятся с теоретическими исследованиями. |