Методы машинного обучения в социологическом исследовании: предсказание частичного неответа с использованием наивного байесовского классификатора

Rok vydání:	2021
Předmět:	Sociology and Political Science Computer science business.industry Economics Econometrics and Finance (miscellaneous) lcsh:HM401-1281 отсутствие ответа Machine learning computer.software_genre текст-майнинг машинное обучение Social research European Social Survey Naive Bayes classifier lcsh:Sociology (General) Text mining европейское социальное исследование частичный неответ «затрудняюсь ответить» Artificial intelligence отказ от ответа качество измерения business наивный байесовский классификатор computer
Zdroj:	Monitoring Obŝestvennogo Mneniâ: Ekonomičeskie i Socialʹnye Peremeny, Iss 1 (2021)
ISSN:	2219-5467
DOI:	10.14515/monitoring.2021.1.1756
Popis:	Пропущенные данные в социологических исследованиях могут быть связаны с различными причинами, и в данной статье рассматриваются те из них, что появляются в результате незнания, нежелания или затруднения с поиском ответа на отдельные вопросы анкеты у респондента, — частичные неответы (item nonresponse). Остро стоит вопрос о предсказании частичных неответов, решение которого позволило бы сократить вероятность появления пропусков в собираемых данных. В статье показано, как возникновение частичного неответа можно прогнозировать с помощью современных методов текст-майнинга и машинного обучения на примере данных Европейского социального исследования (European Social Survey) по Великобритании. Для решения поставленной задачи использовался метод наивного байесовского классификатора (Naive Bayes Classifier) — популярный метод предсказания класса зависимой переменной на основе текстовых данных. С опорой на научную литературу показываем, как работает этот метод. Мы подготовили базу данных, объединяющую полные формулировки вопросов, ответов, инструкций и результатов опросов исследования European Social Survey по Великобритании. Нами показано, как отдельные модели для предсказания появления частичных неответов были обучены с помощью метода наивного байесовского классификатора на основе частот слов и метрики важности слов TF-IDF, процессу расчета которых мы также приводим подробное описание. Каждая из моделей предсказания частичного неответа оценивалась нами с точки зрения частоты возникновения ошибок при получении прогнозов с их помощью. Мы получили списки слов, наличие в вопросах которых статистически чаще сопровождается или не сопровождается частичными неответами. Наши результаты показали, что респонденты менее охотно отвечают на сенситивные вопросы, а некоторые слова, имеющие отношение к процедуре получения ответа на вопрос, статистически чаще пропускаются респондентами.
Databáze:	OpenAIRE
Externí odkaz:	https://explore.openaire.eu/search/publication?articleId=doi_dedup___::2f2cb1ffd4900a91377f82830faedd00 https://doi.org/10.14515/monitoring.2021.1.1756 Zobrazit plný text záznamu