Markov Chains in the Task of Author’s Writing Style Profile Construction/ Markova ķēžu pielietošanas iespēju izpēte autora stila identifikācijai/ Исследование возможностей применения Марковских цепей для идентификации авторского стиля

Autor: Osipovs Pavels, Rinkevics Andrejs, Kuleshova Galina, Borisov Arkady
Jazyk: angličtina
Rok vydání: 2014
Předmět:
Zdroj: Information Technology and Management Science, Vol 17, Iss 1, Pp 119-125 (2014)
Druh dokumentu: article
ISSN: 2255-9094
DOI: 10.1515/itms-2014-0018
Popis: В статье описано исследование возможностей применения Марковских цепей в задаче построения модели авторского стиля. Моделирование особенностей стилистики человека является актуальной задачей. Имея такую модель, возможно сравнивать с ней различные тексты, авторство которых не установлено. Итогом такого сравнения будет уровень сходства авторских стилей двух текстов. Если он достаточно высок, то можно говорить о том, что оба текста написал один и тот же человек. Использование модели авторского стиля делится на две условные части: обучение модели и непосредственно ее использование для анализа текста. Построение модели происходит на наборах текстов, для которых заведомо известно авторство. В итоге созданная модель хранит в себе особенности построения фраз и словосочетаний конкретного человека. Важной особенностью подхода на данном этапе является требование использовать для обучения тексты большого объёма. На этапе использования обученная модель применяется для вычисления уровня сходства стиля с анализируемым текстом. Рассмотрена основная теоретическая база построения графа Марковской цепи, основываясь на авторском тексте. Рассматривается возможность дополнительной очистки текста перед его использованием для обучения модели и влияние этого на итоговый результат классификации. Произведены различные эксперименты для оценки влияния параметров используемого алгоритма на эффективность классификации. Итоговый уровень корректных результатов находится в районе 60-80 %, что сравнительно неплохо. Дальнейшие исследования должны увеличить уровень распознавания
Databáze: Directory of Open Access Journals