Использование платформы TXM для исследования изменений языка во времени: динамика словарного состава и пунктуации в русских литературных текстах

Autor: Tatiana Yu. Sherstinova, Andrey M. Chepovskiy, Alexey M. Lavrentiev, Benedict Pincemin
Přispěvatelé: Institut d’Histoire des Représentations et des Idées dans les Modernités (IHRIM), École normale supérieure de Lyon (ENS de Lyon)-Université Lumière - Lyon 2 (UL2)-Université Jean Moulin - Lyon 3 (UJML), Université de Lyon-Université de Lyon-Université Blaise Pascal - Clermont-Ferrand 2 (UBP)-Université Jean Monnet - Saint-Étienne (UJM)-Centre National de la Recherche Scientifique (CNRS)-Université Clermont Auvergne (UCA), National Research University Higner School of Economics (HSE), Vysšaja škola èkonomiki = National Research University Higher School of Economics [Moscow] (HSE), Peoples Friendship University of Russia [RUDN University] (RUDN), École normale supérieure - Lyon (ENS Lyon)-Université Lumière - Lyon 2 (UL2)-Université Jean Moulin - Lyon 3 (UJML), Université de Lyon-Université de Lyon-Université Blaise Pascal - Clermont-Ferrand 2 (UBP)-Université Jean Monnet [Saint-Étienne] (UJM)-Centre National de la Recherche Scientifique (CNRS)-Université Clermont Auvergne (UCA), National Research University Higher School of Economics [Moscow] (HSE)
Jazyk: angličtina
Rok vydání: 2021
Předmět:
Linguistics and Language
Vocabulary
[SHS.LITT]Humanities and Social Sciences/Literature
Computer science
media_common.quotation_subject
corpus linguistics
пунктуация
TXM
комплекс программного обеспечения

Language and Linguistics
стилеметрия
Qualitative analysis
20 век
диахроническая лингвистика
Corpus linguistics
Russian revolution
Russian literature of the 20th century
текстометрия
Historical linguistics
[SHS.LANGUE]Humanities and Social Sciences/Linguistics
vocabulary
media_common
Diachronic linguistics
словарный состав
корпусная лингвистика
punctuation
tylometry
16. Peace & justice
Punctuation
Linguistics
TXM platform
Dynamics (music)
stylometry
русская литература
textometry
On Language
Zdroj: Вестник Томского государственного университета. Филология. 2021. № 70. С. 69-89
Tomsk State University Journal of Philology
Tomsk State University Journal of Philology, 2021, 70, pp.69-89. ⟨10.17223/19986645/70/5⟩
Tomsk State University Journal of Philology, Tomsk State University, 2021, pp.69-89. ⟨10.17223/19986645/70/5⟩
ISSN: 2310-5046
DOI: 10.17223/19986645/70/5⟩
Popis: The aim of this article is to test the methodological tools provided by TXM open-source software for research on dynamics of vocabulary and punctuation marks in diachronic corpo-ra. TXM provides both quantitative and qualitative analysis features. It is shown that Russian revolution of 1917 did make significant changes in the core vocabulary of the corpus of Rus-sian Short Stories (1901–1930). The same methodology may be used both for diachronic stu-dies of literature and for various NLP tasks. Цель настоящей статьи – испытать инструменты анализа, которые предоставляет платформа TXM для исследования динамики словарного состава и пунктуации в диа-хронических корпусах текстов. TXM представляет собой комплекс программного обес-печения для количественного и качественного анализа текстов, построенный на принципах прозрачной архитектуры и открытого кода. В статье демонстрируется, как можно использовать платформу для диахронического исследования текстов с учетом внешних факторов, оказывающих влияние на эволюцию языка. Исследование проводилось на Корпусе русских рассказов первой трети XX в. Корпус создавался независимо от TXM с целью отразить максимально широкий спектр произведений русских писателей и слу-жить, таким образом, испытательной площадкой для различных методик математиче-ского анализа текстов. Результаты этого пилотного исследования показывают эффективность использования TXM для исследования динамики развития языка и подтвер-ждают явное влияние диахронического фактора на статистическое распределение тек-стов изучаемого корпуса. Основными методами, использованными в статье, явились анализ соответствий и индекс специфичности, вычислявшиеся на различных разбивках корпуса (по годам, по периодам и индивидуально по текстам) на базе 200 самых частотных лемм (слов и знаков препинания). Использование базовой лексики (включающей служебные слова) и пунктуации позволяет сконцентрироваться на глубинных изменениях языка, абстрагируясь от индивидуальных стилистических факторов. В каче-стве периодов были выделены: мирное время до революции (1901–1913), Первая мировая война (1914–1916), революция и Гражданская война (1917–1922) и постреволюци-онное мирное время (1923–1930). Относительная несбалансированность периодов и размеров отдельных текстов компенсируется методикой статистического анализа. В результате исследования было показано, что наиболее существенные изменения в употреблении базовой лексики и пунктуации происходят сразу после революционного 1917 г. При анализе соответствий периоды располагаются строго в хронологическом порядке по первому измерению факторного плана. В то же время сопоставление перио-дов не выявило четкого противопоставления по признаку мирное / военное время. Анализ специфичности позволил выявить характерные для каждого периода леммы, в том числе местоимения, служебные слова и знаки препинания, которые интуитивно не ассоциируются с изменениями в языке рассматриваемой исторической эпохи. Например, местоимения третьего лица он и она характерны для периода до революции, а частотность точки, тире и двоеточия повышается статистически значимым образом после 1917 г. Представленная методика анализа в дальнейшем может использоваться как для диахронических исследований в литературоведении, так и для решения различных за-дач автоматической обработки текста, направленных на выявление эволюции в лингвистических, стилистических и эмоциональных аспектах под влиянием каких-либо внешних факторов.
Databáze: OpenAIRE