Toward Sociolinguistic Corpora of Torlak

Autor: Miličević Petrović, Maja, Vuković, Teodora, Mirić, Mirjana, Konior, Daria V., Escher, Anastasia
Přispěvatelé: Miličević Petrović, Maja, Vuković, Teodora, Mirić, Mirjana, Konior, Daria V., Escher, Anastasia
Jazyk: angličtina
Rok vydání: 2023
Předmět:
Popis: В статье описывается процесс создания двух корпусов, наце- ленных на документирование торлакской речи в Восточной Сербии и Западной Болгарии. Корпусы будут отражать базовые торлакские языковые признаки с учетом их географической и социолингвистической вариативности. Создание корпусов описывается от этапа выборки записанных в поле интервью до этапа их транскрибирования (для болгарского корпуса) и от этапа выборки до кодирования метаданных, морфосинтакси- ческой аннотации и публикации (для находящегося в открытом доступе Тимокского подкорпуса сербского корпуса объемом в 498,021 словоформ). Охарактеризованы проблемы, с которы- ми столкнулись разработчики на различных этапах создания корпусов, обоснованы пути их решения, причем основное вни- мание уделено лингвистической стороне дела. Даны разъясне- ния о сбалансированном применении собственно лингвистиче- ских и социолингвистических критериев при отборе образцов речи, подлежащих транскрибированию, о решениях в связи с трактовкой диалектных явлений в транскрипции и аннота- ции, о компьютерных методах аннотирования. Намечены так- же дальнейшие шаги, преимущественно в части расширения в близком будущем сербского корпуса Лужницким подкорпусом, а также о планах объединения сербских и болгарских материа- лов в едином “Устном торлакском диалектном комплексе” (англ. Spoken Torlak Dialect Corpus).
Databáze: OpenAIRE