Autor: |
Miličević Petrović, Maja, Vuković, Teodora, Mirić, Mirjana, Konior, Daria V., Escher, Anastasia |
Přispěvatelé: |
Miličević Petrović, Maja, Vuković, Teodora, Mirić, Mirjana, Konior, Daria V., Escher, Anastasia |
Jazyk: |
angličtina |
Rok vydání: |
2023 |
Předmět: |
|
Popis: |
В статье описывается процесс создания двух корпусов, наце- ленных на документирование торлакской речи в Восточной Сербии и Западной Болгарии. Корпусы будут отражать базовые торлакские языковые признаки с учетом их географической и социолингвистической вариативности. Создание корпусов описывается от этапа выборки записанных в поле интервью до этапа их транскрибирования (для болгарского корпуса) и от этапа выборки до кодирования метаданных, морфосинтакси- ческой аннотации и публикации (для находящегося в открытом доступе Тимокского подкорпуса сербского корпуса объемом в 498,021 словоформ). Охарактеризованы проблемы, с которы- ми столкнулись разработчики на различных этапах создания корпусов, обоснованы пути их решения, причем основное вни- мание уделено лингвистической стороне дела. Даны разъясне- ния о сбалансированном применении собственно лингвистиче- ских и социолингвистических критериев при отборе образцов речи, подлежащих транскрибированию, о решениях в связи с трактовкой диалектных явлений в транскрипции и аннота- ции, о компьютерных методах аннотирования. Намечены так- же дальнейшие шаги, преимущественно в части расширения в близком будущем сербского корпуса Лужницким подкорпусом, а также о планах объединения сербских и болгарских материа- лов в едином “Устном торлакском диалектном комплексе” (англ. Spoken Torlak Dialect Corpus). |
Databáze: |
OpenAIRE |
Externí odkaz: |
|