Building a Chinese-Russian Parallel Discourse Structure Corpus of Official Texts

Autor: Mukhin, M.Yu., Yang, Y
Rok vydání: 2016
Předmět:
Popis: Мухин Михаил Юрьевич, доктор филологических наук, директор департамента лингвистики, профессор кафедры современного русского языка и прикладной лингвистики, Уральский федеральный университет им. Б.Н. Ельцина (Екатеринбург), mu-hi@ya.ru Ян И, аспирант кафедры современного русского языка и прикладной лингвистики, младший научный сотрудник Проблемной лаборатории компьютерной лексикографии, Уральский федеральный университет им. Б.Н. Ельцина (Екатеринбург), xwyang@mail.ru. Mikhail Yu. Mukhin, Doctor of Philology, Director of the Department of Linguistics, Professor of Chair of Modern Russian Language and Applied Linguistics, Ural Federal University named after B.N. Yeltsin (Yekaterinburg), mu-hi@ya.ru Yang Yi, PhD student, Chair of the Modern Russian Language and Applied Linguistics, Junior Research Fellow at the Laboratory for Computational Lexicography, Ural Federal University named after B.N. Yeltsin (Yekaterinburg), xwyang@mail.ru Статья посвящена проекту создания китайско-русского параллельного корпуса официально- деловых текстов с дискурсивно-структурной разметкой. Данная разметка заключается в описании структуры каждого абзаца в виде сети дискурсивных единиц, соединенных дискурсивными отношениями. Основу первичного наполнения корпуса составляют доклады о работе правительства КНР на китайском языке и их официальные переводы на русский. Выравнивание китайских и русских текстов в корпусе, т. е. их синтаксическое соотнесение, проводится по структуре каждого абзаца. В статье представлены история разработки проблемы создания синтаксических корпусов, общие задачи проекта, его теоретические основания и прикладные перспективы, критерии отбора текстов для корпуса, принципы разметки и выравнивания текстов, а также программное обеспечение для разметки и хранения данных (общая схема данных и интерфейс). Создаваемый корпус может быть в дальнейшем использован для решения задач машинного перевода и других алгоритмов автоматической обработки текста, обучения иностранным языкам, сопоставительной лингвистики, теории перевода и т. д. This paper is devoted to building a Chinese-Russian Parallel Discourse Structure Corpus of Official Texts (CRPDT) that aims at producing a discourse treebank, in which Chinese and Russian parallel texts are manually annotated and aligned at the level of discourse structure. In this corpus, discourse units and their discourse relations are annotated for each paragraph in the parallel texts. Experimental research is based on the material of 4 Chinese source texts “Reports on the work of the Government” and their Russian translations. The paper presents the history and development of building discourse treebanks, the principles of annotation for building parallel discourse treebanks. This paper shows how to work on the discourse segmentation for Chinese-Russian parallel texts. Annotation and alignment tools take from Chinese-English Parallel Discourse Treebank. We postulate that the corpus might be useful for machine translation, language learning, translation studies, discourse analysis of Chinese and Russian texts and future Natural Language Processing. Исследование выполнено при поддержке Программы повышения конкурентоспособности Уральского федерального университета (номер соглашения 02.А03.21.0006) и «China Scholarship Council».
Databáze: OpenAIRE