Construction of Russian Translation Data for the 'Balanced Corpus of Contemporary Written Japanese' and the Possibilities of Using Them in Japanese-Russian Comparative Studies
Autor: | MIYAUCHI, Takuya, PROKHOROVA, Maria |
---|---|
Jazyk: | japonština |
Rok vydání: | 2020 |
Předmět: |
『現代日本語書き言葉均衡コーパス』
ロシア語 expressions at the end of sentences parallel corpus Russian 対訳コーパス 文末表現 |
Zdroj: | 国立国語研究所論集. (19):167-185 |
ISSN: | 2186-134X |
Popis: | 東京大学 東京外国語大学大学院 博士後期課程 The University of Tokyo Ph.D. Student, Tokyo University of Foreign Studies 『現代日本語書き言葉均衡コーパス』(の一部のデータ)には,既に英語,イタリア語,インドネシア語,中国語の翻訳データが構築されているが,新たにロシア語の翻訳データを構築した。対象となる起点テキストは『現代日本語書き言葉均衡コーパス』新聞(PN)コアデータ16サンプル(総語数は短単位で全16,657語)とし,ロシア語目標テキストの総語数は13,070語となった。本データの構築にあたっては,日本語からロシア語へ人手による翻訳を行ったが,日本語とロシア語の言語構造の違いや表現の違い等により,翻訳に困難が生じた箇所もあった。本稿では,翻訳データの構築方法,翻訳の際の留意点の詳細を述べる。また,原文の日本語テキストと翻訳先のロシア語テキストは人手で文単位のアライメントを取り,各文にはIDを付与した。その作業方法についても記述する。翻訳データの構築,アライメント作業により,起点テキストと目標テキストは簡易的な日露パラレルコーパスとして利用可能となり,日露対照研究や類型論研究に活用できると考えられる。本稿では,このような活用の可能性を示すために,ケーススタディとして日本語の文末表現を取り上げ,ロシア語と対照させて同異を議論する。 A part of the data of the "Balanced Corpus of Contemporary Written Japanese" (BCCWJ) is translated into English, Italian, Chinese, and Indonesian. We added new translation data collected from 16 samples of newspaper (PN) core data to BCCWJ in Russian. The total length of the Japanese source text is 16,657 short unit words, which corresponds to 13,070 words in the Russian target text. The translation was conducted manually by a native Russian speaker. During the translation, various difficulties were encountered due to significant structural and lexical differences between Japanese and Russian. This study introduces the data construction method that we used and some key points that we focused on while translating. We also manually aligned all sentences in the source text with those in the translation and assigned an ID to each sentence; this study provides an explanation regarding this workflow as well. Translation and alignment make the original data and their translation function as a simple Japanese-Russian parallel corpus. This can be useful for Japanese-Russian comparative studies and linguistic typology studies. In this study, we address Japanese sentence endings and compare them with Russian ones as a case study to present the possible ways of using our new translation data. application/pdf |
Databáze: | OpenAIRE |
Externí odkaz: |