Design and Construction of the Showa Speech Corpus

Autor: MARUYAMA, Takehiko, KOISO, Hanae, NISHIKAWA, Ken'ya
Jazyk: japonština
Rok vydání: 2022
Zdroj: 国立国語研究所論集. (22):197-221
ISSN: 2186-1358
Popis: 専修大学 / 国立国語研究所 研究系 音声言語研究領域 客員教授
国立国語研究所 研究系 音声言語研究領域
Senshu University / Invited Professor, Spoken Language Division, Research Department, NINJAL
Spoken Language Division, Research Department, NINJAL
国立国語研究所基幹研究プロジェクト「大規模日常会話コーパスに基づく話し言葉の多角的研究」では,2016年度より『昭和話し言葉コーパス』(SSC: Showa Speech Corpus)の構築を進めてきた。2021年3月にその構築作業が完了し,コーパス検索アプリケーション「中納言」で一般公開を開始した。『昭和話し言葉コーパス』は,1950年代から1970年代にかけて国立国語研究所で作成された録音資料群を再編成し,現代の技術で話し言葉コーパスとして整備したものである。過去の音源を現代の技術でコーパス化したという点において,日本語では従来存在しなかったタイプのコーパスであると言える。また,現代の話し言葉コーパスと連結し,比較・対照することによって,話し言葉の経年変化を探るための「通時音声コーパス」として利用できる点で,画期的である。本稿では,今回構築した『昭和話し言葉コーパス』について,そこに収録されている録音資料群の出自や当時の国立国語研究所の状況,コーパス構築の過程とアノテーション,さらに予備的な分析結果について述べる。
Construction of the "Showa Speech Corpus" (SSC) began in 2016, and was completed in March 2021 and made available to the public online through the corpus search application Chunagon. The SSC consists of a collection of recordings made from the 1950s to the 1970s by the National Institute for Japanese Language and Linguistics. Thus, it is a speech corpus made with modern technology, but with old recordings as its content. The SSC is innovative in that it can be used to explore the changes in spoken language over time (i.e., as a "diachronic speech corpus") by linking, comparing, and contrasting the SSC with modern spoken language corpora such as the Corpus of Spontaneous Japanese (CSJ) and the Corpus of Everyday Japanese Conversation (CEJC). In this paper, we describe the origins of the recorded materials stored in the SSC, the process of corpus construction and annotation, and the results of the preliminary analysis.
Databáze: OpenAIRE