Design and Construction of the Ninjobon Corpus

Autor: FUJIMOTO, Akari, KITAZAKI, Yuho, ICHIMURA, Taro, OKABE, Yoshiyuki, OGISO, Toshinobu, TAKADA, Tomokazu
Jazyk: japonština
Rok vydání: 2017
Předmět:
Zdroj: 国立国語研究所論集. (12):1-12
ISSN: 2186-134X
Popis: 国立国語研究所 研究系 言語変化研究領域
東京大学大学院人文社会系研究科 博士課程
常葉大学
千葉大学
Language Change Division, Research Department, NINJAL
Graduate Student, Humanities and Sociology, The University of Tokyo
Tokoha University
Chiba University
現在,『日本語歴史コーパス』「江戸時代編」の一環として「人情本コーパス」を構築中である。2015年10月には『比翼連理花廼志満台』を対象とした「人情本コーパス」の試行版(全文検索システム『ひまわり』版)を公開した。人情本のコーパス化は,(1)原本表記に忠実な翻字テキストの作成,(2)(1)に最小限の校訂を加えた『ひまわり』版XMLテキストの作成の段階である。XMLテキストの作成では,基本的に「洒落本コーパス」のタグセットに準拠し,合字や校訂にかかわるタグを追加した人情本用タグセットを用意した。また,『花廼志満台』初編上巻の形態素解析を行った結果,解析精度は約87%であった。人情本に特徴的なイレギュラーな訓の多さが,精度の低さと関係している。今後,形態論情報付きコーパスを構築するにあたっての課題は,イレギュラーな訓を含む漢字に振られた「ルビ」を,どのように扱っていくかである。
The Ninjobon Corpus is currently under construction as a part of the Edo Period Collection of the Corpus of Historical Japanese. In October 2015, a trial version of the Ninjobon Corpus (full text search system in the Himawari edition) focusing on the Hiyokurenri Hana no Shimadai was publicly released. The Ninjobon Corpus creation is at the stage of (1) faithful transcription of the original printed book into text, and (2) creation of the "Himawari" XML texts with minimal revisions to (1). In the creation of the XML texts, the tag set is fundamentally based on the Sharebon Corpus, though a tag set with tags related to ligatures and revisions was prepared for the Ninjobon. Further, the results of a morphological analysis of the first volume of Hana no Shimadai showed an analytical precision of approximately 87%. The low precision is caused by the large number of characteristically irregular readings in the Ninjobon. One challenge in a corpus construction with annotated morphological information is on how to address the "rubies" attached to kanji characters with irregular native Japanese readings.
application/pdf
Databáze: OpenAIRE