Construction of an Alignment Table between 'Word List by Semantic Principles' and UniDic

Autor: KONDO, Asuko, TANAKA, Makiro
Jazyk: japonština
Rok vydání: 2020
Předmět:
Zdroj: 国立国語研究所論集. (18):77-91
ISSN: 2186-134X
Popis: 国立国語研究所 コーパス開発センター 非常勤研究員
明治大学
Adjunct Researcher, Center for Corpus Development, NINJAL
Meiji University
日本語の大規模コーパスへの網羅的・体系的な語義情報付与を目的として,語義の体系的な分類を示す大規模な現代日本語のシソーラス『分類語彙表増補改訂版データベース』の見出しと,各種大規模コーパスの構築に利用されている電子化辞書UniDicの見出し(語彙素)との同語関係による対応を表す表形式データの構築を行った。同語判別の作業は分類語彙表・UniDic両者の見出しの表記・読み・類の対応に基づいて人手により行い,その結果,『分類語彙表』の64,759見出しとUniDicの50,795語彙素との同語関係による多対多の対応を表す「分類語彙表番号-UniDic語彙素番号対応表」を構築した。本対応表を活用して大規模コーパスへの網羅的な語義情報付与作業が始まっており,また,形態素解析結果に分類語彙表番号を付与する機能を実装した形態素解析ツールも開発された。一方で,本格的な大規模コーパスへの語義情報の網羅的付与に向けて,対応表の拡張や多義語の語義選択といった課題への対処も必要である。
In this study, we have constructed an alignment table between 'Word List by Semantic Principles (revised and enlarged edition)' (hereafter WLSP) and UniDic to develop large-scale Japanese corpora which is comprehensively annotated with systematic word senses. WLSP is an extensive contemporary Japanese thesaurus with systematic semantic categories. UniDic is a vast lexicon used for Japanese morphological analysis and is utilized in the development of large-scale Japanese corpora. The alignment table defines n-to-n same word relations between 64,759 WLSP entries and 50,795 UniDic lexemes. These relations were manually verified based on scripts, readings, and classes of the WLSP entries and the UniDic lexemes. The development of word-sense annotated Japanese corpora has commenced with the use of the table. A Japanese morphological analysis tool to annotate word-sense was also developed with the table. Meanwhile, for a full-scale development of word-sense annotated Japanese corpora, it is necessary that problems, such as enlargement of the table and identification of word senses in corpora are effectively dealt with.
application/pdf
Databáze: OpenAIRE