Word familiarity Rate and Register Type Estimation Using a Bayesian Linear Mixed Model

Autor: Asahara, Masayuki
Jazyk: japonština
Rok vydání: 2020
Předmět:
Zdroj: 自然言語処理. 27(1):133-150
ISSN: 1340-7619
Popis: application/pdf
国立国語研究所
National Institute for Japanese Language and Linguistics
This paper presents research on word familiarity rate estimation using the 'Word List by Semantic Principles'. We collected rating information on 96,557 words in the 'Word List by Semantic Principles' via Yahoo! crowdsourcing. We asked 3,392 subject participants to use their introspection to rate the familiarity and register information of words based on the five perspectives of 'KNOW', 'WRITE', 'READ', 'SPEAK', and 'LISTEN', and each word was rated by at least 16 subject participants. We used Bayesian linear mixed models to estimate the word familiarity rates. We also explored the ratings with the semantic labels used in the 'Word List by Semantic Principles'.
本論文では『分類語彙表増補改訂版データベース』に対する単語親密度推定手法について述べる。分類語彙表に収録されている96,557項目に対する評定情報をYahoo!クラウドソーシングを用いて収集した。1項目あたり最低16人(異なり3,392人)の研究協力者に,内省に基づいて「知っている」「書く」「読む」「話す」「聞く」の評定情報付与を依頼した。研究協力者の評定情報から単語親密度をベイジアン線形混合モデルにより推定した。また,推定された単語親密度と分類語彙表の語義情報との関連性について調査した。
Databáze: OpenAIRE