Estimating an author's age group by machine learning for offender profiling

Autor: Wataru, Zaitsu, Mingzhe, Jin
Jazyk: japonština
Rok vydání: 2018
Předmět:
Zdroj: 同志社大学ハリス理化学研究報告 = The Harris science review of Doshisha University. 59(2):57-65
ISSN: 2189-5937
Popis: 本研究では,ランダムフォレストならびにサポートベクターマシンを用いて,文章情報から著者の年齢層を推定する手法の開発を試みた.なお,本研究は,ブログを対象としたが,その目的から,分析結果が内容に依存しないように,文法機能を有する機能語などに着目して分析を行った.まず,100名のブログについて,年齢層グループ別で特徴量を検討したところ,(1)名詞,(2)読点前の「は(係助詞)」,(3)「ずっと(副詞)」,(4)品詞のbigram(「名詞+名詞」や「記号+名詞」,「助動詞+形容詞」など)の使用頻度で有意差がみられた.これらの文体的特徴を含め,新たな100名のブログを用いて,1個抜き交差確認法による検証を行ったところ,ランダムフォレストの正解率が最高で80.0%(適合率:「20代から40代」と推定した場合の的中率81.3%,「50・60代」と推定した場合の的中率79.4%),サポートベクターマシンの正解率が最高で81.0%(適合率:「20代から40代」と推定した場合の的中率78.4%,「50・60代」と推定した場合の的中率82.5%)であった.両分類器で推定精度に大きな相違はみられなかったものの,実務へ応用が可能な程度の推定精度が得られた.
The purpose of this study was to estimate the text authors' age group by using random forests and support vector machines on the basis of stylometric features of texts. The results showed that there were statistical significances among five age groups with next stylometric features of texts on a 100 blog; the frequency of (1) a noun, (2) a binding particle 「は」 just before commas, (3) 「ずっと (an adverb)」, and (4) bigram of parts of speech (e.g., 「noun + noun」, 「symbol + noun」, 「auxiliary verb + adjective」, etc.). In the analysis by LOOCV (Leave-One-Out-Cross-Validation) for texts on another 100 blogs, the random forest model with 13 stylometric features showed the accuracy 80.0%: 81.3% for the "20s to 40s" age group and 79.4% for the "50s and 60s" age group in the rate of precision. Furthermore, the results of the support vector machines showed the accuracy 81.0%. The rates of precision were 78.4% for the "20s to 40s" age group and 82.5% for the "50s and 60s" age group. However, there was not statistical significant difference of the accuracy between both classifiers, this study displayed the possibility for the practical use of offender profiling.
Databáze: OpenAIRE