SNSの投稿から個人情報が含まれる文章を分類する手法の研究

Jazyk: japonština
Popis: 近年,投稿した文や画像を閲覧・共有することでコミュニケーションを行なうソーシャルネットワーキングサービス(以下,SNS) が流行している.これらのSNS では各ユーザが様々な形態で利用しているが,その投稿にはユーザ自身あるいは知人のプライバシーに直接関わる情報も見られる.そのため,インターネット上の不特定多数のユーザに,個人のプライバシーに関わる情報が閲覧されうる状態になっている.このような問題に対して,ユーザ自身がSNS に登録する際に実名や本人の写真を用いず,プロフィールを匿名化するといった対策を行なう場合も多い.しかし,このような対策をしていても,SNS における個人に関する情報の集積によって,プライバシーの侵害や個人情報漏洩が起こりうる危険性が指摘されている.たとえSNS 上でプロフィールを公開していなくても,就職希望者とSNS のユーザを同定する研究や,複数のSNS における個人情報を統合することで,ユーザを特定する可能性が示されている.ただし,短文を投稿するSNSにおける投稿文そのものについては分析が行われていない.そこで,本研究ではSNS における投稿文について分析し,個人情報の推定およびユーザの特定のリスクを明確にするため,先行研究よりも汎用性が高く,特定の個人に最適化した,形態素分類システムおよび文章分類システムを実装した.そして,類似した個人情報を持つ複数のユーザについて,個人情報の推定を共通化する手法の検討を行なった.形態素分類システムは,まず短文投稿型SNS,Twitter の投稿文の中から,個人情報に相当するあるいはプライバシーにあたる形態素とそれ以外の形態素をユーザ自身にラベリングしてもらう.そして,その基準に従い,機械学習によって自動的に形態素を分類するシステムである.また,文章分類システムは,Twitter の投稿文の中から,ユーザの個人情報に相当する形態素を含む文章とそれ以外の文章を,機械学習によって自動的に分類するシステムである.これらのシステムを実装して被験者実験を行ない,分類精度の評価およびシステムの考察を行なった.形態素分類システムでは,ユーザ2 人の投稿文を用いて学習モデルを生成し実験を行なった.その結果,分類精度については十分な高さを示したと考えられる.分類精度はそれぞれのユーザの学習モデルにおいて,ユーザ本人の実験データに対してF 値が0.85 以上であり,非常に高い精度でユーザの個人情報に相当するあるいはプライバシーにあたる形態素を分類できた.従って,機械学習を用いてユーザの個人情報を推定することは可能であることを示した.ただし,今回の実験ではユーザ本人および他のユーザの実験データのどちらでも分類精度が高かったが,その分類精度に殆ど差がなかったことから,自他の個人情報の分類が差別化できていないと考えられる.今回の実験では2 人のユーザのみの実験に留まったことから,さらに多くのユーザで実験を行ない,個人情報の推定についてユーザによって差別化できるか検討する必要があるといえる.文章分類システムでは,ユーザ6 人の投稿文を用いて学習モデルを生成し実験を行なった.その結果,分類精度については,単一のユーザの学習モデルにおいては,十分な高さを示した.ユーザ本人の実験データに対するF 値は0.8 以上となり,他のユーザの実験データに対するF 値は0.7 以下になった.また,複数のユーザの学習モデルにおいてもサンプルデータの件数が比較的均一である場合,十分な高さを示した.しかし,サンプルデータに偏りがあり,サンプルデータが少ないユーザについては十分な分類精度が得られなかった.単一のユーザのそれぞれの学習モデルにおいて,ユーザ本人の実験データに対して最もF 値が高くなったことから,この結果に基づいて任意のユーザを特定することも可能であることを示した.また,2 人から3 人の学習データを用いた学習モデルにおいても,学習データに含まれるユーザの実験データに対するF 値が,学習データに含まれていないユーザの実験データに対するF 値を上回ったことから,ユーザが複数の場合でもユーザを特定することが可能であることを示した.
2013
Databáze: OpenAIRE