SNSの投稿から個人情報が含まれる文章を分類する手法の研究

Jazyk:	japonština
Popis:	近年，投稿した文や画像を閲覧・共有することでコミュニケーションを行なうソーシャルネットワーキングサービス(以下，SNS) が流行している．これらのSNS では各ユーザが様々な形態で利用しているが，その投稿にはユーザ自身あるいは知人のプライバシーに直接関わる情報も見られる．そのため，インターネット上の不特定多数のユーザに，個人のプライバシーに関わる情報が閲覧されうる状態になっている．このような問題に対して，ユーザ自身がSNS に登録する際に実名や本人の写真を用いず，プロフィールを匿名化するといった対策を行なう場合も多い．しかし，このような対策をしていても，SNS における個人に関する情報の集積によって，プライバシーの侵害や個人情報漏洩が起こりうる危険性が指摘されている．たとえSNS 上でプロフィールを公開していなくても，就職希望者とSNS のユーザを同定する研究や，複数のSNS における個人情報を統合することで，ユーザを特定する可能性が示されている．ただし，短文を投稿するSNSにおける投稿文そのものについては分析が行われていない．そこで，本研究ではSNS における投稿文について分析し，個人情報の推定およびユーザの特定のリスクを明確にするため，先行研究よりも汎用性が高く，特定の個人に最適化した，形態素分類システムおよび文章分類システムを実装した．そして，類似した個人情報を持つ複数のユーザについて，個人情報の推定を共通化する手法の検討を行なった．形態素分類システムは，まず短文投稿型SNS，Twitter の投稿文の中から，個人情報に相当するあるいはプライバシーにあたる形態素とそれ以外の形態素をユーザ自身にラベリングしてもらう．そして，その基準に従い，機械学習によって自動的に形態素を分類するシステムである．また，文章分類システムは，Twitter の投稿文の中から，ユーザの個人情報に相当する形態素を含む文章とそれ以外の文章を，機械学習によって自動的に分類するシステムである．これらのシステムを実装して被験者実験を行ない，分類精度の評価およびシステムの考察を行なった．形態素分類システムでは，ユーザ2 人の投稿文を用いて学習モデルを生成し実験を行なった．その結果，分類精度については十分な高さを示したと考えられる．分類精度はそれぞれのユーザの学習モデルにおいて，ユーザ本人の実験データに対してF 値が0.85 以上であり，非常に高い精度でユーザの個人情報に相当するあるいはプライバシーにあたる形態素を分類できた．従って，機械学習を用いてユーザの個人情報を推定することは可能であることを示した．ただし，今回の実験ではユーザ本人および他のユーザの実験データのどちらでも分類精度が高かったが，その分類精度に殆ど差がなかったことから，自他の個人情報の分類が差別化できていないと考えられる．今回の実験では2 人のユーザのみの実験に留まったことから，さらに多くのユーザで実験を行ない，個人情報の推定についてユーザによって差別化できるか検討する必要があるといえる．文章分類システムでは，ユーザ6 人の投稿文を用いて学習モデルを生成し実験を行なった．その結果，分類精度については，単一のユーザの学習モデルにおいては，十分な高さを示した．ユーザ本人の実験データに対するF 値は0.8 以上となり，他のユーザの実験データに対するF 値は0.7 以下になった．また，複数のユーザの学習モデルにおいてもサンプルデータの件数が比較的均一である場合，十分な高さを示した．しかし，サンプルデータに偏りがあり，サンプルデータが少ないユーザについては十分な分類精度が得られなかった．単一のユーザのそれぞれの学習モデルにおいて，ユーザ本人の実験データに対して最もF 値が高くなったことから，この結果に基づいて任意のユーザを特定することも可能であることを示した．また，2 人から3 人の学習データを用いた学習モデルにおいても，学習データに含まれるユーザの実験データに対するF 値が，学習データに含まれていないユーザの実験データに対するF 値を上回ったことから，ユーザが複数の場合でもユーザを特定することが可能であることを示した． 2013
Databáze:	OpenAIRE
Externí odkaz:	https://explore.openaire.eu/search/publication?articleId=jairo_______::db13c54279ca383887b36ea2e69b77b6 http://id.nii.ac.jp/1438/00004917/ Zobrazit plný text záznamu