電子情報通信学会 - IEICE会誌 試し読みサイト
© Copyright IEICE. All rights reserved.
|
データサイエンスにおけるデータ抽象化によるデータ理解へのアプローチ
小特集 4.
社会科学におけるデータマイニングの役割
The Functions of Datamining in Social Science
Abstract
データマイニングや機械学習などの新しい分析手法の導入が社会科学の分野で活発化していないことを背景に,p値統計,データマイニング,機械学習の三つの手法について,モデルの複雑性,予測精度,真のモデルにおける偶然の支配率,といった点について検討し,その原因を追求しようと試みている.そして,映画評価コメントのポジ/ネガ分析を通じて,機械学習の成果を社会科学の分野で活用するためのデータマイニングの新たな方向性を示唆している.
キーワード:顕在パターン,Attention,BERT,モデルの複雑性,社会科学
ビッグデータという言葉が使われ始めた2010年以来,データ解析技術であるデータマイニングや機械学習の手法は大きく発展を遂げてきた.特に深層学習を中心とした機械学習の発展は目覚ましいものがある.一方で,筆者らが属する社会科学の分野においては,まだまだそれらの技術の導入は活発化しているとは言えない.その理由は,応用側とデータサイエンス側の交流不足も一因として挙げられるが,それ以上に,これらの技術が従来の理論研究には使いにくいことが大きな理由であると考えている.理論は人間が理解できなければ意味がないが,一方で機械学習は精度を優先するため,モデルが複雑化し人間には解釈できないものとなってしまうからである.またデータマイニングは,仮説発見のために利用され,時には理解しやすいモデルを提示するが,理論研究でこれまで主に用いられてきたp値による統計手法ではないために,その結果をどのように理論に組み込めばよいか明らかでない.
本稿では,データ解析の手法としてp値統計,データマイニング,機械学習を取り上げ,モデルの精度と複雑性の視点から,それぞれの手法の特徴を整理する.そして,データマイニングが機械学習の「モデル理解」に貢献でき,また複雑なモデルを精度を落とさずに単純化する仮説を導出する「モデル改良」の役割を担えることを示し,p値統計を主とする社会科学の理論研究との架け橋になるべきことを示唆する.そして,そのようなケースの一つとして映画の評価コメントの分析を取り上げ,顕在パターンマイニングとAttention(注意機構)を用いた深層学習の手法を比較することで,モデル理解についてのマイニングと機械学習の特徴を示し,社会科学分野における理論研究の今後のあり方について探っていく.
20世紀初頭にロナルド・フィッシャー(Ronald Fisher)がp値を定義して以来,応用分野における理論構築はp値に基づいた統計的検定を中心に行われてきた.その目的は,帰無仮説(母集団において差がない)を棄却して偶然ではない差があることを少量のデータで示すことにある.しかし,その背景には,少量のデータ,少量の変数が仮定されている.データ数が多くなると,検出力(少しの差を検知してしまう力)が高くなり,検定の意味がなくなるし,また差を説明する変数の候補が増えてくると,都合の良い変数を選んで報告するというp値をハッキングする問題も出てくる.そのような背景の中で,p値の利用についての是非が論争になるほどである(1).しかしながら,いまだ多くの応用分野においてはp値が主役として存在し続けている.
続きを読みたい方は、以下のリンクより電子情報通信学会の学会誌の購読もしくは学会に入会登録することで読めるようになります。 また、会員になると豊富な豪華特典が付いてきます。
電子情報通信学会 - IEICE会誌はモバイルでお読みいただけます。
電子情報通信学会 - IEICE会誌アプリをダウンロード