電子情報通信学会 - IEICE会誌 試し読みサイト
© Copyright IEICE. All rights reserved.
|
データサイエンスにおけるデータ抽象化によるデータ理解へのアプローチ
小特集 6.
個人特性を考慮したグラフ研磨によるクラスタリングと特徴抽出
Clustering by Graph Polishing to Extract Individual Characteristics
Abstract
本稿では,実用的で解釈性を高めるためのモデル構築を行うために,データ粒子化技術のグラフ研磨を利用し,抽象度を高めた意味解釈のしやすい特徴量を生成する研究について述べる.そして,それを分類モデルの説明変数として利用することで,旅行意向を持つ消費者と持たない消費者の特徴を明らかにする.
キーワード:グラフ研磨,変数選択,特徴抽出,解釈性
ビッグデータの蓄積とともにデータマイニング,機械学習,そして深層学習などのデータ解析技術は,活発な技術開発と実用化が目まぐるしい勢いで行われている.これらの技術は,規則性の発見や,未知データに対しての予測,分類を高精度に行うことを目的に研究が進められており,特に深層学習を用いた画像認識技術や翻訳などの自然言語処理技術は目覚ましい発展を遂げている.
これらの技術が人間の意思決定を支援するために利用されるのか,それともコンピュータだけで完結するタスクに利用されるのかによって,解釈性の重要性が異なってくる.例えば,インターネット広告は,広告枠のオークションが瞬時に行われるリアルタイムビッティングが主流で,人は広告出稿に関与しない.クリック率や購入率などのコンバージョン(最終成果)を高めるための最適化ができればよく,なぜその広告を提示したのか,その理由を理解する必要ない.
一方で,これらの技術を意思決定の支援に利用する場合には,結果の意味解釈性が重要になる.つまり,人がデータの分析結果を解釈し,その結果に基づき施策を考え,最終的なアウトプットを生み出すようなケースである.特にマーケティングのような人に関わる仕事では,顧客の行動は気分や環境に左右されるため,仮に判別精度の高いモデルが構築できたとしても,モデルによる推論結果を人間が理解できなければ,成果につなげることは難しいであろう.
そしてもう一つ,経営的な施策に結び付く「使える結果」かどうかが重要である.筆者もこれまで多くのデータにデータマイニング技術を適用してきたが,意外性のあるルールが見つかるよりも,マーケッターが感覚的に持っている情報が,データから確認できたという結果にとどまることが多い.これは,教師として利用する目的変数を単純にある商品の購入・非購入のような事象で定義することに問題があったと考えられる.つまり実際の顧客は,もっと多様性を持っており,ある商品の購入者の中にも嗜好が似ている顧客もいれば似ていない顧客もいる.それらの顧客を同一の集合として分析することは,判別力の高いモデルが構築できたとしても,それが経営的な施策に結び付く有用なルールかどうかは別であろう.
本研究では,マーケティングで人がアクションに関与することを想定し,実用的で解釈性を高めるためのモデル構築を行うことを目的としている.そのために,データ粒子化技術(用語)のグラフ研磨を利用し,抽象度を高めた意味解釈のしやすい特徴量を生成する.そして,それを分類モデルの説明変数として利用する.
続きを読みたい方は、以下のリンクより電子情報通信学会の学会誌の購読もしくは学会に入会登録することで読めるようになります。 また、会員になると豊富な豪華特典が付いてきます。
電子情報通信学会 - IEICE会誌はモバイルでお読みいただけます。
電子情報通信学会 - IEICE会誌アプリをダウンロード