電子情報通信学会 - IEICE会誌 試し読みサイト
© Copyright IEICE. All rights reserved.
|
データサイエンスにおけるデータ抽象化によるデータ理解へのアプローチ
小特集 3.
データ研磨を用いたクラスタリングの安定化
Clustering Stabilization by Data Polishing
Abstract
クラスタリングはデータ解析において広く利用される手法である.しかしながら,主要なクラスタリング手法の多くはランダムに生成した初期値を基に計算をするため,計算結果が初期値に依存して大きく変動することから実用上の困難が生じている.その初期値依存問題への対応として,データ研磨を用いたクラスタリングの安定化手法を紹介する.本稿では,主要なクラスタリング手法の解の安定度合いを計算機実験によって示すとともに,データ研磨を用いたクラスタリングの安定化手法について解説する.また,そこで得られた安定化クラスタの安定度と類似性の性能評価について述べる.
キーワード:クラスタリング,初期値依存,マーケットセグメンテーション,購買履歴データ
情報通信技術の発展に伴い,科学技術分野だけでなく産業界においてもデータの収集と活用が盛んになった.そのデータの解析においてクラスタリングは広く利用されている.特にマーケティング分野では,近年その利用が注目されており,消費者や顧客などを細分化するマーケットセグメンテーションの手段として利用されている.日本経済が飛躍的に成長した高度成長期時代のマーケティングは,消費者に対して単一の製品を大量生産し画一的なプロモーションを展開する効率的なマスマーケティングの手法をとってきた.しかしながら,消費者ニーズの多様化によって従来手法は通用しなくなり,市場の多様化したニーズに基づいて市場を細分化し,商品やサービス提供をするセグメントマーケティングが台頭した.消費者や顧客などを細分化するにあたっては様々な方法がある.年齢や性別などのデモグラフィック属性による分類などが一般的ではあるが,それらの既存の切り口と消費者ニーズは必ずしも一致するわけではない.そのため,購買特性や購買行動といった非言語的なデータに基づく,クラスタリングなどを用いた発見型のセグメンテーションが注目されるようになり,購買特性や行動が類似した人々から成るセグメントの理解を基にマーケティング戦略の立案から戦術策の実施を行う活動がなされるようになった.
しかしながら,現場でのクラスタリング解析は円滑に実施されているとは言い難い.その主な問題の一つが,クラスタリングの初期値依存問題であり,それによる解の信頼性の欠如が分析者や結果の利用者に大きな負荷とリスクを生じさせている.主要な(1)をはじめとする大規模データに対応するクラスタリング手法の多くが,ランダムに生成した初期値を基に計算し,計算結果がその初期値に依存して大きく変動する.そのため,解として得られたクラスタがデータの性質を如実に反映したものか,それとも偶然の産物であるのかが識別できず,重要な経営判断を行う場合などに信頼に足る見解を出すことが困難になる.そのため,データ解析者は初期値を変えて何度もクラスタリングを実行し,得られた解を精度評価やマーケティング活動上で有効に機能するかといった視点から検討する.その膨大な解を様々な視点から解釈する作業は非常に大きな負荷がある.この問題はマーケティング分野にとどまらず,自然科学分野においても大きな問題である.例えば,バイオ情報学においては,遺伝子をはじめとする表現系や因子のクラスタリングが盛んに行われているが,解の不安定さから,計算結果はあくまで「一つの実験例」として扱われている.
続きを読みたい方は、以下のリンクより電子情報通信学会の学会誌の購読もしくは学会に入会登録することで読めるようになります。 また、会員になると豊富な豪華特典が付いてきます。
電子情報通信学会 - IEICE会誌はモバイルでお読みいただけます。
電子情報通信学会 - IEICE会誌アプリをダウンロード