電子情報通信学会 - IEICE会誌 試し読みサイト
© Copyright IEICE. All rights reserved.
|
解説
実世界へ挑む機械学習
Machine Learning Challenges for the Real World
A bstract
現在の機械学習の成功を支える中心的なアプローチである教師あり学習では,対象とするタスクの入出力関係を網羅した大規模なラベル付き訓練データセットの存在を前提とする.しかしながら,実際の応用場面では大規模なデータを用意することは必ずしも容易ではない.また,ある一時点において固定されたデータセットによる学習では,ダイナミックに変化する実世界をカバーすることは困難である.本稿では,限られたデータからの学習や,オープンワールドへの対応を念頭に,機械学習の先進的な研究分野について解説を行う.
キーワード:限られたデータ,オープンワールド,弱教師あり学習,転移学習,継続学習
機械学習が様々な知能システムを実現するための中心的な技術として活躍するようになってから既に久しい.特に,深層学習(ディープラーニング)のブレークスルー以降の発展は目覚ましく,従来は非常に困難であると考えられてきた技術が次々と実現されている.
機械学習には前提とするデータに応じた幾つかの枠組みが存在するが,現在の成功を支えているのは,事例に対する正解を教示する教師あり学習と呼ばれる枠組みである.ある入力に対し,適切な出力を与える関数,すなわち予測モデルを得ることを考えよう.ここで,,はそれぞれ入力,出力の空間を表す.これを実現するために,教師あり学習では,入出力のペアからなる事例を多数集めた訓練データセット(はデータ数)を,いわば「練習問題」として利用してシステムを訓練する.は番目の入力事例に対する答えであり,教師あるいはラベルと呼ばれる.信頼性の高いラベルをどのように得るかが教師あり学習における重要なポイントであり,多くの場合,人手によりデータをアノテーションして作成する必要がある.このような良質なラベル付きデータセットが得られれば,深層学習を基盤とする教師あり学習により,様々なタスクで非常に良い性能が得られるようになっている(1)~(3).一方で,実際の応用を考えた場合,単純な教師あり機械学習には課題も多い.本稿では,以下に述べる二つの問題に焦点を当てる.
第1に,教師あり学習ではラベル付きの訓練データが大量に存在することが必要である.例えば,深層学習を用いた画像識別では百万枚以上のラベル付き画像を用いることが一般的になっている(4)が,このような大規模データセットをユーザが自力で構築することは現実的でない場合も多い.例えば,医療などプライバシーが重要なアプリケーションの場合,データの収集自体を慎重に行う必要があるだろう.また,教師あり機械学習には生データだけがあればよいわけではなく,対となるラベルの付与は多くの場合人手に依存し,膨大な人的コストが必要となることを忘れてはならない.
第2に,システムの訓練時と実際の運用時(テスト時)が同じ状況であること,すなわちクローズドワールドを想定していることも大きな制約である.具体的には,入出力の空間,や,確率分布が訓練の前後で変わらないことが前提である.これは,画像識別を例にとると,訓練データに含まれるクラス(既知クラス)のみがテスト時にも現れ,その見え方も訓練時と変化しないことを意味する.しかしながら,より実世界を対象とするアプリケーションでは必ずしもこの前提は成り立たない.例えば,家庭用ロボットを例にとると,時々刻々と変化する家庭環境の全ての物事をあらかじめ教えておくことは不可能であり,訓練データに含まれないクラスも必然的に現れる.また,一度教えたクラスであっても,その分布は絶えず変化していくであろう.このように,ダイナミックに変化するオープンワールドに対応するためには,新奇な物事を発見し,逐次的に知識をアップデートするための仕組みが必要である.
続きを読みたい方は、以下のリンクより電子情報通信学会の学会誌の購読もしくは学会に入会登録することで読めるようになります。 また、会員になると豊富な豪華特典が付いてきます。
電子情報通信学会 - IEICE会誌はモバイルでお読みいただけます。
電子情報通信学会 - IEICE会誌アプリをダウンロード