電子情報通信学会 - IEICE会誌 試し読みサイト
© Copyright IEICE. All rights reserved.
|
解説
データ不足に立ち向かう
――パターン認識現場における学習データ作成事例――
Confronting the Lack of Data: Case Studies of Dataset Creation in the Field of Pattern Recognition
A bstract
多種多様なデータが公開・取得されるようになりつつある現在,いかにして大量かつ良質なデータを効率的に得ることができるかは,機械学習をする上での喫緊の課題の一つになっている.本稿では,画像データにおけるパターン認識を題材に,実環境におけるデータ収集やアノテーションにおいて起こり得る課題やそれに対するアプローチ方法,精度・速度面での効率化を行う方法を事例とともに紹介する.
キーワード:機械学習,データセット,教師データ,アノテーション,教師あり学習,弱教師あり学習,事例
近年,一般物体認識,物体姿勢推定,セマンティックセグメンテーション等の画像を用いた多くのパターン認識タスクにおいて,高精度化が著しい.その要因の一つとして,データセットの大規模化が挙げられる.画像識別の標準的なベンチマークデータセットであるImageNet(1)では英語の概念辞書であるWORDNET(2)から抽出した21,841 synsets(同義語のグループ)に対する1,400万枚の画像(本稿執筆時点,以下同様)が含まれ,MSCOCO(3)では32万8,000枚の画像データに含まれる91種類,200万個の物体に対して,物体の方形領域(Bounding Box, BBox)やセグメンテーションマスク情報のアノテーションが行われている.また,本稿執筆時の最新版であるOpen Image Dataset V6(4)では,190万枚の画像に含まれる600種の物体に対する1,460万個のBBoxのほか,同一画像内に写る全1,466種330万個の物体間の関係性情報や350種280万個の物体に対するセグメンテーションマスク情報,19,957種の物体に対する599万枚の画像に対する識別ラベルなどが付与されている.
また,近年のパターン認識の研究活動として,新しい課題設定や問題提起を行うために,データセットを作成して論文などの形式で公開するという流れも多く見られる.研究テーマの問題提起としてデータセットを集めるということは,研究活動を行う上で重要なアプローチの一つとなっている(表1).
学術研究以外でも,事業会社における研究開発現場においては,サービスやプロダクトにユニークな課題に対してアプローチする必要があり,特定の環境下でのデータ収集及び教師データの作成が重要となる.本稿では,こういったデータセットを作る上での検討ポイント(2.)や事業会社でのデータセット作成・活用事例(3.,4.)及び学術研究機関でのデータセット作成事例(5.)を紹介する.
続きを読みたい方は、以下のリンクより電子情報通信学会の学会誌の購読もしくは学会に入会登録することで読めるようになります。 また、会員になると豊富な豪華特典が付いてきます。
電子情報通信学会 - IEICE会誌はモバイルでお読みいただけます。
電子情報通信学会 - IEICE会誌アプリをダウンロード