解説 データ不足に立ち向かう──パターン認識現場における学習データ作成事例──

電子情報通信学会 - IEICE会誌 試し読みサイト
Vol.103 No.12 (2020/12) 目次へ

前の記事へ次の記事へ


 解説 

データ不足に立ち向かう

――パターン認識現場における学習データ作成事例――

Confronting the Lack of Data: Case Studies of Dataset Creation in the Field of Pattern Recognition

緒方貴紀 白川達也 木村俊也 片岡裕雄 牛久祥孝

緒方貴紀 (株)ABEJA

白川達也 (株)ABEJA, Labs

木村俊也 (株)メルカリEngineering Division

片岡裕雄 国立研究開発法人産業技術総合研究所人工知能研究センター

牛久祥孝 正員 オムロンサイニックエックス株式会社リサーチアドミニストレイティブディビジョン

Takanori OGATA, Nonmember (ABEJA, Inc., Tokyo, 108-0072 Japan), Tatsuya SHIRAKAWA, Nonmember (Labs, ABEJA, Inc., Tokyo, 108-0072 Japan), Shunya KIMURA, Nonmember (Engineering Division, Mercari, Inc., Tokyo, 106-0032 Japan), Hirokatsu KATAOKA, Nonmember (Artificial Intelligence Research Center, National Institute of Advanced Industrial Science and Technology, Tsukuba-shi, 305-8560 Japan), and Yoshitaka USHIKU, Member (Research Administrative Division, Omron Sinic X Corp., Tokyo, 113-0033 Japan).

電子情報通信学会誌 Vol.103 No.12 pp.1248-1255 2020年12月

©電子情報通信学会2020

A bstract

 多種多様なデータが公開・取得されるようになりつつある現在,いかにして大量かつ良質なデータを効率的に得ることができるかは,機械学習をする上での喫緊の課題の一つになっている.本稿では,画像データにおけるパターン認識を題材に,実環境におけるデータ収集やアノテーションにおいて起こり得る課題やそれに対するアプローチ方法,精度・速度面での効率化を行う方法を事例とともに紹介する.

キーワード:機械学習,データセット,教師データ,アノテーション,教師あり学習,弱教師あり学習,事例

1.は じ め に

 近年,一般物体認識,物体姿勢推定,セマンティックセグメンテーション等の画像を用いた多くのパターン認識タスクにおいて,高精度化が著しい.その要因の一つとして,データセットの大規模化が挙げられる.画像識別の標準的なベンチマークデータセットであるImageNet(1)では英語の概念辞書であるWORDNET(2)から抽出した21,841 synsets(同義語のグループ)に対する1,400万枚の画像(本稿執筆時点,以下同様)が含まれ,MSCOCO(3)では32万8,000枚の画像データに含まれる91種類,200万個の物体に対して,物体の方形領域(Bounding Box, BBox)やセグメンテーションマスク情報のアノテーションが行われている.また,本稿執筆時の最新版であるOpen Image Dataset V6(4)では,190万枚の画像に含まれる600種の物体に対する1,460万個のBBoxのほか,同一画像内に写る全1,466種330万個の物体間の関係性情報や350種280万個の物体に対するセグメンテーションマスク情報,19,957種の物体に対する599万枚の画像に対する識別ラベルなどが付与されている.

 また,近年のパターン認識の研究活動として,新しい課題設定や問題提起を行うために,データセットを作成して論文などの形式で公開するという流れも多く見られる.研究テーマの問題提起としてデータセットを集めるということは,研究活動を行う上で重要なアプローチの一つとなっている(表1).

表1 CVPR2019に発表されたデータセット論文例

 学術研究以外でも,事業会社における研究開発現場においては,サービスやプロダクトにユニークな課題に対してアプローチする必要があり,特定の環境下でのデータ収集及び教師データの作成が重要となる.本稿では,こういったデータセットを作る上での検討ポイント(2.)や事業会社でのデータセット作成・活用事例(3.4.)及び学術研究機関でのデータセット作成事例(5.)を紹介する.


続きを読みたい方は、以下のリンクより電子情報通信学会の学会誌の購読もしくは学会に入会登録することで読めるようになります。 また、会員になると豊富な豪華特典が付いてきます。


続きを読む(PDF)   バックナンバーを購入する    入会登録

  

電子情報通信学会 - IEICE会誌はモバイルでお読みいただけます。

電子情報通信学会誌 会誌アプリのお知らせ

電子情報通信学会 - IEICE会誌アプリをダウンロード

  Google Play で手に入れよう

本サイトでは会誌記事の一部を試し読み用として提供しています。