電子情報通信学会 - IEICE会誌 試し読みサイト
© Copyright IEICE. All rights reserved.
|
2000年代は,画像局所特徴量としてSIFTやHOGのように研究者の知見に基づいて設計するハンドクラフト特徴が研究され,ハンドクラフト特徴と機械学習を組み合わせることで,顔検出が代表するように画像認識技術の実用化が進んだ.2012年に深層学習モデルのCNNは一般物体認識のコンテストで圧倒的な成績を収めた以降,画像認識の様々なタスクでの利用が進んでいる.本稿では,画像認識における深層学習前後において手法がどのように変化したかを,特徴表現の観点からその効果と合わせて解説する.
キーワード:深層学習,特徴表現,自己教師あり学習,CNN,Vision transformer
画像認識の研究は,画像中の認識対象の特徴をどのように獲得するかを扱う研究と言っても過言ではない.深層学習前では,画像から画像局所特徴量と呼ばれる特徴ベクトルを計算し,機械学習手法を用いて画像認識を実現する手法が主流であった.画像局所特徴量は研究者の知見に基づいて設計したハンドクラフト特徴であり,顔検出や歩行者検出などの画像認識技術の実用化が進んだ.2012年に一般物体認識のコンテストで圧倒的な成績を収めた畳込みニューラルネットワーク(Convolutional Neural Network, CNN)は,特徴抽出過程を学習により獲得するアプローチである.CNNは画像分類だけでなく物体検出やセマンティックセグメンテーションなどの様々な画像認識タスクに適用可能であり,従来の手法が次々と深層学習のアルゴリズムに置き換えられてきた.更に,2021年には自然言語で有効とされているTransformerを画像分類に応用したVision Transformer(ViT)が提案され,CNNの性能を凌駕した.
本稿では,深層学習の前後における画像認識技術の変遷を特徴抽出の観点から解説する.
深層学習前の特徴量は,SIFT(Scale-Invariant Feature Transform)(1)に代表されるように目的に合わせて特徴点検出,並びに抽出過程のアルゴリズムを研究者が設計していた.これを称してハンドクラフト特徴と呼ぶ.SIFTは画像のスケール変化や回転に不変な特徴量を抽出するために,キーポイント検出と特徴量記述の二段階から成る.キーポイント検出処理では,Difference-of-Gaussian(DoG)処理によりキーポイントのスケールと位置を検出する.特徴量記述では,スケール内の勾配情報からオリエンテーションを求め,キーポイント周辺領域(パッチ)をオリエンテーション方向に回転させて特徴量を記述する.異なる画像間のSIFT特徴ベクトルの距離計算により対応点マッチングを行うことで特定物体認識を実現した.
続きを読みたい方は、以下のリンクより電子情報通信学会の学会誌の購読もしくは学会に入会登録することで読めるようになります。 また、会員になると豊富な豪華特典が付いてきます。
電子情報通信学会 - IEICE会誌はモバイルでお読みいただけます。
電子情報通信学会 - IEICE会誌アプリをダウンロード