特集 12.【ビジョンと自然言語処理】AlexNetから10年――深層学習によるビジョン&ランゲージ分野への展開――

電子情報通信学会 - IEICE会誌 試し読みサイト
Vol.105 No.5 (2022/5) 目次へ

前の記事へ次の記事へ


特集12. 第4部 融合分野
【ビジョンと自然言語処理】
AlexNetから10年
――深層学習によるビジョン&ランゲージ分野への展開――
10 Years after AlexNet: Deep Learning for Vision and Language Fields
牛久祥孝

牛久祥孝 正員 オムロンサイニックエックス株式会社リサーチアドミニストレイティブディビジョン

E-mail contact@yoshitakaushiku.net

Yoshitaka USHIKU, Member (Research Administrative Division, OMRON SINIC X Corpolation, Tokyo, 130-0021 Japan).

電子情報通信学会誌 Vol.105 No.5 pp.418-423 2022年5月

©電子情報通信学会2022

abstract

 2012年,物体認識の精度を競い合う国際ワークショップILSVRCにおいて,Hinton教授の率いるチームが開発したAlexNetが驚異的な性能を発揮して優勝した.これは深層学習の力を世界に知らしめる象徴的な事件として語られ,当時ILSVRCに継続的に参加していた筆者も衝撃を受けた.この頃,筆者はコンピュータビジョンと自然言語処理を融合させる研究を同時に開始していたが,このような計算機科学分野内での融合研究にも深層学習の影響は多大なものとなった.本稿では,筆者らの研究事例に触れつつ,深層学習普及の前後でのこうした融合分野の研究の変遷や,今後の展望について解説する.

キーワード:マルチモーダル,クロスモーダル,Transformer,表現学習

1.は じ め に

 2012年にAlexNet,要するに畳込みニューラルネットワーク(CNN: Convolutional Neural Network)が画像認識におけるブレークスルーをもたらしてから,ちょうど10年になる.筆者は独断と偏見で,直近の深層学習分野における事件が4回起きているとみなしている.最初は,2011年に電話音声認識で深層ニューラルネットワーク(DNN: Deep Neural Network)が,音声認識の精度をそれまでの改善の道のりから非連続に押し上げたというものである.次が2012年,冒頭に述べたCNNによる画像認識である.三つ目が2014年,再帰ニューラルネットワーク(RNN: Recurrent Neural Network)によるシンプルな機械翻訳が,それまで最高精度を誇っていた複雑な機械翻訳システムと同じような精度を達成したというものである.そして四つ目が2017年,自己注意(self-attention)と全結合層を組み合わせたTransformerによる機械翻訳の更なる精度向上である.

 このように,各事件は音声認識や画像認識,機械翻訳といった各情報処理分野における重要かつ長年取組みのある研究課題の中で生じている.深層学習の恩恵は,このように各モダリティの情報処理の精度を大きく飛躍させたことでもあるが,もう一つの恩恵も特筆するべきであろう.各分野での最先端の手法が全て深層学習に置き換わり,CNNやRNNは画像や自然言語(そして音声)全てに活用され始め,近隣だが異分野だったこれらの情報処理分野の共通言語となった.このように,深層学習によって,異なるモダリティを扱う諸問題同士を融合させるハードルが大きく緩和されたことも,深層学習のもう一つの恩恵と言える.

 本稿では,こうしたマルチモーダル/クロスモーダルなデータ理解を実現する機械学習とその応用技術の中でも,比較的長く取り組まれてきている画像と自然言語の融合理解分野について概説する.この分野はビジョン&ランゲージ(vision and language)と呼ばれ,コンピュータビジョン分野と自然言語処理分野それぞれで融合分野として認知されている.筆者はこれまでも,日本語の書籍や記事としてビジョン&ランゲージについて紹介してきた.辛うじて全ての論文を追えた時期は一瞬で終わり,今では膨大な数の論文が国際会議やプレプリントサーバを通じて発表されている.紙幅の制約もあるので,本稿では,特に近年の更なる発達についてのフォローを中心とした解説を進めたい.


続きを読みたい方は、以下のリンクより電子情報通信学会の学会誌の購読もしくは学会に入会登録することで読めるようになります。 また、会員になると豊富な豪華特典が付いてきます。


続きを読む(PDF)   バックナンバーを購入する    入会登録

  

電子情報通信学会 - IEICE会誌はモバイルでお読みいただけます。

電子情報通信学会誌 会誌アプリのお知らせ

電子情報通信学会 - IEICE会誌アプリをダウンロード

  Google Play で手に入れよう

本サイトでは会誌記事の一部を試し読み用として提供しています。