ニュース解説 画像に対する質問に世界最高精度で回答できる質問応答技術を開発

電子情報通信学会 - IEICE会誌 試し読みサイト
Vol.105 No.2 (2022/2) 目次へ

前の記事へ次の記事へ


最近の新聞等で報道された技術情報を深める ニュース解説

画像に対する質問に世界最高精度で回答できる質問応答技術を開発

 (株)東芝では,汎用性が高く画像に対する質問に世界最高精度(注1)(当時)で回答できる質問応答技術を開発した.画像とその画像に関する質問を提示されたときに,正しく答えを導き出すタスクはVisual Question Answering(VQA)と呼ばれている.VQAのモデルは通常,画像から特徴量を抽出する画像エンコーダ(符号器),質問から特徴量を抽出する質問エンコーダ,両者の特徴量を用いて回答を導き出すクロスモーダルのエンコーダで構成されている(図1(a)).従来の画像エンコーダでは,Region Proposal Networks(RPN)という手法を用いて,物体と思われるものを囲った方形領域(関心領域(ROI))を検出し,物体検出特徴量を抽出する.しかし,抽出された領域は物体の領域に配置されることが多いため,非物体(草や空などの非定形の背景領域)の情報は,画像エンコーダにうまく反映されない.


続きを読みたい方は、以下のリンクより電子情報通信学会の学会誌の購読もしくは学会に入会登録することで読めるようになります。 また、会員になると豊富な豪華特典が付いてきます。


続きを読む(PDF)   バックナンバーを購入する    入会登録

  

電子情報通信学会 - IEICE会誌はモバイルでお読みいただけます。

電子情報通信学会誌 会誌アプリのお知らせ

電子情報通信学会 - IEICE会誌アプリをダウンロード

  Google Play で手に入れよう

本サイトでは会誌記事の一部を試し読み用として提供しています。