画像に対する質問に世界最高精度で回答できる質問応答技術を開発

　(株)東芝では，汎用性が高く画像に対する質問に世界最高精度^(注1)（当時）で回答できる質問応答技術を開発した．画像とその画像に関する質問を提示されたときに，正しく答えを導き出すタスクはVisual Question Answering（VQA）と呼ばれている．VQAのモデルは通常，画像から特徴量を抽出する画像エンコーダ（符号器），質問から特徴量を抽出する質問エンコーダ，両者の特徴量を用いて回答を導き出すクロスモーダルのエンコーダで構成されている（図1(a)）．従来の画像エンコーダでは，Region Proposal Networks（RPN）という手法を用いて，物体と思われるものを囲った方形領域（関心領域（ROI））を検出し，物体検出特徴量を抽出する．しかし，抽出された領域は物体の領域に配置されることが多いため，非物体（草や空などの非定形の背景領域）の情報は，画像エンコーダにうまく反映されない．

続きを読みたい方は、以下のリンクより電子情報通信学会の学会誌の購読もしくは学会に入会登録することで読めるようになります。また、会員になると豊富な豪華特典が付いてきます。

続きを読む(PDF)　　　バックナンバーを購入する　　　　入会登録

電子情報通信学会 - IEICE会誌はモバイルでお読みいただけます。

電子情報通信学会誌会誌アプリのお知らせ

電子情報通信学会 - IEICE会誌アプリをダウンロード

ニュース解説 画像に対する質問に世界最高精度で回答できる質問応答技術を開発

画像に対する質問に世界最高精度で回答できる質問応答技術を開発

ニュース解説　画像に対する質問に世界最高精度で回答できる質問応答技術を開発