電子情報通信学会 - IEICE会誌 試し読みサイト
© Copyright IEICE. All rights reserved.
|
音声言語理解のこれまでとこれから
小特集 4.
音声発話からの意味理解
Semantic Interpretation of Spoken Utterances
abstract
スマートフォンやホームアシスタントが音声による命令を理解するためには,音声認識の結果として得られる自然言語の文を解析して,機械処理可能な表現に変換することが必要である.これを意味理解と呼ぶが,この意味理解を行うシステムも,大量の訓練データと機械学習技術を用いることで,低コストで精度の高いものが開発できるようになってきた.本稿ではこのような意味理解技術を概説し,最近の技術動向と今後の発展について述べる.
キーワード:意味理解,自然言語理解,言語理解
本稿で対象とする音声対話システムにおける言語理解とは,ある発話に対し,以下を備えた意味フレームSF(Semantic Frame)
・ DOMAIN(ドメイン)
・ INTENT(意図)
・ SLOTS(スロット)
を埋める処理であるとする.なお,音声対話の研究分野では伝統的に1発話の意味を理解する処理を言語理解(natural language understanding)と呼ぶことが多い.ここでもそれに従う.
表1にドメイン・意図・スロットの例を示す.表2に天気ドメインの意味フレームの一例を示す.発話「今日の東京の気温を教えて」があったとすると,$DOMAIN=“weather” $INTENT=“temperature” $DATE=“今日” $LOCATION=“東京”と解析させることが本稿で述べる言語理解である.
ドメインごとに取り得る意図が決まる場合も多いため,実際のシステムではドメインと意図が明確に分離されていないケースもある(注1).以後,意図推定の処理について書く場合,ドメイン推定でも同様の処理が行えるものと考えてよい.意図もドメインもどちらも有限個の値を取るので分類問題と捉えることができるため,技術的な扱いはほぼ同じである.
次章以降ではまず意図の推定とスロットの充足(slot filling)について基本的な手法を述べる.次に近年注目の手法を①ニューラルネットワークを利用する手法,②意図の推定とスロット充足を同時にモデル化する方法,の2点から述べる.最後に現在の課題と今後の方向性について述べる.
続きを読みたい方は、以下のリンクより電子情報通信学会の学会誌の購読もしくは学会に入会登録することで読めるようになります。 また、会員になると豊富な豪華特典が付いてきます。
電子情報通信学会 - IEICE会誌はモバイルでお読みいただけます。
電子情報通信学会 - IEICE会誌アプリをダウンロード