電子情報通信学会 - IEICE会誌 試し読みサイト
© Copyright IEICE. All rights reserved.
|
音声言語理解のこれまでとこれから
小特集 5.
音声発話系列からのユーザの意図の理解
User Intention Understanding from Utterance Sequences
abstract
音声言語理解を用いるアプリケーションにおいて,複数のスロットを持つような複雑なユーザ意図の理解やタスクの実現には,音声発話の系列を考慮することが不可欠である.こうした系列の考慮は,音声言語理解を用いたアプリケーションの可能性が示唆された頃から検討がされており,様々なアプローチがとられてきた.本稿では,こうしたアプローチを概観するとともに,分野として今後どのような発展が期待されるかを解説する.
キーワード:対話状態推定,対話履歴
システムとユーザが自然なインタラクションを行う場合,複数のやり取りが発生するが,このような場合は個々のユーザ発話のみからユーザの意図全体を認識することが難しい.こうした場合,ユーザの意図を正しく認識するためには,やり取りの履歴,つまり音声発話の系列全体からユーザの意図を推定する必要がある.本小特集第1章で述べられているように,ユーザの意図はフレームで表現される場合が多いが,このフレームで扱うスロット数が多いドメインでは,ユーザが自身の意図を1発話で全て伝えることは難しく,複数の発話にまたがって一つの意図が伝えられるためである.このような意図の認識を行う場合,単に各発話から得られるユーザ意図を個別に認識した上で結合するだけでは不十分で,過去に入力された内容を考慮して現在の意図理解結果を修正する,応答フィルタのようなモデルを用いる必要がある.対話システム研究の分野においては,こうした発話系列を考慮した意図理解結果を対話状態と呼ぶ.本来こうした枠組みの利用は対話に限らないものであるが,本稿では先行研究に倣い,対話状態の語を用いる.また,このような意図理解結果の修正を行う問題を,特に対話状態推定と呼ぶ(1).
対話状態推定のように発話系列を考慮する場合,状態をどのような粒度で持つのかによって,考慮しなければならない系列の範囲が異なる場合がある.ここでは,フレームのようなslot-valueの組合せでユーザの意図を保持する場合を例に取る.フレームはこれまでの音声言語理解の枠組みで多く用いられてきたが,こうした表現が有効なのは達成すべき目標が明確であるようなアプリケーション,例えばレストラン案内やカーナビゲーションシステム,などの特定のタスクを達成する対話システムが多い(2)~(4).この場合,フレームの種類や話題に相当するスロットは長期にわたって考慮し続ける必要がある.例えば,ユーザがレストランについて検索したいと思った場合,レストラン案内について記述したフレームは,レストラン案内が継続する限り用いなければならない.それに対し,より短期で入れ替わるようなスロット値については,直近からのユーザ発話からの情報をより重点的に考慮しなければならない.
続きを読みたい方は、以下のリンクより電子情報通信学会の学会誌の購読もしくは学会に入会登録することで読めるようになります。 また、会員になると豊富な豪華特典が付いてきます。
電子情報通信学会 - IEICE会誌はモバイルでお読みいただけます。
電子情報通信学会 - IEICE会誌アプリをダウンロード