電子情報通信学会 - IEICE会誌 試し読みサイト
© Copyright IEICE. All rights reserved.
|
音声言語理解のこれまでとこれから
小特集 7.
円滑な対話進行のための音声からの情報抽出
Obtaining Information from Spoken Utterances for Smooth Dialogues
abstract
ユーザの音声発話には,その意味内容以外にも様々な情報が含まれる.とりわけ音声対話システムでは,ユーザとシステム間の発話のタイミングの関係や,更には発話が誰に向けられたものかによって,それを受け取ったシステムが取るべき挙動は異なる.対話を円滑に行うには,ユーザ発話に対してシステムが応答を始めるまでに大きな遅延が生じたり,ユーザとシステムの発話が意図せず重なったりするのを避ける必要がある.更には,システムが話すべきでないときに応答を始めるのも望ましくない.本稿では,このような円滑な対話の実現のために必要な技術について概説する.
キーワード:音声対話システム,話者交替,ターンテイキング,発話区間検出,受話者推定
音声対話システムが対話を円滑に進めるには,音声認識結果を理解することで得られる意味内容に加えて,音声対話に含まれるそれ以外の要素も理解する必要がある.具体的には,音声対話に特徴的な要素の一つである発話の時間構造,つまりタイミングの管理が挙げられる.また実空間内での対話では,ユーザが誰に向けて話したのかを理解することも必要である.
対話における時間構造という観点では,基本的に,2者が交互に話すことが想定される.すなわち一方が話し,それが終了した後に他方が話し始めるという話者交替,つまりターンテイキング(turn taking)が生じる.テキスト対話の場合,自分の発話を入力した後に例えばエンターキーを押すことで,発話の区切りが明示的に示され,それが交互に起こることでターンテイキングが実現される.また単信式のトランシーバ(同時に送信か受信のどちらかしかできない)での対話でも,発話の終わりに「どうぞ」と言うなどして発話の終了を明示すれば,明確なターンテイキングが実現できる.
しかしながら,現実の人同士の自然な音声対話では,必ずしも2者が交互に話してはいない.つまり,2者が同時に話し始めたり,一方が話している最中に他方が話し始めたりといった現象が頻繁に生じる.対話システムにおいても,ユーザにトランシーバのような不自然なタイミングでの発話を強いるのではない場合には,このような現象がしばしば生じる.したがって,システムは,ユーザに自由なタイミングで話すことを許容した上で,ユーザの意図を理解しやすい状況となるように動作するのが望ましい.具体的には,ユーザと発話が重なった場合にシステムが発話を止める(バージイン(barge-in)の許容)という設計などがこれに相当する.
ユーザの意図を理解しやすい理想的な状況を以下に列挙する.まずターンテイキングが円滑に行われている状況である.つまり,ユーザの発話終了からシステムの応答開始までに大きな遅延がなく,かつ双方の発話が意図せず重なったりしない状態である.また,発話がユーザの意図(つまり対話行為)どおりに区切られており,その意味内容を正しく理解できている状況である.更にはユーザ発話が誰に向けられたものかが理解できている状況である.これらが全て満たされている場合システムは応答すべきか否かを正しく決定できる.
続きを読みたい方は、以下のリンクより電子情報通信学会の学会誌の購読もしくは学会に入会登録することで読めるようになります。 また、会員になると豊富な豪華特典が付いてきます。
電子情報通信学会 - IEICE会誌はモバイルでお読みいただけます。
電子情報通信学会 - IEICE会誌アプリをダウンロード