Vol.101 No.9 (2018/9)　目次へ

音声言語理解のこれまでとこれから

小特集 1.

音声言語理解技術の概要と今後の展望

Overview and Outlook of Spoken Language Understanding Technology

中野幹生

中野幹生　正員　(株)ホンダ・リサーチ・インスティチュート・ジャパン

Mikio NAKANO, Member (Honda Research Institute Japan Co., Ltd., Wako-shi, 351-0188 Japan).

電子情報通信学会誌　Vol.101 No.9 pp.875-879 2018年9月

©電子情報通信学会2018

abstract

　本稿では，音声言語理解技術とはどのようなものかと，一般的にどのような要素技術から成っているかを述べるとともに，現在までにどのように発展してきたかについて，概略を述べる．音声言語理解は，音声を単語列に変換する音声認識技術と，単語列をユーザの意図を表す表現に変換する言語理解技術を中心とするが，その他にも様々な技術が統合されている．本稿では更に，現状の音声言語理解技術では解決されていない課題を列挙する．

キーワード：音声言語理解，音声認識，音声対話，音声アシスタント

1．音声言語理解とは

　音声言語理解とは，人が発話した音声を機械が理解できる表現に変換する技術であり，音声を用いた様々なサービスや製品に応用されている．例えば，スマートフォン上の音声アシスタントやいわゆるAIスピーカなどは，音声による命令を聞き取って，音楽を流したり，アラームを設定したり，ニュースを読み上げたりすることができる．また，音声で操作できるカーナビゲーションシステムは，音声で指定された場所や施設を検索して，目的地として設定することができる．

　音声言語理解の結果は，多くの場合フレームと呼ばれるデータ構造を用いて表現される．このフレームから，データベースにアクセスするクエリや機器を操作するコマンドが生成される．例えば，ユーザが「ジャズを聴きたい」と言えば，

［ユーザ意図タイプ＝音楽再生，

ジャンル＝ジャズ］

のようなフレームが生成され，これからコマンドが作られて実行される．ユーザ意図タイプ以外の情報（例ではジャンル）は属性やスロットと呼ばれる．どのようなユーザ意図タイプを用意するかや，ユーザ意図タイプに応じてどのような属性が必要かは，想定するシステムに応じて決めておく必要がある．

　ユーザが一つ発話を行うたびにコマンドを実行したりデータベースを検索して応答を返したりするような，いわゆる一問一答型のシステムの場合は，一発話の理解結果がそのままデータベース検索式やコマンドを生成するのに用いられる．これに対し，複数のやりとり（ターン）を行う音声対話システムの場合には，やりとりの中で徐々にフレームが作られていき，最終的に得られたフレームの内容が用いられる．例えば，

ユーザ：小田原までの特急券を買いたい

システム：新宿からの御乗車でよいですか？

ユーザ：はい

のようなやりとりから，

［ユーザ意図タイプ＝特急券購入，

乗車駅＝新宿

降車駅＝小田原］

のような理解結果が得られ，これを基にデータベースが検索されて，料金の案内などが行われる．

続きを読みたい方は、以下のリンクより電子情報通信学会の学会誌の購読もしくは学会に入会登録することで読めるようになります。また、会員になると豊富な豪華特典が付いてきます。

続きを読む(PDF)　　　バックナンバーを購入する　　　　入会登録

電子情報通信学会 - IEICE会誌はモバイルでお読みいただけます。

電子情報通信学会誌会誌アプリのお知らせ

電子情報通信学会 - IEICE会誌アプリをダウンロード