電子情報通信学会 - IEICE会誌 試し読みサイト
© Copyright IEICE. All rights reserved.
|
音声言語理解のこれまでとこれから
小特集 3.
音声言語理解のための音声認識
Automatic Speech Recognition for Spoken Language Understanding
abstract
音声認識技術は,大量の音声データの利用と深層学習の導入により,近年急速に発展してきた.この中で,今まで非常に難しいと考えられてきた雑音下の音声認識の精度も向上し,現実的な環境で用いることができるようになってきている.本稿では,深層学習の利用を中心に,近年の音声認識技術の発展及びその将来像について,音声認識を含めた音声処理研究者のみならず,関連する技術分野の研究者も対象に,解説を行う.
キーワード:音声認識,音響モデル,言語モデル,今後の課題
音声認識技術は近年急速に発展し,また大きく普及している.これらの発展には大きく三つの要因が考えられる.一つ目の要因は深層学習による技術革新であり,既存の混合正規分布に基づく音響モデルや-gramに基づく言語モデルはニューラルネットワークに置き換えられ,音声認識性能はこれにより大きく改善された.二つ目の要因は計算機資源・音声データの増加及びKaldiやTensorflowなどのオープンソースソフトウェアの普及である.特に計算機資源・音声データの増加は深層学習技術の性能を十分に活用するために欠かせないものであり,また音声認識や汎用深層学習ツールキットにより,多くの大学・研究機関が音声認識技術を自前で構築できるようになった.三つ目の要因はGoogle Voice SearchやApple Siri, Amazon Alexaに代表される音声認識技術を用いたサービスの普及である.これらの研究機関は近年学会発表等を通じた技術公開にも積極的であり,多くの実用的技術が共有されつつある.
本稿ではまず,上記の発展により確立された最先端音声認識技術についての概説を行い,その後音声認識技術が現在抱えている課題について詳細を述べる.
図1に現在の音声認識システムの全体像を提示し,各処理について概説する.音声認識は,大きくは音声波形を単語列に変換する変換システムである.最初の変換は音声分析部と呼ばれ一次元系列の音声波形から,対数メルフィルタバンクと呼ばれる数十次元の音声特徴量ベクトルを各フレーム(10ms)ごとに抽出する.音声特徴量ベクトル系列をとしたとき,最ももっともらしい単語列は以下のような事後確率最大化基準により求めることができる.
(1)
これにより推定された単語列が認識結果となる.このように音声分析以降の音声認識処理は確率・統計的な枠組みに基づいており,音声認識の問題は大量のデータから機械学習手法により精密な事後確率分布関数のパラメータを推定する問題に帰着する.
続きを読みたい方は、以下のリンクより電子情報通信学会の学会誌の購読もしくは学会に入会登録することで読めるようになります。 また、会員になると豊富な豪華特典が付いてきます。
電子情報通信学会 - IEICE会誌はモバイルでお読みいただけます。
電子情報通信学会 - IEICE会誌アプリをダウンロード