電子情報通信学会 - IEICE会誌 試し読みサイト
© Copyright IEICE. All rights reserved.
|
近年,音声認識技術は精度や応用範囲の面で目覚ましい発展を遂げた.この発展の大部分は深層学習技術の発展によって支えられている.深層学習の音声認識における役割は,従来型の音響・言語それぞれのモデル性能の向上のみならず,系列変換技術を用いたエンドツーエンド深層学習による,新しい音声認識手法の展開など多岐にわたる.本稿では,上記の従来型,及びエンドツーエンド深層学習の音声認識への応用について紹介し,それらの現在の技術課題について解説を行う.
キーワード:音声認識,深層学習,ハイブリッド音声認識,エンドツーエンド音声認識
音声認識研究における深層学習の導入は他分野に比べて比較的早期に実現された.例えば,2000年後半には既に,トロント大学のHinton研究室やマイクロソフトによって,その効果が実証されている.その後GoogleやIBMなどの音声認識の主要研究機関が更なる検証を行い深層学習による音声認識の効果と実用性が確立された(1).音声認識分野における深層学習はその後も研究・実用の両面で急速に発展していく.これらは,同分野において古くから共通のベンチマークを使った技術評価が確立されていたという土壌に加えて,大量データ及び大量の計算機資源を利用した学習が既に必要不可欠であった点も大きいと言える.その後も深層学習アルゴリズム,特に最適化のノウハウが論文やオープンソースなど(2)を通じて共有化されたのも,その急速な発展の要因と言える.
深層学習は音声認識の個々のモジュールに適用され,その性能を着実に改善していき,ついに幾つかのベンチマークでは,人間の音声認識性能を上回り始めた.また,この性能改善は音声認識製品のユーザエクスペリエンスの向上につながり,Amazon AlexaやGoogle Homeなどの多くのインタフェースで音声認識が使われるようになった.また,従来のモジュールベースの音声認識の枠を超えた,新しい音声認識の枠組みであるエンドツーエンド(E2E)音声認識が,活発に研究され,実用システムとしても用いられ始めている.
本稿はこのような深層学習に基づく音声認識システムについての概要を紹介し,その基本アルゴリズムの説明,E2E音声認識への発展,応用,現在の研究課題についてを説明する.
続きを読みたい方は、以下のリンクより電子情報通信学会の学会誌の購読もしくは学会に入会登録することで読めるようになります。 また、会員になると豊富な豪華特典が付いてきます。
電子情報通信学会 - IEICE会誌はモバイルでお読みいただけます。
電子情報通信学会 - IEICE会誌アプリをダウンロード