Vol.105 No.5 (2022/5)　目次へ

		第3部　音声・自然言語処理分野
		【音声認識】
		深層学習が支える音声認識技術
		Automatic Speech Recognition Technologies Boosted by Deep Learning
		渡部晋治　久保陽太郎

渡部晋治　正員　カーネギーメロン大学言語技術研究所

E-mail　shinjiw@ieee.org

久保陽太郎　グーグルジャパン合同会社リサーチ部門

E-mail　yotaro@google.com

Shinji WATANABE, Member (Language Technologies Institute, Carnegie Mellon University, Pittsburgh, 15213-3891 U.S.A.) and Yotaro KUBO, Nonmember (Research PA, Google Japan, Tokyo, 150-0002 Japan).

電子情報通信学会誌　Vol.105 No.5 pp.392-396 2022年5月

©電子情報通信学会2022

abstract

　近年，音声認識技術は精度や応用範囲の面で目覚ましい発展を遂げた．この発展の大部分は深層学習技術の発展によって支えられている．深層学習の音声認識における役割は，従来型の音響・言語それぞれのモデル性能の向上のみならず，系列変換技術を用いたエンドツーエンド深層学習による，新しい音声認識手法の展開など多岐にわたる．本稿では，上記の従来型，及びエンドツーエンド深層学習の音声認識への応用について紹介し，それらの現在の技術課題について解説を行う．

キーワード：音声認識，深層学習，ハイブリッド音声認識，エンドツーエンド音声認識

1．導　　　　　入

　音声認識研究における深層学習の導入は他分野に比べて比較的早期に実現された．例えば，2000年後半には既に，トロント大学のHinton研究室やマイクロソフトによって，その効果が実証されている．その後GoogleやIBMなどの音声認識の主要研究機関が更なる検証を行い深層学習による音声認識の効果と実用性が確立された⁽¹⁾．音声認識分野における深層学習はその後も研究・実用の両面で急速に発展していく．これらは，同分野において古くから共通のベンチマークを使った技術評価が確立されていたという土壌に加えて，大量データ及び大量の計算機資源を利用した学習が既に必要不可欠であった点も大きいと言える．その後も深層学習アルゴリズム，特に最適化のノウハウが論文やオープンソースなど⁽²⁾を通じて共有化されたのも，その急速な発展の要因と言える．

　深層学習は音声認識の個々のモジュールに適用され，その性能を着実に改善していき，ついに幾つかのベンチマークでは，人間の音声認識性能を上回り始めた．また，この性能改善は音声認識製品のユーザエクスペリエンスの向上につながり，Amazon AlexaやGoogle Homeなどの多くのインタフェースで音声認識が使われるようになった．また，従来のモジュールベースの音声認識の枠を超えた，新しい音声認識の枠組みであるエンドツーエンド（E2E）音声認識が，活発に研究され，実用システムとしても用いられ始めている．

　本稿はこのような深層学習に基づく音声認識システムについての概要を紹介し，その基本アルゴリズムの説明，E2E音声認識への発展，応用，現在の研究課題についてを説明する．

2．深層学習に基づく音声認識

2.1　ハイブリッド音声認識技術

続きを読みたい方は、以下のリンクより電子情報通信学会の学会誌の購読もしくは学会に入会登録することで読めるようになります。また、会員になると豊富な豪華特典が付いてきます。

続きを読む(PDF)　　　バックナンバーを購入する　　　　入会登録

電子情報通信学会 - IEICE会誌はモバイルでお読みいただけます。

電子情報通信学会誌会誌アプリのお知らせ

電子情報通信学会 - IEICE会誌アプリをダウンロード

特集 7. 【音声認識】深層学習が支える音声認識技術

1．導 入

2．深層学習に基づく音声認識

2.1 ハイブリッド音声認識技術

1．導　　　　　入

2.1　ハイブリッド音声認識技術