特集 6. 【音響信号処理】音声強調は深層学習によりどう進化したのか?

電子情報通信学会 - IEICE会誌 試し読みサイト
Vol.105 No.5 (2022/5) 目次へ

前の記事へ次の記事へ


特集6. 第3部 音声・自然言語処理分野
【音響信号処理】
音声強調は深層学習によりどう進化したのか?
How Have Speech Enhancement Technologies Evolved with Deep Learning?
木下慶介 Marc DELCROIX

木下慶介 日本電信電話株式会社NTTコミュニケーション科学基礎研究所

E-mail keisuke.kinoshita@ieee.org

Marc DELCROIX 日本電信電話株式会社NTTコミュニケーション科学基礎研究所

Keisuke KINOSHITA and Marc DELCROIX, Nonmembers (NTT Communication Science Laboratories, NIPPON TELEGRAPH AND TELEPHONE CORPORATION, Kyoto-fu, 619-0237 Japan).

電子情報通信学会誌 Vol.105 No.5 pp.387-391 2022年5月

©電子情報通信学会2022

abstract

 実環境にて音声信号をマイク収録すると,観測信号には,雑音,残響,目的話者以外の声などの種々の音響ひずみが含まれてしまう.観測信号から,これら音響ひずみの影響を取り除く技術が音声強調である.深層学習,つまりディープニューラルネットワークは音声強調処理に様々な形で導入され,①飛躍的な性能改善,②マルチモーダル情報等の外部情報の効果的取り込みによる機能性拡張,③他の音声処理モジュールとの最適統合等,音声強調に対して様々な好影響を及ぼしてきた.本稿では,深層学習によりもたらされた音声強調の進展を概観し,深層学習により音声強調の何がどのように変わり,何が変わらなかったのかを紹介する.

キーワード:深層学習,音声強調

1.は じ め に

 実環境で収録した音声信号には,目的の音声信号以外にも種々の音響ひずみ(雑音,残響,目的話者以外の人の声)が混入する(図1).それらの音響ひずみは,収録音における目的音の聞き取りやすさを低下させ(1),また様々な音声音響処理(音声認識,話者認識,話者ダイアリゼーション等)の性能低下の要因になる(2).音声強調は,それらの音響ひずみを収録音から除去する技術である.音声強調は聞き取りやすさの向上や,様々な音声音響処理の性能向上に役に立つことが示されている(1),(2)

図1 収録音に含まれる音響ひずみ

 深層学習は,後述するように,時には従来型の音声強調の一部の機能を強化する形で取り入れられ,また時には音声強調の枠組み全てを塗り替える形で導入されてきた.結果として,深層学習は,音声強調の性能や機能性を大きく向上させ,また音声強調を他の音声音響処理と最適統合することをも可能としてきた.以下では,深層学習がどのように音源分離,残響除去,雑音除去等の音声強調に取り入れられ,それらの研究を変えてきたかを概観する.

2.音声強調の種別

2.1 抑圧する対象信号の違い


続きを読みたい方は、以下のリンクより電子情報通信学会の学会誌の購読もしくは学会に入会登録することで読めるようになります。 また、会員になると豊富な豪華特典が付いてきます。


続きを読む(PDF)   バックナンバーを購入する    入会登録

  

電子情報通信学会 - IEICE会誌はモバイルでお読みいただけます。

電子情報通信学会誌 会誌アプリのお知らせ

電子情報通信学会 - IEICE会誌アプリをダウンロード

  Google Play で手に入れよう

本サイトでは会誌記事の一部を試し読み用として提供しています。