Vol.105 No.5 (2022/5)　目次へ

		第4部　融合分野
		【音声合成】
		深層学習によるテキスト音声合成の飛躍的発展
		Drastic Progress of Text-to-speech Synthesis via Deep Learning
		全　炳河

全　炳河　グーグルジャパン合同会社リサーチ部門

E-mail　heigazen@google.com

Heiga ZEN, Nonmember (Research PA, Google Japan, Tokyo, 150-0002 Japan).

電子情報通信学会誌　Vol.105 No.5 pp.413-417 2022年5月

©電子情報通信学会2022

abstract

　テキスト音声合成では，音声波形を自動で切り貼りして所望するテキストに対応する音声を合成する，波形接続型音声合成が主流であった．一方，条件付生成モデルを用いてテキストと音声の関係を学習し，これから任意のテキストから音声を合成する生成モデル型音声合成は，声色を少量の音声で変換できる等の利点があるが，合成音の自然性に課題があった．過去約10年間に深層学習が生成モデル型に導入され，性能が飛躍的に向上した結果，高い自然性を保ちつつ柔軟に話者性や韻律を制御できるようになった．本稿では，深層生成モデルの導入がテキスト音声合成に与えた影響について考察する．

キーワード：テキスト音声合成，生成モデル型音声合成，深層生成モデル

1．は　じ　め　に

　テキスト音声合成（TTS: Text-to-Speech）とは，任意に与えられたテキストに対応する音声を合成する技術であり，音声対話システム等様々な応用がある．古くは18世紀後半から音声を合成する機械を作る試みがなされており⁽¹⁾^～⁽³⁾，20世紀後半には計算機上で音声を合成する試みが始められた．調音機構（人間の音声を合成する仕組み）を計算機で模倣する調音音声合成⁽⁴⁾，専門家が音声生成に関する知識を集め定めた多数の規則に基づいて音声を合成する規則音声合成⁽⁵⁾を経て，1990年代には大規模な音声データと計算機資源に基づくコーパスベース音声合成⁽⁶⁾が開発された．

　コーパスベース音声合成には大きく分類して二つの方式がある．一つは録音された音声波形を細かく分割した素片を連結することで，所望するテキストに対応する音声を合成する波形接続型音声合成⁽⁷⁾である．もう一方は，音声とテキストの関係を条件付き生成モデルを用いて学習し，これを用いてテキストに対応する音声を合成する生成モデル型音声合成（GTTS: Generative TTS）⁽⁸⁾である．図1にTTS方式の分類を示す．波形接続型は高品質な合成音声を得られるが，様々な音声を合成するには大規模な音声コーパスを準備する必要がある⁽⁹⁾．GTTSは自動学習可能・省メモリ・様々な音声を小規模音声コーパスから実現可能だが，合成音の自然性に課題があった⁽¹⁰⁾．GTTSの研究は活発に行われてきたが，製品に関しては2010年代中旬まで波形接続型が主流であった．

続きを読みたい方は、以下のリンクより電子情報通信学会の学会誌の購読もしくは学会に入会登録することで読めるようになります。また、会員になると豊富な豪華特典が付いてきます。

続きを読む(PDF)　　　バックナンバーを購入する　　　　入会登録

電子情報通信学会 - IEICE会誌はモバイルでお読みいただけます。

電子情報通信学会誌会誌アプリのお知らせ

電子情報通信学会 - IEICE会誌アプリをダウンロード

特集 11.【音声合成】深層学習によるテキスト音声合成の飛躍的発展

1．は じ め に

1．は　じ　め　に