特集 深層学習は情報・システムの研究をどう変えたか
第4部 融合分野
11.【音声合成】深層学習によるテキスト音声合成の飛躍的発展
Drastic Progress of Text-to-speech Synthesis via Deep Learning
p.413
全 炳河
コンピュータの「声」は,ディープラーニングで驚くほど自然に!
テキスト音声合成では,音声波形を自動で切り貼りして所望するテキストに対応する音声を合成する,波形接続型音声合成が主流であった.一方,条件付生成モデルを用いてテキストと音声の関係を学習し,これから任意のテキストから音声を合成する生成モデル型音声合成は,声色を少量の音声で変換できる等の利点があるが,合成音の自然性に課題があった.過去約10年間に深層学習が生成モデル型に導入され,性能が飛躍的に向上した結果,高い自然性を保ちつつ柔軟に話者性や韻律を制御できるようになった.本稿では,深層生成モデルの導入がテキスト音声合成に与えた影響について考察する.