Vol.105 No.5 (2022/5)　目次へ

		第4部　融合分野
		【画像・音声生成】
		画像生成における深層学習の展開と音声変換への応用
		Advancement and Application of Deep Generative Models in Image Synthesis and Voice Conversion
		金子卓弘

金子卓弘　正員　日本電信電話株式会社NTTコミュニケーション科学基礎研究所

E-mail　takuhiro.kaneko.tb@hco.ntt.co.jp

Takuhiro KANEKO, Member (NTT Communication Science Laboratories, NIPPON TELEGRAPH AND TELEPHONE CORPORATION, Atsugi-shi, 243-0198 Japan).

電子情報通信学会誌　Vol.105 No.5 pp.407-412 2022年5月

©電子情報通信学会2022

abstract

　画像や音声などのメディア情報は人と人，人と機械のコミュニケーションにおいて必要不可欠なものであるが，イメージどおりのものが簡単に得られないことがある．その解決手段として，近年，深層生成モデルを用いた生成・変換技術が注目を集めている．本稿では，まず，深層生成モデルのれい明期から主要な研究対象である画像生成を題材に，深層生成モデルの変遷について解説する．次に，深層生成モデルの特徴である幅広い応用可能性を示す一例として，音声変換への応用について紹介する．最後に，深層生成モデルの今後について展望する．

キーワード：画像生成，音声変換，深層学習，生成モデル，深層生成モデル

1．は　じ　め　に

　画像や音声などのメディア情報は人と人，人と機械のコミュニケーションにおいて欠かせないものである．しかし，物理的・能力的・心理的要因などにより，イメージどおりのものが簡単には得られないことがある．その一解決策としてコンピュータを用いて自動生成・変換を行うことが考えられるが，画像や音声などのメディア情報は超高次元のデータであるため，それらをリアリティを保ちながら生成・変換をすることは簡単なことではなく，長年大きな課題として残っていた．

　この課題に対して解決の糸口を与えつつある技術が，本稿のメイントピックである深層生成モデルである．百聞は一見にしかずということで，深層生成モデルを用いた画像生成例を図1に示す．こちらはCFGAN⁽¹⁾と呼ばれる技術を使った顔画像生成の例であるが，特筆すべき点は，①これらは全て低次元（128次元）のガウシアン分布からランダムにサンプリングした潜在変数から生成された顔画像であること，②髪型や表情のような複雑な顔特徴であってもスライドバーを使って直感的に操作することが可能であること，そして，③これらの機能を満たしながら，リアリティのある画像を生成できることである．一点目について補足すると，ランダムにサンプリングした潜在変数から画像を生成できるということは，潜在変数をリサンプリングするだけで，多種多様な顔画像を簡単に作り出せることを意味する．

図1　CFGANを用いた画像生成例　　これらは全てランダムにサンプリングした潜在変数から創り出された顔画像で，世の中には存在しないものである．特に，CFGANでは，髪型や表情のような複雑な顔特徴であってもスライドバーを使って直感的に操作することが可能である．

　このような機能を有する生成モデルの実現には，極めて高い表現能力を持った深層学習の利用は欠かせないものであり，逆に言えば，画像生成という分野は深層学習の登場によって，大きく変容した分野であると言える．

続きを読みたい方は、以下のリンクより電子情報通信学会の学会誌の購読もしくは学会に入会登録することで読めるようになります。また、会員になると豊富な豪華特典が付いてきます。

続きを読む(PDF)　　　バックナンバーを購入する　　　　入会登録

電子情報通信学会 - IEICE会誌はモバイルでお読みいただけます。

電子情報通信学会誌会誌アプリのお知らせ

電子情報通信学会 - IEICE会誌アプリをダウンロード

特集 10.【画像・音声生成】画像生成における深層学習の展開と音声変換への応用

1．は じ め に

1．は　じ　め　に