電子情報通信学会 - IEICE会誌 試し読みサイト
© Copyright IEICE. All rights reserved.
|
解説
JEITA話し方種別ガイドライン
――感情や意図を表現する音声合成――
The Guidelines for Text-to-speech Speaking Style Classification
A bstract
人間と機械が音声を通じてコミュニケーションできるロボットやAIの普及により,音声合成技術には,感情や意図も表現できる多彩な対話調の話し方が求められてきている.一般社団法人電子情報技術産業協会(JEITA)音声入出力方式標準化専門委員会では,技術的な難易度を踏まえながら,合成音声の話し方に対する,一般の利用者からの要件を明確に定義しやすくすることを目的として,「話し方種別のガイドライン」を策定した.これにより非専門家(利用側)と専門家(提供側)が協同して要件を検討できるツールとして活用できる.
キーワード:音声合成,話し方,感情,ガイドライン
音声合成(Text-to-speech.以下TTS)技術の進展が目覚ましい.かつて“ロボットボイス”と揶揄された音声合成技術も,聞き取りやすさに困難を感じることが少なくなり,声色の個人性も再現できるようになってきている.その結果,音声合成技術に求められる要件は,単に聞き取ることができればよいという「読み上げ調」では不十分となっている.すなわち,人間同士の日常会話で見られるような,感情や意図を表現できる,多彩な「対話調」の話し方を実現することが急務となっている.
感情や意図を表現できる対話調の話し方は,誰もが日常的になじみのある対象であるために,技術的に実現することも難しくないと思えてしまうかもしれない.しかしながら,音声合成技術を開発する各企業は,多彩な対話調の音声合成の実現に困難を感じてきた.
開発を難しくしてきたと考えられる理由の一つが,そもそも「感情や意図を表現する“話し方”」とはどんなものであるか?が自明でなかったことにある.例えば,感情とはどう分類されて,何種類あるのかという問い(1)~(3)に対してもいまだ明確な記述や定義は合意されていない.また現在,W3CによるSSML(Speech Synthesis Markup Language(4))を用いて,音声合成の読み上げテキストをマークアップすることが可能だが,話し方について制御できるのは,音量,ピッチ,速度などの物理レベルの制御にとどまり,話し方を直感的に指定できるものではない.
このような現状の中で,TTS利用者は感情研究を専門としているわけでもなく,日常生活の中でなじみのある“喜怒哀楽”のような大まかな把握にとどまりがちである.そのため,具体的にどんな感情の音声合成が欲しいのか,何種類あれば足りるのか,など必要な音声の特徴を改めてTTS開発者に“技術的な要件”として伝えることが難しかった.一方で,技術の提供側(開発者)にとっても,感情や意図を表現する対話調の話し方は対象として余りに広大で,利用者に対して技術の全体像や難易度を示すことができずにきた.
続きを読みたい方は、以下のリンクより電子情報通信学会の学会誌の購読もしくは学会に入会登録することで読めるようになります。 また、会員になると豊富な豪華特典が付いてきます。
電子情報通信学会 - IEICE会誌はモバイルでお読みいただけます。
電子情報通信学会 - IEICE会誌アプリをダウンロード