「話者」と「口調」の組み合わせイメージ

NTTアイティは、「話者」と「口調」を自由に組み合わせて合成音声を作成する音声合成サービス「FutureVoice Crayon(フューチャーボイス クレヨン)」の提供を開始する。

NTTメディアインテリジェンス研究所が開発した「ユーザデザイン音声合成」技術を採用。サービスや場面に応じた表現豊かな合成音声のバリエーションで新しい音声合成サービスを実現した。特定人物の音声から「話者」と「口調」の特徴を別々に抽出し、合成音声に反映することを業界で初めて実用化。さまざまな「話者」と「口調」を組み合わせて、バリエーション豊かな合成音声を実現する。リリース時点では、150人の「話者」と「口調」を用意。これらの組み合わせで2万パターン以上の合成音声が利用できる。

また、特定人物の「話者」と「口調」を「FutureVoice Crayon」に追加して、合成音声に反映することが可能。「話者」の特徴を簡易に抽出する技術を用いることで、従来技術と比較して大幅に低コスト、短期間で作成することができるようになった。「話者」の特徴を抽出すると同時に、「話し方」の特徴を抽出することで、一つのカスタムボイスを作成して「話者」と「口調」を提供する。

対話・ゲームなどのアプリケーション、製品紹介やe-Learningなどのコンテンツ、コミュニケーションロボット、キャラクター連動型デジタルサイネージなどのシーンで活用できる。ユーザーの設備にインストールして利用するオンプレミス製品の価格はオープンで、利用目的や導入規模によって応相談。クラウドサービスの税別価格は月額1万円~。カスタムボイスの税別価格は50万円~。オンプレミス製品は7月1日、クラウドサービスは7月27日に提供を開始する。

限られた声や感情表現のなかから選択して合成音声を作成する従来技術の音声合成製品は、昨今のスマートフォンのアプリケーションやロボット向けスマートフォンのアプリケーションやロボット向け音声利用などの多様なニーズに十分に応えることができなかったが、今回リリースする「FutureVoice Crayon」によって、あたかもクレヨンでさまざまな色彩やキャラクターを描き出すように個性豊かな声色の作成に対応する。

サービス開始に伴い、7月1~3日に東京ビッグサイトで開催する「第1回先端コンテンツ技術展」に出展する。