KDDIが「高効率声質再現音声合成技術」開発、自分そっくりの声を少ないデータで再現可能に

ポスト ツイート シェア はてブ LINEで送る コメント

仕事からプライベートまで、お手軽に自分の声を使ってメールやSNSでやりとりできるようになりそうです。詳細は以下から。

KDDI総合研究所の報道発表によると、わずか3分程度の少量の音声データから、その人の声質に似た音声を合成できる「高効率声質再現音声合成技術」が開発されたそうです。

この技術で音声収録にかかる時間を大幅に軽減できることになり、簡単に自分そっくりの声でメールを読み上げたり、チャットなどができるようになるとのこと。

背景には、AIアシスタントやスマートスピーカー、対話可能なロボットなどによる、音声を使ったやりとりに注目が集まっていることがあります。

KDDI総研は基となる音声合成方式に、深層ニューラルネットワークを用いた新たなDNN-HSMM音声合成方式を組み合わせ、品質低下を抑えながら特徴を表すパラメーター数を削減。

さらに独自技術を組み合わせることで、短い時間の音声から効率よく声質を再現できるようになりました。

この手法で作った合成音声と元の自然音声を比べる試験を行ったところ、過半数が94%の音声で似た声質の音声になっていると判定しています。

今後はより短時間での音声合成や、どこでも手軽に録音できる技術、また悪用を防ぐための機能などを開発していくとのこと。

SNSやメッセンジャーなどで、自分や好みのキャラクターの声でそのままチャットができる日も遠くなさそう。またBuzzap!では以前AIチャットボットと友達や恋人になれるサービスについても報じましたが、AIに好みの声で喋ってもらえるといったサービスなども出てきそうです。