音声生成AI「VALL-E」をマイクロソフトが発表、3秒間のサンプルから自由に声や抑揚を再現できる革新的技術に

ポスト ツイート シェア はてブ LINEで送る コメント

イラスト生成AI「DALL-E」の音声版ともいうべきプラットフォームをMicrosoftが開発しました。

わずかな音声から抑揚などまで再現できる驚きの技術で、読み上げコンテンツなど幅広い活用が見込めそうですが、使い方には注意が必要そうです。詳細は以下から。

GitHubのVALL-E開発ページによると、Microsoftは音声生成AIの「VALL-E」を発表したそうです。

これは3秒間の音声サンプルを与えるだけで、その人の声を忠実にシミュレートしてテキストの読み上げができるというもので、「怒り」や「眠たげ」「楽しげ」といった感情も再現できるとのこと。

また開発ページではAIが生成した音声が公開されており、「Speaker Prompt」で3秒間の音声サンプル、「Ground Truth」で話者本人、そしてVALL-Eとの聞き比べができるようになっています。

現在の音声合成システムは、音の波形を操作する大規模な機材が必要です。しかしVALL-Eは人の声を分析して個別の要素に分解し、「他のフレーズを話した場合にはどう聞こえるか」を学習したデータの中から一致させることで音声を再現しているそう。

VALL-Eには7000人以上が話した6万時間分の英語の音声データが収録されており、現在の合成音声よりも高度なアプリケーションや読み上げコンテンツなどに利用できるとのこと。

もちろん、このような技術は音声識別の偽装や特定の人物へのなりすましなどなどに利用される場合があり、Microsoftもサイトに「倫理憲章」を掲げ、現実に使う場合は利用者同士での契約などが必要だとしています。