音声生成AI「VALL-E」をマイクロソフトが発表、3秒間のサンプルから自由に声や抑揚を再現できる革新的技術に



イラスト生成AI「DALL-E」の音声版ともいうべきプラットフォームをMicrosoftが開発しました。

わずかな音声から抑揚などまで再現できる驚きの技術で、読み上げコンテンツなど幅広い活用が見込めそうですが、使い方には注意が必要そうです。詳細は以下から。

GitHubのVALL-E開発ページによると、Microsoftは音声生成AIの「VALL-E」を発表したそうです。

これは3秒間の音声サンプルを与えるだけで、その人の声を忠実にシミュレートしてテキストの読み上げができるというもので、「怒り」や「眠たげ」「楽しげ」といった感情も再現できるとのこと。

また開発ページではAIが生成した音声が公開されており、「Speaker Prompt」で3秒間の音声サンプル、「Ground Truth」で話者本人、そしてVALL-Eとの聞き比べができるようになっています。


現在の音声合成システムは、音の波形を操作する大規模な機材が必要です。しかしVALL-Eは人の声を分析して個別の要素に分解し、「他のフレーズを話した場合にはどう聞こえるか」を学習したデータの中から一致させることで音声を再現しているそう。


VALL-Eには7000人以上が話した6万時間分の英語の音声データが収録されており、現在の合成音声よりも高度なアプリケーションや読み上げコンテンツなどに利用できるとのこと。

もちろん、このような技術は音声識別の偽装や特定の人物へのなりすましなどなどに利用される場合があり、Microsoftもサイトに「倫理憲章」を掲げ、現実に使う場合は利用者同士での契約などが必要だとしています。

・関連記事
【無料】Photoshop対抗の「Designer」マイクロソフトが発表、絵心なしでもテキストから生成できるデザインソフトに | Buzzap!

お絵かきソフト「クリスタ」が画像生成AI『Stable Diffusion』搭載を中止、ユーザーからの批判の声受け | Buzzap!

Stable Diffusion活用でLINEに文章を送るとAIがイラストを描いてくれる 「お絵描きばりぐっどくん」で遊んでみた | Buzzap!

フォローして最新情報を手に入れよう

ソフトウェアに関連した楽天商品ランキング