音声生成AI「VALL-E」をマイクロソフトが発表、3秒間のサンプルから自由に声や抑揚を再現できる革新的技術に
イラスト生成AI「DALL-E」の音声版ともいうべきプラットフォームをMicrosoftが開発しました。
わずかな音声から抑揚などまで再現できる驚きの技術で、読み上げコンテンツなど幅広い活用が見込めそうですが、使い方には注意が必要そうです。詳細は以下から。
Advertisement
GitHubのVALL-E開発ページによると、Microsoftは音声生成AIの「VALL-E」を発表したそうです。
これは3秒間の音声サンプルを与えるだけで、その人の声を忠実にシミュレートしてテキストの読み上げができるというもので、「怒り」や「眠たげ」「楽しげ」といった感情も再現できるとのこと。
また開発ページではAIが生成した音声が公開されており、「Speaker Prompt」で3秒間の音声サンプル、「Ground Truth」で話者本人、そしてVALL-Eとの聞き比べができるようになっています。
現在の音声合成システムは、音の波形を操作する大規模な機材が必要です。しかしVALL-Eは人の声を分析して個別の要素に分解し、「他のフレーズを話した場合にはどう聞こえるか」を学習したデータの中から一致させることで音声を再現しているそう。
VALL-Eには7000人以上が話した6万時間分の英語の音声データが収録されており、現在の合成音声よりも高度なアプリケーションや読み上げコンテンツなどに利用できるとのこと。
もちろん、このような技術は音声識別の偽装や特定の人物へのなりすましなどなどに利用される場合があり、Microsoftもサイトに「倫理憲章」を掲げ、現実に使う場合は利用者同士での契約などが必要だとしています。
・関連記事
【無料】Photoshop対抗の「Designer」マイクロソフトが発表、絵心なしでもテキストから生成できるデザインソフトに | Buzzap!
お絵かきソフト「クリスタ」が画像生成AI『Stable Diffusion』搭載を中止、ユーザーからの批判の声受け | Buzzap!
Stable Diffusion活用でLINEに文章を送るとAIがイラストを描いてくれる 「お絵描きばりぐっどくん」で遊んでみた | Buzzap!
この記事をSNSでシェア
ソフトウェア の最新記事
- Windows「メモ帳」にAI搭載へ、ChatGPTのように文章を自動で書き換えてくれる便利機能か
01月10日 20:00 - Windows10、11で「Edge」「Bing」「フォト」などプリインストールソフトを削除できるように
11月17日 15:30 - 低価格ノート「Chromebook」OSアップデート10年間に延長、Googleがサポート強化で競合を駆逐へ
09月15日 12:30 - AIが「ペイント」などWindows標準アプリに搭載、絵心無しでもテキストから画像生成できるように
08月28日 16:00 - 「Windows 11」が古いパソコン排除、ついにインストールできないように
08月07日 12:00