DeepMind新AI工具 可為影片配樂配音

Google屬下公司DeepMind披露了一項生成影片配樂的人工智能(AI)新工具。除了利用文字提示生成音訊外,DeepMind這項工具還會考慮到影片內容。

科技新聞網站The Verge報道,DeepMind表示,透過將文字提示和影片內容結合起來,用戶可以使用這工具創建具有「與影片的角色和語氣相配的戲劇配樂、逼真的音效或對話」的場景。大家想看新工具的效果,可以登上DeepMind官網瀏覽。

對於一部顯示汽車穿過電馭龐克風格場景的影片,谷歌利用多項提示,包括「cars skidding」(汽車打滑)、「car engine throttling」(引擎轟鳴)和「天使般的電子音樂」(angelic electronic music)來生成音訊,大家可以看到打滑的聲音與汽車的動作如何相配。另一個例子是使用「jellyfish pulsating under water」(水母在水下脈動)、「海洋生物」(marine life)和「ocean」(海洋)。

儘管用戶可以包括文字提示,但DeepMind稱這是可選的,用戶也不用很仔細將生成的音訊和適當場景來進行匹配。根據DeepMind的說法,這項工具又可以為影片生成無限數量的配樂,讓用戶可以創作無止境的音訊選項。

這有助DeepMind工具從其他AI工具脫穎而出,例如利用文字提示生成音訊的ElevenLabs音效產生器,它又讓用戶能更輕鬆利用其他AI工具如DeepMind的Veo又或者Sora所生成的影片與音訊配對。

DeepMind表示,它利用含有「聲音的詳細描述和口語對話的文字紀錄」的影片、音訊和註釋來訓練它的AI工具,此舉允許影片轉音訊產生器能夠把音訊事件與視覺場景配對。

但新工具仍有一些限制的,例如DeepMind正在努力提高嘴唇運動和對話同步的能力。DeepMind也提到,其影片轉音訊系統的好壞取決於影片品質,所以任何顆粒狀或扭曲的東西都可能導致音訊品質明顯下降。

這項DeepMind新工具尚未正式推出,因為仍需進行「嚴格的安全評估和測試」。當正式推出時,它的音訊輸出將包括谷歌SynthID浮水印來標示這是AI生成內容。

本報訊

DeepMind新AI技術可生成影片配樂。Google DeepMind

科技-三藩市版