晶片製造商輝達(Nvidia)表示,其全新人工智能(AI)音樂編輯工具「Fugatto」可以利用從未接受訓練的文字和音訊輸入,來產生「聞所未聞的聲音、音樂和語音」,此舉可讓它能夠根據各種奇特的提示來「創作」歌曲,例如「創造薩克斯風的嚎叫,再加上狗叫的電子音樂」等。
輝達官方網誌介紹,Fugatto是「基礎生成音頻變壓器作品1」的英文縮寫,並分享其創建的音訊部份例子,可以依照文字輸入來生成獨一無二的聲音效果,例如「深沉又隆隆的低音脈衝又間歇性、高音調的數碼鳴叫聲,就像一台巨大有感知能力的機器醒來的聲音」。
Fugatto甚至可以改變某人的聲線、改變口音或給他們不同的語氣,例如憤怒或平靜。還有方法修改音樂,分離歌曲中的人聲或添加樂器,甚至透過將鋼琴換成歌劇歌手來改變旋律。輝達公佈的這些視頻都標註為「AI加工」。
科技新聞網站The Verge 報道,跟隨輝達公告一起公布的論文,披露Fugatto所接受訓練的資料集長清單,其中一份來自英國廣播公司(BBC)的音效庫。
The Verge指出,市面上目前已有多款AI音訊工具,包括來自Stability AI、OpenAI、谷歌屬下的DeepMind、ElevenLabs和Adobe,但沒有一家公司聲稱可以完全創新全新且聞所未聞的聲音。有些AI新創公司還因它們的音樂製作工具而面對版權官司,且最近有報道指,輝達和其他公司利用數千部YouTube影片來訓練AI模型。
輝達表示,為了建構Fugatto, 研究人員必須將包括數百萬個音訊樣本的資料集放在一起,然後創建指令「大幅擴大這個模型可以執行的任務範圍」,同時實現更準確的性能和毋須額外數據便能開啟新任務。
至於新工具的推出日期或會否向外推出,輝達則沒有交代。▍本報訊 ▍