AI語音生成器Octave 完全掌握真人聲線語氣

Hume推出最新文字轉語音AI模型Octave。Hume

Hume正式推出具有語境感知能力的文字轉語音大型語言模型Octave。

據該公司介紹,這款大型語言模型可以依據文本的語義來調整語調、節奏和音色。例如,當閱讀某個句子時,人工智能(AI)語音可以表達一種厭惡感。

科技網站ZNET報道指出,除了理解文本的語境外,該模型還能接受指令。使用者可以命令它表達「冷靜」、「低語」、「厭惡」、「憤怒」等語調。Hume表示,相較於配音演員的優勢在於,Octave可以模仿任何語音,甚至根據用戶的描述來創造新的語音。

比方說,使用者可以下達諸如「聰明的巫師」的簡單提示,或是更複雜的指令,結合不同的口音、族群、職業角色等等。基本上,該模型會單獨根據腳本創造出一個語音,但在有提示的情況下,也會配合腳本和描述的引導。使用者介面設計簡單易用,提供兩個文本框:一個是「語音」(Voice),你在其中準確描述希望語音聽起來的樣子;另一個是「腳本」(Script),讓你輸入希望模型說出的內容。點擊「生成」(Generate)後,Octave就會產生語音結果。

整體而言,該模型的優勢似乎在於其輸出體現了人類語音的細微差異。人工智能聲音的一個常見缺陷是單調性,使輸出的聲音聽起來相當枯燥無味。而在Octave中,你可以聽到各種情緒,無論是沮喪、失敗或疲倦。

該模型提供了不同的訂閱層級,包括一個免費層級,具有1萬個字符限制(大約10分鐘)的語音生成,以及不限字符數量的語音生成,讓使用者試用。除了免費訂閱層級外,還有六個額外付費層級,價格從每月3元到900元不等,具體取決於所需的用量。

例如,入門級訂閱層級每月3元,具有3萬個字符(約30分鐘)的語音生成,而商業層級每月900元,具有1000萬字符(約1萬分鐘)的語音生成。你可以在Hume網站上查看所有產品並開始使用。本報訊

科技-三藩市版