谷歌AI模型 助力海豚語言研究

左圖:一隻斑點母海豚媽媽在覓食時觀察其幼崽,當小海豚吃完奶後,會用獨特的口哨聲呼喚其回來。右圖:顯示海豚口哨聲的聲譜圖。谷歌

Pixel 9手機是CHAT水下計算機的主要硬件。谷歌/喬治亞理工學院

科學家追蹤研究大西洋斑點海豚。Wild Dolphin Project

谷歌發布網誌說,佛州非牟利科研組織「野生海豚計劃」(Wild Dolphin Project)自1985年以來一直在研究海豚,採用非侵入性方法追蹤特定族群的大西洋斑點海豚,一個主要目標是分析海豚如何發聲,以及發聲方式如何影響其社交互動。經過數十年的水下錄音,研究人員已經成功將一些基本活動與特定的聲音聯繫起來,創建了一個龐大且標記細緻的資料集。

谷歌表示,該資料集非常適合使用生成式AI進行分析,為此推出DolphinGemma海豚溝通AI模型,是基於谷歌的Gemma開源AI模型所打造,採用谷歌開發的SoundStream音訊技術,將海豚的發聲轉換為可用的音訊符號(token),在錄製時將之輸入模型。

在輸入一段海豚的發聲後,DolphinGemma會執行與以人類語言為基礎的語言模型相同的操作,即預測下一個音訊符號。如果這套系統的運作方式類似於標準的大型語言模型(LLM),那麼所生成的音訊符號可能就是海豚能理解的聲音。

除了分析自然交流之外,WDP還在探索利用海洋技術進行潛在的雙向互動,與喬治亞理工學院合作開發縮寫為「CHAT」的「鯨豚聽力增強遙測」水下計算機,並非直接破解海豚複雜的自然語言,而是建立一套更簡單的共享詞彙。谷歌旗下智能手機品牌Pixel成為CHAT的主要工具,Pixel 6可即時處理海豚聲音的高保真分析,Pixel 9則集成揚聲器/麥克風功能,並利用手機的先進處理功能,同時運行深度學習模型和模板匹配演算法。

如同人類語言Gemma模型,DolphinGemma是一個開放大眾取用的計劃,谷歌預計在今夏發布該模型,提供全球研究人員使用。

科技-三藩市版