


谷歌發布網誌說,佛州非牟利科研組織「野生海豚計劃」(Wild Dolphin Project)自1985年以來一直在研究海豚,採用非侵入性方法追蹤特定族群的大西洋斑點海豚,一個主要目標是分析海豚如何發聲,以及發聲方式如何影響其社交互動。經過數十年的水下錄音,研究人員已經成功將一些基本活動與特定的聲音聯繫起來,創建了一個龐大且標記細緻的資料集。
谷歌表示,該資料集非常適合使用生成式AI進行分析,為此推出DolphinGemma海豚溝通AI模型,是基於谷歌的Gemma開源AI模型所打造,採用谷歌開發的SoundStream音訊技術,將海豚的發聲轉換為可用的音訊符號(token),在錄製時將之輸入模型。
在輸入一段海豚的發聲後,DolphinGemma會執行與以人類語言為基礎的語言模型相同的操作,即預測下一個音訊符號。如果這套系統的運作方式類似於標準的大型語言模型(LLM),那麼所生成的音訊符號可能就是海豚能理解的聲音。
除了分析自然交流之外,WDP還在探索利用海洋技術進行潛在的雙向互動,與喬治亞理工學院合作開發縮寫為「CHAT」的「鯨豚聽力增強遙測」水下計算機,並非直接破解海豚複雜的自然語言,而是建立一套更簡單的共享詞彙。谷歌旗下智能手機品牌Pixel成為CHAT的主要工具,Pixel 6可即時處理海豚聲音的高保真分析,Pixel 9則集成揚聲器/麥克風功能,並利用手機的先進處理功能,同時運行深度學習模型和模板匹配演算法。
如同人類語言Gemma模型,DolphinGemma是一個開放大眾取用的計劃,谷歌預計在今夏發布該模型,提供全球研究人員使用。