谷歌AI新模型Gemini 2.5 迄今最聰明

谷歌發布最新AI推理模型Gemini 2.5。谷歌

Gemini 2.5在推理、科學和數學基準測試取得佳績。谷歌

▍本報訊 ▍

谷歌進一步提升其人工智能(AI)推理技術,25日發布最新AI推理模型Gemini 2.5,它在回答問題前會暫停一下進行「思考」。

為了啟動這款新模型系列,谷歌推出多重模式(multimodal)推理AI模型Gemini 2.5 Pro Experimental,號稱是迄今最具智慧的模型。新模式25日起在谷歌開發人員平台Google AI Studio上推出,每月繳費20元的AI計劃Gemini Advanced用戶可透過Gemini應用程式使用。谷歌表示,所有新AI模型未來將具備推理能力。

從OpenAI 2024年9月推出首個AI推理模型以來,科技業就展開AI模型競賽,力求達到或超越OpenAI模型的能力。目前為止,Anthropic、谷歌、xAI和中國「深度求索」(DeepSeek)皆有AI推理模型,利用更多運算能力和時間對問題進行事實查核和推理才回答問題。

推理技術一直幫助AI模型在數學和編碼上達到新高度。不少科技界人員相信,推理模型將成為AI代理人的重要組成,能在幾乎毋須人類介入下執行任務,但成本卻越來越高昂。

谷歌一直試驗AI推理模型,去年12月推出Gemini的「思考」版本,Gemini 2.5代表其迄今為止超越OpenAI「o」系列模型的最認真嘗試。

谷歌聲稱,Gemini 2.5 Pro在某些基準上的表現超越它過去的AI前沿模型,以及一些領先的競爭同類模型。

谷歌特別提到,它設計的Gemini 2.5在建立具視覺吸引力的網頁應用程式和具代理能力的編碼應用程式上都表現出色。

谷歌表示,在衡量程式碼編輯的Aider Polyglot評估上,Gemini 2.5 Pro得分為68.6%,優於OpenAI、Anthropic和「深度求索」的AI模型。Gemini 2.5在衡量軟件開發能力的測試SWE-bench Verified的得分為63.8%,比OpenAI的o3-mini和「深度求索」R1較為出色,但遜於得分70.3%的Anthropic Claude 3.7 Sonnet。

至於數學、人文和自然科學上,谷歌稱Gemini 2.5 Pro得分為18.8%,優於大多數重要旗艦模型。

谷歌表示,Gemini 2.5 Pro配備100萬個詞元(token)上下文視窗,意味該模型單次可處理約75萬個字元,未來不久支援的詞元將增加一倍至200萬個。

谷歌尚未公布Gemini 2.5 Pro的應用程式開發介面(API)收費,未來數周內將透露更多資訊。

科技-三藩市版