在重新定義人工智能(AI)的最新舉措中,谷歌宣布推出Gemini 2.0 Flash Thinking多模態推理模型,聲稱能夠迅速且透明地解決複雜問題。
科技新聞網站VentureBeat報道,谷歌執行長皮蔡(Sundar Pichai)19日在社交平台X上發文,形容這是「我們迄今最周到的模型」。
谷歌在開發人員文件上解釋,「『思考模式』的反應推理能力比基本款Gemini 2.0 Flash模型還要強。Gemini 2.0 Flash是谷歌八天前才推出的最新模型。
新模型僅支援3萬2000個輸入詞元(token)(相當約50至60頁文字),以及每個反應可以產生8,000個詞元。在谷歌AI工作室的側邊面板中,該公司宣稱最適合「多模態理解、推理和編碼」。
這個模型的訓練過程、結構、授權和成本等詳細資料尚未公布。目前為止,在谷歌AI工作室中顯示每個詞元的成本為零。
有別於競爭對手OpenAI的推理模型o1和o1 mini,Gemini 2.0可讓用戶透過一個下拉式選單存取它的逐步推理過程,從而更清晰、更透明地了解模型如何得出結論。
透過容許用戶看到如何做出決定,Gemini 2.0回應了長期以來對AI「黑箱作業」的憂慮,並使這個模型(授權條款未明)在功能上達到與競爭對手推出的其他開放源模型相同的水平。
在另一次測試中,當把兩個小數(9.9和9.11)比較時,這個模型有系統地將問題拆解為更小的步驟,從分析整個數字到比較小數位。
這些結果獲得LM Arena的獨立第三方分析,並將Gemini 2.0 Flash Thinking評為所有大型語言模型(LLM)類別中表現最佳的模型。
相較於競爭對手OpenAI的o1系列,Gemini 2.0 Flash Thinking提供了進一步改善,能直接處理圖像。雖然o1初推出時僅支援文字,但隨後已擴大至圖像和檔案上傳分析。兩個模型目前也僅以文字回應。
根據開發人員文件,Gemini 2.0 Flash Thinking目前也沒有支援與谷歌搜尋、其他谷歌應用程式或第三方工具整合。Gemini 2.0 Flash Thinking的多模態擴大其潛在應用場景,使它能夠處理結合不同類型資料的情境。本報訊