柏大研發推理AI模型訓練成本低

2025-01-14 05:59:00

推理性人工智能模型開發費用越來越便宜。Adobe Stock

NovaSky團隊屬於柏克萊加大天空電腦實驗室。NovaSky

本報訊

推理性人工智能（AI）模型正變得越來越容易開發，而且成本更便宜。

柏克萊加州大學（UC Berkeley）天空電腦實驗室（Sky Computing Lab）的研究團隊NovaSky日前發布了Sky-T1-32B-Preview，這是一種推理模型，在多個關鍵基準測試中可媲美AI公司OpenAI o1的早期版本。Sky-T1 似乎是首個真正開源的推理模型，可以從零開始完全複製，該團隊並釋出了用於訓練的數據集以及必要的訓練程式碼。

NovaSky研究團隊的博客文章中稱：「值得注意的是，Sky-T1-32B-Preview的訓練成本不到450元，這表明了能以低成本且高效的方式複製高水平的推理能力。」

科技網站TechCrunch指出，450元可能聽起來不算太便宜，但在不久之前，訓練一個具備相似性能的模型，其成本往往高達數百萬元。合成訓練術據，即由其他模型產生的訓練數據，幫助大幅降低了成本。例如，AI公司Writer最近發布的模型Palmyra X 004，幾乎完全依賴合成數據進行訓練，據報道開發成本僅為70萬元。

與大多數 AI 不同，推理模型能有效地自行進行事實檢查，使其避免陷入一些通常會使模型出錯的陷阱。比起典型的非推理模型，推理模型需要更長的時間才能得出解決方案，通常需要幾秒鐘到幾分鐘，但其好處是在物理、科學和數學等領域往往更為可靠。

NovaSky團隊稱，使用另一個推理模型即阿里巴巴QwQ-32B-Preview來產生Sky-T1的初始訓練數據，然後對數據進行「精心篩選」，並利用OpenAI的GPT-4o-mini將數據重構為更易處理的格式。訓練擁有320億參數的Sky-T1模型，使用一個機架的8台輝達H100 GPU，耗時約19個小時。

該團隊號稱，Sky-T1在一組「競賽等級」的數學挑戰MATH500上的表現，優於o1的早期預覽版本。然而，Sky-T1在該測試含有與物理、生物和化學相關的問題的GPQA-Diamond測試中，未達到o1預覽版本的水平，這些問題是博士畢業生應該掌握的知識範疇。

同樣值得注意的是，OpenAI的o1 GA版本比o1的預覽版更強大，並且OpenAI預計將在未來幾周內發布性能更佳的推理模型o3。但NovaSky團隊表示，Sky-T1僅標誌著他們開發具有高級推理能力的開源模型之旅的開端。

柏大研發推理AI模型訓練成本低

最新⽂章

科技-三藩市版

Meta宣布新一輪裁員，削減5%員工以提升績效標準

Adobe Firefly新工具 AI一次修圖一萬張

Ugreen充電器功率強大共500W

蘋果傳將推出超薄iPhone

CES不少新玩意被批最爛產品

香港創新企業亮相CES獲殊榮

三星新品發布會 1月22日矽谷舉行

聊天機器人Grok 推出iOS版程式

農業依賴新科技協助永續發展

多款新款電視面板質量更佳實現真正無線

柏大研發推理AI模型 訓練成本低

最新⽂章

科技-三藩市版

柏大研發推理AI模型訓練成本低