Hugging Face試圖從零複製DeepSeek

中國新創公司DeepSeek發布其R1「推理」人工智能(AI)模型引起市場騷動後不足一周,美國AI開發平台Hugging Face的研究人員就試圖從零複製該模型,稱此舉為對「開放知識」的追求。

據科技網站TechCrunch報道,Hugging Face研究主管馮維拉(Leandro von Werra)和幾名公司工程師已經啟動了Open-R1項目,旨在建立R1複製模型並開源其所有組件,包括用於訓練模型的數據。Hugging Face工程師們表示,DeepSeek採取「黑箱」發布哲學,這促使他們決定行動。從技術上來說,R1是「開放的」,因為該模型採用了寬鬆的許可證,允許幾乎無限制地部署。然而,按照普遍接受的定義,R1並非真正的「開源」,因為部分關鍵工具仍處於保密狀態。如同許多炙手可熱的人工智能公司,DeepSeek也不願透露其「獨門秘方」。

Hugging Face的Open-R1專案的工程師之一 巴庫什(Elie Bakouch)表示:「R1 模型令人印象深刻,但沒有開放的數據集、實驗細節或中間模型供人使用,這使得複製和進一步研究變得困難。」他續稱:「完全開源的R1完整架構,不僅與透明度有關,更是為了釋放其潛力。」

Open-R1專案的目標是在幾周之內複製R1模型,部分依賴Hugging Face的科學集群(Science Cluster),那是一台專門研究伺服器,配備了768個輝達(Nvidia)H100顯卡(GPU)。

Hugging Face工程師計劃利用科學集群,來生成與DeepSeek創建R1的類似數據集。為了建立訓練流程,團隊正在Hugging Face和GitHub上,向AI和更廣泛的科技社群尋求協助。馮維拉表示:「我們需要確保正確地實施這些演算法和方案法,但這正是社群合作的優勢,可以讓盡可能多的人關注這個問題。」本報訊

科技-三藩市版