
據彭博報道,DeepSeek正與清華大學合作,致力於減少AI模型所需的訓練量,以降低營運成本。同時,DeepSeek將新模型命名為DeepSeek-GRM,並計劃以開源方式發布。
報道指出,DeepSeek與清華的研究人員合作發表論文,詳述了一種新穎的強化學習方法,旨在提高模型效率。據研究人員介紹,這種新方法通過獎勵更準確和易於理解的回應,幫助AI模型更好地符合人類偏好。
這種強化學習在特定應用領域,已被證明能加速AI任務,但將其擴展到更廣泛的應用仍然具有挑戰性,DeepSeek團隊正嘗試通過稱為「self-principled critique tuning」的方法解決該問題。根據論文,該方法在各項基準測試中都優於現有方法和模型,並且能以更少的計算資源實現更好的性能。
另一方面,其他AI開發商包括阿里巴巴(9988)和OpenAI亦在推進新領域,以改善AI模型在實時執行任務時的推理和自我完善能力。