OpenAI推「PaperBench」測試證最強AI Agent未超越人類

2025-04-02 19:29:00

OpenAI於昨日（2日）宣布推出全新基準測試「PaperBench」，旨在評估AI Agent複製頂尖AI研究的能力，結果顯示即使最先進模型仍未超越人類基準線。

PaperBench要求AI Agent從零開始複製20篇於ICML 2024會議上發表的Spotlight和Oral論文，包括理解論文核心貢獻、獨立開發代碼庫及成功執行相關實驗。為確保評估公正客觀，研究團隊設計了層級化評分標準，將每項複製任務分解為8,316個可獨立評分的子任務。

OpenAI表示，所有評分標準均與原論文作者共同制定，以確保評估的準確性和實用性。團隊同時開發了基於大型語言模型的評判系統，能夠自動對AI Agent的複製嘗試進行評分。

測試結果顯示，目前表現最佳的AI Agent，由Anthropic開發的Claude 3.5 Sonnet（新版本），平均複製分數僅達21%。研究團隊亦邀請頂尖機器學習博士生完成相同測試，結果表明AI模型尚未能超越人類專家在研究複製方面的能力。目前OpenAI已開源相關代碼，以促進業界對AI Agent工程能力的進一步研究。

OpenAI推「PaperBench」測試證最強AI Agent未超越人類

最新⽂章

即時財經

解放關稅｜中國要求美國立即取消最新關稅威脅反制

解放關稅｜簡單計算方法曝光以貿易逆差為基礎

解放關稅｜圖解全球關稅變動：各國進口稅率一表看清

惠譽下調中國主權評級至「A」財政部批有失偏頗：不予認可

美股崩盤式下滑道指早段瀉1500點憂環球供應斷鏈蘋果插9% Nike瀉13%

三一重工擬在港H股上市最多發行15%股份用於全球化業務

英皇珠寶夥拍周大福前猛將陳世昌合組內地公司擴展零售版圖

FDT否認孫宇晨所有指控斥魯莽和毫無根據擬採取法律行動

內地貿易商面對新關稅嘆只能加價轉嫁消費者「再降價大不了不做美國」

李嘉誠基金會與淡馬錫投入近7000萬推進組織碎化癌症療法臨床試驗

OpenAI推「PaperBench」測試 證最強AI Agent未超越人類

最新⽂章

即時財經

OpenAI推「PaperBench」測試證最強AI Agent未超越人類