
OpenAI於昨日(2日)宣布推出全新基準測試「PaperBench」,旨在評估AI Agent複製頂尖AI研究的能力,結果顯示即使最先進模型仍未超越人類基準線。
PaperBench要求AI Agent從零開始複製20篇於ICML 2024會議上發表的Spotlight和Oral論文,包括理解論文核心貢獻、獨立開發代碼庫及成功執行相關實驗。為確保評估公正客觀,研究團隊設計了層級化評分標準,將每項複製任務分解為8,316個可獨立評分的子任務。
OpenAI表示,所有評分標準均與原論文作者共同制定,以確保評估的準確性和實用性。團隊同時開發了基於大型語言模型的評判系統,能夠自動對AI Agent的複製嘗試進行評分。
測試結果顯示,目前表現最佳的AI Agent,由Anthropic開發的Claude 3.5 Sonnet(新版本),平均複製分數僅達21%。研究團隊亦邀請頂尖機器學習博士生完成相同測試,結果表明AI模型尚未能超越人類專家在研究複製方面的能力。目前OpenAI已開源相關代碼,以促進業界對AI Agent工程能力的進一步研究。