Meta新AI模型性能遭質疑 官方否認作弊 僅承認「在不同服務參差不齊」

科技巨頭Meta上周六(5日)推出了新AI模型Llama 4,包括較小型的Scout版本和標準版Maverick,並預覽了號稱「迄今最強大」的 Llama 4 Behemoth,但其後遭AI開發社區的強烈質疑。

Meta生成式AI負責人Ahmad Al-Dahle對此發聲明,承認模型「在不同服務中表現出參差不齊的質量」,解釋稱是因為Llama 4剛開發完就迅速發布,並承諾公司會盡快修復漏洞。此外,Al-Dahle明確否認Llama 4在訓練集中「刷分」作弊的指控,但未就具體測試數據差異作出詳細解釋。

Llama 4僅完成16%編程任務

據內媒報道,多位開發者測試後發現,Llama 4在實際應用中的表現與Meta官方宣傳存在顯著差距。在一項讓模型完成225項編程任務的基準測試中,Llama 4 Maverick僅完成16%編程任務,遠低於同級別的Gemini 2.5 Pro和Claude 3.7 Sonnet等競爭對手。

AI工程師Andriy Burkov在社交平台X發文指出,Meta宣稱Llama 4 Scout擁有1,000萬token的上下文窗口純屬「偽命題」,稱「實際上不會有任何模型針對超過25.6萬個token的提示詞進行訓練」。

Meta研究主管辭職惹質疑

隨著測試結果令人失望,業內開始懷疑Meta在各項評測中使用了經過特殊優化的「特供版」模型。前Meta研究員、現任AI2高級研究員Nathan Lambert比較測試後指出,在「大模型競技場」中獲得高分的Llama 4 Maverick與公開發布版本不同,前者是「經過對話性優化」的特殊版本。更引人關注的是,就在Llama 4發布前,在Meta工作了8年的AI研究主管Joelle Pineau宣布離職,更加深外界對該模型開發時「黑箱操作」的質疑。

即時財經