Meta新AI模型性能遭質疑官方否認作弊僅承認「在不同服務參差不齊」

2025-04-08 23:57:00

科技巨頭Meta上周六（5日）推出了新AI模型Llama 4，包括較小型的Scout版本和標準版Maverick，並預覽了號稱「迄今最強大」的 Llama 4 Behemoth，但其後遭AI開發社區的強烈質疑。

Meta生成式AI負責人Ahmad Al-Dahle對此發聲明，承認模型「在不同服務中表現出參差不齊的質量」，解釋稱是因為Llama 4剛開發完就迅速發布，並承諾公司會盡快修復漏洞。此外，Al-Dahle明確否認Llama 4在訓練集中「刷分」作弊的指控，但未就具體測試數據差異作出詳細解釋。

Llama 4僅完成16%編程任務

據內媒報道，多位開發者測試後發現，Llama 4在實際應用中的表現與Meta官方宣傳存在顯著差距。在一項讓模型完成225項編程任務的基準測試中，Llama 4 Maverick僅完成16%編程任務，遠低於同級別的Gemini 2.5 Pro和Claude 3.7 Sonnet等競爭對手。

AI工程師Andriy Burkov在社交平台X發文指出，Meta宣稱Llama 4 Scout擁有1,000萬token的上下文窗口純屬「偽命題」，稱「實際上不會有任何模型針對超過25.6萬個token的提示詞進行訓練」。

Meta研究主管辭職惹質疑

隨著測試結果令人失望，業內開始懷疑Meta在各項評測中使用了經過特殊優化的「特供版」模型。前Meta研究員、現任AI2高級研究員Nathan Lambert比較測試後指出，在「大模型競技場」中獲得高分的Llama 4 Maverick與公開發布版本不同，前者是「經過對話性優化」的特殊版本。更引人關注的是，就在Llama 4發布前，在Meta工作了8年的AI研究主管Joelle Pineau宣布離職，更加深外界對該模型開發時「黑箱操作」的質疑。

Meta新AI模型性能遭質疑官方否認作弊僅承認「在不同服務參差不齊」

Llama 4僅完成16%編程任務

Meta研究主管辭職惹質疑

最新⽂章

即時財經

黃仁勳時隔3個月再到訪北京冀續與中國合作英偉達股價盤前回升1%｜美股前膽

總商會延後訪美下周國泰直飛達拉斯啓航儀式亦告取消

Samsung手機傳引入Perplexity AI助手

高盛研中美最極端脫鈎美投資者恐沽6萬億元中概股

植田和男稱若經濟走勢符合預期央行或繼續推進加息

股市隨消息急上急落投資者無所適從｜古天后

反馬斯克情緒高漲 Tesla失加州龍頭地位市佔跌穿50%

騰訊推「助跑計劃」為外貿企業新增千億銷售規模

中概股退市屬金融核子戰中國可警告拋售美債抗衡｜陳新燊

關稅令通脹升溫、經濟增長放緩鮑威爾稱聯儲局陷兩難

Meta新AI模型性能遭質疑 官方否認作弊 僅承認「在不同服務參差不齊」

Llama 4僅完成16%編程任務

Meta研究主管辭職惹質疑

最新⽂章

即時財經

Meta新AI模型性能遭質疑官方否認作弊僅承認「在不同服務參差不齊」