
早前一度有外媒傳出可能推遲發佈的Meta(META)語言模型Llama 4,突於周六深夜發佈,全系列採用混合專家(MoE)架構,並且是原生多模態訓練,不再是Llama 3般的純文字模型。Meta GenAI負責人Ahmad Al-Dahle表示,Llama 4展示了Meta對開源AI、整個開源AI社區的長期承諾及堅定不移的信念,即開放系統將產出最好的小型、中型和即將出現的前沿大模型。
Llama 4 Scout速度極快
綜合媒體報道,Meta今次發佈了Llama 4 Scout和Llama 4 Maverick,以及最強大的Llama 4 Behemoth預覽。其中Llama 4 Scout定位為性能最强的小尺寸模型,擁有170億激活參數和16個專家的模型,賣點為速度極快,原生支援多模態,擁有業界領先的1,000萬+Token多模態上下文視窗,相當於處理20多個小時影片,並且能在單張H100 GPU上運行。
Llama 4 Maverick更勝DeepSeek
Llama 4 Maverick定位為同級中最佳的多模態模型,擁有128位專家、170 億個激活參數模型,並在多個主流基準測試中擊敗了GPT-4o和Gemini 2.0 Flash,推理和編碼能力與新發布DeepSeek v3相當,但激活參數量不到後者一半,並可以在單一主機上執行。
Llama 4 Behemoth定位最強模型
至於預覽的Llama 4 Behemoth,定位為Meta至今最強模型及全球頂級LLM 之一,其效能在多個STEM 基準上優於GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro,使用FP8 精準度,在32,000塊GPU上訓練了30萬億多模態Token,為Maverick模型進行程式碼蒸餾時的教師模型。