中國國產人工智能(AI)大模型DeepSeek橫空出世,因其超高性能和極低訓練成本震驚市場之際, 阿里巴巴 (9988)旗下阿里雲宣布通義千問Qwen 2.5-Max超大規模MoE模型,號稱優於DeepSeek V3,阿里美股(BABA)周二升6.7%,今日夜盤再升1.2%
阿里雲公佈了其全新通義千問 Qwen 2.5-Max 超大規模MoE模型,聲稱可以通過API的方式進行訪問,也可以登錄Qwen Chat進行體驗,例如直接與模型對話,或者使用 artifacts及搜索等功能。
據介紹,通義千問 Qwen 2.5-Max 使用超過20萬億token的預訓練數據,以及精心設計的後訓練方案進行訓練。阿里雲更直接對比了指令模型的性能表現,比較對象包括 DeepSeek V3、OpenAI旗下的GPT-4o 和 Claude-3.5-Sonnet,
阿里雲指,在Arena-Hard、LiveBench、LiveCodeBench 和GPQA-Diamond 等基準測試中,Qwen2.5-Max 的表現超越了DeepSeek V3,同時在MMLU-Pro 等其他評估中也展現出了極具競爭力的成績,相信隨着後訓練技術的不斷進步,下一個版本的Qwen2.5-Max將會達到更高的水平。
相關文章: