騰訊推出自研深度思考模型混元T1

騰訊(700)宣布推出自研深度思考模型「混元T1」正式版,並已同步在騰訊雲官網上線供用戶使用。

據內媒報道,該模型以騰訊今年3月初發布的「混元Turbo S」為基座打造,是一款能秒回、吐字快、擅長超長文處理的強推理模型。通過大規模強化學習並結合專項優化,混元T1正式版進一步提升了推理能力,與此前已上線騰訊元寶的「混元T1-preview」模型相比,綜合效果有明顯提升。

技術層面上,混元T1正式版沿用了混元Turbo S的創新架構,採用Hybrid-Mamba-Transformer融合模式。據報這是業界首次將混合Mamba架構無損應用於超大型推理模型。

輸入價為1元/每百萬tokens

該架構有效降低了傳統Transformer結構的計算複雜度,減少了KV-Cache(一種大模型推理性能優化技術)的內存佔用,從而顯著降低訓練和推理成本,讓混元T1實現首字秒出,吐字速度最快可達80tokens/s(Token為處理文本的最小單元)。

定價方面,混元T1目前已在騰訊雲官網上線,輸入價格為1元人民幣/每百萬tokens,輸出價格為4元人民幣/百萬tokens。
 

即時財經