专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
目录
相关文章推荐
爱可可-爱生活  ·  [LG]《Mixture of ... ·  18 小时前  
爱可可-爱生活  ·  《爱可可微博热门分享(3.21)》 ... ·  昨天  
爱可可-爱生活  ·  突破性进展:Tiled ... ·  2 天前  
爱可可-爱生活  ·  【[352星]Real Time ... ·  3 天前  
51好读  ›  专栏  ›  量子位

腾讯押注非Transformer!推理模型混合Mamba也能搞,深度思考也能秒回

量子位  · 公众号  · AI  · 2025-03-21 23:20

正文

鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI

首个基于 混合Mamba架构 的超大型推理模型来了!

就在刚刚,腾讯宣布推出 自研深度思考模型混元T1正式版 ,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的 快思考模型 ——

区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM (结构化状态空间模型) 存在紧密的数学联系,两者都可以表示为可半分离矩阵 (Semiseparable Matrices) 的变换。

基于这个发现,Mamba-2的作者提出了SSD (结构化状态空间二元性)







请到「今天看啥」查看全文