专栏名称: 量子位

վ'ᴗ' ի 追踪AI行业和技术动态，这里更快一步！关注我们，回复“今天”，更多大新闻等你来发现

腾讯押注非Transformer！推理模型混合Mamba也能搞，深度思考也能秒回

量子位 · 公众号 · AI · 2025-03-21 23:20

正文

鱼羊发自凹非寺
量子位 | 公众号 QbitAI

首个基于 混合Mamba架构 的超大型推理模型来了！

就在刚刚，腾讯宣布推出 自研深度思考模型混元T1正式版 ，并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外，值得关注的是，混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍，通过大规模强化学习，并结合数学、逻辑推理、科学和代码等理科难题的专项优化，混元T1正式版进一步提升了推理能力，与此前已上线腾讯元宝的混元T1-preview相比，综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学，以及逻辑推理公开基准测试中，混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

（表格中，其它模型评测指标来自官方评测结果，官方评测结果中没有的部分来自混元内部评测平台结果）

另外，在最新大模型竞技场中，混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说，混元T1正式版沿用了混元Turbo S的模型架构，采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的 快思考模型 ——

区别于DeepSeek R1等慢思考模型，Turbo S更强调“秒回”，即吐字速度更快，首字时延更低。

非传统Transformer架构的好处在于，能有效降低Transformer架构的计算复杂度，减少KV-Cache缓存占用，实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力，另一方面保留了Transformer擅长捕捉复杂上下文的优势，突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节，但可以参考Mamba-2论文做一个简单的理解：

在Mamba-2中，研究团队发现，Transformer中的注意力机制与SSM （结构化状态空间模型）存在紧密的数学联系，两者都可以表示为可半分离矩阵（Semiseparable Matrices）的变换。

基于这个发现，Mamba-2的作者提出了SSD （结构化状态空间二元性）

请到「今天看啥」查看全文

推荐文章

爱可可-爱生活 · [LG]《Mixture of Lookup Experts》S-20250322053835

18 小时前

爱可可-爱生活 · 《爱可可微博热门分享(3.21)》爱可可微博热门分享(3.2-20250321225851

昨天

新播报 · 火速报名！柳州这个AI训练营，讲的就是实战！

2 天前

新播报 · 火速报名！柳州这个AI训练营，讲的就是实战！

2 天前

爱可可-爱生活 · 突破性进展：Tiled Flash注意力让线性RNN超越Tran-20250320074417

2 天前

爱可可-爱生活 · 【[352星]Real Time Speech Transcri-20250319220117

3 天前

金错刀 · 任正非：公司不会迁就任何人，坚定不移淘汰不称职者

8 年前

麦子熟了 · 王小波：长得丑就不能撩妹了吗？

7 年前

图解金融 · 在纳入MSCI这件事上，A股为啥吃了四年闭门羹

7 年前

第1整理术YiOrganizer · 结婚10年，这妈妈却一年四季给孩子穿旧衣，10万粉丝坐不住了！

7 年前

价值线 · 财富晚餐 | 特朗普战略师称对华打经济战，外交部是这样回应的！

7 年前

腾讯押注非Transformer！推理模型混合Mamba也能搞，深度思考也能秒回

正文

鱼羊 发自 凹非寺 量子位 | 公众号 QbitAI

首个基于混合Mamba架构的超大型推理模型

请到「今天看啥」查看全文

鱼羊发自凹非寺
量子位 | 公众号 QbitAI