专栏名称: 橘子汽水铺
橘子汽水铺 by orange.ai。 AI创始人, AI投资人,AI产品经理都在关注的AI科技自媒体。 聚焦最有商业价值的AI资讯,分享一线的AI产品经理经验。
目录
相关文章推荐
湖北经视  ·  饮用水源地水体被污染?淄博当地回应 ·  昨天  
传媒招聘那些事儿  ·  爱奇艺资深短视频编导!全职岗位@你! ·  3 天前  
51好读  ›  专栏  ›  橘子汽水铺

一家游戏公司给 Attention 架构整了点大活

橘子汽水铺  · 公众号  ·  · 2025-01-22 18:00

正文

有点不一样的长文本

上周 minimax-text-01 发布,把模型的上下文窗口扩展到了4M,在此之前,最大的 Google 1.5 Pro 的 2M。

本来下文窗口的提升并不是新鲜事了,但是偶然看到好友九原客的测试,注意到这个模型有个跟以前的长文本不太一样的地方:输出的文本特别长。

我自己打开海螺官网,把一本 83 页,五万多 tokens 的英文书 PDF 放进去,然后让它「把文件的全部内容翻译成中文」。

我记得以前模型的输出一般都不会超过一万字,而且还会因为输出太长,拒绝此类需求。

但是海螺什么废话都没说,就开始表演全书翻译,这么一翻译就咣咣输出了十分钟。

翻译停止的时候,是书的第 47 页,我用软件统计了一下,大约两万字符。

在上周发布的技术报告里,确实写了这次的模型使用了不同于传统 Transformer 架构,还说这是第一次大规模使用线性注意力技术,不仅让训练和推理效率提升,还让模型的上下文窗口有了新突破。

于是我去补课了一下线性注意力的前世今生。

为什么线性注意力是关键

业界其实一直都在研究对 Transformer 架构优化,高效的序列建模可以分为四大主要路线:

- 稀疏 Transformer(Sparse Transformer);

- 线性 Transformer(Linear Transformer);

- 长卷积( Long Convolution);

- 循环神经网络( RNN)。

MiniMax 的技术报告中提到他们最终的选择是 Lightning Attention 的线性注意力路线,并且这次的模型是线性注意力机制首次被大规模的部署:

我们的方法从选择最有潜力的架构开始,接着优化其底层的训练和推

理框架以确保其支持。对于网络架构,我们要求线性注意力——不仅理论上要合理,而且在实践中要高效,尤其是在处理长上下文的时候。

经过大量实验,我们选择了主要采用 Lightning Attention的混合架构,这是一种线性注意力变体的I/O 感知实现 。

在架构中,每七个 trans n ormer 块之后跟随一个带有 softmax 注意力的 transformer 块 ,并使用 lightning 注意力。

我们展示了线性注意力机制首次成功的大规模实现。

虽然线性注意力机制之前已经被研究过,但从未以如此规模部署过。

Lightning Attention 到底是什么,这勾起了我的好奇心,于是我在谷歌搜索了一下,出来了这篇文章和相关 poster:

这一下更加有趣了,Lightning Attention 论文的一作 Qin 竟然是来自于一家中国游戏公司:心动 / TapTap.

Qin 的故事

正在我好奇的时候,一位 TapTap 的好友看到了我的公众号,跟我说其实线性注意力研究的专家,确实就在 TapTap.

当时觉得很奇怪,为什么一家游戏公司要研究线性注意力。

我去网上搜了确认, Qin 是在 2023 年去的 TapTap,而之前,在商汤。而商汤,懂的都懂,事情变得更有趣了。 ALT

于是我找到了 Qin,知道了他的名字叫秦臻。

他跟我聊了聊这几年做线性注意力研究的故事。

原来秦臻在商汤的时候,最早参与的项目是复现 GPT-2,可以说是大语言模型在国内最早期的研究者之一了。

在商汤的时候, Leader 很鼓励大家做研究,他在几个方向里选了线性注意力,没想到一研究就是好几年。

2023 年的商汤,内部有太多的变动,他就离开了。

在聊了一圈大大小小的公司之后,他选择了去 TapTap, 一个很多人不太理解的选择。

我也很好奇,线性注意力这么重要的研究方向,应该去的是大模型公司或者大厂。

他却说很多人不太相信这个方向,反而是 TapTap 算法团队里有个研究小组,这个小组会给他提供一个自由发挥的空间。

TapTap 的算法研究小组

TapTap 隶属在香港上市的「心动公司」,本质是家手机游戏公司,为什么要养一个小组研究大模型的技术?

秦臻又给我讲了在 TapTap 这个有点特别的团队。

团队 Leader 叫李昀泽,2020 年就加入了 TapTap, 他领导的部门,负责 TapTap 这个第三方手游商店社区的增长和收入,他本人之前也是在国内大厂做算法出身,同时对 AIGC 相关领域,一直有兴趣。

同时,心动联合创始人、 TapTap 负责人戴云杰,2021 年也在公司内部沟通平台 Slack 发帖,表示关注相关技术、推动投入研究资源。

因为有这些看起来不那么「游戏公司」的因素,所以从老板到团队,认知都一致:一定要跟上这波技术浪潮。于是, TapTap 开始积极招聘有模型训练经验的从业者,来这里做研究和探索——哪怕相关研究成果,未必能实际用于公司现有业务,而是作为跟前沿公司保持深度技术交流、对话的「敲门砖」,也很值。

李昀泽和秦臻说,虽然线性注意力这样的技术,目前确实在心动和







请到「今天看啥」查看全文