2 月 18 日,DeepSeek 发布了一篇新论文,提出了一种新的注意力机制——NSA。值得注意的是,创始人梁文锋参与编写并亲自上传了该论文。
根据论文介绍,DeepSeek 团队将算法创新与硬件适配优化相结合,以实现超快速长文本训练。NSA 采用动态分层稀疏策略,将粗粒度的标记压缩与细粒度的标记选择相结合,以兼顾全局上下文感知和局部精度。NSA 针对现代硬件进行了优化设计,可以在不牺牲性能的情况下加速推理并降低预训练成本。在通用基准测试、长文本任务和基于指令的推理中,NSA 与全注意力的模型水平相当甚至超过其性能。
这其实是梁文锋的常规操作,有着很大影响力的 DeepSeek-R1 论文、DeepSeek-V3 论文都是他参与编写和亲自提交的。但由于梁文锋一直非常低调,近期除了在央视镜头中,我们很难在其他场合看到他的身影。这次提交论文的举动迅速引起了大家的广泛关注,吸引走了对于 kimi 新论文和 Grok 3 发布的很多注意力。
“DeepSeek 创始人梁文锋会亲自参与代码建设,这种‘创始人模式’(Funder mode)非常值得借鉴。”整数智能创始人兼 CEO 林群书在 InfoQ 的一场直播中提到,“创始人冲在前线,亲自解决问题,了解每个岗位的需求,从而更高效地配置资源。这不仅能快速解决问题,还能为公司争取更多资源,解决其他同事难以应对的难题。”
企业家、投资人、顶级富豪等都是外界给梁文锋的标签,但他身上还有一个更大但可能被忽略的“标签”:技术人。
梁文锋 17 岁考入浙江大学电子信息工程专业,2010 年获得硕士学位,师从项志宇,主要做机器视觉研究。2009 年时,梁文锋读研期间以实习生身份入职上海艾麒。
周朝恩与梁文锋是浙大校友,但梁文锋的入职并非校友介绍,而是通过公开招聘和通过面试后留下来的。“我们都是以才能和热情来录取的,”周朝恩说道,“我看浙大毕业的,是人才,也有技术创新想法,所以把他留下来了。”
梁文锋入职的部门汇集了艾麒信息的编解码算法工程师和图形算法专家。刚开始,梁文锋只是普通的算法工程师,后来他所在部门的经理辞职去北京,并推荐了他做部门经理。周朝恩考察了他的才能,认为梁文锋是可以胜任的,所以任命他成为了部门经理,月薪 16000 元,“算是高薪特别聘请的”。
根据周朝恩的回忆,梁文锋是一个文静内敛的人,平时话很少,只有在聊技术的时候话会变得很多,并且逻辑非常清晰,是“典型的技术男风格”。
“初见他时,他戴着一副眼镜,斯文有礼,身材清瘦,给人一种文静内敛的印象。入职后,他便全身心投入到人工智能视频与图像技术的研究中,常常一整天都待在办公室里,专注地钻研技术难题,甚至半天都不出来一次。与他深入接触后发现,他虽不善言辞,但在技术交流中却能清晰地表达自己的观点,展现出强大的逻辑思维能力。他为人沉着冷静,性格简单直接,对产品和技术有着极高的追求,堪称典型的技术男风格。”周朝恩说道。
当时,梁文锋参与了新技术部的项目,该项目主要研究 100M CPU 的手机上视频编解码并充分运用手机上 GPU 来高效处理视频等编解码等技术。
梁文锋从 2008 年就在研究量化投资,在艾麒任职期间他也在利用业余时间悄悄为量化投资做准备,提前布局。到了 2010 年 6 月 30 日,梁文锋正式毕业后,就去继续做量化投资的事情了。
“当时他说这块研究已经成熟了,可以盈利了。”周朝恩说道。
离职前,梁文锋和周朝恩进行了一次深入交流。周朝恩建议他未来要寻找那些毛利高的项目,这给梁文锋留下了很深的印象。2013 年,梁文锋开启了自己的创业生涯。正如他说的确实盈利了,而背后的技术理念一直贯穿其中。
公众号“聪明投资者”发布的《我所见过的梁文锋》一文中,展现了做量化投资时期的梁文锋。“同事说他除了编程,没有什么其他的爱好。”文中也同样提到,他确实不擅长闲聊,但到了专业领域能沟通到连细节也不避讳。
根据企查查信息,2013 年 9 月,梁文锋和浙大校友徐进创立了杭州雅克比投资管理有限公司,梁文锋目前还是该公司的法人。2015 年 6 月,两人成立了浙江九章资产管理有限公司,九章资产是幻方量化的核心组成部分。
根据公开资料,幻方量化在 2016 年 10 月 21 日推出了第一个 AI 模型,第一份由深度学习生成的交易仓位上线执行,并使用 GPU 进行计算。2017 年,幻方量化宣称实现投资策略全面 AI 化。
2019 年,幻方量化资金管理规模突破百亿元。梁文锋在当年的金牛奖颁奖仪式上表示,量化公司是没有基金经理的,基金经理就一堆服务器。
梁文锋当时给自己的定位就是“一名爱好量化投资的程序员。”他的演讲围绕着对技术的重视。他说道,“人来做投资决策的时候,它是一种艺术,要凭感觉。程序来决策的时候,它是一种科学,它有最优解。有人问,量化投资,以后还需要人类吗?当然需要,需要大量的程序员和研究员。”
也是在 2019 年,算力短缺的幻方量化果断投资 2 亿元建成了“萤火一号”AI 算力集群,该集群搭载了 1100 块 GPU 显卡。几个月后,梁文锋出手拿下了英伟达当时最新的 A100 芯片,成为亚太地区第一批拿到此卡的人。2021 年,幻方量化再度豪掷 10 亿元建成 “萤火二号”,搭载了 1 万张 A100 显卡。这为 DeepSeek 的研发打下坚实基础。
“很多人会以为这里边有一个不为人知的商业逻辑,但其实主要是好奇心驱动,对 AI 能力边界的好奇。”梁文锋去年在暗涌的采访中说道。
2023 年,在筹备 DeepSeek 之前,梁文锋又回到艾麒信息进行了一次调研。这次,梁文锋主要想深入了解市场动态和海外需求,为新的创业做足准备。梁文锋与艾麒的人员探讨人工智能相关技术将近 2 个小时。这次交流,双方认识到海外市场对 AI 技术的需求旺盛且增长迅速,尤其是在大模型领域,海外企业已展现出显著的技术优势和商业化潜力。
在林群书看来,如果创始人本身很懂技术且公司是技术驱动的,比如像 DeepSeek 团队或 ChatGPT 早期团队,那么他们的成功就主要依赖硬核科技,而非单纯的产品设计。
“现在我遇到很多大区的 CEO,他们本身也是技术出身。其实,做技术的人往往更清楚技术的边界,能够更准确地判断哪些技术适合商业化,以及为了实现商业化,技术需要达到何种程度。”林群书表示。
创业后,梁文锋的管理风格也沿袭了在艾麒时期的习惯。在艾麒时,他就是采用扁平化管理方式,给予团队成员充分的自由和信任,发挥每个人的特长,带领团队攻克了多项技术难题,比如优化了图像视频处理算法、提升服务性能。
同样地,DeepSeek 也是采取扁平化结构,减少管理层级,会给予员工充分的信任和自由度,鼓励他们在职责范围内自主决策,并倡导开放、协作的文化,鼓励跨部门、跨领域的知识共享。
梁文锋说的,“我们每个人对于卡和人的调动是不设上限的。如果有想法,每个人随时可以调用训练集群的卡无需审批。同时因为不存在层级和跨部门,也可以灵活调用所有人,只要对方也有兴趣。”这从《DeepSeek-V3 Technical Report》论文的贡献者名单中就可以体现出来:仅名单就单独占了两页多,包括 150 位研发工程师、31 位数据标注人员和 18 位商务与合规人员。这在其他论文中是很难看到的。
对于 DeepSeek 被津津乐道的“员工可以自由用卡”方式,周朝恩表示,对于大厂或传统企业而言,直接复制可能存在一定难度。由于资源调配涉及复杂的流程和多部门协调,完全放权可能带来管理风险。但大厂可以逐步借鉴,在创新团队或研究部门先行试点扁平化管理,提升团队协作效率,降低管理成本,积累经验后再逐步推广。建立与创新成果挂钩的激励机制,鼓励员工主动探索和尝试。DeepSeek 的经验为大厂提供了宝贵的参考,同时也为传统企业的转型提供了可行的路径。
DeepSeek 招聘的团队成员大多是数学竞赛一等奖、拿过国际金牌的算法人才。大厂通常关注的候选人的项目经验在梁文锋眼中并不重要,“(有)热爱、扎实的基础能力,其他都没那么重要。”梁文锋曾表示。
在这样想法的影响下,DeepSeek 确实招到了这么一群研究员,他们在 x 上分享技术内容,Daya Guo 的一句感慨透露出了团队春节期间也在忙碌但依然充满热情:“春节期间让我最兴奋的事情,是亲眼见证了 R1-Zero 模型性能曲线的持续增长,并真正的感受到强化学习的力量。”
值得注意的是,《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》论文的第一作者 Jingyang Yuan 是在实习期间完成的这项研究。
网上面试过 DeepSeek 的开发者透露,DeepSeek 是其面过的很多家互联网公司里唯一会根据专业出 coding 的公司,面试连续 3 小时,对所有人都一样的问题会问得很细,对于面试者参与项目的问题更关注完成项目时的思维方式。
“这种对高端人才的管理和激励方式,使得他在量化投资和 DeepSeek 上能够迅速组建一支高效、专业的技术团队。”周朝恩评价。
而在《我所见过的梁文锋》文中也提到了当时梁文锋的招人风格:要找在专业领域能做超前和深度研究的人。“看他们在具体研究什么领域,怎么做 paper,对研究有没有渴望。”他还提到,没有给员工设置考核指标,“我们招人都会大家一起来看的……我觉得如果真的没有做出贡献,那是我们没有把他 / 她放到合适的位置上。”这与 DeepSeek 的情况相似。
DeepSeek 可以称得上典型创始人模式,就连公司实习生也是直接与他沟通。
去年 9 月,爱彼迎联合创始人兼首席执行官 Brian Chesky 在一个讲座中吐槽,许多人建议他“雇佣优秀的人,并给他们空间去完成工作”。他一开始采纳了这些建议,但效果不尽如人意。“我越不亲力亲为,就越被卷入问题。等到我被卷入一个问题时,就像多了 10 倍的工作量。”
之后,YC 联合创始人 Paul Graham 将 Chesky 的演讲写进了一篇博客文章,并提出了“创始人模式”的概念。他表示,相较于只通过下属掌控公司的职业经理人,亲力亲为的创始人更有利于公司的发展。这个理念随后迅速在硅谷引起热议。
但当未来 DeepSeek 发展到一定规模后,梁文锋是依然深入到每个研发细节,还是转向宏观的战略规划?这个或许要留待时间给出答案。