专栏名称: 机器学习初学者
号主黄博Github全球排名前90,3.6万Star!致力于为初学者提供学习路线和基础资料,公众号可以当作随身小抄,文章很全,建议收藏!点击菜单可以进入学习!
目录
相关文章推荐
参考消息  ·  最新!纽约州进入紧急状态 ·  昨天  
参考消息  ·  哈梅内伊强硬表态:绝不接受! ·  昨天  
有车以后  ·  继续卷,10万级销冠SUV优惠加码 ·  2 天前  
车买买  ·  Type-R同款前脸!本田思域焕新升级 ... ·  2 天前  
有车以后  ·  又一经典车型将停产,再不买就没了 ·  3 天前  
51好读  ›  专栏  ›  机器学习初学者

梁文锋,yyds !!

机器学习初学者  · 公众号  ·  · 2025-03-03 12:00

正文


随着 DeepSeek 的持续火爆,DeepSeek 背后的创始人梁文锋也开始逐渐被大家关注了起来。
DeepSeek创始人梁文锋

DeepSeek创始人梁文锋

这是一位从浙大毕业的 85 后学霸,在创立 DeepSeek 之前,梁文锋就曾创立并成功运营了领域内极具知名度的 幻方量化 ,其专注于以数学和AI为核心的量化投资策略的开发与应用。

图片
其实网上关于梁文锋的公开报道并不多,甚至在网上想搜几张和梁文锋相关的照片出来的结果都比较少。

怪不得以前搞量化的时候,大家就曾一度称他为低调的“量化天王”。

上周末晚在家网上冲浪的时候,无意中刷到了一篇和梁文锋有关的访谈,其来源于之前暗涌Waves与梁文锋的深度对话。

我完整地看完了有关梁文锋的访谈内容,不得不说, 里面的很多 观点思考 技术洞察 行业理解 对我们还是非常有启发的

所以今天这篇文章我们也 专门梳理了 其中比较 核心的50条思考 ,相信这也能从一定程度上来解释为何 DeepSeek 这家公司能够脱颖而出并一鸣惊人,所以这里也分享给大家,大家可以感受一下。

一看别人的思考、理解,往往可以给我们一些启发。

关于DeepSeek做的事情

1、我们做大模型,跟量化和金融都没有直接关系。我们要做的是通用人工智能,也就是AGI。

2、语言大模型是通往AGI的必经之路,并且初步具备了AGI的特征,所以我们选择从这里开始。

3、我们不会过早设计基于模型的一些应用,会专注在大模型上。从长期看,大模型应用门槛会越来越低,初创公司在未来20年任何时候下场,也都有机会。我们的目标很明确,就是不做垂类和应用,而是做研究,做探索。

4、只做复刻的话,可以在公开论文或开源代码基础上,只需训练很少次数,甚至只需finetune(微调)一下,成本很低。而做研究,要做各种实验和对比,需要更多算力,对人员要求也更高,所以成本更高。

5、我们希望更多人,哪怕一个小App都可以低成本去用上大模型,而不是技术只掌握在一部分人和公司手中,形成垄断。大厂的模型,可能会和他们的平台或生态捆绑,而我们是完全自由的。

6、从商业角度来讲,基础研究是投入回报比很低的。我们比较确定的是,既然我们想做这个事,又有这个能力,这个时间点上,我们就是最合适人选之一。

7、如果目标是做应用,那沿用Llama结构,短平快上产品也是合理选择。但我们的目的地是AGI,这意味着我们需要研究新的模型结构,在有限资源下,实现更强的模型能力。这是scale up到更大模型所需要做的基础研究之一。除了模型结构,我们还做了大量其他的研究,包括怎么构造数据,如何让模型更像人类等,这都体现在我们发布的模型里。

8、我们认为当前阶段是技术创新的爆发期,而不是应用的爆发期。长远来说,我们希望形成一种生态,就是业界直接使用我们的技术和产出,我们只负责基础模型和前沿的创新,然后其它公司在DeepSeek的基础上构建toB、toC的业务。如果能形成完整的产业上下游,我们就没必要自己做应用。

9、如果需要,我们做应用也没障碍,但研究和技术创新永远是我们第一优先级。

10、提供云服务不是我们的主要目标,我们的目标是去实现AGI。

11、大厂有现成的用户,但它的现金流业务也是它的包袱,也会让它成为随时被颠覆的对象。

12、大模型创业公司可能活下来2到3家。现在都还处在烧钱阶段,那些自我定位清晰、更能精细化运营的,更有机会活下来。其它公司可能会脱胎换骨。有价值的东西不会烟消云散,但会换一种方式。

13、我主要的精力在研究下一代的大模型,还有很多未解决的问题。

14、我们经历了一个漫长的积累过程,外部看到的是幻方2015年后的部分,但其实我们做了16年。

关于AI及行业的理解

1、我们理解人类智能的本质就是语言,人的思维就是一个语言的过程。你以为你在思考,其实可能是你在脑子里编织语言。这意味着,在语言大模型上可能诞生出类人的人工智能(AGI)。

2、从最早的1张卡,到2015年的100张卡、2019年的1000张卡,再到一万张,这个过程是逐步发生的。很多人会以为这里边有一个不为人知的商业逻辑,但其实,主要是好奇心驱动,对AI能力边界的好奇。

3、对很多行外人来说,ChatGPT这波浪潮冲击特别大;但对行内人来说,2012年AlexNet带来的冲击已经引领一个新的时代。AlexNet的错误率远低于当时其他模型,复苏了沉睡几十年的神经网络研究。虽然具体技术方向一直在变,但模型、数据和算力这三者的组合是不变的,特别是当2020年OpenAI发布GPT3后,方向很清楚,需要大量算力。那之后,我们有意识地去部署尽可能多的算力。

4、AGI可能是2年、5年或者10年,总之会在我们有生之年实现。至于路线图,即使在我们公司内部,也没有统一意见。但我们确实押注了三个方向:一是数学和代码,二是多模态,三是自然语言本身。数学和代码是AGI天然的试验场,有点像围棋,是一个封闭的、可验证的系统,有可能通过自我学习就能实现很高的智能。另一方面,多模态、参与到人类的真实世界里学习,对AGI也是必要的。我们对一切可能性都保持开放。

5、未来会有专门公司提供基础模型和基础服务,会有很长链条的专业分工。更多人在之上去满足整个社会多样化的需求。

6、所有的套路都是上一代的产物,未来不一定成立。拿互联网的商业逻辑去讨论未来AI的盈利模式,就像互联网创业时,你去讨论通用电气和可口可乐一样,很可能是一种刻舟求剑。

关于技术与创新

1、创新是昂贵且低效的,有时候伴随着浪费。所以经济发展到一定程度之后,才能够出现创新。很穷的时候,或者不是创新驱动的行业,成本和效率非常关键。OpenAI也是烧了很多钱才出来的。

2、最重要的是参与到全球创新的浪潮里去。过去很多年,大家习惯了别人做技术创新,我们拿过来做应用变现,但这并非是一种理所当然。这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。

3、我们大部分公司习惯follow,而不是创新。

4、随着经济发展,我们也要逐步成为贡献者,而不是一直搭便车。过去三十多年IT浪潮里,我们基本没有参与到真正的技术创新里。我们已经习惯摩尔定律从天而降,躺在家里18个月就会出来更好的硬件和软件。但其实,这是西方主导的技术社区一代代孜孜不倦创造出来的,只因为之前我们没有参与这个过程,以至于忽视了它的存在。

5、创新的成本肯定不低,过去那种拿来主义的惯例和过去的情况有关。但现在,无论经济体量,还是字节、腾讯这些大厂的利润,放在全球都不低。我们创新缺的不是资本,而是缺乏信心以及不知道怎么组织高密度的人才实现有效的创新。

6、过去三十年,我们都只强调赚钱,对创新是忽视的。创新不完全是商业驱动的,还需要好奇心和创造欲。我们只是被过去那种惯性束缚了,但它也是阶段性的。

7、更多的投入并不一定产生更多的创新,否则大厂可以把所有的创新包揽了。

8、技术没有秘密,但重置需要时间和成本。英伟达的显卡,理论上没有任何技术秘密,很容易复制,但重新组织团队以及追赶下一代技术都需要时间,所以实际的护城河还是很宽。

9、我经常思考的是,一个东西能不能让社会的运行效率变高,以及你能否在它的产业分工链条上找到擅长的位置。只要终局是让社会效率更高,就是成立的。中间很多都是阶段性的,过度关注必然眼花缭乱。

10、创新首先是一个信念问题。为什么硅谷那么有创新精神?首先是敢。Chatgpt出来时,整个国内对做前沿创新都缺乏信心,从投资人到大厂,都觉得差距太大了,还是做应用吧。但创新首先需要自信,这种信心通常在年轻人身上更明显。

11、未来产业结构的调整,会更依赖硬核技术的创新。当很多人发现过去赚快钱很可能来自时代运气,就会更愿意俯身去做真正的创新。

12、未来硬核创新会越来越多,现在还不容易被理解,是因为整个社会群体需要被事实教育。当这个社会让硬核创新的人功成名就,群体性想法就会改变,我们只是还需要一堆事实和一个过程。

13、按照教科书的方法论来推导创业公司,在当下,他们做的事,都是活不下来的。但市场是变化的,真正的决定力量往往不是一些现成的规则和条件,而是一种适应和调整变化的能力。很多大公司的组织结构已经不能快速响应和快速做事,而且他们很容易让之前的经验和惯性成为束缚,而这波AI新浪潮之下,一定会有一批新公司诞生。

关于招人与考核

1、人工成本是对未来的投资,是公司最大的资产。我们选的人相对朴实一点,有好奇心,来我们这里有机会去做研究。大厂很难单纯去做研究,做训练,它更多会是业务需求驱动。如果不能很快应用,大厂不一定能持续坚持,因为它更需要看到结果。







请到「今天看啥」查看全文