专栏名称: 逍遥投资笔记
雪球22年度十大新锐用户。中概股数据研究、分享。富途、港卡国内开通咨询。
目录
相关文章推荐
51好读  ›  专栏  ›  逍遥投资笔记

DeepSeek梁文锋专访全文:中国不能一直做跟随者,OPEN AI也不是神

逍遥投资笔记  · 公众号  ·  · 2025-01-27 11:34

正文

DeepSeek创始人梁文锋: DeepSeekV2模型发布及未来展望20250116

Q:DeepSeekV2模型发布后,迅速引发一场血雨腥风的大模型价格战,有人说你们是行业的一条鲶鱼。

A:我们不是有意成为一条鲶鱼,只是不小心成了一条鲶鱼。

Q:这个结果让你们意外吗?

A:非常意外。没想到价格让大家这么敏感。我们只是按照自己的步调来做事,然后核算成本定价。我们的原则是不贴钱,也不赚取暴利。这个价格也是在成本之上稍微有点利润。

Q:5天后智谱AI就跟进了,之后是字节、阿里、百度、腾讯等大厂。

A:智谱AI降的是一个入门级产品,和我们同级别的模型仍然收费很贵。字节是真正第一个跟进的。旗舰模型降到和我们一样的价格,然后触发了其它大厂纷纷降价。因为大厂的模型成本比我们高很多,所以我们没想到会有人亏钱做这件事,最后就变成了互联网时代的烧钱补贴的逻辑。

Q:外部看来,降价很像在抢用户,互联网时代的价格战通常如此。

A:抢用户并不是我们的主要目的。我们降价一方面是因为我们在探索下一代模型的结构中,成本先降下来了,另一方面也觉得无论API,还是AI,都应该是普惠的、人人可以用得起的东西。

Q:在这之前,大部分中国公司都会直接copy这一代的Llama结构去做应用,为什么你们会从模型结构切入?

A:如果目标是做应用,那沿用Llama结构,短平快上产品也是合理选择。但我们目的地是AGI,这意味着我们需要研究新的模型结构,在有限资源下,实现更强的模型能力。这是scaleup到更大模型所需要做的基础研究之一。除了模型结构,我们还做了大量其他的研究,包括怎么构造数据,如何让模型更像人类等,这都体现在我们发布的模型里。另外,Llama的结构,在训练效率和推理成本上,和02真正的差距是原创和模仿之差

Q:为什么DeepSeekV2会让硅谷的很多人惊讶?

A:在美国每天发生的大量创新里,这是非常普通的一个。他们之所以惊讶,是因为这是一个中国公司,在以创新贡献者的身份,加入到他们游戏里去。毕竟大部分中国公司习惯follow,而不是创新。

Q:但这种选择放在中国语境里,也过于奢侈。大模型是一个重投入游戏,不是所有公司都有资本只去研究创新,而不是先考虑商业化。

A:创新的成本肯定不低,过去那种拿来主义的惯性也和过去的国情有关。但现在,你看无论中国的经济体量,还是字节、腾讯这些大厂的利润,放在全球都不低。我们创新缺的肯定不是资本,而是缺乏信心以及不知道怎么组织高密度的人才实现有效的创新。

Q:为什么中国公司——包括不缺钱的大厂,这么容易把快速商业化当第一要义?

A:过去三十年,我们都只强调赚钱,对创新是忽视的。创新不完全是商业驱动的,还需要好奇心和创造欲。我们只是被过去那种惯性束缚了,但它也是阶段性的。

Q:但你们究竟是一个商业组织,而非一个公益科研机构,选择创新,又通过开源分享出去,那要在哪里形成护城河?像2024年5月这次MLA架构的创新,也会很快被其他家copy吧?

A:在颠覆性的技术面前,闭源形成的护城河是短暂的。即使OpenAI闭源,也无法阻止被别人赶超。所以我们把价值沉淀在团队上,我们的同事在这个过程中得到成长,积累很多know-how,形成可以创新的组织和文化,就是我们的护城河。开源,发论文,其实并没有失去什么。对于技术人员来说,被follow是很有成就感的事。其实,开源更像一个文化行为,而非商业行为。给予其实是一种额外的荣誉。一个公司这么做也会有文化的吸引力。

Q:你怎么看类似朱啸虎的这种市场信仰派观点?

A:朱啸虎是自洽的,但他的打法更适合快速赚钱的公司,而你看美国最赚钱的公司,都是厚积薄发的高科技公司国外先进水平估计也已有两代差距。

Q:这种代差主要来自哪里?

A:首先训练效率有差距。我们估计,国内最好的水平和国外最好的相比,模型结构和训练动力学上可能有一倍的差距,光这一点我们要消耗两倍的算力才能达到同样效果。另外数据效率上可能也有一倍差距,也就是我们要消耗两倍的训练数据和算力,才能达到同样的效果。合起来就要多消耗4倍算力。我们要做的,正是不停地去缩小这些差距。

Q:大部分中国公司都选择既要模型又要应用,为什么DeepSeek目前选择只做研究探索?

A:因为我们觉得现在最重要的是参与到全球创新的浪潮里去。过去很多年,中国公司习惯了别人做技术创新,我们拿过来做应用变现,但这并非是一种理所当然。这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。

Q:互联网和移动互联网时代留给大部分人的惯性认知是,美国擅长搞技术创新,中国更擅长做应用。

A:我们认为随着经济发展,中国也要逐步成为贡献者,而不是一直搭便车。过去三十多年IT浪潮里,我们基本没有参与到真正的技术创新里。我们已经习惯摩尔定律从天而降,躺在家里18个月就会出来更好的硬件和软件。ScalingLaw也在被如此对待。但其实,这是西方主导的技术社区一代代孜孜不倦创造出来的,只因为之前我们没有参与这个过程,以至于忽视了它的存在。

Q:但做大模型,单纯的技术领先也很难形成绝对优势,你们赌的那个更大的东西是什么?

A:我们看到的是中国AI不可能永远处在跟随的位置。我们经常说中国AI和美国有一两年差距,但真实的gap是原创和模仿之差。如果这个不改变,中国永远只能是追随者,所以有些探索也是逃不掉的。英伟达的领先,不只是一个公司的努力,而是整个西方技术社区和产业共同努力的结果。他们能看到下一代的技术趋势,手里有路线图。中国AI的发展,同样需要这样的生态。很多国产芯片发展不起来,也是因为缺乏配套的技术社区,只有第二手消息,所以中国必然需要有人站到技术的前沿。03幻方做大模型是为了做研究,做探索。

Q:幻方决定下场做大模型,一家量化基金为什么要做这样一件事?

A:我们做大模型,其实跟量化和金融都没有直接关系。我们独建了一个名为深度求索的新公司来做这件事。幻方的主要班底里,很多人是做人工智能的。当时我们尝试了很多场景,最终切入了足够复杂的金融,而通用人工智能可能是下一个最难的事之一,所以对我们来说,这是一个怎么做的问题,而不是为什么做的问题。

Q:你们要自训一个大模型,还是某个垂直行业——比如金融相关的大模型?

A:我们要做的是通用人工智能,也就是AGI。语言大模型可能是通往AGI的必经之路,并且初步具备了AGI的特征,所以我们会从这里开始,后边也会有视觉等。

Q:因为大厂的入局,很多创业型公司都放弃了只做通用型大模型的大方向。

A:我们不会过早设计基于模型的一些应用,会专注在大模型上。

Q:很多人认为,创业公司在大厂形成共识后下场,已经不是一个好的时间点。

A:现在看起来,无论大厂,还是创业公司,都很难在短时间内建立起碾压对手的技术优势。因为有OpenAI指路,又都基于公开论文和代码,最晚明年,大厂和创业公司都会把自己的大语言模型做出来。大厂和创业公司都各有机会。现有垂类场景不掌握在初创公司手上,这个阶段对初创公司不太友好。但因为这种场景说到底也是分散的、碎片化的小需求,所以它又是更适合灵活的创业型组织的。从长期看,大模型应用门槛会越来越低,初创公司在未来20年任何时候下场,也都有机会。我们的目标也很明确,就是不做垂类和应用,而是做研究,做探索。

Q:为什么你的定义是「做研究、做探索」?

A:一种好奇心驱动。从远处说,我们想去验证一些猜想。比如我们理解人类智能本质可能就是语言,人的思维可能就是一个语言的过程。你以为你在思考,其实可能是你在脑子里编织语言。这意味着,在语言大模型上可能诞生出类人的人工智能(AGI)。从近处说,GPT4还有很多待解之谜。我们去复刻的同时,也会做研究揭秘。

Q:但研究意味着要付出更大的成本。

A:只做复刻的话,可以在公开论文或开源代码基础上,只需训练很少次数,甚至只需finetune(微调)一下,成本很低。而做研究,要做各种实验和对比,需要更多算力,对人员要求也更高,所以成本更高。

Q:那研究经费哪里来?

A:幻方作为我们的出资人之一,有充足的研发预算,另外每年有几个亿的捐款预算,之前都是给公益机构,如果需要,也可以做些调整。

Q:但做基础层大模型,没有两三亿美元,连牌桌都上不了,我们如何支撑它的持续投入?

A:我们也在找不同出资方在谈。接触下来,感觉很多VC对做研究有顾虑,他们有退出需求,希望尽快做出产品商业化,而按照我们优先做研究的思路,很难从VC那里获得融资。但我们有算力和一个工程师团队,相当于有了一半筹码。

Q:我们对商业模式做了哪些推演和设想?

A:我们现在想的是,后边可以把我们的训练结果大部分公开共享,这样可以跟商业化有所结合。我们希望更多人,哪怕一个小app都可以低成本去用上大模型,而不是技术只掌握在一部分人和公司手中,形成垄断。

Q:一些大厂后期也会有一些服务提供,你们差异化的部分是什么?

A:大厂的模型,可能会和他们的平台或生态捆绑,而我们是完全自由的。

Q:无论如何,一个商业公司去做一种无限投入的研究性探索,都有些疯狂。

A:如果一定要找一个商业上的理由,它可能是找不到的,因为划不来。从商业角度来讲,基础研究就是投入回报比很低的。OpenAI早期投资人投钱时,想的一定不是我要拿回多少回报,而是真的想做这个事。我们现在比较确定的是,既然我们想做这个事,又有这个能力,这个时间点上,我们就是最合适人选之一。04万卡储备其实是好奇心驱动。

Q:GPU是这次ChatGPT创业潮的稀缺品,你们在2021年就可以有先见之明,储备了1万枚。为什么?

A:其实从最早的1张卡,到2015年的100张卡、2019年的1000张卡,再到一万张,这个过程是逐步发生的。几百张卡之前,我们托管在IDC,规模再变大时,托管就没法满足要求了,就开始自建机房。很多人会以为这里边有一个不为人知的商业逻辑,但其实,主要是好奇心驱动。

Q:什么样的好奇心?

A:对AI能力边界的好奇。对很多行外人来说,ChatGPT这波浪潮冲击特别大;但对行内人来说,2012年AlexNet带来的冲击已经引领一个新的时代。AlexNet的错误率远低于当时其他模型,复苏了沉睡几十年的神经网络研究。虽然具体技术方向一直在变,但模型、数据和算力这三者的组合是不变的,特别是当2020年OpenAI发布GPT3后,方向很清楚,需要大量算力;但即便2021年,我们投入建设萤火二号时,大部分人还是无法理解。

Q:所以2012年起,你们就开始关注到算力的储备?

A:对研究员来说,对算力的渴求是永无止境的。做了小规模实验后,总想做更大规模的实验。那之后,我们也会有意识地去部署尽可能多的算力。

Q:很多人以为搭这个计算机集群,是量化私募业务会用到机器学习做价格预测?

A:如果单纯只做量化投资,很少的卡也能达到目的。我们在投资外做了大量研究,更想搞清楚什么样的范式可以完整地描述整个金融市场,有没有更简洁的表达方式,不同范式能力边界在哪,这些范式是不是有更广泛适用,等等。

Q:但这个过程也是一个烧钱行为。

A:一件激动人心的事,或许不能单纯用钱衡量。就像家里买钢琴,一来买得起,二来是因为有一群急于在上面弹奏乐曲的人。

Q:显卡通常会以20%的速度在折损。

A:我们没有精确计算过,但应该没这么多。英伟达的显卡是硬通货,即使是很多年前的老卡,也还有很多人在用。我们之前退役的老卡,二手处理时还挺值钱的,没亏太多。

Q:搭一个计算机集群,维护费用,人工成本,甚至电费也都是不菲的支出。

A:电费和维护费用其实是很低的,这些支出每年只占硬件造价的1%左右。人工成本不低,但人工成本也是对未来的投资,是公司最大的资产。我们选的人也会相对朴实一点,有好奇心,来这里有机会去做研究。

Q:2021年,幻方是亚太地区第一批拿到A100显卡的公司,为什么会比一些云厂商更早?

A:我们很早就对新卡做了预研、测试和规划。至于一些云厂商,据我所知,他们之前的需求都是分散的,直到2022年自动驾驶,有租用机器做训练的需求,又有付费能力,一些云厂商才去把基础设施建好。大厂很难单纯去做研究,做训练,它更多会是业务需求驱动。

Q:你会如何看大模型的竞争格局?

A:大厂肯定有优势,但如果不能很快应用,大厂也不一定能持续坚持,因为它更需要看到结果。头部的创业公司也有技术做得很扎实的,但和老的一波AI创业公司一样,都要面对商业化难题。

Q:一些人会觉得一个量化基金却强调自己做AI,是为其他业务吹泡泡。

A:但其实我们的量化基金已经基本不怎么对外募集了。

Q:你会如何去辨别哪些是AI信仰者,哪些是投机者?

A:信仰者会之前就在这里,之后也在这里。他们更会去批量买卡,或者跟云厂商签长协议,而不是短期去租。05V2模型的研发都是本土人才。

Q:OpenAI前政策主管、Anthropic联合创始人JackClark认为DeepSeek雇佣了「一批高深莫测的奇才」,做出DeepSeekv2的是怎样一群人?

A:并没有什么高深莫测的奇才,都是一些Top高校的应届毕业生、没毕业的博四、博五实习生,还有一些毕业才几年的年轻人。

Q:很多大模型公司都执着地去海外挖人,很多人觉得这个领域前50名的顶尖人才可能都不在中国的公司,你们的人都来自哪里?

A:V2模型没有海外回来的人,都是本土的。前50名顶尖人才可能不在中国,但也许我们能自己打造这样的人。

Q:这次MLA创新*是如何发生的?听说idea最早来自一个年轻研究员的个人兴趣?幻方提出的一种崭新的MLA(一种新的多头潜在注意力机制)架构,把显存占用降到了过去最常用的MHA架构的5%-13%。







请到「今天看啥」查看全文