专栏名称: 海外对冲
在你一切所行的事上,都要认定他,他必指引你的路。
目录
相关文章推荐
51好读  ›  专栏  ›  海外对冲

Deepseek戳破美国AI泡沫,树倒猢散还是倒车接人?(兼湾区笔记2)

海外对冲  · 公众号  ·  · 2025-01-28 16:16

正文

请到「今天看啥」查看全文


Deepseek以多快好省为原则造出比肩o1的大模型,把中国通缩跨境传导到了美国,给只知道撒币堆器材解决问题的美国人一锤重击: 哦原来高科技可以不用高消费。这充分说明真IP是人的智力,不是硬件,除非不让学英语看不懂美国论文。昨天跌幅巨大,今早上各种大行pb的notes纷至沓来,说是昨晚没人接盘,加之本周还有四大厂业绩,更是没人敢造次接飞刀,毕竟这才开年一个月,业绩安全垫还没打足。至于美股的愈演愈烈的暴力美学,前面已经有不少文章分析过,平台和个股ETF都以扭曲的方式压低了波动率,让一旦波动来了就是淋漓尽致,十几个SD的事件早已不新鲜。(见 繁荣美股背后的另类力量 )


昨天慢屏飞的各种测评和研究,把这件事梳理得深入饱满,特别是把对硅谷的震动实时传导到了简中网。昨天美股盘前,缺芯概念股aka. gpu, asic, server不管fab,还是fabless一通暴跌,同时缺电概念股也是踩踏一片,从电机股到发电股到液冷股,开盘以后,跌幅更是搂不住。最后数据中心里打了八五折,数据中心外打了七折,不可谓不惨烈。这个跌法再一次让我们认识到基本面背后有因子,这些股票都是ai,都是三个月动能,都是crowding。管理组合光看行业不看因子是不行的,行业和个股基本面只是表面,内核里有多少是beta,有多少是idio(独立事件风险)不能不看。


其实美国基金对于nvda peaking还是早有准备的,去年下半年起把nv还放在前三的已经很少,除了个别长期投资者,AI时间的朋友,他们跨越周期来看问题。而0-2bn以内的基金,极少有敢拿着semi不当周期股的。


去年底到昨天暴跌前美国pm的一个consensus其实不是缺芯,而是缺电,一些人认为这是-长达十几年的long only主题。这里面有数据中心拉动的缺口,也有美国电力供给的结构性问题比如可再生间断性电力到了临界点,也有tmt新大哥coatue的ppt指路的影响。导致今年初什么GEV, 西门子,VST, TLN又是一阵发疯。但是由于缺电概念股里的买家非常多样,有非常熟悉基本面的能源基金在里面,和缺芯概念股里只有tmt不同,我估计有人兜底。


前阵在硅谷转了十天,见了十几个西岸的tmt基金,核心就是讨论大厂capex的payoff问题,尤其是26年的capex,因为英伟达的收入就是大厂的支出,卖军火的就指望客户焦虑恐惧。核心说法是虽然没有super app出现,大厂capex还是payoff的,自己省人力成本就是最大的ROI,总之是采购的gpu不租给客户就自己用,这在meta起码是完全算的过来账的。另外财富500刚开始用ai节省成本,这些都是外界不知道的细节。


美国就是两点: 人贵、钱多,只要能省点人工的创新就有很大价值,要不然那么多2b的应用让人眼花缭乱,都有生存空间,这和中国生态完全相反。中国的ai应用有个隐忧就是让人更没用了,而本来人就已经很便宜。刚说到没有super app,这不刚出现了么,就是deepseek,只是以大家意料之外的方式出现,这就很tech了。


关于25-26的算力需求,大多数人是把训练和推理分开来算,昨天一跌更是加深了大家对于算力泡沫破灭的恐慌,但是我听到相反的说法如下,简单说就是训练和推理相濡以沫,纠葛一生。AI从昨天开始有意思起来了,不是long only了。


不能把训练和推理分开来看。这是一个循环过程,这就是训练时计算的突破——应用强化学习和搜索,并将其递归地反馈到训练中。所以,尽管训练的规模很大,但随后还有训练后的处理和调整。这些工作负载的强度实际上与训练本身不相上下。然后你还有测试时的计算。这三者都是独立的扩展向量,都是极其计算密集的,并且彼此依赖。所以我认为这是一个错误的思维方式。我会更倾向于从工作负载的角度思考:是什么样的工作负载,计算强度有多大,工作负载的必要性又是什么。或者,真正来自底层的需求。


因为如果推理的过程开始变得像训练一样,那将对你所需的基础设施产生巨大的影响。在过去,人们会说,训练非常复杂,但对于推理,你可以用一个 AMD MI300 GPU,或者用内部的 ASIC。其实结果是,做强化学习和树搜索时和训练一样计算密集。


所以现在,推理就像是一个训练集群。你需要所有这些互联设备,以便能够在内存中保持搜索表,并能够递归地循环,将这些反馈到训练权重中。所以这些工作负载实际上开始合并。我不认为它们应该被看作是截然不同的,它们更像是一个完整的循环和生态系统的一部分。


当你进行测试时计算和推理时,你会生成所有这些合成数据,然后我们把它们反馈到训练中的模型里。实际上,这就是一个持续的递归循环。所以在 0,1 模型中,它不仅仅生成一个答案,它会生成 1000 个答案。每一个答案现在都是一个新的向量,你可以在其上进行搜索,并且你不只根据最终输出的答案来评估它,而是评估它的每个逻辑步骤,我们称之为“思考过程”。然后你应用奖励或损失函数,再次强调,这不是基于结果,而是基于每个逻辑步骤。然后我们将这些反馈直接到模型权重中,并重新运行这些模型。所以这是一个递归循环。


我们正在创建所有这些合成的数据,这些答案,然后评估哪个是正确的答案。所以它变成了几乎是一个典型的推理过程,它不涉及数据,你并没有向模型添加新的数据。你已经训练好了模型并与之互动,给出答案。而在测试时计算中,你是创建自己的数据,这些数据有一个飞轮反馈循环,回到训练过程中"。


结论是推理算力需求会超预期,Deepseek/开源模型的横空出世也许加速了这一过程。让我们拭目以待。 同时GEV这些缺电概念股退守到了ytd 0%附近,等于是从我们大年初一开始重新算,过个蛇年。


新年快乐,祝今年大家都经历试炼,得到更多认知,刚强壮胆,向上求索。


(AI外行,欢迎讨论指教)








请到「今天看啥」查看全文