专栏名称: 一座独立屋
热点、财经、中美。
目录
相关文章推荐
字体设计  ·  运用霓虹元素打造毕业展海报视觉效果 ·  3 天前  
庞门正道  ·  会跳钢管舞的鸡! ·  4 天前  
庞门正道  ·  开工了,一大波logo来了! ·  5 天前  
51好读  ›  专栏  ›  一座独立屋

DeepSeek颠覆AI路径?我的看法与行动

一座独立屋  · 公众号  ·  · 2025-01-30 11:03

正文

新年好!今天聊聊火爆全网的DeepSeek和AI相关的投资观点(由于这件事,我的后台私信多到要炸了)。

最近国产大模型DeepSeek R1以其出色的表现和低廉的成本惊艳了世界,同时也给市场带来了大幅波动,很多人思考AI未来的发展路径是否被已经被颠覆,算力在未来是否可能过剩,这也导致本周一(1月27日)美国市场的暴跌。

经过一些了解和整理,今天我将以一个普通投资者和非从业者学习笔记的视角分享一下我的见解,也欢迎有大家在留言区提出自己的见解或指出内容可能的错误。

(1)出色的模型与算法

根据DeepSeek公布的跑分现实,DeepSeek-R1在培训后阶段大规模使用强化学习技术, 在数学、代码、自然语言推理和其他任务上,其性能可与OpenAI o1正式版本媲美,但价格仅为o1的3%。

我不是AI从业人士,所以也研究和学习了一下,这里我将DeepSeek之所以能够实现低成本的逻辑用大多数非专业人士都能理解的话来简单介绍一下:

DeepSeek R1大模型实现低成本训练和推理的核心思路,可以类比为“用更聪明的策略完成复杂任务”,他们主要从以下两个方面优化:

第一,在训练模式上, DeepSeek R1避开了传统监督微调(SFT)过程 ,这个过程原本是AI开发的标准步骤,通过引入标注好的数据来优化模型的指令跟随能力和应对具体任务的表现,被认为对提高推理能力至关重要。但DeepSeek跳过SFT转而选择依赖强化学习(RL)来训练模型, 简化了流程并可能提升模型在复杂任务中的表现。

再通俗些说, 传统方法就像教小孩学数学时先买习题册(SFT阶段),给大量标注好的例题,要求完全模仿标准答案;再请家教陪练(RL阶段),做题后由老师指出错误,调整解题思路 ;而 直接强化学习就像直接让孩子上考场(没有预先的例题背诵),每做错一道题,裁判立即用激光笔标出错误步骤(即时奖励信号) ,然后孩子通过不断试错,自己总结出最优解题策略;

第二, 传统大模型像全员待命的公司,每个问题都需要所有员工处理,效率低且耗电, 而DeepSeek采用了混合专家系统(MoE) ,相当于把员工分成多个“专家小组”,遇到问题时,只激活相关专家(如数学题只需数学组处理),其他小组休眠。这种设计大幅减少了单次计算量,降低了运行成本。

综合上述内容,你会发现DeepSeek无论在训练过程还是思考过程,都更接近人脑的学习和思考流程。 更多 的技术细节,深度感兴趣或专业的朋友可以去下载DeepSeek R1的公开论文↓

https://github.com/deepseek-ai/DeepSeek- R1/blob/main/DeepSeek_R1.pdf

另外, DeepSeek在之前已有的成熟大模型(如ChatGPT)基础上做了大量“蒸馏”工作 ,这也是为什么会有用户发现DeepSeek偶尔会出现和ChatGPT雷同的错误回答,或表示自己是ChatGPT。 我们可以用一个简单类比来解释蒸馏:

想象你有一个经验丰富的老师(比如ChatGPT),TA知道很多复杂问题的解法。而我们需要培养一个年轻学生(DeepSeek R1),虽然学生的"脑容量"没老师那么大,但可以通过以下方法学习精华:

1观察老师的解题过程 :老师每回答一个问题时,不仅给出答案,还会展示思考过程;

2提炼关键逻辑 :学生并不死记硬背老师的所有描述,而是学习老师判断重点的能力。

3用简化方式复现 :学生用更精炼的语言总结核心要点 - 将老师500字的解释浓缩成只有20字的逻辑链,同时保持准确性。

因此蒸馏的技术流程简单来说就是:先训练一个超大模型(教师模型)让教师模型对海量问题生成详细解答设计特殊训练方法;再让小模型(学生模型)既能学习标准答案,又能模仿教师模型的"思考习惯"最终得到一个更轻量但保持高性能的模型。

蒸馏的好处是降低计算资源消耗,保留大模型的推理能力。 蒸馏是目前行业普遍采用的高效训练方法,实际研发中往往会结合预训练、微调等多种技术手段共同优化模型性能, 所以DeepSeek老板梁文锋说“站在巨人的肩膀上”是客观准确的。


(2)实际成本可能高于宣传

我认为DeepSeek使用巧妙的算法优化节约大量训练成本是可信的,但仅通过算法就节约到只有同类模型训练成本的几十分之一水平是值得推敲的。

因为尽管DeepSeek模型权重和方法开源了,但是很关键的数据源是没公开的,所以具体成本是不是那么低很难验证。

另外从动机上看,我相信幻方在打造自己的大模型时会尽全力追求卓越,因此他有的算力大概率都会用上,幻方拥有的算力并不止V3版说明中的2048块H800。

要考察中国任何一家公司持有的英伟达GPU规模是一件困难的事,因为这些芯片在过去几年被严格禁售。不过我们还是可以根据历史公开信息来进行推测: 幻方成立AI公司是在2019年,当时投资了2亿元做训练平台“萤火一号”,搭载1100块GPU。

到了2021年,幻方的“萤火二号”就已经搭载了1万张英伟达A100。

从2021年到现在已经四年了,幻方的显卡增加了有多少我们难以得知。在美国禁售令的背景下,幻方 也不敢如实披露现有的算力情况。 亚历山大.王前两天表示据他所知幻方拥有50000张H100,马斯克表示认同,尽管这两位可能有些酸葡萄心理,而且这个数字可能有所夸张,但从幻方四五年前就拥有的GPU数量看,50000张H100并不是完全没有可能。

我们再看一个数据,英伟达截至2024年10月的单季营收351亿美元,其中77亿美元来自新加坡,占比21.9%,这个规模相对新加坡这样一个弹丸之地而言显然大到离谱, 为作为最大市场的美国,在这个季度对英伟达营收的贡献也不过148亿美元(占比42.1%),来自新加坡的营收就超过整个美国的一半,如果再算上中国大陆(包含香港)的营收,则新加坡+中国的营收已经接近美国,对应的大背景就是中美AI争霸。

中国对于GPU的需求非常大,即便在有所谓高端芯片禁售令的背景下,也难以挡住这些需求。

回到DeepSeek,其母公司幻方是中国除了几家互联网巨头外,唯一一个早年开始布局并持有大量GPU的公司。 早在2024年年中,DeepSeek发布 V2模型时, 这个模型就以物美价廉著称,被称为AI界的拼多多, 当时幻方创始人梁文锋在接受采访时也坦言: 短期内没有融资计划,我们面临的问题从来不是钱,而是高端芯片被禁运。

综合上述信息,我认为DeepSeek确实通过算法优化实现大幅度的成本削减, 但并不是在短时间内将训练成本减少1个甚至2个数量级这么多,而且DeepSeek母公司幻方拥有的GPU数量大概率远多于对外宣称的数量。


(3)杰文斯悖论

无论一个大模型节省了多少算力,算力的通缩都是长期趋势。 我们看看不远的历史就知道,GPT4级别token价格在一年半之内降到了之前的1/1000到1/100水平。

可以很确定地说,AI算力通缩是必然现象 ,根据历史经验,长期规律就是十年加速六个数量级:软件/算法加速三个数量级,硬件加速三个数量级。

再举个例子,我们假设人类所造的汽车,平均油耗高达百公里30升,然后技术逐渐进步到平均油耗百公里10升以内,那么这个时候全世界来自汽车的石油消耗是会增加还是会减小呢? 显然是增加的,因为汽车的燃油经济性提升,导致开车的人数量大幅增加。

这个案例和微软CEO纳德拉对于DeepSeek的评论是一个道理,他举出的杰文斯悖论是非常经典的经济学悖论。

在经济学中, 杰文斯悖论指的是当技术进步提高了使用资源的效率(减少任何一种使用所需的数量),但成本降低导致需求增加,令资源消耗的速度是上升而非减少。

如果DeepSeek在算力不足的情况下都能通过算法实现了这样强的大模型,那么一旦算力充足会怎样? 未来 的大模型只 会越来越强大,AGI 甚至可能提前实现, 届时 机器能够理解或学习人类能够执行的任何智力任务。

另外,DeepSeek的成功也离不开之前的大模型的存在,这些大模型本身还是需要大量算力训练。我们前文提到,蒸馏的第一步是 先训练一个超大模型(教师模型),对于DeepSeek来说,基于前人的努力,很大程度上节省了“教师模型”的训练成本。

无论如何,当下的 人类正在以空前的速度不断产生新数据,这决定了训练的算力需求永远都在,而伴随AI能力越来越强、应用场景越来越多,推理的算力需求将会大幅增长,未来 算力永远不会嫌多。

(4)市场反应

这两天来的市场反应让大多数人都感觉到出乎意料, 大模型的直接竞争者Meta股价连续创出历史新高;谷歌、微软、亚马逊等在算力上投入巨大的科技公司也表现不错, 其中亚马逊也在本周创出了历史新高。

1月27日的暴跌,我个人觉得只是市场借助这件事宣泄空头情绪,且不排除有各路资本利用DeepSeek洗盘的动机在里面 - 把不坚定的投资者洗走,然后自己在暴跌的过程中获取便宜的筹码。

我自己在1月27日英伟达暴跌的当天四次买入英伟达和台积电,在1月29日下跌期间继续两次补充。由于英伟达占比已经很大,以及我的美元现金不多,所以我力度不大,并且通过套现小部分TLT来换取暴跌后的台积电和英伟达。







请到「今天看啥」查看全文