专栏名称: 人工智能学家
致力成为权威的人工智能科技媒体和前沿科技研究机构
目录
相关文章推荐
爱可可-爱生活  ·  【[52星]N8loom:基于树结构的前缀缓 ... ·  2 天前  
爱可可-爱生活  ·  【Stanford CS236 Deep ... ·  2 天前  
黄建同学  ·  学习-20250205192620 ·  2 天前  
机器之心  ·  AI「视觉图灵」时代来了!字节OmniHum ... ·  2 天前  
量子位  ·  DeepSeek华为火线联手!硅基流动首发即 ... ·  5 天前  
51好读  ›  专栏  ›  人工智能学家

DeepSeek利空算力?

人工智能学家  · 公众号  · AI  · 2025-01-26 16:19

正文

来源:信息平权

其实具体逻辑,从12月deepseek v3到这周的r1,我们前前后后分析过很多次了,不妨总结梳理下
1. 海外广泛引用的550万美金是v3,而不是r1的训练成本,且550万只是v3实际训练成本的零头。 v3 论文原话: 上述成本仅包括DeepSeek-V3 的正式训练,不包括与架构、算法、数据相关的前期研究、消融实验的成本 。社群内一位算法工程师就曾说“v3 用了幻方自己的r1模型生成数据 ,这个部分的反复尝试要不要算在成本里呢?”一个意思。
2. 前沿探索和后发追赶,所需要的算力本就不是一个量级。表现为 训练同一代模型所需算力每隔N个月就是指数级降低。原因包括 算法本身的进步(FP8、混合MoE)、算力的持续通缩、复现方法如蒸馏等对数据的浓缩。 最关键的是,探索就意味着会有浪费,而后发追赶“站在巨人肩膀上”本就可以规避浪费。 就比如o1的训练成本肯定远超GPT-4,幻方r1的训练成本肯定也超过v3。而从o3到o4/o5,从r1到r2/r3,训练算力只会更多。
3. 单次训练降本了,不代表整体训练成本会下降。 训练效率提高,实验室就减少投入吗?不会, 真实逻辑是:基于更高效率,榨干算力,去攫取更大收益 。就 拿幻方来说,infra优化降本能力这么强、提前囤卡也挺多、没怎么扩张 API服务专注于研究与训练的情况下 ,依然还在缺卡。 横向对比之下,北美某些花了更多钱的实验室,的确显得很尴尬...但他们之后就降本增效吗?不会。消化吸收幻方开源的方法+比幻方多得多的算力=攫取智能的更大提升。训练算力最应该担心的是撞墙,算力使用效率提高,反而可能是提高了模型本身的天花板。
4. 幻方代表的是整个开源相对闭源的一次胜利。 对社区的贡献会快速转化为整个开源社区的繁荣。如果真的说利空的Loser,那可能是闭源模型。中国这一点已经提前经历了,被Llama支配的恐惧,跑不过Llama3的中国闭源模型公司被迫倒闭、转应用、转开源。而今天中国开源打到了北美闭源...如果现在还不如r1(以及即将到来的r2 r3),那这家公司的API价值基本归0。 但说实话这个过程的确会让模型训练参与方快速缩减。
5. 最关键的,以上讨论都是训练,而未来显然更大需求来自 推理 。有一点被大家忽略了, 幻方对推理成本的消减,比训练来的更为震撼。 今天大家都看到了 AMD宣布支持幻方v3 ,用我们嘉宾Y博的话就是:DeepSeek架构的优雅之处就在于,和标准的transformer架构比较起来, 并没有引入特殊的算子。理论上可以相对轻松支持各种类型卡...(这也是被GPU禁运逼出来的)大家体会下这句话的分量,以及对于CUDA的启示...幻方这帮人都是手撸算子的天才...
推理成本降低,对算力是利好还是利空?比训练更好理解。请对比:刚推出来贵到没人用的 o1 ,以及掀起API价格战之后的 豆包。 推理成本的降低大概率会带来应用的繁荣,反而会拉动更大的算力需求。
这里再引用下星球Y博的评论,现在回头看非常前瞻: DeepSeek-V3将支持私有部署和自主微调,为下游应用提供远大于闭源模型时代的发展空间。 未来一两年, 大概率将见证更丰富的推理芯片产品、更繁荣的LLM应用生态。
6. 如何平衡 北美仍在疯狂的基建,和过去浪费的投资? 美国的确 CSP仍在疯狂抢电,都抢到2030年去了 。其实各大CSP过去2年千亿美金砸下去,没有一家单纯是为了训练,基本都是自身业务需求+推理业务增长驱动。只有微软为OpenAI准备的算力credit、AWS算力租赁给了下游客户用于训练、Meta/xAI部分算力用于自身训练,但算力大头都是因为自身的推荐系统业务/自动驾驶业务本身需求。以及微软已经相当于拒绝了Sam Altman继续All in的诉求,转而聚焦回报更确定的推理(Satya亲口这么说)。
因此幻方这件事对北美CSP来说,客观来讲,过去某些训练投入的确是打水漂了。为冒险、探索新市场付出的必要成本。但看未来,开源的整体繁荣一定最终是利好这些“中间商”。之前我们阐述过,他们其实不是亲自冒险的矿工,他们只是铲子的搬运工,以及基于这些模型(无论开源or闭源)建立更具商业价值的应用生态。卡并不只是用于训练, 越来越大比例会挪到推理 。假如训练的高效让模型更快进步,应用生态更加繁荣,他们怎么可能不继续投呢?
最后,继续引用下《the bitter lesson》:长远来看, 算力才是真正的决胜因素 。历史的经验一次又一次地告诫我们,AI研究者常常试图将人类的知识灌输到AI算法中,这种做法在短期内通常有效,并且带来个人成就感和虚荣心。但长远来看,它会造成瓶颈,甚至阻碍进一步发展。最终的突破性进展往往源于一种截然不同的思路,即通过 搜索 学习 来扩展 算力规模 。而那些最终的成功往往伴随着苦涩,难以被下咽,因为算力的成功,意味着对我们以人类为中心的固有思维和虚荣心,是一记响亮的耳光。

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828


未来知识库 是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。 目前拥有超过8000 篇重要资料。 每周更新不少于100篇世界范围最新研究 资料 欢迎扫描二维码或访问 https://wx.zsxq.com/group/454854145828 进入。



截止到12月25日 ”未来知识库”精选的100部前沿科技趋势报告

  1. 2024 美国众议院人工智能报告:指导原则、前瞻性建议和政策提案

  2. 未来今日研究所:2024 技术趋势报告 - 移动性,机器人与无人机篇

  3. Deepmind:AI 加速科学创新发现的黄金时代报告

  4. Continental 大陆集团:2024 未来出行趋势调研报告

  5. 埃森哲:未来生活趋势 2025

  6. 国际原子能机构 2024 聚变关键要素报告 - 聚变能发展的共同愿景

  7. 哈尔滨工业大学:2024 具身大模型关键技术与应用报告

  8. 爱思唯尔(Elsevier):洞察 2024:科研人员对人工智能的态度报告

  9. 李飞飞、谢赛宁新作「空间智能」 等探索多模态大模型性能

  10. 欧洲议会:2024 欧盟人工智能伦理指南:背景和实施

  11. 通往人工超智能的道路:超级对齐的全面综述

  12. 清华大学:理解世界还是预测未来?世界模型综合综述

  13. Transformer 发明人最新论文:利用基础模型自动搜索人工生命

  14. 兰德公司:新兴技术监督框架发展的现状和未来趋势的技术监督报告

  15. 麦肯锡全球研究院:2024 年全球前沿动态(数据)图表呈现

  16. 兰德公司:新兴技术领域的全球态势综述

  17. 前瞻:2025 年人形机器人产业发展蓝皮书 - 人形机器人量产及商业化关键挑战

  18. 美国国家标准技术研究院(NIST):2024 年度美国制造业统计数据报告(英文版)

  19. 罗戈研究:2024 决策智能:值得关注的决策革命研究报告

  20. 美国航空航天专家委员会:2024 十字路口的 NASA 研究报告

  21. 中国电子技术标准化研究院 2024 扩展现实 XR 产业和标准化研究报告

  22. GenAI 引领全球科技变革关注 AI 应用的持续探索

  23. 国家低空经济融创中心中国上市及新三板挂牌公司低空经济发展报告

  24. 2025 年计算机行业年度策略从 Infra 到 AgentAI 创新的无尽前沿

  25. 多模态可解释人工智能综述:过去、现在与未来

  26. 【斯坦福博士论文】探索自监督学习中对比学习的理论基础

  27. 《机器智能体的混合认知模型》最新 128 页

  28. Open AI 管理 AI 智能体的实践

  29. 未来生命研究院 FLI2024 年 AI 安全指数报告 英文版

  30. 兰德公司 2024 人工智能项目失败的五大根本原因及其成功之道 - 避免 AI 的反模式 英文版

  31. Linux 基金会 2024 去中心化与人工智能报告 英文版

  32. 脑机接口报告脑机接口机器人中的人机交换

  33. 联合国贸发会议 2024 年全球科技创新合作促发展研究报告 英文版

  34. Linux 基金会 2024 年世界开源大会报告塑造人工智能安全和数字公共产品合作的未来 英文版

  35. Gartner2025 年重要战略技术趋势报告 英文版

  36. Fastdata 极数 2024 全球人工智能简史

  37. 中电科:低空航行系统白皮书,拥抱低空经济

  38. 迈向科学发现的生成式人工智能研究报告:进展、机遇与挑战

  39. 哈佛博士论文:构建深度学习的理论基础:实证研究方法

  40. Science 论文:面对 “镜像生物” 的风险

  41. 镜面细菌技术报告:可行性和风险

  42. Neurocomputing 不受限制地超越人类智能的人工智能可能性

  43. 166 页 - 麦肯锡:中国与世界 - 理解变化中的经济联系(完整版)

  44. 未来生命研究所:《2024 人工智能安全指数报告》

  45. 德勤:2025 技术趋势报告 空间计算、人工智能、IT 升级。

  46. 2024 世界智能产业大脑演化趋势报告(12 月上)公开版

  47. 联邦学习中的成员推断攻击与防御:综述

  48. 兰德公司 2024 人工智能和机器学习在太空领域感知中的应用 - 基于两项人工智能案例英文版

  49. Wavestone2024 年法国工业 4.0 晴雨表市场趋势与经验反馈 英文版

  50. Salesforce2024 年制造业趋势报告 - 来自全球 800 多位行业决策者对运营和数字化转型的洞察 英文版

  51. MicrosoftAzure2024 推动应用创新的九大 AI 趋势报告

  52. DeepMind:Gemini,一个高性能多模态模型家族分析报告







请到「今天看啥」查看全文