专栏名称: 芋道源码
纯 Java 源码分享公众号,目前有「Dubbo」「SpringCloud」「Java 并发」「RocketMQ」「Sharding-JDBC」「MyCAT」「Elastic-Job」「SkyWalking」「Spring」等等
目录
相关文章推荐
芋道源码  ·  日常工作,MQ的8种常用使用场景 ·  昨天  
芋道源码  ·  年后面试的兄弟们注意了。。。 ·  昨天  
芋道源码  ·  Redis Plus 来了,性能炸裂! ·  昨天  
芋道源码  ·  DeepSeek+Spring有搞头么? ·  2 天前  
芋道源码  ·  腾讯开源:零代码、全功能、强安全 ORM 库 ·  3 天前  
51好读  ›  专栏  ›  芋道源码

关于DeepSeek的最新认知

芋道源码  · 公众号  · Java  · 2025-02-12 14:25

正文

👉 这是一个或许对你有用 的社群

🐱 一对一交流/面试小册/简历优化/求职解惑,欢迎加入 芋道快速开发平台 知识星球。 下面是星球提供的部分资料:

👉 这是一个或许对你有用的开源项目

国产 Star 破 10w+ 的开源项目,前端包括管理后台 + 微信小程序,后端支持单体和微服务架构。

功能涵盖 RBAC 权限、SaaS 多租户、数据权限、 商城 、支付、工作流、大屏报表、微信公众号、 ERP CRM AI 大模型 等等功能:

  • Boot 多模块架构:https://gitee.com/zhijiantianya/ruoyi-vue-pro
  • Cloud 微服务架构:https://gitee.com/zhijiantianya/yudao-cloud
  • 视频教程:https://doc.iocoder.cn
【国内首批】支持 JDK 17/21 + SpringBoot 3.3、JDK 8/11 + Spring Boot 2.7 双版本

来源:AI大模型实验室


知名播客主持人 Lex Friedman 在他最新一期的播客中,邀请了半导体分析公司 Semi Analysis 创始人 Dylan Patel 和知名 AI 博客 Interconnects 作者 Nathan Lambert,围绕 AI 行业的发展,特别是深度学习的训练、推理成本、技术突破以及地缘政治影响展开讨论,重点讨论了 DeepSeek 模型以及与之相关的技术细节和市场影响。这期博客长达 5 小时,我从里面摘录了一些关键信息。

YouTube 链接:https://www.youtube.com/watch?v=_1f-o0nqpEI

1、 DeepSeek 时刻绝对会载入史册 —— 五年后回头看,这个事件不仅是科技圈的里程碑,更牵扯到大国之间的博弈。2024 年 12 月 26 号 DeepSeek 先发了 V3 版本,接着 2025 年 1 月 20 号直接甩出王炸 R1—— 这是个专门强化逻辑推理的版本。虽然训练步骤和 V3 有重叠,但操作很有意思:先用 V3 基础版做对话训练,再用不同方法调教出推理加强版,这个操作把技术宅们都看懵了。

2、DeepSeek 怎么把训练成本压得那么低的?其实他们有两个原因,第一是 “AI 特工队分工协作”,即 混合专家模型 MoE ,把大模型拆成多个专项小组,每次完成任务时需要谁就呼叫谁,平时谁也不搭理谁,只有需要时才互相配合。第二是 “动态节能模式”,即 多头潜在注意力(MLA)机制 ,通过低秩联合压缩技术,减少推理时的键值(KV)缓存,从而在保持性能的同时降低内存占用。

3、DeepSeek 其实是幻方量化(High-Flyer) 这家对冲基金的作品。幻方量化成立于2015年,主要做量化交易(就是用数学模型和 AI 自动炒股)。他们一直以来都拥有大量的计算资源,过去量化交易公司一般使用 FPGA 这种专门的硬件,但最近已经全面改用 GPU,因为 GPU 在 AI 训练和计算方面更有优势。

4、美国政府对芯片出口有严格限制。最初是根据芯片的互联带宽和算力(FLOPS)来进行限制,只要某个芯片的互联带宽和算力超过了一定的阈值,就会限制出口。后来发现这种限制有缺陷,马上就改为只看算力。例如 H800 的算力和 H100 相同,但它的互联带宽被削减了。也就是说 H800 虽然算力和 H100 相当,但数据传输速度比较低。尽管如此,DeepSeek 团队依旧充分发挥 GPU 的性能,利用一些特殊技术克服了带宽限制,使 H800 也能有效工作。

5、通用人工智能(AGI)未来几年肯定能会疯狂发展,DeepSeek R1 的出现并不意外,以后肯定还会出现新范式,推动技术发展。 DeepSeek R1 之所以让人不安,是因为它的出现改变了原来大模型的构建方式 ,这种突变让人感到不安,让人无法预测下一步会是什么样子的。

6、如果 AI 在未来五到十年,或者更短时间内对社会产生重大变革,那么出口管制是唯一可能有力改变中美实力对比的手段。因为人才并非是限制发展的主要瓶颈,美国虽然可以吸引全球的优秀 AI 人才,但中国的 STEM(科学、技术、工程、数学)毕业生和程序员数量更多,人才储备不输美国。只能通过算力来限制中国发展了。

7、中国政府虽然还没有感受到通用人工智能(AGI)的全貌,但已经意识到 AI 的重要性了,中国政府已经宣布规模达万亿元人民币的 AI 补贴计划。这种情况可能会导致出现新的冷战,许多 AI 领域的人早就担心这种对抗的出现了。

8、世界和平与自由贸易对经济发展非常有利,但如果这种稳定被打破,全球经济可能会受到巨大冲击。特别是中国经济,因其依赖出口,而美国又是主要买家。如果出口受阻,中国将无法轻易获取全球范围的原材料,这样会直接影响中国经济。

9、 半导体已经成为现代经济的关键基石。 现代生活水平的提高几乎都和科技有关。比如和生活息息相关的汽车、冰箱、洗衣机等设备都离不开半导体。

10、在半导体全球供应链中,台积电扮演着核心角色。台积电生产了全球大部分的芯片,尤其是 “代工” 芯片。很多公司(如高通、苹果、AMD 等)能自己设计芯片,但生产还得找台积电,即使三星、英特尔等企业也能自己生成芯片,但是台积电依然是全球最大的芯片代工厂。

11、 美国希望减少对台积电的依赖,并试图让台积电在美国建厂。 通过这种方式,半导体供应链将更加分散和可靠,而不是单纯集中在台湾。

12、美国当前的出口管制对全球许多国家和地区都会产生负面影响,中国也不例外。在这样的政策下,中国失去了过去那样的硬件优势。

13、H800 在 2023 年是允许出口的,但后来限制了。其实在限制前,DeepSeek 已经建好了他们的集群,他们可能有 1 万个 H800。现在 H20 是允许出口的,去年大概向中国出口了一百万个 H20 芯片。从技术角度看,H20 和之前的型号相比,有一些 “阉割” 过的部分,但在其他方面有所升级,尤其是在不受限制的计算能力和深度学习任务上,依然能保持较强的表现。目前市场上,尤其是在中国,H20 是一个非常重要的产品。

14、DeepSeek R1 发布后,他们的聊天应用在 App Store 上迅速登顶(虽然 “登顶” 主要指下载增长速度,而非用户总数), 这是一个了不起的成绩 ,毕竟类似的 Claude 从未达到过 App Store 第一名,尽管硅谷有不少人力推 Claude。

15、DeepSeek 最近还推出了 API 服务,可以返回超长的 R1 结果。更重要的是,R1 模型是开源的,并采用了非常宽松的 MIT 许可,允许商业使用。这个开放的策略使得大中小型公司纷纷在争先恐后地将 R1 整合到他们的产品中,尽可能早地为自己的用户提供 R1 的能力。 DeepSeek 成为了 AI 行业中一个越来越重要的玩家,也让它在商业领域的影响力迅速扩大。

16、当前市场上这些声称提供 R1 服务的公司,大多数的收费都比 DeepSeek 高,而且他们服务质量普遍不佳:吞吐量低、性能差,仅仅 “勉强能用”。相比之下,DeepSeek R1 不仅价格更合理,而且实际运行效果也更优。这就是 DeepSeek 的优势。

17、马克·扎克伯格在财报电话会上提到,随着中国的竞争者 DeepSeek 的出现,全球可能会形成一个开源的 AI 标准。 出于国家竞争优势的考虑,他认为这个标准最好是由美国主导的。 因此,他表示公司会非常认真地对待这一目标,并致力于开发全球广泛使用的 AI 系统。

18、扎克伯格一贯坚持 “美国价值观”,尤其是在当前全球科技竞争日益激烈的背景下,直言美国标准的重要性,他还指出即使是开源的 AI 标准也存在被 “恶意利用” 的可能, 开源并不代表完全安全,仍需要通过努力确保其不被滥用。

19、关于 AI 模型的 “审查” 或 “对齐”,通常有三种形式,第一是一些敏感信息会在训练模型时就被要求过滤掉,第二是一些特定功能会被限制使用,第三是通过人类反馈强化学习调整模型的回答方式。

20、“审查” 或 “对齐” 一般发生在下面三个时间段,第一个是在训练大模型前就过滤掉了某些信息,大模型永远也不知道这些知识;第二是训练后再调整,通过后期优化或强化学习,引导模型给出特定类型的回答;第三个是在模型部署后,通过外部规则或拦截机制进行限制。

21、 深度学习中,强化学习(试错学习)通常比模仿学习更能带来惊人突破。 AlphaGo 从模仿学习起步,最终通过强化学习实现超越。AlphaZero 完全抛弃人类数据,证明了去除人类经验限制能让模型更强大。思维链不是通过模仿学习能轻易学到的。因为模型和人类的思维方式不同,只有通过强化学习,模型才能逐步探索出真正有效的解决方法。

22、最近 OpenAI 发布了 o3 Mini,让人们开始对不同模型版本的能力有所期待。这些推理模型的开发主要集中在通过数学和代码任务来强化模型的推理能力。

23、现在训练大模型,通常是,先利用大规模的数据对基础模型进行训练。然后,通过强化学习(RL)加强模型的推理能力。DeepSeek 的研究论文(R1 论文)还描述了如何在完成大规模推理训练后,采用一些非常标准的后期训练技术,比如经过筛选的指令调教或者强化学习中的人类反馈(RLHF)来进一步优化模型。通过这些方法,模型在推理任务上表现得非常优秀,特别是在需要深度思考的情况下,比如哲学问题。

24、不过,现在还有一个问题没有答案,就是这些推理能力是否能轻松迁移到其他领域?比如,经过推理训练的模型,是否也能成为更出色的文字工作者?这还需要进一步研究和验证。

25、DeepSeek R1 模型的发布直接导致了 NVIDIA 的股价大幅下跌。这个现象的简单解读是, R1 模型的发布可能意味着大公司在 AI 上的花费不再需要那么高,特别是在 AI 模型训练和部署方面 。市场的直觉反应是,如果 DeepSeek 能够以更低成本提供高质量的模型,那么英伟达的主要客户(像美国的那些科技巨头)可能会减少在 AI 硬件上的支出。

26、市场上还存在许多错误的说法。例如,有人认为 DeepSeek 或其他公司已经花费了数十亿美元来开发单一模型,但事实并非如此。截至目前,没有一家公司公开发布的模型训练成本超过十亿美元,GPT-4 的训练成本也不过是几亿美元。虽然未来可能会有更高成本的模型发布,但实际支出要比外界传言低得多。

27、当前,中国公司使用美国托管的模型 API 并不困难。 像 OpenAI 就公开声明,DeepSeek 曾使用他们的 API。 DeepSeek 是否通过这种方式获取了模型输出并进行二次训练,目前仍存在争论。OpenAI 的服务条款限制用其模型输出开发竞争产品,关键问题在于,如何界定 “竞争产品” 这个词。

28、超级集群规模非常巨大,比传统的数据中心要大得多。过去几十年,数据中心的电力消耗慢慢增加,到现在大概占美国总能源消耗的 2% 到 3%,但是 AI 公司认为,在未来几年,这个数字可能会飙升到 10%!他们需要的计算能力远远超过传统的数据中心规模,因此他们在全球范围内在建设这些巨大的集群来支持他们的 AI 需求。

29、现在,Google 依然因为基础设施强大在 AI 竞赛中占据领先地位,但 OpenAI 因其更强大的模型和收入,成了当前的领头羊。微软是最赚钱的,但他们的支出也非常大。Meta 通过 AI 推荐系统赚了很多钱,但他们的 LLaMA 项目是亏损的。像 OpenAI 和 Anthropic 这些公司也赚到了一些钱,但由于需要不断进行高成本的研究,他们仍然需要融资,以支持技术的提升和扩展。 总的来说,AI 的研发是非常昂贵的,尤其是在人力和技术研究上。







请到「今天看啥」查看全文