DeepSeek 无疑是 2025 年春节期间的焦点,从 App 登顶苹果商店免费榜、到各个云厂商争相部署 DeepSeek-R1,DeepSeek 甚至成了很多人第一次体验的 AI 产品。而对于创业者来说,从技术创新点的讨论、训练和推理成本的分析到对整个 AI 行业的影响等,大家都在聊。
2 月 2 日,Founder Park 和同为极客公园旗下的全球化闭门社区 Global Ready 组织了一场闭门讨论,邀请了硅谷、国内、伦敦、新加坡、日本等地 AI 公司的 60 余位创始人与技术专家,从技术创新、产品落地、算力紧缺等角度,对 DeepSeek 引发的技术新方向和产品趋势,进行了一场深度探讨。
在脱敏处理后,我们整理了本次闭门讨论的要点内容。
Global Ready Community 是极客公园孵化的全球创新者社区,与世界顶尖创新者共同探索科技的无限可能。
社区会员可享受:高效链接海外 500+ 位创始人 & 技术专家 & 投资人,闭门活动入场券等权益,我们希望成为你链接世界的高效率 API。申请加入社区可以点击「原文链接」或者在我们公众号后台留言:加入 GR 社区。
想参加 Founder Park 的更多 AI 创业交流活动,可以添加我们的小助手
01
DeepSeek 的创新在哪里?
DeepSeek 于 12 月底发布了 V3 基座模型,是业界目前开源的最强大的模型之一,包含 37B 激活参数,整体参数规模为 671B,是一个大型 MoE(混合专家)模型。
2025 年 1 月份发布的 R1 模型的「Aha moment」指的是当模型在进行推理时能够表现出一定的反思能力。例如,在解决问题过程中,模型可能会意识到某种方法不再适用,并在过程中调整为更有效的方法。这种反思能力源自强化学习(RL)。
R1 是 DeepSeek 的旗舰模型,R1 在推理能力方面与 OpenAI o1 相当,具体的实现方法可以总结为:R1 通过两步强化学习和两步 SFT,前两步的 RL 和 SFT 主要用于构建一个数据生成的教师模型,去指导第三步的数据生成。这个模型致力于成为目前最强大的推理模型。
-
DeepSeek R1-Zero 模型的核心创新在于跳过了传统的微调(SFT)过程,直接通过强化学习(RL)进行推理优化。此外,用 DeepSeek R1 作为教师模型,去蒸馏一个开源的中小模型(如 Qwen1.7B/7B/14B/32B),能够显著提升小模型的能力。
-
代码能力,DeepSeek 的 R1 和 openAI 刚出的 o3 mini 不相上下,整体能力 o3 mini 稍强一些。不同之处在于 R1 是开源的,会刺激更多应用方使用 R1。
-
DeepSeek 成功的核心在于用一个高度集成化的工程方案把价格打下来。把他们的方法拆开来看,每个方法都能够在去年的论文上找到,而 DeepSeek 则会非常激进地使用最新的方法。这些方法本身其实会有副作用,会带来额外的存储开销,但对降低集群的空转率有极大提升。
-
如果不是一个大规模集群,去给大规模的人服务的模型,MLA 架构反而会有副作用。DeepSeek 大量的方法如果不在特定的场景和环境下去做,达不到最大的性能优化,单独使用这些技术反而会有副作用。他们的系统设计是非常精巧的,精巧到但凡把这些技术单独拿出来做,都产生不了他们这样的效果。
-
不应该仅仅训练一个过程奖励模型(process reward model),因为如果只训练这种模型,最终的效果可能无法达到预期,甚至会导致过拟合。DeepSeek 选择了最原始的强化学习方法,通过启发式规则来对最终结果进行评分,然后利用传统的强化学习方法对过程进行修正。他们选择的这种方法也是在不断的试错中做出来的,这得益于 DeepSeek 有足够高效的 infra。
-
即使 DeepSeek 没有公开其推理代码,其他团队也可以大概推出来用了哪些方法。开源的模型权重已经足够让其他团队复现其性能,但困难在于怎么把里面的一些特殊配置试出来,这个需要时间。
-
只依赖数据标注的奖励模型,很难达到 super human intelligence 的能力。需要一个基于真实数据或真实环境反馈的真实奖励模型,才能实现更高级的奖励优化,从而产生超人类智能的能力。
-
技术角度的推测:如果基座模型本身具有较强的通用性,再加上数学和代码的能力,两个部分的结合就会产生更强的泛化能力。比如有一个比较智能的基座模型,假设这个模型在写作方面已经不错了,那么结合一些数学和代码的强化学习,它有可能实现良好的泛化,最终产生一些非常强的能力。具体表现为它能写出从骈文到绝句律诗等各种体裁的作品,而其他几家模型在这个方面则不太行。
02
为什么 DeepSeek 的成本这么低?
-
模型的稀疏度非常高。尽管这是一个超过 600B 参数的大模型,但在推理的时候,每个 token 的实际激活参数非常小,只有 37B,意味着它在推理时的速度和资源消耗相当于一个 37B 参数的模型。但要实现这一点,需要对整个系统进行大量的设计改动。
-
在 DeepSeek V3 中,MoE 架构包含 256 个专家模块,但每次推理时只激活其中的一小部分。在高负载情况下,它可以动态调整资源使用率,理论上可以将成本压缩到原来的 1/256。这种设计体现了 DeepSeek 在软件架构上的前瞻性。如果系统优化做的足够好,在同样的量级下,价格就能大幅降低。
-
模型训练时一般会有三把斧,也就是在三个维度上做并行切分。第一个是数据层面做切分并行,这个叫 Data Parallelism。第二个是在模型层面,因为模型的各层之间是相互独立的,所以会在这方面做切分,这个叫 Pipeline Parallelism。第三个是对模型的权重做切分,分配到不同的 GPU 上,这个叫 Tensor Parallelism。为了配合稀疏模型设计,DeepSeek 对训练框架和管线做了大量调整,在训练过程中摒弃了 Tensor Parallelism,只使用了 Data Parallelism 和 Pipeline Parallelism,并在此基础上进行了更为精细的专家并行(Expert Parallelism)。通过对专家数量(多达 256 个专家)进行精细划分,将不同的专家分配到不同的 GPU 上。此外,DeepSeek 舍弃了 Tensor Paralleism,可以绕过硬件限制,使得 H800 和 H100 在训练效能上接近。
-
在模型部署方面,实验表明,其算力成本可控,且技术难度并不高,通常只需一到两周的时间就能完成复现,这对于许多应用开发者来说是非常有利的。
-
一个可能的模型架构:让 reasoning RL 不再局限于大语言模型本身,而是在外面加一个 thinking machine,来完成整个推理能力,这样整体成本还能下降好几个数量级。
03
Chatbot 不一定
会是用户的第一款 AI 产品
-
DeepSeek R1 的成功不仅在于其推理能力,还在于其结合搜索功能,reasoning model+搜索某种程度上相当于一个 micro agent 的框架。对于大多数用户来说,这是他们第一次体验推理模型。对于已经使用过其他推理模型(如 OpenAI 的 o1)的用户来说,结合搜索功能的 DeepSeek R1 又是一种全新的体验。
-
对于没有使用过 AI 产品的用户,他们的第一款 AI 产品不一定是 ChatGPT 这样的语言交互类产品,可能是由模型驱动的另外一个场景下的产品。
-
AI 领域应用型公司的竞争壁垒在于产品体验。谁能做得更快、更好,提供让用户觉得更舒适的功能,谁就能在市场中占据竞争优势。
-
目前能够看到模型呈现出的思考过程是一个令人满意的设计,但它更像是用强化学习(RL)来提升模型能力的一个比较早期的工作。推理过程的长度并不是衡量最终结果正确性的唯一标准,未来会从复杂的长推理过程转向更简洁的短推理过程。
04
垂直场景 AI 落地更容易了
-
对于相对垂直的任务(vertical task),任务评估可通过规则系统(rule system)完成,不需要依赖复杂的奖励模型(rewarding model)。在设定好的垂直任务上,类似 Tiny Zero 或者是 7B 的模型能够快速得到可用结果。
-
在一个设定好的垂直任务上,用 DeepSeek 蒸馏过的 70 亿参数或更大的模型做训练,能够快速得到「aha moment」。从成本角度看,在 7B 模型上做简单算术题或 21 点等有明确答案的任务,只需要 2-4 张 H100 或 H200,花不到半天时间,模型即可收敛到可用状态。
-
在垂直领域,尤其是在处理有明确答案的任务,如数学计算、物理规则判断(物品摆放、运动是否符合规律),DeepSeek R1 的效果确实比其他模型好且成本可控,因此可以将其应用在广泛的垂直领域。不过,在没有明确答案的任务中,比如判断某样东西是否美观,或者某个答案是否让人开心,这种主观性较强的评估无法通过基于规则(rule-based)的方法很好地解决。这方面可能需要等待三个月、半年,直到有更好的方法出现来解决这些问题。
-
使用监督微调(SFT)或类似方法时,很难解决耗时的数据集查询,且这些数据集的领域分布(domain distribution)往往难以全面覆盖任务的所有层级。现在有了一个新的、更好的工具库,配备一个高质量模型,可以解决过去数据收集困难和有明确答案的垂直任务。
-
仅仅基于规则系统(rule-based),虽然数学和代码可以定义出比较明确的规则,但如果要应对更复杂或者更开放的任务,依赖规则系统会变得非常困难。所以大家最终可能会探索出更合适的模型,用来评估这些复杂场景的结果。可能会采用 ORM(结果导向的奖励函数)而不是 PRM(过程导向的奖励函数)的方法,或者探索其他类似的方法。最终,可能会构建出类似「世界模型」的模拟器,为各种模型的决策提供更好的反馈。
-
用小模型去训练推理能力的时候,甚至不需要依赖基于 token 的解决方案。在某个电商方向的解决方案中,直接将整个推理能力从基于 Transformer 的模型中剥离出来,使用另一个小模型来完成所有的推理工作,结合 Transformer 来实现整个任务。
-
对于那些研发模型是为自己所用的公司(如对冲基金),挑战在于成本问题。大公司可以通过拉客户摊平成本,但小团队或公司难以承受高昂的研发成本。DeepSeek 的开源对他们的意义重大,相当于之前无法承担高昂研发成本的团队现在也能够搭建模型了。
-
在金融领域,尤其是量化基金中,通常需要分析大量财务数据,例如公司财报和 Bloomberg 数据等。这些公司通常会构建自己的数据集并进行监督训练(supervised training),但数据标注的成本非常高。对于这些公司而言,强化学习(RL)在微调(fine-tuning)阶段的应用,可以显著提升模型性能,实现质的飞跃。
05
国产芯片有望解决推理算力问题
06
更强大的 Agent 、
以及跨应用调用能力
-
对于很多垂直领域来说,agent 的能力会有较大的提升。可以先拿出一个基础模型,把一些规则做成规则模型(rule model),这个规则模型可能是一个纯粹的工程解决方案(pure engineering solution)。然后,可以用这个工程解决方案来让基础模型在上面进行迭代(iteration)和训练(training)。你可能会得到一个结果,这个结果已经出现一些超人类智能(super human intelligence)的能力。在这个基础上,再进行一些偏好调整(preference tuning),让它的回答更加符合人类的阅读习惯(human-readable),这样你可能就能得到一个在某个垂直领域上更强大的推理 agent;