中美 AI 创业者的闭门讨论：DeepSeek-R1 之后，AI 创业的变化和新趋势

Founder Park · 公众号 · · 2025-02-11 19:14

正文

DeepSeek 无疑是 2025 年春节期间的焦点，从 App 登顶苹果商店免费榜、到各个云厂商争相部署 DeepSeek-R1，DeepSeek 甚至成了很多人第一次体验的 AI 产品。而对于创业者来说，从技术创新点的讨论、训练和推理成本的分析到对整个 AI 行业的影响等，大家都在聊。

2 月 2 日，Founder Park 和同为极客公园旗下的全球化闭门社区 Global Ready 组织了一场闭门讨论，邀请了硅谷、国内、伦敦、新加坡、日本等地 AI 公司的 60 余位创始人与技术专家，从技术创新、产品落地、算力紧缺等角度，对 DeepSeek 引发的技术新方向和产品趋势，进行了一场深度探讨。

在脱敏处理后，我们整理了本次闭门讨论的要点内容。

关于Global Ready ：

Global Ready Community 是极客公园孵化的全球创新者社区，与世界顶尖创新者共同探索科技的无限可能。

社区会员可享受：高效链接海外 500+ 位创始人 & 技术专家 & 投资人，闭门活动入场券等权益，我们希望成为你链接世界的高效率 API。申请加入社区可以点击「原文链接」或者在我们公众号后台留言：加入 GR 社区。

想参加 Founder Park 的更多 AI 创业交流活动，可以添加我们的小助手

01 DeepSeek 的创新在哪里？

DeepSeek 于 12 月底发布了 V3 基座模型，是业界目前开源的最强大的模型之一，包含 37B 激活参数，整体参数规模为 671B，是一个大型 MoE（混合专家）模型。

2025 年 1 月份发布的 R1 模型的「Aha moment」指的是当模型在进行推理时能够表现出一定的反思能力。例如，在解决问题过程中，模型可能会意识到某种方法不再适用，并在过程中调整为更有效的方法。这种反思能力源自强化学习（RL）。

R1 是 DeepSeek 的旗舰模型，R1 在推理能力方面与 OpenAI o1 相当，具体的实现方法可以总结为：R1 通过两步强化学习和两步 SFT，前两步的 RL 和 SFT 主要用于构建一个数据生成的教师模型，去指导第三步的数据生成。这个模型致力于成为目前最强大的推理模型。

DeepSeek R1-Zero 模型的核心创新在于跳过了传统的微调（SFT）过程，直接通过强化学习（RL）进行推理优化。此外，用 DeepSeek R1 作为教师模型，去蒸馏一个开源的中小模型（如 Qwen1.7B/7B/14B/32B），能够显著提升小模型的能力。
代码能力，DeepSeek 的 R1 和 openAI 刚出的 o3 mini 不相上下，整体能力 o3 mini 稍强一些。不同之处在于 R1 是开源的，会刺激更多应用方使用 R1。
DeepSeek 成功的核心在于用一个高度集成化的工程方案把价格打下来。把他们的方法拆开来看，每个方法都能够在去年的论文上找到，而 DeepSeek 则会非常激进地使用最新的方法。这些方法本身其实会有副作用，会带来额外的存储开销，但对降低集群的空转率有极大提升。
如果不是一个大规模集群，去给大规模的人服务的模型，MLA 架构反而会有副作用。DeepSeek 大量的方法如果不在特定的场景和环境下去做，达不到最大的性能优化，单独使用这些技术反而会有副作用。他们的系统设计是非常精巧的，精巧到但凡把这些技术单独拿出来做，都产生不了他们这样的效果。
不应该仅仅训练一个过程奖励模型（process reward model），因为如果只训练这种模型，最终的效果可能无法达到预期，甚至会导致过拟合。DeepSeek 选择了最原始的强化学习方法，通过启发式规则来对最终结果进行评分，然后利用传统的强化学习方法对过程进行修正。他们选择的这种方法也是在不断的试错中做出来的，这得益于 DeepSeek 有足够高效的 infra。
即使 DeepSeek 没有公开其推理代码，其他团队也可以大概推出来用了哪些方法。开源的模型权重已经足够让其他团队复现其性能，但困难在于怎么把里面的一些特殊配置试出来，这个需要时间。
只依赖数据标注的奖励模型，很难达到 super human intelligence 的能力。需要一个基于真实数据或真实环境反馈的真实奖励模型，才能实现更高级的奖励优化，从而产生超人类智能的能力。
技术角度的推测：如果基座模型本身具有较强的通用性，再加上数学和代码的能力，两个部分的结合就会产生更强的泛化能力。比如有一个比较智能的基座模型，假设这个模型在写作方面已经不错了，那么结合一些数学和代码的强化学习，它有可能实现良好的泛化，最终产生一些非常强的能力。具体表现为它能写出从骈文到绝句律诗等各种体裁的作品，而其他几家模型在这个方面则不太行。

02 为什么 DeepSeek 的成本这么低？

模型的稀疏度非常高。尽管这是一个超过 600B 参数的大模型，但在推理的时候，每个 token 的实际激活参数非常小，只有 37B，意味着它在推理时的速度和资源消耗相当于一个 37B 参数的模型。但要实现这一点，需要对整个系统进行大量的设计改动。
在 DeepSeek V3 中，MoE 架构包含 256 个专家模块，但每次推理时只激活其中的一小部分。在高负载情况下，它可以动态调整资源使用率，理论上可以将成本压缩到原来的 1/256。这种设计体现了 DeepSeek 在软件架构上的前瞻性。如果系统优化做的足够好，在同样的量级下，价格就能大幅降低。
模型训练时一般会有三把斧，也就是在三个维度上做并行切分。第一个是数据层面做切分并行，这个叫 Data Parallelism。第二个是在模型层面，因为模型的各层之间是相互独立的，所以会在这方面做切分，这个叫 Pipeline Parallelism。第三个是对模型的权重做切分，分配到不同的 GPU 上，这个叫 Tensor Parallelism。为了配合稀疏模型设计，DeepSeek 对训练框架和管线做了大量调整，在训练过程中摒弃了 Tensor Parallelism，只使用了 Data Parallelism 和 Pipeline Parallelism，并在此基础上进行了更为精细的专家并行（Expert Parallelism）。通过对专家数量（多达 256 个专家）进行精细划分，将不同的专家分配到不同的 GPU 上。此外，DeepSeek 舍弃了 Tensor Paralleism，可以绕过硬件限制，使得 H800 和 H100 在训练效能上接近。
在模型部署方面，实验表明，其算力成本可控，且技术难度并不高，通常只需一到两周的时间就能完成复现，这对于许多应用开发者来说是非常有利的。
一个可能的模型架构：让 reasoning RL 不再局限于大语言模型本身，而是在外面加一个 thinking machine，来完成整个推理能力，这样整体成本还能下降好几个数量级。

03 Chatbot 不一定

会是用户的第一款 AI 产品

DeepSeek R1 的成功不仅在于其推理能力，还在于其结合搜索功能，reasoning model+搜索某种程度上相当于一个 micro agent 的框架。对于大多数用户来说，这是他们第一次体验推理模型。对于已经使用过其他推理模型（如 OpenAI 的 o1）的用户来说，结合搜索功能的 DeepSeek R1 又是一种全新的体验。
对于没有使用过 AI 产品的用户，他们的第一款 AI 产品不一定是 ChatGPT 这样的语言交互类产品，可能是由模型驱动的另外一个场景下的产品。
AI 领域应用型公司的竞争壁垒在于产品体验。谁能做得更快、更好，提供让用户觉得更舒适的功能，谁就能在市场中占据竞争优势。
目前能够看到模型呈现出的思考过程是一个令人满意的设计，但它更像是用强化学习（RL）来提升模型能力的一个比较早期的工作。推理过程的长度并不是衡量最终结果正确性的唯一标准，未来会从复杂的长推理过程转向更简洁的短推理过程。

04 垂直场景 AI 落地更容易了

对于相对垂直的任务（vertical task），任务评估可通过规则系统（rule system）完成，不需要依赖复杂的奖励模型（rewarding model）。在设定好的垂直任务上，类似 Tiny Zero 或者是 7B 的模型能够快速得到可用结果。
在一个设定好的垂直任务上，用 DeepSeek 蒸馏过的 70 亿参数或更大的模型做训练，能够快速得到「aha moment」。从成本角度看，在 7B 模型上做简单算术题或 21 点等有明确答案的任务，只需要 2-4 张 H100 或 H200，花不到半天时间，模型即可收敛到可用状态。
在垂直领域，尤其是在处理有明确答案的任务，如数学计算、物理规则判断（物品摆放、运动是否符合规律），DeepSeek R1 的效果确实比其他模型好且成本可控，因此可以将其应用在广泛的垂直领域。不过，在没有明确答案的任务中，比如判断某样东西是否美观，或者某个答案是否让人开心，这种主观性较强的评估无法通过基于规则（rule-based）的方法很好地解决。这方面可能需要等待三个月、半年，直到有更好的方法出现来解决这些问题。
使用监督微调（SFT）或类似方法时，很难解决耗时的数据集查询，且这些数据集的领域分布（domain distribution）往往难以全面覆盖任务的所有层级。现在有了一个新的、更好的工具库，配备一个高质量模型，可以解决过去数据收集困难和有明确答案的垂直任务。
仅仅基于规则系统（rule-based），虽然数学和代码可以定义出比较明确的规则，但如果要应对更复杂或者更开放的任务，依赖规则系统会变得非常困难。所以大家最终可能会探索出更合适的模型，用来评估这些复杂场景的结果。可能会采用 ORM（结果导向的奖励函数）而不是 PRM（过程导向的奖励函数）的方法，或者探索其他类似的方法。最终，可能会构建出类似「世界模型」的模拟器，为各种模型的决策提供更好的反馈。
用小模型去训练推理能力的时候，甚至不需要依赖基于 token 的解决方案。在某个电商方向的解决方案中，直接将整个推理能力从基于 Transformer 的模型中剥离出来，使用另一个小模型来完成所有的推理工作，结合 Transformer 来实现整个任务。
对于那些研发模型是为自己所用的公司（如对冲基金），挑战在于成本问题。大公司可以通过拉客户摊平成本，但小团队或公司难以承受高昂的研发成本。DeepSeek 的开源对他们的意义重大，相当于之前无法承担高昂研发成本的团队现在也能够搭建模型了。
在金融领域，尤其是量化基金中，通常需要分析大量财务数据，例如公司财报和 Bloomberg 数据等。这些公司通常会构建自己的数据集并进行监督训练（supervised training），但数据标注的成本非常高。对于这些公司而言，强化学习（RL）在微调（fine-tuning）阶段的应用，可以显著提升模型性能，实现质的飞跃。

05 国产芯片有望解决推理算力问题

国内现在对标 A100、A800 芯片还是挺多的，但国产芯片最大的瓶颈不在于芯片设计，而是在于流片。DeepSeek 去适配华为也是因为后者相对而言能稳定出片，在后续更严苛的制裁下也能够保证稳定的训推。
英伟达往后发展，从单卡训练的角度来看，这些高端芯片在某些应用场景下存在算力过剩的情况。例如，单卡的算力在训练阶段可能因额外的缓存和内存限制而无法充分发挥，导致其并非最适合训练任务。
国内芯片市场，如果完全专注于 AI 应用，不考虑科学计算，将高位浮点运算能力大幅削减，只专注于 AI 任务，可以在部分性能指标上追赶英伟达的旗舰芯片。

06 更强大的 Agent 、

以及跨应用调用能力

对于很多垂直领域来说，agent 的能力会有较大的提升。可以先拿出一个基础模型，把一些规则做成规则模型（rule model），这个规则模型可能是一个纯粹的工程解决方案（pure engineering solution）。然后，可以用这个工程解决方案来让基础模型在上面进行迭代（iteration）和训练（training）。你可能会得到一个结果，这个结果已经出现一些超人类智能（super human intelligence）的能力。在这个基础上，再进行一些偏好调整（preference tuning），让它的回答更加符合人类的阅读习惯（human-readable），这样你可能就能得到一个在某个垂直领域上更强大的推理 agent；

中美 AI 创业者的闭门讨论：DeepSeek-R1 之后，AI 创业的变化和新趋势

正文

01

DeepSeek 的创新在哪里？

02

为什么 DeepSeek 的成本这么低？

03

Chatbot 不一定

会是用户的第一款 AI 产品

04

垂直场景 AI 落地更容易了

05

国产芯片有望解决推理算力问题

06

更强大的 Agent 、

以及跨应用调用能力

请到「今天看啥」查看全文