专栏名称: 36氪

36氪是中国领先的新商业媒体，提供最新锐最具深度的商业报道。我们强调趋势与价值，我们的slogan是：让一部分人先看到未来。

杨植麟回应不了一切

36氪 · 公众号 · 科技媒体 · 2024-11-16 22:24

正文

Scaling Law依旧有效，只是Scale的东西变了。

文｜邓咏仪

编辑｜苏建勋

来源｜智能涌现（ID：AIEmergence）

封面来源｜作者拍摄

进入2024年，中国大模型公司面对的牌局愈发艰难。一方面，在2023年快速入局，获得了大额融资、高昂估值的“六小虎”们，面对着各种声音——AI应用同质化、尚未跑通的商业模式。

在另一面，以OpenAI为首的顶级模型迭代速度放缓，GPT-5迟迟未发，近期整个行业都在讨论：大模型的Scaling Law是否失效了？

但久未露面的月之暗面创始人杨植麟表示：Scaling Law依旧有效，只是Scale的东西变了。

月之暗面创始人杨植麟图源：作者拍摄

11月16日，月之暗面正式发布新数学模型K0-math。

这是一个专注于计算能力的数学模型。在Demo中，K0-math不仅展示了能够解决数学竞赛中的高难度数学题，更难得的，是能够展现解题时的分布思考步骤——从拿到题目，到拆分步骤思考。在遇到解题步骤出现错误时，K0-math还能够自己反思思考的逻辑是否有误，返回到特定的步骤重新展开推理。

月之暗面公布的基准测试显示，Kimi k0-math的数学能力，可对标全球领先的OpenAI o1中可公开使用的两个模型：o1-mini和o1-preview。

杨植麟还专门强调，为了让和o1的对比足够公平，月之暗面团队使用了不同种类的测试集进行实时测试。

K0-math模型基准测试结果图源：作者拍摄

在中考、高考、考研以及包含入门竞赛题的MATH等4个数学基准测试中，k0-math初代模型成绩超过o1-mini和o1-preview模型。

在两个难度更大的竞赛级别的数学题库——OMNI-MATH和AIME基准测试中，k0-math初代模型的表现，则分别达到了o1-mini最高成绩的90%和83%。

仅仅在一个月前，Kimi刚刚发布最新版本“Kimi探索版”，将以CoT（思维链为主）的能力放到了模型当中。Kimi探索版的AI自主搜索能力，可以模拟人类的推理思考过程，多级分解复杂问题，执行深度搜索，并即时反思改进结果。

无论是Kimi探索版还是如今的K0-math，其释放的信息都是类似的：不断提升模型的智力、思考水平。这也是面对以OpenAI o1为首的顶尖模型，Kimi迈出的追赶第一步。

不过杨植麟也坦承，如今的K0-math还有不少局限性。

比如，对于高考难题、IMO数学竞赛等等难题，K0-math还会有一定概率做错。有时候，模型也会过度思考——对于1+1=2类的简单数学题，模型可能会花没有必要的步骤去反复验证答案，甚至会“猜答案”，但不能展现为什么可以得出正确的答案。

作为国内AI初创公司中“技术理想主义派”的代表，杨植麟本人曾多次强调Scaling Law（缩放定律，大模型最重要的技术原理）的意义和重要性。

但现在，他也明确表示行业范式正在发生改变：从原来的扩大计算和参数规模，到如今的强化学习为主的技术路线，着重提升模型智力水平。

“AI的发展就像荡秋千，我们会在两种状态之间来回切换：有时候，算法、数据都很ready了，但是算力不够，我们要做的就是加算力；但今天我们发现，不断扩大算力规模已经不一定能直接解决问题了，所以这时就需要通过改变算法，来突破这个瓶颈。”杨植麟解释。

数学模型K0-math之所以选择在今天发布，也有其特殊意义：11月16日，是月之暗面第一个产品Kimi Chat的一周年纪念日。

过去两年里，月之暗面是国内最受关注的AI初创公司之一。经历了2023年的Kimi助手爆火，到2024年的极速投流增长、近期的仲裁风波，这个团队一直处于风口浪尖之上，如同在迷雾中穿行。

但现在，月暗显然并不打算回应一切。在发布会中，杨植麟只讲新模型和技术相关的问题，并简单地公布了一个数字：截至2024年10月，Kimi的月活用户已经达到3600万。

Kimi最新用户数据图源：作者拍摄

“我仍然保持更乐观的心态。”杨植麟预测，行业范式转向，并不意味着以扩大规模为主的预训练模式完全失灵——顶尖模型再未来半代到一代，还能释放出预训练的许多潜力。

而在模型的思考能力进一步提升后，这也意味着大模型能够进一步落地，解决更多领域内的专有任务。

以下为杨植麟在发布会中的更多发言与回应，经“智能涌现”编辑整理：

AI的发展就像荡秋千，

本质上都要跟Scaling做好朋友

Q：转向强化学习路线之后，数据会不会成为模型迭代的比较大的挑战？

杨植麟：这确实是强化学习路线的核心问题。以前我们做下一个字段预测的时候，通常用的是静态数据，我们对数据的过滤、打分、筛选，这些技术都比较成熟。

但在强化学习路线上，所有的数据都是自己生成的（比如一些思考过程）。模型思考的时候，其实需要知道想法是对还是错，这会对模型的奖励模型提出更高的要求。我们还要做很多对齐的工作，一定程度可以抑制这些问题。

Q：在模型迭代的过程里，无论是之前的扩大算力路线，还是说强化学习上，怎么进行平衡？

杨植麟：我觉得AI的发展就是一个荡秋千的过程，就是你会在两种状态之间来回这个切换一种状态。如果你的算法、数据非常ready，但是算力不够，那么你要做的事情就是做更多的工程，把Infra做得更好，然后它就能够持续的提升。

从Transformer诞生到GPT4，我觉得基本上其实更多的矛盾是怎么能够Scale，在算法和数据上它可能没有本质的问题。

但今天当Scale得差不多的时候，你会发现加更多算力可能并不一定能直接解决的问题，核心是高质量的数据就没有那么多了，小几十T的token，这就是人类互联网积累了20多年的上限。

所以我们需要通过算法的改变，让这个东西不会成为瓶颈。所有的好算法，都是和Scaling做朋友，让它释放更大的潜力。

我们在很早就开始做这个强化学习相关的东西，我觉得这是接下来很重要的一个趋势了，通过这种方式改变目标函数、学习的方式，让他们持续Scale。

Q：非Transformer路线会不会解决这种问题？

杨植麟：不会，因为它本身不是Architecture的问题，它是一个学习算法或者是没有学习目标的问题。Architecture我觉得没有本质的问题。

Q：关于推理成本，数学版上线到Kimi探索版之后，是用户可以去选择不同的模型，还是你们会根据提问来分配？以及，你们现在的主要模式是打赏，而不是订阅，怎么平衡成本问题？

杨植麟：我们接下来的版本大概率会让用户自己去选择。早期通过这种方式可以更好的分配或者更好的满足用户的预期，我们也不想让它1+1等于多少，想半天，所以我觉得早期可能会用这样的方案。

但最终，这可能还是一个技术问题。一，我们能动态的给它分配最优算力，模型足够聪明的话，它就会知道什么样的问题匹配什么样的思考时间，和人一样，不会“1+1”的问题也想半天。

二，成本也是不断下降的过程。比如说今年你如果达到去年GPT4模型的水平，你可能只需要十几B的参数就能做到，去年可能需要一百多B。所以我觉得觉得整个行业先做大或者做小，是这样的普遍规律。

Q：现在AI圈子会不会被Scaling Law这件事限制住了？

杨植麟：我比较乐观一点。核心就在于原来你用静态数据集，静态数据集其实是比较简单粗暴的使用方式，现在用强化学习的方式很多情况下是有人在参与这个过程的。

比如，你标100条数据，你就能产生非常大的作用，剩下的都是模型在自己思考，我觉得以后更多的会用这种方式解决。

从做法上来看，（强化学习路线）确定性是比较高的，很多时候的问题在于怎么真正把（模型）调出来，我觉得上限是很高的。

Q：你去年说长文本是登月的第一步，你觉得数学模型和深度推理是第几步？
杨植麟：就是第二步。

Q：预训练的Scale现在都觉得遇到瓶颈了，美国遇到瓶颈以后你觉得对中美大模型的格局的影响是什么？你觉得差距是变大还是变小？

杨植麟：我一直觉得，这个差距相对是一个常数，对我们来说它有可能是一个好事。

假设你一直pretrain，你的预算今年1B、明年10B或者100B，它不一定可持续。

当然你做Post-train（后训练）也要Scaling，只是说你Scaling的起点很低。可能很长一段时间，你的算力就不会是瓶颈，这个时候创新能力是更重要的。在这种情况下，我觉得对我们反而是一个优势。

Q：之前发的深度推理，还有包括你今天说的数学模型，它离普通用户是比较远的功能吗？你怎么看这个功能和用户的关系？

杨植麟：其实也不远。

我觉得是两个方面的价值，第一个方面，数学模型今天在教育产品上其实有非常大的价值，在我们整体的流量里，也起到很重要的作用。

第二个，我觉得它是技术上的迭代和验证。以及我们可以把这个技术去放在更多的场景里，比如我们刚刚说的探索版去做很多的搜索，我觉得它会有两层这样的含义。

保持单一产品形态，

保持卡和人比例最高

Q：现在都在讨论AI应用的问题，Super App还没有出现，一大批的AI应用又非常同质化，你怎么看？

杨植麟：我觉得Super App已经出现了，ChatGPT已经有超过5亿的月活，它是不是超级应用？至少半个吧，这个问题已经很大程度上被验证了。

哪怕像CharacterAI这种产品，一开始用户量也蛮多，但后面很难破圈。在这个过程里，我们也会根据美国市场的情况，去判断哪个业务最后做得最大、做成的概率更高。

我们还是会聚焦在我们认为上限最高的事情，而且跟我们AIG的misson也最相关。

Q：现在整个行业都有出现AI创业公司被收购，以及人才出走、回流大厂的现象，你怎么看待？

杨植麟：这个问题我们没有遇到，但可能有一些别的公司遇到。我觉得倒也正常，因为行业发展进入了一个新的阶段，它从一开始有很多公司在做，变成了现在少一点的公司在做。

接下来大家做的东西会逐渐不一样，我觉得这是必然的规律。有一些公司做不下去了，就会产生这些问题，我觉得这个是行业发展的规律。

Q：你们很少谈到模型训练上的情况，现在你们预训练的情况是怎么样的？

杨植麟：我先说第一个问题，我觉得预训练还有空间，大概半代到一代的模型，这个空间会在明年释放出来。明年，我觉得领先的模型会把预训练做到一个比较极致的阶段。

但是我们判断，接下来最重点的东西会在强化学习上，就是范式上会产生一些变化。本质上，它还是Scaling，并不是不用Scale，只是说你会通过不同的方式去Scale，这是我们的判断。

谈未来、竞争、出海

Q：Sora马上就要发产品了，你们什么时候发多模态产品？怎么看多模态这件事？

杨植麟：我们也做，我们几个多模态的能力在内测。

关于多模态，我觉得AI接下来最重要的是思考和交互这两个能力，思考的重要性远大于交互。

不是说交互不重要，而是思考会决定上限。交互是一个必要条件，比如说Vision（视觉）的，如果没有Vision的能力，那就没法做交互。

但思考是这样的——你就看要做的这个任务，标注任务的难度有多大，你到底需要一个博士去标？还是每个人都可以标？哪个东西更难找到这样的人？那这个东西就是AI的上限。

Q：怎么看和豆包等一系列AI应用的竞争？

杨植麟：我们还是更希望关注在怎么能给用户真正价值上，而不是过多去关注竞争本身，因为竞争本身并不产生价值。

怎么提升模型的思考推理能力，这是我们现在最核心的问题。通过这个东西给用户带来更大的价值，就是做正确的事情，而不专门去做不一样的事情。我觉得只要能有人实现AGI，它都是非常好的结果。

Q：什么时候决定只做Kimi这一个产品？

杨植麟：大概今年二、三月份吧，或者三四月份，大概那个区间。一个是基于美国市场的判断，二是基于我们自己的观察，主要是这两点，确实得做减法，不是疯狂的做加法。

Q：为什么？

杨植麟：这两年，我们主动的选择做了业务的减法。我觉得这个还是很重要的，也是我们过去一年比较大的lesson（教训）。

我们一开始确实也尝试过比如说几个产品一块做，这个在一定的时期内有可能是有效的，到后来发现还是要聚焦，把它做到极致，是最重要的。

砍业务本质上也是在控制人数。这几个大模型创业公司里，我们始终保持人数最少，始终保持卡和人的比例最高，我觉得这个是非常关键的。

我们不希望把团队扩那么大，扩那么大，对创新的影响是有致命性的伤害的。三个业务一起做，我就活生生把自己变成大厂，我就没有任何优势。

Q：现在，你们最核心的任务是什么？

杨植麟：最核心的任务就是提升留存，或者把留存作为一个重要的衡量指标。

我觉得，用户留存，和模型的成熟度、技术水平，也是一个正相关的过程。

包括思考能力还不够强，交互不够丰富，所以它今天能做的交互还比较有限。无论是跟用户的交互，还是跟本身客观世界的交互，还有很大的提升空间。

如果我们衡量离AGI目标的距离，我觉得现在还是初级阶段。当然，每年都有比较大的进步，如果我们用去年的产品，你会发现可能根本没法忍受。

Q：现在怎么考虑出海问题？

杨植麟：我觉得先聚焦，然后全球化，需要更耐心一点。

Q：最近大家都在谈大模型的投流问题，你们怎么实现良性的商业化？

杨植麟：我觉得肯定有，但是对我们来说现在最关键的还是留存，我觉得这个还是需要看的再长远一点，至少ROI需要为正吧，这跟技术的进展是高度正相关的。

对我们来讲最核心的是把留存和Organic growth（自然增长）做好。适当的投放是需要的，但是你需要平衡好这几个东西之间的关系。

36氪旗下AI公众号

真诚推荐你关注

来个“分享、点赞、在看”👇

杨植麟回应不了一切