“我们选的技术路线也是上限最高的,几乎没有退路。”
在热闹的中国大模型创业圈,MiniMax 的创始人闫俊杰可能是最神秘的一个。他从未公开露面,也没有接受过任何采访,即便公司估值已经 25 亿美元了,他依然沉默。
在高中生和大学生中流行着 Glow、星野等产品,他们在上面玩恋爱养成游戏,和虚拟人对话,撰写发疯文学,甚至建一座城市,但没多少人知道,它们背后都是 MiniMax。
近期完成 B 轮融资后,MiniMax 已是中国估值最高的大模型公司之一,股东名单里同时有腾讯和阿里,它成立刚满两年。
“那时 ChatGPT 还没发布,OpenAI 也不温不火,其它中国公司都还没出来,商汤都要上市了,闫俊杰跳出来要创业。他真的对 AGI 有信仰。”MiniMax 的早期投资人、明势资本创始人黄明明说。
当时闫俊杰已担任过商汤副总裁、研究院副院长和智慧城市事业群 CTO。更早前,他在中科院和清华大学研究计算机视觉。通常技术人才的聪慧只展现在一个小领域里,但闫俊杰在多个领域都做得风生水起。
今年 35 岁的闫俊杰是一位说话声音很轻、总是面带笑容的管理者,投资人描述他是一个很好的倾听者,善于让对谈者放松,但当对方放松时,他会不动声色地抛出尖锐观点。
闫俊杰在 2021 世界人工智能大会算法典范总决赛上做分享。
创立 MiniMax ,闫俊杰表现得完全不像一个创业新手,他看起来很敢赌。
2023 年下半年,大部分中国同行还在继续迭代稠密模型(dense model),它能更稳健地提升大模型性能。闫俊杰则把几乎全部研发和算力资源都投到了一件更不确定的事情上—— MoE(混合专家系统)模型。他的判断是,如果未来要服务千万级乃至亿级的用户,必须做 MoE,否则 “生成 token 的成本和延时我接受不了,很快会崩溃”。
大模型还没热起来时,MiniMax 曾以相对便宜的价格找字节火山引擎租了大量 GPU 算力,获取了弹药;但 MiniMax 又不购买任何 GPU,闫俊杰认为持有资产只会使动作变形。
“我选的技术路线是上限最高的,几乎没有退路,选的算力方式也激进。” 闫俊杰说。
李彦宏认为 “双轮驱动”,即同时做模型和应用,对创业公司不是好模式,但闫俊杰创业第一天就认为,大模型创业公司要想独立做大做强,技术和产品,两个都要做好。
MiniMax 是中国大模型创业公司中做产品最早、最多,投入也最大的一家:MiniMax 一共约 300 人,其中接近 200 人与产品相关。它们的第一款产品 Glow 上线于 2022 年 10 月,之后又陆续推出了星野、海螺 AI 等至少 4 个产品,既有陪伴型的社交娱乐应用,也有问答等生产力应用,多个应用的日活用户已突破 100 万。
闫俊杰认为创业公司要想独立发展只有一条路:在技术快速进化的窗口关闭前,做出用户量巨大的 2C 产品。
“如果没有产品承接,即使你有一个技术进展,它最终也不是你的。” 闫俊杰说。
中国市场已有 6 家大模型独角兽(MiniMax、月之暗面、智谱 AI、百川智能、零一万物、阶跃星辰),模型总数更是超过 100 个。它们正在一边以更少的资源追赶一年前发布的 GPT-4,一边应对激烈的竞争。
一些人追求先活下来,另一些人信奉 “Go big or go home”,不想处在中间状态。闫俊杰是后者。
以下是《晚点 LatePost》与 MiniMax 创始人闫俊杰的对话。
《晚点》:一位 OpenAI 的工程师告诉我们,他判断一位人工智能创业者到底有没有真正的 AGI 信仰,就看这个人是在 ChatGPT 发布之前创业还是在这之后。
闫俊杰:MiniMax 是 2021 底创立的,我们刚创业的那个时间点,AGI 在中国还是一个巨大的非共识。
我们当时计算过,把 GPT-3 扩大 100 倍需要非常多一笔钱,可能是几十亿美元。但在那个时间点,我们显然不认为中国会有那么多钱愿意支持一家创业公司。
《晚点》:有人认为你们最开始是做元宇宙的,大模型火了后才说做 AGI。你们在出发时到底有多相信 AGI?
闫俊杰:我们是在 ChatGPT 出来之前成立的,大部分公司是在那之后,这是核心的区别。
ChatGPT 之前,很多事情没有参考,你不得不做更多尝试,但最内核的还是技术进步,不确定的是产品方向。
我们最开始对 AI 产品的想象是一个同时有声音、形象、文字能力的智能体,我们做过一版有 3D 形象的东西,有点像元宇宙里的数字人,但它的语言、语音等能力还是用大模型驱动的。
《晚点》:你认为 AGI 到底是什么,假设有一天 AGI 真的实现,我们如何知道它已经到来?
闫俊杰:那时候我们有个模糊的定义,现在也几乎没变,就是什么时候大家认为 AI 不是 AI,那一天大概就到来了。
就像我们今天谈到抖音,你不会觉得它是一个基于推荐系统的内容分发软件,你只会觉得抖音就是抖音。
《晚点》:MiniMax 是国内第一个说 AI 2C 的公司,为什么?
闫俊杰:决定创业前,我一直在思考什么样的技术进步可以给社会带来足够高的反馈,想到的有电动车、移动互联网。这些行业的最大特点都是服务普通人,而服务普通人的前提是它能商品化,它是一个产品,不是一个项目。
当时整个人工智能行业遇到困境,而取得真正成功的行业又是另一种做法,结论几乎只有一个——要做出足够产品化、能服务大众的人工智能技术和产品,而不是服务少数大客户的项目。
所以我一直不认为 AGI 会像一个原子弹、一个大杀器,它就是普通人每天会用的一个产品、一个服务——这也是我们最坚持的。
而且 AGI 也不应该是一家公司自己做出来,它要靠这家公司和它的用户一起做出来。
《晚点》:今年 1 月你们是国内第一个推出 MoE 大模型的,其它公司去年主要在迭代 dense(稠密)模型,因为进展更快、更确定。做 MoE 是一场豪赌吗?
闫俊杰:一开始我也认为我们在赌,那几个月别人都在快速进步,走在更稳的路上,而我们在赌一个更难的东西。
我们当时放了 80 % 以上的算力和研发资源做 MoE,而且没有 Plan B。
《晚点》:MoE 是 2023 年夏天开始研发的,为什么当时一定要做这个?
闫俊杰:第一,我们知道自己有多少基本资源和数据,基于这些计算资源和数据,当时只有 MoE 能训完,相当于从你能训练的上限来说,必须得是 MoE。
第二,我们当时已经有很多用户,有 2B、2C 的产品,很多模型每天在处理大量 token,我们发现如果继续做 dense 模型,生成 token 的成本和延时是接受不了的,很快会崩溃,所以只能做 MoE。
当然现在这可能是行业共识了,就是如果要做万亿模型,你不可能做一个 dense。
《晚点》:最后是怎么搞定的?
闫俊杰:过程很痛苦,失败了两次。因为我们本来就有很多不确定性,做新东西又增加了不确定性,它就应该遇到挑战。
比如模型训了半个月,发现一些指标离前期估测的越来越远。就像你发了一个火箭,本来以为它可以到三万米,但它偏航了。你就开始想哪个地方错了,把问题解完之后,发现还没有回到一个好的状态,又失败了。但你得到了很多经验,把经验汇聚起来,再来一次。
每一次都是很多钱,更重要的是时间。
我后来发现其实这也不是赌,因为很多挑战不是 MoE 本身带来的,而是更多底层的东西:比如对实验方法、网络和数据结构的探索等等。
后面解决问题也不是因为解决了 MoE,而是找到了过去的不足,让整个研发团队变得效率更高、更科学了。
《晚点》:一个接触过你的人评价你很有工程化思维,你追求在一个约束条件下达到最好的目标。
闫俊杰:其实都是算出来的,我们公司大部分决策都是基于要优化某些东西计算的,我们就是在解方程。
《晚点》:现在各公司的资源也就是约束条件都变得很快,你计算时会倾向保守还是冒险?
闫俊杰:我们基本上都选最冒险的那种,因为做每件事都是做到极致才会好。
我选的技术路线也是上限最高的,几乎没有退路,选的算力方式也比较激进。
《晚点》:我听说你们不买 GPU,只租卡。
闫俊杰:我们没有一块 GPU ,虽然我们应该是中国公司里实际用 GPU 数量最多的创业公司。
因为持有资产会使动作变形。如果我有很多 GPU,在商业上变得更好的方式就是对外租 GPU。我还是想让公司更简单。
《晚点》:去年 10 月你们遇到过算力紧缺,怎么避免类似的风险?
闫俊杰:成为市场上最大的客户。
对中国创业公司来说,更好的方式是同时思考技术和产品
《晚点》:李彦宏说创业公司做 “双轮驱动” 不是好模式,但你们第一天就要做产品,是怎么决策的?
闫俊杰:一开始创业其实没资格想这些事,因为你既没有技术又没有产品也没有用户。前六七个月只是把最原始的模型做出来,才有了后面的产品。
假设你所有东西都是 free 的,假设你有一个无限强的组织,那对你来说,技术好是最重要的,因为你的用户、流量、商业化能力都具备了,可以很快试很多产品。
但对创业公司不是这样,如果没有足够好的产品能力来承接,即使你有了一些技术进展,这些东西最终也不是你的。一个独立发展的创业公司一定要考虑产品。
《晚点》:OpenAI 也是在做出 GPT-3.5 后才开始做 ChatGPT 这个杀手级应用 。之前 OpenAI 没那么重视产品。
闫俊杰:那是因为 OpenAI 的技术、人才、数据积累都有数量级的领先,导致它有一个长达一年的创业窗口期。我不认为世界上还有什么公司,能再有一个这么独特的的窗口期。
没有谁会是 10 倍的 OpenAI,没人能短时间里拿出一个好于全世界十倍的东西。
这就推出来,对创业公司,至少对中国的创业公司来说,更好的方式是同时思考技术和产品。
《晚点》:有投资人认为你们现在做产品有些太早,“在黑莓手机上做不出抖音”。
闫俊杰:按照这个观点,现在也不需要做技术,现在的技术也不是五年后的技术。
但显然大家都认为现在需要做技术:只有通过做出现在的技术,才能更深刻理解它,才可能做出未来三年、五年的技术。
《晚点》:技术发展是渐进式的,产品也是吗?这个时代的产品跟上个时代的产品完全不同。
闫俊杰:产品也是。中国成功的很多公司,比如米哈游、美团、字节、理想,都有一个共同特点——它们都不是靠第一个产品成功的,都是靠第二个或者更往后的产品才成功的。
这不是我说的,是我的一个朋友总结的。
《晚点》:那你们为什么不干脆只专注做产品?现在有很多开源大模型。
闫俊杰:核心原因在于,对模型的理解基本上等同于对产品的理解。产品越往下做,对模型理解肯定要越深。
另一个客观原因是成本和响应时间,如果没有对模型的强掌控力,就很难掌握产品成本的变化,也无法调教对用户的响应时间。而且做产品你会遇到很多问题,什么问题可以解决?什么不能解决?怎么迭代?这些都需要你对技术的掌握。
一个现实是,去年很多产品是用 GPT-4 做的,为什么没人做出一个媲美 ChatGPT 的体验?
《晚点》:同样做产品,有人是主做一个,你们却同时做很多,包括 Glow、星野、海螺 AI 等。为什么要做产品组,而不是专注做一两款产品?
闫俊杰:OpenAI 在 ChatGPT 之后的产品也没那么成功, OpenAI 做产品都会失败,说明现在产品对技术的理解,和技术本身能实现的东西之间有 gap。
核心就是,即使用最好的技术,最好的产品,都会不匹配。
如果你承认这个 gap,客观规律就是:你该多尝试、多失败,找到真正能成功的东西。
《晚点》:感觉有点像字节跳动做产品的方式。
闫俊杰:我们还没有资格按照字节跳动的方法做事。
每个公司都会选择最合适自己的形态。比如对字节来说,最重要的是技术资源,因为它所有产品都是 ready 的,且产品资源无限多,所以尝试越多对它越有利。而且每次投入,即使产品失败,也会带来更多经验和认知,这对他们的提升是巨大的。
我们也一样。而且相比模型研发的投入,产品投入的资源占比没那么大。基于我们公司目前的现状,可以算出来这样成功率最高。
《晚点》:技术重要,产品也重要,你们纠结过到底哪个更重要吗?
闫俊杰:之前纠结过,但现在不纠结了。
2022 年下半年我们做 Glow ,有一个经历非常惨痛。当时团队都感染了新冠,导致 2022 年底最后一次发版里出现了一个 bug,它把用户的对话体验拉低了 15% 左右,我们元旦三天 DAU 直接掉了 40%。后来实在受不了,终于在放假最后一天找到了这个 bug,其实就是非常小的一行算法,把它改了,用户量很快就回来了。
这个事给我们的教训就是,现阶段产品价值的来源,核心还是你的模型性能和算法能力。
这样的事我们经历了好几次,你可以做很多产品 feature,但你会发现,几乎所有大的提升都来自模型本身的进步。
《晚点》:同时做大模型和这么多产品,最大的挑战是什么?
闫俊杰:技术不够好,这是最本质的。我们的技术迭代速度已经很快了,但离全球顶尖的模型仍有差距。
《晚点》:欧洲头部人工智能公司 Mistral 已经开源了 MoE 模型,行业普遍认为 OpenAI 的 GPT-4 也是 MoE,MoE 会是今年大模型领域的一个赛点吗?
闫俊杰:MoE 只是其中一个环节,还有很多其他环节。如果一个东西能写在一篇论文里,你基本可以认为它不是个绝对壁垒。
《晚点》:在这场技术竞赛中,MiniMax 有什么非共识的判断吗?
闫俊杰:这个行业如果有什么非共识,6-9 个月内,很快也会变成共识。
现在有三个大家都能看到的东西:一是 Scaling Laws ;二是实现同样精度的模型,需要的算力和资金投入可能每年降几倍,因为算法和学术界公开的东西越来越多,很多人会做自由探索;三是把精力放在提高数据质量上,现阶段收益更大。
所以从这三点来看——Scaling Laws、同样精度模型的成本下降、数据质量提升的重要性——基本可以推出来我们和其他公司的一些决策,我觉得是比较简单的。
《晚点》:你怎么理解 Scaling Laws(规模定律)?它让你看到了什么可能性?
闫俊杰:Scaling Laws 就是一条曲线,你可以信仰原始的 Scaling Laws,也可以信仰十倍快,甚至百倍快的 Scaling Laws。
2020 年最初提出大模型 Scaling Laws 的论文 “
Scaling Laws for Neural Language Models
” 认为影响模型性能的最重要变量是算力、数据量和参数,并给出了这些变量间的数字关系:C≈6ND ,C 是计算量(Compute)、D 是数据量(Dataset)、N 是模型参数量(Parameters);而模型结构和层数等因素对性能影响没那么大。
它更多是提供一个方法论:即你可以通过更小规模的实验来预测更大实验的结果。第二是它能让行业对齐目标,因为这件事需要数据、算力、芯片、算法和产品等多个环节的分工协作,Scaling Laws 可以让大家有相对一致的预期。
至于那篇论文里的那个公式和一些结论,现在看也不一定对,比如它认为层数、结构等没那么重要,至少有几个变量现在看是重要的。
《晚点》:比如呢?什么变量让你有可能实现十倍、百倍的 Scaling Laws?
闫俊杰:比如网络结构本身也重要。我们做 MoE ,最开始认为好的 MoE 结构和好的 dense 结构类似,后面发现不是,MoE 本身也能加速 Scaling Laws。
还有提升数据质量;还有算力的分配,你可以把算力分配到训练上,也可以分配到数据处理上。不同选择都可能加速 Scaling Laws。
《晚点》:Scaling Laws 的力量来自它够简洁,当你引入更多变量,就破坏了它。
闫俊杰:提升数据质量、优化算法和优化训练方法都没有尽头,持续做就会持续好。
真正的取舍是,它们对 Scaling Laws 的效率提升在不同周期不一样快。但你可以通过小规模实验来预测哪些变量在什么阶段更重要,这其实还是 Scaling Laws 的方法论。
为什么在中国一定要做几倍的 Scaling Laws?当算力充足,你可以优化原始的 Scaling Laws;算力不充足时,你必须优化一个几倍的 Scaling Laws,去达到相似效果。
这不是不可能的。另一家硅谷 AI 公司 Anthropic 已经用更短的时间做出了类似 GPT-4 的 Claude-3,这其实就是放大了原始的 Scaling Laws,有一个就会有第二个、第三个。
《晚点》:现在被讨论很多的长文本(Long Context)会成为大模型竞赛中的一个差异化路线吗?
闫俊杰:好的大模型默认就应该支持长文本。我们一直都有长文本,我们没在产品里强调这个功能,主要还是因为计算成本。
《晚点》:实现更长文本处理能力的技术方法是什么?
闫俊杰:标准 Transformer 里之前用的是非线性 attention;而过去一年多,很多人在研究线性的 attention,这就能帮助长文本。
线性 attention 的好处是,当文本非常长时,它的计算复杂度会是线性增长,而不是平方增长。但实际上 token 在 20 万、30 万量级时,线性和非线性效果差不多,因为二次函数在前期时近似线性函数。差别在 80 万到 100 万 token 时才特别明显。
据我所知,Google 的 Gemini 1.5 是第一个接近线性 attention 的模型。你现在调其它 API,当文本非常长时,响应会很慢。但 Gemini 1.5 真正实现了一个 100 万 token 量的文本,和 50 万比,响应只长 1 倍,而不是长 4 倍。
所以长文本解决的不是 20 万或 30 万量级的问题,而是 100 万再往上的量级。
《晚点》:100 万 token 近似于能处理 100 万字,你觉得多少人有这个需求?
闫俊杰:用户需求和你提供的能力是相互发生的,一个远超大家预期的模型放在这,慢慢会引起很多人的需求。
比如 ChatGPT 没有语音通话前,没人会说自己的需求是语音通话,但放上去之后,很多人会用语音通话。
我们做的语音对话产品——海螺 AI 的通话功能也很受欢迎。我阿公 80 岁,第一次用这个产品就和它讨论了四五十分钟的历史人物,我之前想不到有人会这么来用它。
《晚点》:看起来你们是在产品里先强调了语音等多模态能力,而不是长文本。怎么判断先优化什么技术能力?
闫俊杰:我们有一句话,Intelligence with everyone,我们并不是这个技术的 owner,这是我们最核心的信仰。
去年人工智能非常火,但全世界用过 AI 产品的人可能只有 1 到 2 亿,重度用户只有几千万。因为提出一个好的问题以及连续追问,门槛非常高,真正愿意打字的可能就是在座的这些人。更多人还是习惯用语音。
我们看重多模态,也是因为它可以让更多人来使用 AI,包括老人和小孩。当我们在产品里加入图片和语音时,可以明显观察到用户的上手门槛,甚至渗透率的变化。从今日头条到抖音,一模一样的事在移动互联网领域已经发生过一次了。