今年 5 月零一万物推出了 Yi-Large,在多项权威评测集中超越了 GPT-4;到今年 10 月我们推出了 Yi-Lightning,在国际权威盲测竞技场 LMSYS Chatbot Arena 上超越了 OpenAI 5 月发布的 GPT-4o。
从发布时间点来看,零一万物基本上在 5 至 6 个月之后能够追赶上当时世界第一的模型。
但如果说要再进一步缩短这个时间差,坦率地讲,对于任何一家中国大模型公司来说难度都很大。
一个客观事实在于,在可支配的资金、算力等资源上,无论是 Google、Meta,还是 OpenAI、xAI,都是远超任何一家中国大模型初创公司的。
至少目前来看,「以巨量资源砸出一个 AGI」这条路,很难复制到中国大模型赛道上。
最近总有人问我,中国大模型公司应不应该放弃预训练,这个问题的出现一定程度上也反映出了中国大模型领域内的焦虑情绪。
在我看来,「是否放弃做预训练」这个决策需要考虑三个方面:
首先,公司要「做得起」预训练,从国内几家头部大模型公司融资额来看,大家都是有资源支撑模型预训练的;其次,团队要「做得了」预训练,训出的模型性能能不能超越优秀的开源模型;最后还要考虑「值不值得」,花重金训练出的新模型生命周期有多长、能够带来多少商业价值?
综合三方面考虑,我认为中国大模型公司都需要找到一条更务实的路径,做中国团队更擅长的事。
在工程和应用落地方面,中国团队的能力在世界范围内都属于顶尖水平。
如果你细细拆分零一万物「Infra+模型+应用」三位一体布局,就会发现我们选择牢牢抓住中国团队的优势,以己之长另辟蹊径。
一方面,零一万物以来自国际顶尖大厂的多位行业技术专家为班底,组建起了世界一流的 AI Infra 团队,与模型团队相互配合下极大程度地提升了 MFU,Goodput(有效训练时间比率)也达到了 99%,搭配独有的训模方法论,使得零一万物能够以最少的资源训练出力所能及的最优秀的模型,并且把 API 价格降到「白菜价」。
粗略估计,我们的新旗舰模型 Yi-Lightning 预训练成本远低于 Grok-2,仅为后者的零头,但是在 LMSYS 上两个模型并列世界第六。零一万物认可的不是纯打榜,而是通过权威评测确认自己技术位阶。
LMSYS 的成绩证明了零一万物的团队能够以现有资源追赶上世界一流模型,让我们有信心继续往前冲。
有了足够好的模型,下一步就是如何尽可能延长它的生命周期,并从中尽可能获取更多商业回报,为后续的模型迭代打好基础。
o1 已经提出了几个可供探索的方向:重视模型后训练,通过提升模型在特定任务上的表现来延长模型的生命周期;在推理时间(inference time)层面的「新 Scaling law」,通过增加推理时间和计算资源改善模型输出质量。
零一万物这次 Yi-Lightning Pre-training 是 300 万美元左右,就用了 2000 张显卡,我们在上面做 Post-training,做 SFT、做 DPO、online DPO、PPO,在这个之上 inference,这个寿命肯定会更长,到一年都有可能。
零一万物内部仍在不断探索,有新的好消息会及时同步给大家。
抛开模型性能,顶尖模型还要落地,要更快更便宜地穿透场景,尽可能多地创造商业价值。
Yi-Lightning API 价格也仅为每百万 token 0.99 元。这样一款兼具性能和性价比的模型相信会为很多 AI-Native 应用创业者带来便利。
零一万物内部也在基于 Yi-Lightning 、Yi-Large等为代表国际SOTA的Yi系列基座大模型,在国内聚焦ToB 商业落地。
近期零一万物对外发布了零售行业解决方案、模型训练解决方案和智算中心解决方案,已经获得了百胜中国、孩子王、直客通、乐淘互娱、图灵新智算等头部客户的认可,持续跟更多的头部客户合作探索新的落地场景和商业模式。在 Yi系列基座模型加持下,TC-PMF(技术成本✖️产品市场契合度) 的边界被进一步扩宽,无论是在哪个领域内,可供探索的场景有了极大扩展。
在 OpenAI 的带领下,硅谷已经进入到算力的军备竞赛,OpenAI、xAI 都正在构建十万卡集群。
在资源劣势的前提下,中国大模型公司必须找到第二条路。
从团队人才的角度看,中国拥有着大量优秀、聪明、勤奋的工程师,能够实现更高效地模型训练;从应用落地角度看,中国拥有有庞大的市场、丰富的应用场景,中国团队也具备强大的执行力。
这些因素结合在一起,为我们提供了一个在 AI 2.0 时代占据领先地位的独特机遇——以「多快好省」的打法后发制人,用最少的资源做出成本更低、速度更快、性能处于世界第一梯队的模型,推动大模型应用的爆发,最终形成大模型生态的良性循环,为后续的追平甚至赶超,积蓄创新力量。