强大的模型性能背后,Grok-3的训练成本也成了备受关注的一个焦点。
据马斯克在直播中披露,Grok 3在训练过程累计消耗了20万块英伟达GPU,训练在xAI公司的数据中心完成。有马斯克团队人员介绍称,“我们花了122天才完成了第一个10万卡训练,但我们并没有就此止步,如果我们想要构建巨型人工智能,需要立即将集群的大小增加一倍。”
相较于DeepSeek以远低于同行“1/20的成本”训练出比肩OpenAI-01模型能力的R1模型,Grok-3的这一算力消耗,属实不小。就在马斯克公布Grok-3训练成本后,很快便有人员分析指出,“Grok-3的算力消耗是DeepSeek-v3的263倍,中国的模型团队只得望洋兴叹。”
此前,在xAI发布Grok-2模型后,便有国内AI企业创始人对新浪科技表示,“Grok-2模型参数量太大了,使用成本太高,这远远不是国内绝大多数企业用得起的,这也导致了他们的产品雷声大雨点小。”
这一次,Grok-3又一次通过堆算力的方式,带来了令人眼前一亮的模型效果。但过于庞大的训练成本,注定也会劝退绝大多数用户,尤其渴望私有化部署相关模型的企业用户。
当前,伴随DeepSeek开源相关模型带来的模型使用成本下降和性能提升,在全球范围内已经刮起了一阵大模型产品开源免费的“热潮”。
就在Grok-3发布数小时前,OpenAI 首席执行官萨姆・奥尔特曼便在X社交平台上发文,就公司下一个开源项目的方向征询公众意见。他提出了两种可能的开源模型方向:一种是“相当小但仍需在 GPU 上运行的 o3-mini 级模型”,另一种则是“尽可能优化的手机大小模型”。
这或许意味着 OpenAI 即将开源新的大模型,这也将是2019年OpenAI开源GPT-2后再次开源大模型。而在月初的时候,奥尔特曼还曾反思称,OpenAI闭源“站在了历史错误的一边”。
国内方面,此前笃定闭源模型更先进的百度公司,也于近日宣布了旗下文心一言会员产品免费。
当全球范围内越来越多的企业都开始选择使用更低成本的AI大模型时,昔日的AI大模型机构们,也不得不放低姿态,开始拥抱市场。对于Grok-3而言,高昂的训练成本及不开源的策略,或许将成为阻碍其普及的一大关键。
在Grok-3发布后,此前传言主要产品已为xAI数据中心供货的三变科技,股价原本涨停时突然下跌,不复此前两日连续涨停的热闹景象。在一部分股友看来,回落最主要的原因,正是因为“马斯克发布会不及预期”。