全球AI大模型的开发长期以来陷入了一场关于顶尖人才、先进算力和巨额投资的军备竞赛,而DeepSeek横空出世,以“四两拨千斤”的方式快速突进。
在过去的一周中,中国的人工智能大模型是硅谷乃至全世界科技人士热议的话题。而引爆这一讨论的是中国的人工智能初创公司深度求索(DeepSeek)。
据澎湃新闻,1月27日,由国产大模型公司杭州深度求索开发的DeepSeek应用登顶苹果中国地区和美国地区应用商店免费App下载排行榜,在美区下载榜上超越了ChatGPT。
Deepseek来自国产大模型公司深度求索,系量化巨头幻方量化旗下大模型公司。
1月20日,该公司正式发布推理大模型DeepSeek-R1。一经推出,DeepSeek-R1便凭借其“物美价廉”的特性在海外开发者社区中引发了轰动。作为一款开源模型,R1在数学、代码、自然语言推理等任务上的性能能够比肩OpenAI o1模型正式版,并采用MIT许可协议,支持免费商用、任意修改和衍生开发等。
目前,在国外大模型排名榜Chatbot Arena上,DeepSeek-R1的基准测试排名已经升至全类别大模型第三,与OpenAI的ChatGPT-4o最新版并列,并在风格控制类模型(StyleCtrl)分类中与OpenAI的o1模型并列第一。
“开源的胜利”
除了极致性价比,让DeepSeek的大模型脱颖而出的是其代码和训练方法的完全开源。
开源即将模型的源代码和技术细节公开,并允许用户根据其自身需要对模型进行任意使用和修改,这被认为有提高技术透明度,让用户更容易、更便宜地使用,惠及开发者降低迭代成本,防止垄断等好处。而闭源模型的源代码和技术细节则完全被其提供商控制,不对外进行公开,也不允许用户对这些模型本身进行更改。
目前,DeepSeek-R1已经一跃成为开源社区Hugging Face上下载量最高的大模型,下载量达10.9万次,这意味着全球的开发人员正在试图了解这一模型以辅助他们自己的AI开发。DeepSeek的服务器也于26日出现了局部服务波动。这一问题在数分钟内得到解决,或与新模型发布后的访问量激增有关。
DeepSeek创始人梁文锋在接受媒体采访时也表示:“在颠覆性的技术面前,闭源形成的护城河是短暂的。即使OpenAI闭源,也无法阻止被别人赶超。”
梁文锋认为:“开源更像一个文化行为,而非商业行为。给予其实是一种额外的荣誉。一个公司这么做也会有文化的吸引力。”
根据中国信息通信研究院去年发布的白皮书,全球人工智能大型语言模型数量已达 1328个,其中36%来自中国。这使中国成为仅次于美国的第二大人工智能技术贡献者。阿里云已发布100多个新的开源AI模型,支持29种语言,并满足各种应用需求,包括编码和数学。同样,中国的Minimax和01.AI(零一万物)等初创公司也开源了它们的模型。
中美科技差异缩小
随着中国公司陆续发布兼具性能与价格优势甚至开源的大模型,中美在人工智能上的差距正在缩小。斯托伊卡表示,“我认为这一趋势已经非常明显了。根据LLM Arena的结果,在过去的一年里,中国的开源模型从垫底者一跃成为排行榜上的佼佼者,至少在Meta发布其新的Llama模型之前是这样。”
很多反馈显示,DeepSeek的动作让Meta的生成式AI团队“陷入恐慌”。Meta CEO扎克伯格宣布加速研发Llama 4,计划投资650亿美元扩建数据中心,并部署130万枚GPU以“确保2025年Meta AI成为全球领先模型”。
不过,多名专家表示,仍需要关注中国的人工智能实现“从0到1”的能力。
以DeepSeek-V3为例,根据其技术报告,该模型的正式训练成本约为558万美元,但这一数据并不包括架构、算法、数据相关的前期研究和消融实验的成本。而对于大模型训练来说,尽管无效路径和探索会浪费大量算力,但没有这种“浪费”也难以取得最后的突破。
目前看来DeepSeek的大模型起到了加速创新的作用,但这种创新目前只在对从1到10的“复现”类工作得到验证。
“中国的复现是很快的。” 有关人士表示“复现”的难度低于做“新发现”级别的难度。未来中国的人工智能研究者需要更加关注从0到1的工作。
上述人士表示,中国跟美国目前在人工智能上的差距,在最前沿大模型上,存在着6个月到9个月的差距,但多种大模型之间的良性竞争,能更好地促进人工智能在全世界的使用。