那么,DeepSeek究竟是怎样实现弯道超车,在算力明显落后,成本只是零头的情况下,打造出可以媲美甚至超越硅谷AI巨头的大模型呢?
美国的出口管制严重限制了中国科技公司以“西方式”的方法参与人工智能竞争,即通过无限扩展芯片采购并延长训练时间。因此,大多数中国公司将重点放在下游应用,而非自主构建模型。但DeepSeek的最新发布证明,获胜的另一条道路是:通过重塑AI模型的基础结构,并更高效地利用有限资源。
因为算力资源不足,DeepSeek不得不开发更高效的训练方法。“他们通过一系列工程技术优化了模型架构——包括定制化芯片间通信方案、减少字段大小以节省内存,以及创新性地使用专家混合模型(Mixture-of-Experts)方法,”Mercator研究所的软件工程师温迪·张(Wendy Chang)表示。“许多这些方法并非新鲜,但成功地将它们整合以生产尖端模型是相当了不起的成就。”
DeepSeek还在“多头潜在注意力”(Multi-head Latent Attention,MLA)和“专家混合模型”方面取得了重大进展,这些技术设计使DeepSeek的模型更具成本效益,训练所需的计算资源远少于竞争对手。事实上,据研究机构Epoch AI称,DeepSeek的最新模型仅使用了Meta Llama 3.1模型十分之一的计算资源。
中国AI研究人员实现了许多人认为遥不可及的成就:一个免费、开源的AI模型,其性能可以媲美甚至超越OpenAI最先进的推理系统。更令人瞩目的是他们的实现方式:让AI通过试错自我学习,类似于人类的学习方式。
研究论文中写道:“DeepSeek-R1-Zero是一个通过大规模强化学习(RL)训练的模型,无需监督微调(SFT)作为初步步骤,展示了卓越的推理能力。”
“强化学习”是一种方法,模型在做出正确决策时获得奖励,做出错误决策时受到惩罚,而无需知道哪个是哪个。经过一系列决策后,它会学会遵循由这些结果强化的路径。
DeepSeek R1是AI发展的一个转折点,因为人类在训练中的参与最少。与其他在大量监督数据上训练的模型不同,DeepSeek R1主要通过机械强化学习进行学习——本质上是通过实验和获得反馈来解决问题。该模型甚至在没有明确编程的情况下,发展出了自我验证和反思等复杂能力。
随着模型经历训练过程,它自然学会了为复杂问题分配更多的“思考时间”,并发展出捕捉自身错误的能力。研究人员强调了一个“顿悟时刻”,模型学会了重新评估其最初的问题解决方法——这是它没有被明确编程去做的事情。