在这个科技日新月异的时代,人工智能(AI)的发展速度超乎我们的想象。从AlphaGo击败人类围棋冠军,到ChatGPT掀起全球范围内的AI聊天热潮,每一次技术的突破都让我们对AI的未来充满了期待。而近日,一款名为DeepSeek-R1的中国开源AI模型,再次让整个AI圈为之震惊。它不仅在性能上与OpenAI的o1平分秋色,更是通过强化学习技术,实现了自我推理能力的提升,这一成果无疑为AGI(通用人工智能)的发展注入了新的活力。
在DeepSeek V3之后,DeepSeek团队再次为我们带来了惊喜——全新推理模型DeepSeek-R1。这款模型的问世,让人们看到了中国AI技术的雄厚实力。DeepSeek-R1不仅成功与OpenAI的o1打平,更重要的是,它是一款开源模型,这意味着任何人都可以研究、使用和改进它,这无疑将极大地推动AI技术的普及和发展。
在DeepSeek-R1的技术报告中,我们惊讶地发现,这款模型在强化学习阶段之前,并没有进行监督微调(SFT)。换句话说,R1完全是靠自己的力量学会了推理,就像当年AlphaZero/AlphaGo战胜人类一样。这一成果不仅证明了强化学习的强大力量,也让我们看到了AI技术的无限可能。
DeepSeek-R1的出现,让强化学习算法再次成为焦点。研究人员表示,他们没有直接教模型如何解决问题,而是给予了模型正确的激励,让模型自己琢磨出先进的解题办法。这种“啊哈”时刻的出现,正是强化学习的力量和美妙之处的体现。
通过强化学习,DeepSeek-R1在只有少量标注数据的情况下,就能大幅提升模型的推理能力。在数学、代码以及自然语言推理等任务中,DeepSeek-R1的性能与OpenAI o1正式版不相上下。在AIME2024测试中,R1取得了79.8%的成绩,略高于OpenAI-o1-1217;在MATH-500测试里,它更是获得了97.3%的出色成绩,表现与OpenAI-o1-1217相当,且明显超越其他模型。在编码类任务方面,R1在Codeforces平台上获得了2029的Elo评级,在竞赛里的表现超过了96.3%的人类参赛者。这些成绩无疑证明了DeepSeek-R1的强大实力。
DeepSeek团队的大方开源,无疑为AI技术的发展注入了新的动力。他们不仅开源了DeepSeek-R1-Zero和DeepSeek-R1两款推理模型,还开源了6个基于Qwen和Llama提炼的DeepSeek-R1模型,参数规模分别为1.5B、7B、8B、14B、32B和70B。这些模型的开源,将极大地推动AI技术的研究和应用。
借助DeepSeek-R1的输出,团队还提炼出6个小模型并开源。其中,32B和70B参数的模型,在多项能力上达到了与OpenAI o1-mini相当的水平。这些成果不仅展示了DeepSeek团队的技术实力,也为我们提供了一个研究和改进AI模型的重要平台。