专栏名称: 大数据文摘
普及数据思维,传播数据文化
目录
相关文章推荐
大数据文摘  ·  谢谢Deepseek,o3-mini发布即免 ... ·  3 天前  
大数据分析和人工智能  ·  用DeepSeek帮我接财神 ·  4 天前  
数据派THU  ·  LossVal:一种集成于损失函数的高效数据 ... ·  3 天前  
51好读  ›  专栏  ›  大数据文摘

DeepSeek版o1与OpenAI的o1大PK,到底谁真的炸场了?

大数据文摘  · 公众号  · 大数据  · 2024-11-24 21:55

正文

 大数据文摘受权转载自夕小瑶科技说
 作者 | 付奶茶

家人们,DeepSeek 刚推出了他们最新的类o1推理模型——DeepSeek R1-Lite。
这代表着国产大模型开始进入o1时代了。

根据官方的介绍,r1的思维链的长度可以达到数万字,采用强化学习技术,推理过程涵盖大量的反思和验证环节。

先简单看一眼指标表现,再拉出来练练。
整体结论是:数学和编程方面,这款模型与o1-preview相当,甚至一些榜单结果上超越了o1。
比如美国数学竞赛(AMC)中最高难度级别的AIME,DeepSeek R1-Lite领先o1一大截!


推理时间更长了!但是效果更牛逼了!


DeepSeek提到,他们做了更强势的推理时间越长,性能越好。
如下图所示,DeepSeek-R1-Lite-Preview和o1-preview对比,随着思考长度的增加,AIME 上的得分稳步提高。


预览版可以试用了,正式版在路上


DeepSeek团队透露,R1模型目前还在持续打磨中。
后续会推出正式版,并且开源,开放API,还会公布完整的技术细节。我已经等不及了,勇士们快点肝!
目前线上的还是预览版,每天可以50次免费测试~
想试试的小伙伴,链接我贴在这儿了:
https://chat.deepseek.com/


拉出来比武!


既然开测试了(让我白嫖)!那咱们就拿几道题测测它!
首先是大名鼎鼎的草莓问题。

问题:“strawberry”几个r?


先是不用o1,答错了。

再打开o1,答对了。

但是再试一遍,第一次思考了2秒,这次思考了14秒。
错了。。(请仔细看它的思考过程,中间说了好几遍“有两个r”,一遍遍否定自己,有继续得出错误结论)

试试openai的o1,也不对。
再来一个反转字母!

问题:请帮我将这串字符全部的字母反着写:QingguanzhuXixiaoyao!

家人们!我把它弄崩溃了!我看它委屈成这样我都心软软!



它反复怀疑自己,反复怀疑题目,氮素,最后它错的很离谱啊!


不仅字母没有顺利反转,而且还加了字符串外的字母~
而o1 就快速的做错了,错的简简单单,轻轻松松,不费力气hh:


虽然DeepSeek-R1-Lite号称更长的推理时间带来了更好的效果,但是好像结果上差别不大啊,o1甚至没有引入字符串的字母,错的都没有DeepSeek-R1-Lite离谱!这局的胜负难定!
再来一道!

问题:9.9和9.11哪个大?



看到前面推理过程磨磨叽叽犹犹豫豫,奶茶还以为这把又要搞砸了,结果DeepSeek-R1-Lite窝窝囊囊中的做对了!!
而o1还是干净利落的做错了hh~


还有编程问题,必须测一测。

问题:选了一道经典的leetcode问题,求长度最小的子数组。


它思考了整整一分钟,中间打印了好多步骤,最终,水灵灵滴得推理出来错误答案。。。


中间推理错了答案,

最后,验证了错误答案。。

openAI o1则简短的给出了正确答案。

数学和编程问题就到此为止吧。
再来一道开放性题目!

问题:我很好奇大语言模型的未来,能不能帮我想个办法未来让大语言模型为我挣钱?


DeepSeek-R1-Lite:

o1:





请到「今天看啥」查看全文